比如优酷这种比较大的站点,只需要确定 url 都有就行
1
pathletboy 2017-02-04 11:40:31 +08:00
如果是一个频繁更新的站点,你永远抓不全。
|
2
scnace 2017-02-04 11:59:05 +08:00 via Android
这个怎么可能知道有没有抓全 除非你事先知道他全部的目录结构…
|
3
est 2017-02-04 12:16:04 +08:00 1
没法确定。
按道理说,优酷内部其实都不知道某一个时刻精确有多少视频。因为是分布式的。每个节点随时都在删除,新增。 |
4
rekulas 2017-02-04 12:32:58 +08:00
跟 google 检索量对比一下,判断抓取比例
|
5
yanzixuan 2017-02-06 10:51:41 +08:00
一个网页对应动态的 URL 的时候怎么办呢?
你只能根据内容来计算啊 |