求解一个爬虫问题，抓url思路

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 3769 天前的主题，其中的信息可能已经有所发展或是发生改变。

本人想做的个垂直搜素，
首先制作爬虫

我的方案是
www.a.com加入后台。

后台每日执行爬虫任务，访问www.a.com 更新快照，解析html代码里a的url，保留a.com的url,
然后进行二次、三次继续爬行。。。

第一次入库是记录 id url sha值防止重复抓取

现在有个问题，
每日爬虫任务，三四层就可以了，在深度更多的都是重复的，

但第一次如何对这个网站深度爬行呢，基本上能达到90%页面抓取，如何做到

难道五层六层这样深度去爬？

有没有什么办法，实现对总量的预估，和现在进度的分析？

就第一次深度爬行方案，谢谢

目前尚无回复

爬虫 url