V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kstsca
V2EX  ›  问与答

求解一个爬虫问题,抓url思路

  •  
  •   kstsca · 2014-01-22 13:38:41 +08:00 · 2045 次点击
    这是一个创建于 3769 天前的主题,其中的信息可能已经有所发展或是发生改变。
    本人想做的个垂直搜素,
    首先制作爬虫

    我的方案是
    www.a.com加入后台。

    后台每日执行爬虫任务,访问www.a.com 更新快照,解析html代码里a的url,保留a.com的url,
    然后进行二次、三次继续爬行。。。

    第一次入库是 记录 id url sha值防止重复抓取

    现在有个问题,
    每日爬虫任务,三四层就可以了,在深度更多的都是重复的,

    但第一次如何对这个网站深度爬行呢,基本上能达到90%页面抓取,如何做到

    难道五层 六层这样深度去爬?

    有没有什么办法,实现对总量的预估,和现在进度的分析?

    就第一次深度爬行方案,谢谢
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2498 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 08:06 · PVG 16:06 · LAX 01:06 · JFK 04:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.