V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
zjuster
V2EX  ›  问与答

一个要求很简单的爬虫,有没有相关的开源程序推荐?

  •  
  •   zjuster · 2015-03-13 11:17:46 +08:00 · 2406 次点击
    这是一个创建于 3341 天前的主题,其中的信息可能已经有所发展或是发生改变。

    # 需求
    - 指定某一个网站host
    - 抽取该网站的网页URL,暂定抽取上限10000条(针对门户);不满足的抽取5000条;否则全量抽取
    - 只保存爬取的URL地址,不需要抽取任何内容,结果保存在txt文件中。
    - 速度越快越好

    谢谢

    第 1 条附言  ·  2015-03-13 17:50:25 +08:00
    谢谢各位。
    调研和尝试了下,用requests+bs4非常适合我的需求。
    9 条回复    2015-03-14 10:30:29 +08:00
    kchum
        1
    kchum  
       2015-03-13 11:35:59 +08:00 via iPhone   ❤️ 1
    不爬内容怎么爬 URL
    URL 就是内容的一部分
    binux
        2
    binux  
       2015-03-13 11:41:08 +08:00   ❤️ 1
    google site:host
    xiaogui
        3
    xiaogui  
       2015-03-13 12:47:35 +08:00   ❤️ 1
    @binux 这是个不错办法,哈哈
    MrGba2z
        4
    MrGba2z  
       2015-03-13 13:30:17 +08:00 via iPhone   ❤️ 2
    icedx
        5
    icedx  
       2015-03-13 13:36:29 +08:00 via Android   ❤️ 1
    requests+bs4
    frankzeng
        6
    frankzeng  
       2015-03-13 13:49:41 +08:00
    你就爬一下首页,把url取下来,算一下不重复的有多少,如果不够就再爬url,这不是挺简单的逻辑吗
    Battle
        7
    Battle  
       2015-03-13 14:32:16 +08:00
    有一个东西叫火车头
    bingu
        8
    bingu  
       2015-03-13 14:41:56 +08:00
    wget ?
    Tink
        9
    Tink  
       2015-03-14 10:30:29 +08:00 via iPhone
    二楼这个办法不错,主要是ip的问题
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   745 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 20:54 · PVG 04:54 · LAX 13:54 · JFK 16:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.