V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
shin
V2EX  ›  问与答

谁能告诉我完成这个任务大概的价格?——《实时抓取网页最新数据,处理并发布》

  •  
  •   shin · 2012-12-07 17:25:24 +08:00 · 3072 次点击
    这是一个创建于 4372 天前的主题,其中的信息可能已经有所发展或是发生改变。
    #实时抓取网页最新数据,处理并发布

    ##简介
    我这里指的“数据采集”并非大规模地批量地缓慢地采集大量数据,而是监控似地实时采集最新的有效数据。
    * “最新”意味着不需要老数据,而是目标网站所新增或更新的最新数据。
    * “实时”意味着一旦目标网站有数据新增或更新,我们能第一时间(3秒内最佳)采集到。
    * “有效”意味着需要对数据做去重处理。

    ##目标网页和数据
    1. 目标网页示例
    http://sz.58.com/longgang/waimaozhuanyuan/
    http://sz.58.com/buji/waimaozhuanyuan/
    ……

    2. 目标数据
    * 数据内容:公司名字、地址、职位、对应网址

    * 目标数据说明:
    通过网页可以看到现有的大量数据,但这并非我们的目标。我们要的是目标网站实时新增和更新的数据。

    * 数据规律:
    通过观察可以知道,我们的目标数据一般都出现在网页的前排,并且,如果我们实时采集的话,基本不需要去采集第二页内容,因为最新增的数据基本不会出现到第二页。(其它网站的规律另说)

    由于数据的更新规律,会有数据重复的情况,这就需要对数据进行去重处理,同一条数据我们只需要第一条(通过不同网站采集到的数据集中去重,“公司名字”字段一样即为重复数据)。

    3. 其它
    * 程序需要支持多任务和多用户模式
    * 更多目标网页整理中
    2 条回复    1970-01-01 08:00:00 +08:00
    iloahz
        1
    iloahz  
       2012-12-07 17:37:02 +08:00
    第一个网页500,以后每个目标网页200
    yegle
        2
    yegle  
       2012-12-08 04:16:25 +08:00
    楼主手头有多少个IP?

    楼上报价靠谱lol
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5827 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 03:20 · PVG 11:20 · LAX 19:20 · JFK 22:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.