herozzm
V2EX  ›  问与答

请教大家一个架构问题

  •  
  •   herozzm · Apr 11, 2019 · 1600 views
    This topic created in 2598 days ago, the information mentioned may be changed or developed.

    爬虫每天从各种不同的渠道爬取上百万的数据,存在大量重复无用数据,然后进行筛选给各种网站 app 使用

    1. 爬取来的大量原始数据如何存储,用什么数据库存储?
    2. 筛选怎么做?
    3. 如何最低成本的突破反爬的 ip 限制?
    4. 有经验的老铁们畅所欲言啊

    感谢感谢

    12 replies    2019-04-12 07:31:55 +08:00
    herozzm
        1
    herozzm  
    OP
       Apr 11, 2019
    每个人的回复我定当感谢
    v2yehen
        2
    v2yehen  
       Apr 11, 2019   ❤️ 1
    1.nosql,文件持久化(我没试过,感觉可行)
    3.走代理,先做个 ip 代理池,这个找几篇博文就行
    andylsr
        3
    andylsr  
       Apr 11, 2019 via Android   ❤️ 1
    筛选:布隆过滤
    ip 限制:买代理
    jswh
        4
    jswh  
       Apr 11, 2019   ❤️ 1
    删选怎么做,这搜索的关键词是 数据清洗。
    herozzm
        5
    herozzm  
    OP
       Apr 11, 2019 via iPhone
    @jswh 搜索了很多 也想知道 v 友怎么做的
    scalaer
        6
    scalaer  
       Apr 11, 2019   ❤️ 1
    Elasticsearch 满足 1, 2
    herozzm
        7
    herozzm  
    OP
       Apr 11, 2019 via iPhone
    @mggis0or1 es 看来跑不掉了
    versionzhang
        8
    versionzhang  
       Apr 11, 2019 via Android   ❤️ 1
    低成本的 ip 限制可以用 Tor 做匿名代理,不过可能请求返回会慢,爬国外的网站可用性还不错,国内的没怎么试过。数据库原始数据一般存 NoSQL,清洗完再到关系型的做进一步分析使用。NoSQL 也注意加索引,要不写入的效率受影响。我之前的爬虫也就到几十万的量级,往上再走的话还没弄过
    herozzm
        9
    herozzm  
    OP
       Apr 11, 2019 via iPhone
    @versionzhang 我想过多拉几条不同运营商的宽广带 然后有几个辅助脚本配合重拨什么的貌似最有效率
    herozzm
        10
    herozzm  
    OP
       Apr 11, 2019 via iPhone
    移动一年优惠下来 100m 300 元左右
    versionzhang
        11
    versionzhang  
       Apr 11, 2019 via Android   ❤️ 1
    @herozzm 应该可以,国内有提供付费 ip 池的服务商,不过我没用过不知道可用性怎么样,也可以看一下可不可行
    Cbdy
        12
    Cbdy  
       Apr 12, 2019 via Android   ❤️ 1
    MapReduce 做一下清洗
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   925 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 49ms · UTC 20:38 · PVG 04:38 · LAX 13:38 · JFK 16:38
    ♥ Do have faith in what you're doing.