V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
talentliuyang
V2EX  ›  问与答

正抓取谷歌学术( not intensive),什么姿势可以躲过谷歌的封锁?在用 selenium, sys sleep 为 1s,但还是无情被封。难道需要随机的 sys sleep 时间和随机的 click 动作吗?大家有什么思路没?

  •  
  •   talentliuyang · Apr 26, 2016 · 6185 views
    This topic created in 3652 days ago, the information mentioned may be changed or developed.
    9 replies    2016-04-27 10:03:05 +08:00
    gamexg
        1
    gamexg  
       Apr 26, 2016
    挂代理,经常更换自己的 ip 。
    或者 扫 google ip ,循环更换对方的 ip 。
    msg7086
        2
    msg7086  
       Apr 26, 2016   ❤️ 2
    (首先,你要比 Google 的工程师更聪明。
    htfy96
        3
    htfy96  
       Apr 26, 2016 via Android
    Google scholar 太难爬了 用代理池可能会好一点
    qqmishi
        4
    qqmishi  
       Apr 26, 2016
    其实我一直想试试用 GAE 爬谷歌看会不会封自己,,,
    fengxing
        5
    fengxing  
       Apr 26, 2016
    @qqmishi 我感觉 google 不会封自己的出口 IP 吧,但是应该会封号?
    mcone
        6
    mcone  
       Apr 26, 2016
    别想了,还 1s ……真人操作+账号登陆,有时候点的快一点都会被判为机器人,更何况你本来就是机器。。。。。。

    要么想办法比 google 那群人更聪明,要么换一个爬。。。。
    Landarky
        7
    Landarky  
       Apr 26, 2016
    Google 防机器爬虫也是有点牛逼的
    yech1990
        8
    yech1990  
       Apr 27, 2016 via Android   ❤️ 1
    Google scholars 本身限制太严格,就是普通搜索稍微频繁一点都会被验证。 试过用 python 自动查询几十篇,立马就被封 IP 了。 爬虫的话,我觉得是十分不现实的。


    倒是可以爬爬百度学术的,我觉得百度学术就是完全爬的 Google 的内容。毕竟流氓的技术水平高
    talentliuyang
        9
    talentliuyang  
    OP
       Apr 27, 2016
    @yech1990 好的,我试试百度学术。

    @Landarky @fengxing @gamexg @htfy96 @mcone @msg7086 @qqmishi 感谢大家的回复,我放弃爬谷歌学术了。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   844 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 61ms · UTC 21:22 · PVG 05:22 · LAX 14:22 · JFK 17:22
    ♥ Do have faith in what you're doing.