V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
xiaoyustudio
V2EX  ›  问与答

大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况?

  •  
  •   xiaoyustudio · Jan 29, 2016 · 3162 views
    This topic created in 3747 days ago, the information mentioned may be changed or developed.

    Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面,大家有没有碰到过类似的情况?都是怎么解决的...直接屏蔽掉百度爬出么?

    15 replies    2016-01-29 12:44:32 +08:00
    580a388da131
        1
    580a388da131  
       Jan 29, 2016
    修改 robots 后有 一段时间内蜘蛛还回来
    Andy1999
        2
    Andy1999  
       Jan 29, 2016 via iPhone
    谷歌也不遵守,悉听尊便吧
    Khlieb
        3
    Khlieb  
       Jan 29, 2016 via Android
    坐等大神出来分析
    czb
        4
    czb  
       Jan 29, 2016 via Android
    有验证是真的 spider 吗
    ryd994
        5
    ryd994  
       Jan 29, 2016 via Android
    怎么单独屏蔽百度爬虫?真心要爬你,换个 UA 就行了
    要屏蔽就要屏蔽所有(至少绝大部分)爬虫
    DesignerSkyline
        6
    DesignerSkyline  
       Jan 29, 2016
    只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之
    xrui
        7
    xrui  
       Jan 29, 2016 via Android
    对,直接 403
    keinx
        8
    keinx  
       Jan 29, 2016
    蜘蛛是会来爬的,但是不一定收录。
    Hello1995
        9
    Hello1995  
       Jan 29, 2016 via Android
    @ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样,屏蔽之,亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。
    xiaoyustudio
        10
    xiaoyustudio  
    OP
       Jan 29, 2016
    @czb IP 地址查了一下确实是百度的...
    xujif
        11
    xujif  
       Jan 29, 2016
    难道不知道现在很多采集程序都把自己标记为 spider 吗
    libook
        12
    libook  
       Jan 29, 2016
    我们是用 Nginx 检测 UA ,然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
    阴谋论:别的厂商的爬虫用了百度的 UA ?
    还有个好方法是用 Angular 路由,百度爬不到#之后的部分。。。
    xiaoyustudio
        13
    xiaoyustudio  
    OP
       Jan 29, 2016
    @czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了 如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!
    wy315700
        14
    wy315700  
       Jan 29, 2016
    robots.txt 只是规定了不收录,但是没有规定不爬取
    TheCure
        15
    TheCure  
       Jan 29, 2016
    是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

    比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

    如果你 disallow 根目录,那是不会来爬了
    估计百度一开始的实现有问题,后来规模大了问题很难修改?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2634 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 03:41 · PVG 11:41 · LAX 20:41 · JFK 23:41
    ♥ Do have faith in what you're doing.