大家有没有遇到过 Baiduspider/2.0 不遵守 robots.txt 的情况？

This topic created in 3788 days ago, the information mentioned may be changed or developed.

Apache 纪录里面发现了好多纪录都是百度访问本该 Disallow 的页面，大家有没有碰到过类似的情况？都是怎么解决的...直接屏蔽掉百度爬出么？

百度

disallow

Apache

robots

15 replies • 2016-01-29 12:44:32 +08:00

580a388da131

Jan 29, 2016

修改 robots 后有一段时间内蜘蛛还回来

Andy1999

Jan 29, 2016 via iPhone

谷歌也不遵守，悉听尊便吧

Khlieb

Jan 29, 2016 via Android

坐等大神出来分析

czb

Jan 29, 2016 via Android

有验证是真的 spider 吗

ryd994

Jan 29, 2016 via Android

怎么单独屏蔽百度爬虫？真心要爬你，换个 UA 就行了
要屏蔽就要屏蔽所有（至少绝大部分）爬虫

DesignerSkyline

Jan 29, 2016

只需要上全站 HTTPS+只开启 CHACHA20_POLY1305 即可让多数爬虫敬而远之

xrui

Jan 29, 2016 via Android

对，直接 403

keinx

Jan 29, 2016

蜘蛛是会来爬的，但是不一定收录。

Hello1995

Jan 29, 2016 via Android

@ryd994 大部分搜索引擎爬虫的 UA 里有 spider / bot 字样，屏蔽之，亲测有效。不过少量的爬虫没有这两个字眼的就没办法了。

xiaoyustudio

Jan 29, 2016

@czb IP 地址查了一下确实是百度的...

xujif

Jan 29, 2016

难道不知道现在很多采集程序都把自己标记为 spider 吗

libook

Jan 29, 2016

我们是用 Nginx 检测 UA ，然后直接内部跳转。如果换 UA 偷偷爬我也没办法。
阴谋论：别的厂商的爬虫用了百度的 UA ？
还有个好方法是用 Angular 路由，百度爬不到#之后的部分。。。

xiaoyustudio

Jan 29, 2016

@czb @xujif @libook, 之前想到过阴谋论... 然后 double check 了一下各种 IP 发现确实是百度的.... 再观察一下好了如果实在太嚣张就 .htaccess UA 识别一下全部 redirect 到主页哈哈... 感谢大家!

wy315700

Jan 29, 2016

robots.txt 只是规定了不收录，但是没有规定不爬取

TheCure

Jan 29, 2016

是的百度不会按照 robot 里面的目录来爬,但是一般情况下不会收录你 disallow 的目录

比如各种网站都会把后台管理目录放到 disallow 里,但是在百度搜索是搜不到这些目录的

如果你 disallow 根目录,那是不会来爬了
估计百度一开始的实现有问题,后来规模大了问题很难修改?