高频爬取公开数据违法不？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1905 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT 高频爬取公开数据违法不？比如商品价格，股票价格等等

第 1 条附言 · 2019-09-25 13:10:58 +08:00

其实我就想获取下这个数据：
![1.png]( https://i.loli.net/2019/09/25/LAKXymOaGPl3Zex.png)

robots.txt
![2.png]( https://i.loli.net/2019/09/25/2OpF9QWVZAnEzq6.png)

这个怎么讲？可不可以爬取

高频

违法

公开

价格

40 条回复 • 2019-09-26 15:13:43 +08:00

GeruzoniAnsasu

2019-09-25 11:06:26 +08:00

真正“公开” 的数据一般会有发布或推送渠道。否则很可能不能算“公开”

silencefent

2019-09-25 11:08:42 +08:00

看用户协议和 robots

oma1989

2019-09-25 11:12:02 +08:00

@silencefent 好的，谢谢

murmur

2019-09-25 11:12:55 +08:00

不想让你爬会有反扒和下毒的

swulling

2019-09-25 11:13:30 +08:00

没有在 robots.txt 允许的，一律为非法爬取，只是算不算你账的问题

oma1989

2019-09-25 11:13:41 +08:00

@GeruzoniAnsasu 无需注册登录，即可访问的页面中的价格信息，应该算是公开的吧？（没发现有推送渠道）

swulling

2019-09-25 11:14:41 +08:00

@oma1989 算公开，但是不能用技术手段爬取

oma1989

2019-09-25 11:15:58 +08:00

@murmur 的确做了反爬，但是他们的功能没起到作用。

oma1989

2019-09-25 11:17:27 +08:00

@swulling 好的，了解了，感谢

xiaoyazi

2019-09-25 11:18:18 +08:00 via iPhone

给你标准答案：

看目标网站用户协议以及有无反扒机制。

如果对方的协议明示不可爬取本站信息并有相应反扒机制，你的行为等同破门而入。

就像公园写着 18 点闭园但大门没关，你进去玩虽不合法但一般都会被原谅，门若关着你爬墙进去就难以辨驳了。

xiaoyazi

2019-09-25 11:18:48 +08:00 via iPhone

所以合不合法不是看高频与否哦

oma1989

2019-09-25 11:20:13 +08:00

@xiaoyazi 学到了，感谢

ccoming

2019-09-25 11:49:01 +08:00

补充问个：高频下载后台提供的报表有风险不？

qsnow6

2019-09-25 11:52:42 +08:00

“高频”到影响网站正常访问的行为等同于”攻击“

wangxiaoaer

2019-09-25 11:58:13 +08:00 via Android

听一堆法盲在这指点江山真是有意思。

这种事情去找个律师问下就完了，一些社区服务会有免费资询。

wangxiaoaer

2019-09-25 11:58:58 +08:00 via Android

还什么 robots，反扒等，法律认可这些东西吗？

hhxx6

2019-09-25 12:00:30 +08:00 via iPhone

robots 只是一种行业的约定吧
根本没有法律效力
貌似

murmur

2019-09-25 12:13:10 +08:00

@wangxiaoaer 反扒这些是不想对簿公堂的时候用的手段
扒东西被起诉能用的罪名多了

JunoNin

2019-09-25 12:14:51 +08:00 via Android

数据公开怎么定义

xomix

2019-09-25 12:16:47 +08:00

爬取是不违法的，但是爬取后二次发布是否合法这个就……你自己掂量吧。

Showfom

2019-09-25 12:19:14 +08:00 via iPhone

就算不违法也违反了网站的使用条款

Sapp

2019-09-25 12:22:36 +08:00

@swulling robots 协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私，真的，你不懂就不要说好吗？

dobelee

2019-09-25 12:23:11 +08:00 via Android

@swulling 没有 robots 允许违了那条法？

Junn

2019-09-25 12:29:27 +08:00

主要看你获取数据的行为方式是否合法，

比如原本是需要注册用户通过账号密码登录获得授权才能获取的数据，你没有账号密码绕过去拿到了，就违法了。
再比如通过接口拿数据的，接口仅供自身 APP 使用，你通过伪造模拟等方式拿到数据，也是违法的。

而比如网站上公开的价格，通过合法方式请求到的数据，只是通过工具爬去节省工作量的行为，应该是不违法的。

当然你的“高频”行为可能涉及到“破坏计算机信息系统罪”

GeruzoniAnsasu

2019-09-25 12:36:15 +08:00 via Android

@wangxiaoaer 这种事没法完全依照法律。法律也没有定义爬数据算不算非法盗取计算机数据。公司法务之前还声称只要用户授权，爬个人信息是合法的呢，最近新闻抓进去的搞爬虫的哪个没让用户授权？

数据方 license 的作用是告诉你他不会追责。这才是最管用的。不然照国内的现状，想告你盗数据，怎么的都能把你搞进去

xiaogui

2019-09-25 12:41:52 +08:00

最近好像很多“做数据”的公司都翻车了，哪怕是公司行为也还是要注意下。

swulling

2019-09-25 12:44:36 +08:00 via iPhone

@Sapp
@dobelee
百度诉 360 爬取判例如下，法院一般会把 robots 认定为行业公认的规则，违反后虽然不一定就违法，但是出于相当不利的地位。

基于以上认定，法院在判决中做出如下认定：“在被告推出搜索引擎伊始，其网站亦刊载了 Robots 协议的内容和设置方法，说明包括被告在内的整个互联网行业对于 Robots 协议都是认可和遵守的。其应当被认定为行业内的通行规则，应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德。被告网站在推出搜索引擎服务之初，为了对原告网站进行抓取以便向网络用户提供最全面的搜索结果，没有遵守行业内公认的、应当被遵守的商业道德，即在被告推出搜索引擎的伊始阶段没有遵守原告网站的 Robots 协议，其行为明显不当，应当承担相应的不利后果。”

wangxiaoaer

2019-09-25 12:50:08 +08:00 via Android

@GeruzoniAnsasu 所以我的意思是在这里听一堆法盲拿 robots 等来自己觉得是否违法是一件很可笑的事情。