为什么 readhub 就可以爬大站，而不吃免费饭？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1471 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，readhub 数据是爬虫爬的，还是 rss 获取的？有人关注研究过 readhub 的数据来源吗？

5 条回复

TimePPT

2020-12-02 09:59:48 +08:00

都有可能，这个除了内部人谁能说得清。
其实爬虫也好 RSS 获取也好都是灰色地带，有几条红线别碰一般站方不刻意整你都没啥关系。

1. 别把人站点爬瘫了，造成经营问题
2. 别无授权全文转载
3. 别未经用户允许爬取个人隐私数据，特别是别商用。

对比下 Readhub，你看看哪条触红线了？

wildnode

2020-12-02 10:10:33 +08:00

我记得 ReadHub 不是跳转到源站观看吗？

gesse

2020-12-02 10:15:22 +08:00

readhub 只是个索引，而且本身冯大辉和他公司应该也有相关都公关操作。

i4oolish

2020-12-02 10:37:23 +08:00

@TimePPT 你说的这几点确实都没有，我比较好奇的是，即使没碰这几条红线，是不是找你的话你也肯定兜不了，还是说，通过其他什么方法规避，可以规避法律漏洞。

TimePPT

2020-12-02 11:23:38 +08:00 via Android

@i4oolish 如果硬找茬基本上协商解决，要么合作要么赔钱然后停止抓。判例可以看下当年传统媒体和门户跟诉头条的几个 case