sciooga
ONLINE

sciooga

未来和余生
🏢  企业主
V2EX 第 97098 号会员,加入于 2015-02-12 18:12:06 +08:00
今日活跃度排名 825
15 G 50 S 97 B
理想主义
根据 sciooga 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
sciooga 最近回复了
@Livid 站长,我向您再次诚恳的道歉,实在不好意思,由于我的问题带来了一些烦恼,目前确认不会对 V 站产生额外的请求了。
@air00dd 先看看代码吧,好吗?你在几个主题内提到扩展会上传 cookie 到服务器,这很容易误导,这个行为请找到实质性的证据,否则请不要轻易推测,我可以保证从来没有过这样的行为。

因为在外出差,跟进得慢一些,有什么质疑可以提出我看到了都会回复
@ffkjjj
@Ashore

这是每次更新后部分选项有可能会被重置的 bug 包括 vDaily
https://github.com/sciooga/v2ex-plus/commit/b561ba6e0f93c043e1410e75c092043af675f72e

这是之前一个选项页不能保存的 bug
https://github.com/sciooga/v2ex-plus/commit/f44e40904e01e0834956659e16c54a99c4ab5386

或者是网络不稳定选项同步到谷歌时延迟太大的 bug
https://github.com/sciooga/v2ex-plus/commit/e347cf22b9ed8bf003f8366d3e847ccf7ac9fae9
@ye4241 #22 不好意思,已经在动车上了,https://vdaily.huguotao.com/api/topic/task 这个接口是返回需要爬取的主题 id 了,我现在看了已经是停止了,浏览记录的问题应该不是一直在产生吧?如果一直在产生确实很奇怪
[项目地址]/blob/master/spider/index.js#L184

实在抱歉,我在动车上,检查了代码是我这里的判断出错了,times-- 变为负数后布尔值又变成 True 了,是我的问题

目前这部分代码只会请求我们的服务器,服务器返回的是空值,所以不会请求 V 站了,后续需要通过更新扩展移除掉这些请求


@Xianmua 上面的朋友说得没错,请求会发到我们服务器申请新的任务但是任务一直返回空,所以不会再爬取历史数据
@Livid https://github.com/sciooga/v2ex-plus/blob/master/spider/index.js#L184

实在抱歉,我在动车上,检查了代码是我这里的判断出错了,times-- 变为负数后布尔值又变成 True 了,是我的问题

目前这部分代码只会请求我们的服务器,服务器返回的是空值,所以不会请求 V 站了,后续需要通过更新扩展移除掉这些请求
关于翻页 502 ,我补充一点,vDaily 功能上线是近期,之前我遇到时也查过 V 站以前的主题,一年以前就有反馈 /t/857753
@ye4241 #10
@luckykev1n #12

是否会上传 cookie 请不要推测,我已经在我的主题内说明了,你看到的表现是获取历史主题导致的。
@ZeroClover #16 爬虫不在我服务器上,用用户网络是因为维护爬虫的登录态比较麻烦(数年前 1.0 就是这样实现的),并不是绕过 IP 限制,V 站每天更新的主题数量并不多。
@ZeroClover #7
@jas0n2k #9

两位提到了开源是否让我脱“罪”的问题,也包括之前主题的 OP 也说到分布式爬虫存在的问题。

我认为最大的问题在于没有明确告知用户该功能的开启,这个功能是参考 京价保 https://github.com/sunoj/jjb 的历史价格实现的(无意引火),用户浏览商品时会提交当前商品的价格和优惠信息,V2EX Plus 扩展内参考实现了这个功能,同时为了补全历史数据增加了爬取历史数据的功能。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   958 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms · UTC 20:40 · PVG 04:40 · LAX 13:40 · JFK 16:40
Developed with CodeLauncher
♥ Do have faith in what you're doing.