BruceWang's recent timeline updates
BruceWang

BruceWang

V2EX member #145537, joined on 2015-11-03 14:41:36 +08:00
BruceWang's recent replies
May 27, 2019
Replied to a topic by hiboshi Docker 怎么才是 docker 最佳实践
@hiboshi

Alpine 的 UID 和 Debian、Ubuntu 以及 macOS 都不一样。volume 到 host 之后文件权限一团糟。
已搞定。

删除了采用 pyenv-installer 安装的 pyenv,用 homebrew 安装 pyenv,就妥了。
终于回到酒店,可以传 log 了。

可是,怎么传啊? log 好大……
@a1060778506 问题是我没法重现你的问题啊
@nyanyh 我目前陪老婆等一大堆人在万达……爪机上的 v2ex。等会儿下午回酒店传 log。
@cocoakekeyu 我猜他想说的是五仁月饼……
@billion 我想,应该是“去重”这两个字定义不清的问题。
我觉得有这么几个地方需要去重:
1 、在单一页面解析的时候,可能会提取到重复的链接,需要 url 去重;
2 、在不同任务、不同页面解析的时候,可能会提取到重复的链接,需要 url 去重;
3 、在数据提取的时候,可能会遇到重复数据,比如一份重要性比较高的数据被多个不同的站点以各种形式引用(类似论文的引用,不过被引用的论文重复发表在多个期刊),需要 data 去重。
4 、其它还没想到的

我在做一个基于 Scrapy 的动态生成的爬虫,也就是提取规则等参数是从数据库取得的(我知道应该已经有了,不过我想自己造个轮子)。所以我对前文( 2 )的情况不是光用集合判断存在还是不存在,我还记录了上次访问时间和任务要求。如果按任务要求比如每周爬一次,判断时间满足那么就再爬一次,否则丢弃。
@billion
@zts1993

难道你们都不考虑网页内容更新的情况吗?比如爬 V2EX ,爬完就算完成了,再也不考虑新回复?
Sep 5, 2016
Replied to a topic by njaulj 南京 南京有哪些适合敲代码的地方
定义一下“安静”先。
Jan 5, 2016
Replied to a topic by ruoyu0088 Python 开始编写《Python科学计算-第二版》
书上市了嘛?
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5521 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 21ms · UTC 08:27 · PVG 16:27 · LAX 01:27 · JFK 04:27
♥ Do have faith in what you're doing.