首页   注册   登录
 akmonde 最近的时间轴更新

akmonde

V2EX 第 71697 号会员,加入于 2014-08-22 22:23:45 +08:00
今日活跃度排名 17373
celery 多节点是否适合代替多线程(线程池)
Python  •  akmonde  •  106 天前  •  最后回复来自 akmonde
8
关于命令行启用 chrome 插件 [不死插件]
Chrome  •  akmonde  •  156 天前  •  最后回复来自 akmonde
2
关于 scrapy 处理批量 url
Python  •  akmonde  •  221 天前  •  最后回复来自 Mitt
4
akmonde 最近回复了
@utoyuri 试过在 middleware 里面的 process_request,尝试开头 raise IgnoreRequest,然后没写 return,按理说不会继续运行下去 [我不知道其他阻断方法] ?另外,后面还有其他法子判断 return 的。
不过似乎是没起效果。
@utoyuri 非也,是爬某个 url 时,达到某个条件,停止爬行该 url,其他的继续。
我试了下,如果是 scrapy-redis 推送的话,可能会同时爬多个网站,调用 close_spider 会直接终止整个程序,无法达到我的目的。
@utoyuri 在 middleware 处尝试过滤 url,触发条件 raise IgnoreRequest,结果还是继续跑停不下来...
@menyakun 没有自定义 scheduler,只是在取 url 时实现 redis 推送。准确来说,我这边需要的是,触发条件对 url [或者某域名] 的请求进行过滤清除。
@rocketman13 我昨儿后来试了下 scrapy-redis,直接中止不再读取 redis 了,监听停止,没有继续跑呢。
@WaJueJiPrince 不知道您说的是不是这个:
```
#动态域范围的获取
def __init__(self, *args, **kwargs):
# Dynamically define the allowed domains list.
domain = kwargs.pop('domain', '')
self.allowed_domains = filter(None, domain.split(','))
super(MySpider, self).__init__(*args, **kwargs)
```
我这边需要是的是条件触发清除指定域名的队列,好像跟这个不太符合。
@WilliamYang 中间件不满足抛弃的话,我那边也做了,但还是在爬触发了我条件的网站,不会停下对该域名的爬行的。
@mengdodo 这是 17 年的帖子了...不过还是谢谢兄 dei~
@YuuuZeee flower 有时候出现 miss task-id,命令行能看到的 task-id,里面看不到。而且,它效果只能说勉强能用。
27 天前
回复了 0xroot 创建的主题 Linux 在 Ubuntu 上安装使用迅雷、QQ、百度网盘...
古总的桌面是万年不换啊...
抽奖抽个创宇的一年半年期的服务也不错啊。
56 天前
回复了 itskingname 创建的主题 分享创造 使用 Docker Swarm 搭建分布式爬虫集群
书不错,不过感觉讲的比较基础,楼主有计划出进阶版本吗?
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1601 人在线   最高记录 4019   ·  
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.1 · 14ms · UTC 16:45 · PVG 00:45 · LAX 08:45 · JFK 11:45
♥ Do have faith in what you're doing.
沪ICP备16043287号-1