关于 scrapy 分布式管理

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2555 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在使用 scrapy-redis 做分布式爬虫，目前考虑写一个扩展，主要可以实现：

通过一个 ui 界面来提交爬虫代码。（大概类似于一些 oj 刷题网站的代码编辑页面）
然后点击运行按钮，就能够自动启动一个 scrapy 实例。

这里遇到一些问题，爬虫代码保存在哪里？然后通过什么方法来运行这份爬虫代码？目前我的方案是：

把代码文件存到一个公共的目录，所有的爬虫都从这个目录启动。
然后爬虫通过 docker 来启动，docker 可以访问那个公共目录。

不过感觉这样好麻烦啊，估计会碰到很多坑，不知道各位 v 友有没有什么更优的方式，实现我这个需求。

代码

爬虫

Scrapy

Docker

10 条回复 • 2018-11-14 23:58:28 +08:00

owenliang

2017-11-24 17:14:58 +08:00

自己部个 marathon 或者 k8s，然后通过 api 启动实例？

aragakiiyui

2017-11-24 17:29:51 +08:00

@owenliang = =不会啊，还没用过。

Chrics

2017-11-24 17:56:10 +08:00

> 然后点击运行按钮，就能够自动启动一个 scrapy 实例。

这个顺序反了吧，应该是启动一个 scrapy 实例，向中央服务器注册？

sunwei0325

2017-11-24 18:34:52 +08:00

试试 spiderkeeper

hcnhcn012

2017-11-24 18:47:58 +08:00 via iPhone

Heroku 把，它可以和你的 git 联动

SlipStupig

2017-11-24 19:37:50 +08:00

如果用 docker 的话，强力推荐 rancher

aragakiiyui

2017-11-25 13:31:52 +08:00

@sunwei0325 那个项目部署方式太蛋疼了，界面可以参考一下，但是调度方式还是得写一套。

sunwei0325

2017-11-25 22:42:15 +08:00

@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器

tikazyq

2017-11-25 23:47:01 +08:00

有一个现成的轮子，需要配置 scrapyd

https://github.com/DormyMo/SpiderKeeper

my8100

2018-11-14 23:58:28 +08:00

@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933