最近在使用 scrapy-redis 做分布式爬虫,目前考虑写一个扩展,主要可以实现:
这里遇到一些问题,爬虫代码保存在哪里?然后通过什么方法来运行这份爬虫代码? 目前我的方案是:
不过感觉这样好麻烦啊,估计会碰到很多坑,不知道各位 v 友有没有什么更优的方式,实现我这个需求。
1
owenliang 2017-11-24 17:14:58 +08:00
自己部个 marathon 或者 k8s,然后通过 api 启动实例?
|
2
aragakiiyui OP @owenliang = =不会啊,还没用过。
|
3
Chrics 2017-11-24 17:56:10 +08:00
> 然后点击运行按钮,就能够自动启动一个 scrapy 实例。
这个顺序反了吧,应该是启动一个 scrapy 实例,向中央服务器注册? |
4
sunwei0325 2017-11-24 18:34:52 +08:00
试试 spiderkeeper
|
5
hcnhcn012 2017-11-24 18:47:58 +08:00 via iPhone
Heroku 把,它可以和你的 git 联动
|
6
SlipStupig 2017-11-24 19:37:50 +08:00
如果用 docker 的话,强力推荐 rancher
|
7
aragakiiyui OP @sunwei0325 那个项目部署方式太蛋疼了,界面可以参考一下,但是调度方式还是得写一套。
|
8
sunwei0325 2017-11-25 22:42:15 +08:00
@aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器
|
9
tikazyq 2017-11-25 23:47:01 +08:00
|
10
my8100 2018-11-14 23:58:28 +08:00
@aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933
|