V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
aragakiiyui
V2EX  ›  Python

关于 scrapy 分布式管理

  •  
  •   aragakiiyui · 2017-11-24 16:56:49 +08:00 · 3539 次点击
    这是一个创建于 2555 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在使用 scrapy-redis 做分布式爬虫,目前考虑写一个扩展,主要可以实现:

    • 通过一个 ui 界面来提交爬虫代码。(大概类似于一些 oj 刷题网站的代码编辑页面)
    • 然后点击运行按钮,就能够自动启动一个 scrapy 实例。

    这里遇到一些问题,爬虫代码保存在哪里?然后通过什么方法来运行这份爬虫代码? 目前我的方案是:

    • 把代码文件存到一个公共的目录,所有的爬虫都从这个目录启动。
    • 然后爬虫通过 docker 来启动,docker 可以访问那个公共目录。

    不过感觉这样好麻烦啊,估计会碰到很多坑,不知道各位 v 友有没有什么更优的方式,实现我这个需求。

    10 条回复    2018-11-14 23:58:28 +08:00
    owenliang
        1
    owenliang  
       2017-11-24 17:14:58 +08:00
    自己部个 marathon 或者 k8s,然后通过 api 启动实例?
    aragakiiyui
        2
    aragakiiyui  
    OP
       2017-11-24 17:29:51 +08:00
    @owenliang = =不会啊,还没用过。
    Chrics
        3
    Chrics  
       2017-11-24 17:56:10 +08:00
    > 然后点击运行按钮,就能够自动启动一个 scrapy 实例。

    这个顺序反了吧,应该是启动一个 scrapy 实例,向中央服务器注册?
    sunwei0325
        4
    sunwei0325  
       2017-11-24 18:34:52 +08:00
    试试 spiderkeeper
    hcnhcn012
        5
    hcnhcn012  
       2017-11-24 18:47:58 +08:00 via iPhone
    Heroku 把,它可以和你的 git 联动
    SlipStupig
        6
    SlipStupig  
       2017-11-24 19:37:50 +08:00
    如果用 docker 的话,强力推荐 rancher
    aragakiiyui
        7
    aragakiiyui  
    OP
       2017-11-25 13:31:52 +08:00
    @sunwei0325 那个项目部署方式太蛋疼了,界面可以参考一下,但是调度方式还是得写一套。
    sunwei0325
        8
    sunwei0325  
       2017-11-25 22:42:15 +08:00
    @aragakiiyui [捂脸]我还觉得挺好用的, 有 api 直接写好脚本打包 egg, 上传到 scrapyd 服务器
    tikazyq
        9
    tikazyq  
       2017-11-25 23:47:01 +08:00
    有一个现成的轮子,需要配置 scrapyd

    https://github.com/DormyMo/SpiderKeeper
    my8100
        10
    my8100  
       2018-11-14 23:58:28 +08:00
    @aragakiiyui 如何简单高效地部署和监控分布式爬虫项目 www.v2ex.com/t/507933
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1553 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:08 · PVG 01:08 · LAX 09:08 · JFK 12:08
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.