V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
solomaster
V2EX  ›  问与答

一般商业爬虫程序(Java 非 web)是怎么部署到生产环境并运行和监控的?

  •  
  •   solomaster · 2015-12-23 17:55:57 +08:00 · 2821 次点击
    这是一个创建于 3259 天前的主题,其中的信息可能已经有所发展或是发生改变。

    持续性的爬虫。我没有这方面实际应用的经验,这种非 web 的如何部署运行呢?我 google 到的是用 maven 打成可运行 jar ,直接在 linux 下用 java 命令运行,而监控是用 JMX 之类的。
    想问下
    1 :正式的公司里面是怎么做的?
    2 :定时计划任务一般是在程序里面配置好还是用 linux 的 cron 工具呢?
    3 :一般如何监控爬虫运行的呢?

    谢谢。

    5 条回复    2015-12-23 19:45:37 +08:00
    28ms
        1
    28ms  
       2015-12-23 17:58:47 +08:00
    我们公司里用 python 的,都是做成定时任务放 crontab ,感觉有点 low
    监控爬虫运行靠收 root mail 看日志,呵呵呵
    magnetoeric
        2
    magnetoeric  
       2015-12-23 18:17:52 +08:00
    我以前在公司用的 nutch 可以自己设定时间抓的
    canesten
        3
    canesten  
       2015-12-23 18:18:12 +08:00
    个人提议方案
    用 Quartz ,运行监控可以写日志嘛
    sweelia
        4
    sweelia  
       2015-12-23 19:10:13 +08:00
    最方便的,套上 web 框架模板,扔进 tomcat 里跟普通 web 应用一样监控。
    wy315700
        5
    wy315700  
       2015-12-23 19:45:37 +08:00
    @28ms crontab 可以改 Mailto ,可以把运行结果发邮件出来的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   879 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:55 · PVG 04:55 · LAX 12:55 · JFK 15:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.