V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
scalaer
V2EX  ›  问与答

有 bigdata 运维的老哥吗? 来交流下经验

  •  
  •   scalaer · 2018-12-22 20:23:27 +08:00 · 935 次点击
    这是一个创建于 2168 天前的主题,其中的信息可能已经有所发展或是发生改变。

    先列举几个日常遇到最多的问题:

    1. java.lang.OutOfMemoryError: GC overhead limit exceeded
    2. 数据量增大, 导致任务消耗内存变大, 某个 container 卡死.

    • 监控

      1. 任务在 runtime 阶段怎么收集相关信息, 比如内存使用情况
      2. 监控了哪些
    • auto scaling

      是否实现了对集群做到了 auto scaling, 比如一键添加节点.


    只想少加班, 求老哥指导指导.

    5 条回复    2018-12-23 12:35:30 +08:00
    Lax
        1
    Lax  
       2018-12-22 20:53:21 +08:00
    一般是基础的资源指标,以及跟业务健康状态直接相关的运行指标。按数据来源又区分机器 /网络方面数据,java 虚拟机层次数据,业务应用层次数据。
    关于监控,看一下 braden gregg 的 USE 方法: http://www.brendangregg.com/usemethod.html
    基本能回答怎么监控,监控什么的问题,应该能顺带解决要不要去 auto scaling。
    594duck
        2
    594duck  
       2018-12-23 07:59:58 +08:00 via iPhone
    jmxtrans+influxdb+grafana

    主要收集两个 gc,cou 使用和总内存消耗。其他自己挑。
    scalaer
        3
    scalaer  
    OP
       2018-12-23 10:01:13 +08:00
    @Lax 多谢老哥,正愁没有相关资料做一个全局的规划.
    scalaer
        4
    scalaer  
    OP
       2018-12-23 10:04:01 +08:00
    @594duck 如果一个 spark 任务会在 3 个节点上运行. jmxtrans 能够收集 3 个节点上的内存使用情况吗, 还是一个总内存?
    Lax
        5
    Lax  
       2018-12-23 12:35:30 +08:00
    @mggis0or1 这种都是采集单节点数据,靠监控系统去聚合数据
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5508 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 08:15 · PVG 16:15 · LAX 00:15 · JFK 03:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.