scalaer
V2EX  ›  问与答

有 bigdata 运维的老哥吗? 来交流下经验

  •  
  •   scalaer · Dec 22, 2018 · 1317 views
    This topic created in 2708 days ago, the information mentioned may be changed or developed.

    先列举几个日常遇到最多的问题:

    1. java.lang.OutOfMemoryError: GC overhead limit exceeded
    2. 数据量增大, 导致任务消耗内存变大, 某个 container 卡死.

    • 监控

      1. 任务在 runtime 阶段怎么收集相关信息, 比如内存使用情况
      2. 监控了哪些
    • auto scaling

      是否实现了对集群做到了 auto scaling, 比如一键添加节点.


    只想少加班, 求老哥指导指导.

    5 replies    2018-12-23 12:35:30 +08:00
    Lax
        1
    Lax  
       Dec 22, 2018
    一般是基础的资源指标,以及跟业务健康状态直接相关的运行指标。按数据来源又区分机器 /网络方面数据,java 虚拟机层次数据,业务应用层次数据。
    关于监控,看一下 braden gregg 的 USE 方法: http://www.brendangregg.com/usemethod.html
    基本能回答怎么监控,监控什么的问题,应该能顺带解决要不要去 auto scaling。
    594duck
        2
    594duck  
       Dec 23, 2018 via iPhone
    jmxtrans+influxdb+grafana

    主要收集两个 gc,cou 使用和总内存消耗。其他自己挑。
    scalaer
        3
    scalaer  
    OP
       Dec 23, 2018
    @Lax 多谢老哥,正愁没有相关资料做一个全局的规划.
    scalaer
        4
    scalaer  
    OP
       Dec 23, 2018
    @594duck 如果一个 spark 任务会在 3 个节点上运行. jmxtrans 能够收集 3 个节点上的内存使用情况吗, 还是一个总内存?
    Lax
        5
    Lax  
       Dec 23, 2018
    @mggis0or1 这种都是采集单节点数据,靠监控系统去聚合数据
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1071 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 23:20 · PVG 07:20 · LAX 16:20 · JFK 19:20
    ♥ Do have faith in what you're doing.