先列举几个日常遇到最多的问题:
- java.lang.OutOfMemoryError: GC overhead limit exceeded
- 数据量增大, 导致任务消耗内存变大, 某个 container 卡死.
-
监控
- 任务在 runtime 阶段怎么收集相关信息, 比如内存使用情况
- 监控了哪些
-
auto scaling
是否实现了对集群做到了 auto scaling, 比如一键添加节点.
只想少加班, 求老哥指导指导.
先列举几个日常遇到最多的问题:
监控
auto scaling
是否实现了对集群做到了 auto scaling, 比如一键添加节点.
只想少加班, 求老哥指导指导.
1
Lax Dec 22, 2018
一般是基础的资源指标,以及跟业务健康状态直接相关的运行指标。按数据来源又区分机器 /网络方面数据,java 虚拟机层次数据,业务应用层次数据。
关于监控,看一下 braden gregg 的 USE 方法: http://www.brendangregg.com/usemethod.html 基本能回答怎么监控,监控什么的问题,应该能顺带解决要不要去 auto scaling。 |
2
594duck Dec 23, 2018 via iPhone
jmxtrans+influxdb+grafana
主要收集两个 gc,cou 使用和总内存消耗。其他自己挑。 |