![]() |
1
liprais 4 天前
gc log 都不看的话确实没啥结果
|
![]() |
3
seers 4 天前
有点像是磁盘 io 出问题了,建议这个方向看看
|
4
ronen 4 天前
接着 #3 问,你们的基础设施是自建的,还是云上的, op 能力或人力不足的时候,就拆一部分到云厂商去,规避一个人要同时关注过长技术链条。
|
![]() |
7
tomatocici2333 4 天前
|
![]() |
8
zhoudaiyu OP @tomatocici2333 #7 机房就一句话,一切 OK ,要么就是坏了才告诉我们(其实之前就知道了,就故意不告)
|
![]() |
9
Liv1Dad 4 天前
|
12
jellysheep 4 天前
负载高吗
|
![]() |
13
tomatocici2333 4 天前
@zhoudaiyu #8 这种情况下你就要告诉 +1 了,让他去拉上开发还有机房一起去查。责任面扩大一下
|
![]() |
14
defunct9 4 天前
开 ssh ,让我上去看看
|
15
Huelse 4 天前
99%是硬盘问题,固态硬盘故障有时就是玄学,可以往这方面排查下
|
![]() |
16
SmiteChow 4 天前
可能是网卡问题,这也是为什么我推荐拉取信息而不是推送信息做监测的原因,有时候网卡能发不能收,有时候能收不能发。
|
![]() |
17
edisonwong 3 天前
atop 或者 sar 监控
|
18
sjkdsfkkfd 3 天前
整点 bpf 啥的?学好了还能跳个槽
|
![]() |
19
zhoudaiyu OP @Huelse #15 是集中式存储( ZK ),估计是 HDD ,然后 Kafka 用的是 nvme 的 ssd ,从 dmseg 、带外、监控看都正常,docker 这个机械盘反正确实性能比较差,但是 30 多台机器就只有 3 台这样
@edisonwong #17 sar 每次抓数据间隔时间太长了 @SmiteChow #16 网卡也是正常的 @sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的😂 @defunct9 #14 这给我开监狱去了 |
20
sjkdsfkkfd 3 天前
> 内核太好了 2.6 和 3.10 的
啊这,那确实很无力了😐 |
![]() |
21
zhoudaiyu OP @sjkdsfkkfd #20 也有 4.19 的几台,但是没出这些幺蛾子
|
![]() |
23
hellolinuxer 3 天前
这也叫 sre 吗
|
24
feedcode 3 天前
kafka JVM 的 thread stack, heap dump 有吗?
dockerd 的 stack, trace 有吗? 没有的话只能靠猜 |
![]() |
25
zhoudaiyu OP @hellolinuxer 那您理解啥叫 SRE ?
|