最近遇到了 3 次非常难查的问题，很无助

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 283 天前的主题，其中的信息可能已经有所发展或是发生改变。

本人是 sre ，负责 k8s 和一些如 kafka zk 的中间件的运维，最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了，但节点不可用，然后 2 个小时后另外一台又这样了，也挂了，然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高，重启没用，停掉后部分业务又开始报错，提高 cpu 配置（容器），并迁移了受影响的一个业务后启动后突然就一切正常，cpu 使用率也没那么高了，其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住，几个小时自己恢复了，然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错，其他都没有什么报错，无从查起，很无力，领导又要结果。

Kafka

Docker

26 条回复 • 2025-05-10 16:28:18 +08:00

F281M6Dh8DXpD1g2

2025 年 5 月 8 日

gc log 都不看的话确实没啥结果

zhoudaiyu

PRO

2025 年 5 月 8 日

@liprais 这准备加呢，之前确实有的集群没有，有的有，这次赶上的都没有

seers

2025 年 5 月 8 日

有点像是磁盘 io 出问题了，建议这个方向看看

ronen

2025 年 5 月 8 日

接着 #3 问，你们的基础设施是自建的，还是云上的， op 能力或人力不足的时候，就拆一部分到云厂商去，规避一个人要同时关注过长技术链条。

zhoudaiyu

PRO

2025 年 5 月 9 日 via iPhone

@ronen 是自建的，用的是上级集团的自建机房，找他们他们查过，永远一句话，一切正常

zhoudaiyu

PRO

2025 年 5 月 9 日 via iPhone

@seers 您说的是 Kafka 吧？从监控看 io ok 的，用的是 nvme 的固态，响应时间一直比较快

tomatocici2333

2025 年 5 月 9 日

给领导说你排查下来没什么问题，需要上级机房一起排查看看能不能让领导协助一下

zhoudaiyu

PRO

2025 年 5 月 9 日

@tomatocici2333 #7 机房就一句话，一切 OK ，要么就是坏了才告诉我们（其实之前就知道了，就故意不告）

k0m8MNz2Ywf0OLeH

2025 年 5 月 9 日

转开发吧，已经我也是运维，遇到问题天天脑带大，还要 7*24 。现在开发，天天摸鱼。运维，狗都不干

Ethan24067

2025 年 5 月 9 日

@Liv1Dad 难转吗

zhoudaiyu

PRO

2025 年 5 月 9 日

@Liv1Dad #9 我之前确实是运维开发（告警平台、中间件运维平台这些），但是近两年部门有变动，我就变运维了，开发倒是也可以搞

jellysheep

2025 年 5 月 9 日

负载高吗

tomatocici2333

2025 年 5 月 9 日

@zhoudaiyu #8 这种情况下你就要告诉 +1 了，让他去拉上开发还有机房一起去查。责任面扩大一下

defunct9

2025 年 5 月 9 日

开 ssh ，让我上去看看

Huelse

2025 年 5 月 9 日

99%是硬盘问题，固态硬盘故障有时就是玄学，可以往这方面排查下

SmiteChow

2025 年 5 月 9 日

可能是网卡问题，这也是为什么我推荐拉取信息而不是推送信息做监测的原因，有时候网卡能发不能收，有时候能收不能发。

edisonwong

2025 年 5 月 9 日

atop 或者 sar 监控

sjkdsfkkfd

2025 年 5 月 9 日

整点 bpf 啥的？学好了还能跳个槽

zhoudaiyu

PRO

2025 年 5 月 9 日

@Huelse #15 是集中式存储（ ZK ），估计是 HDD ，然后 Kafka 用的是 nvme 的 ssd ，从 dmseg 、带外、监控看都正常，docker 这个机械盘反正确实性能比较差，但是 30 多台机器就只有 3 台这样

@edisonwong #17 sar 每次抓数据间隔时间太长了

@SmiteChow #16 网卡也是正常的

@sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的😂
@defunct9 #14 这给我开监狱去了

sjkdsfkkfd

2025 年 5 月 9 日

> 内核太好了 2.6 和 3.10 的

啊这，那确实很无力了😐

zhoudaiyu

PRO

2025 年 5 月 9 日

@sjkdsfkkfd #20 也有 4.19 的几台，但是没出这些幺蛾子

k0m8MNz2Ywf0OLeH

2025 年 5 月 10 日

@clocean #10 都是搬砖，也没啥难不难的。

hellolinuxer

2025 年 5 月 10 日

这也叫 sre 吗

feedcode

2025 年 5 月 10 日

kafka JVM 的 thread stack, heap dump 有吗？
dockerd 的 stack, trace 有吗？
没有的话只能靠猜

zhoudaiyu

PRO

2025 年 5 月 10 日

@hellolinuxer 那您理解啥叫 SRE ？

zhoudaiyu

PRO

2025 年 5 月 10 日

@feedcode docker strace 了一下，发现是一直在扫镜像 imagedb/sha256 中的文件，都是小文件所以慢 kafka 没打 dump 和 jstack 😂