V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zhoudaiyu
V2EX  ›  程序员

最近遇到了 3 次非常难查的问题,很无助

  •  
  •   zhoudaiyu · 4 天前 · 2783 次点击
    本人是 sre ,负责 k8s 和一些如 kafka zk 的中间件的运维,最近遇到了 3 个问题好久都没查出来。第一次是 3 节点 zk 集群夜间突然 1 台 cpu 拉到 100%几分钟后 cpu 掉下来了,但节点不可用,然后 2 个小时后另外一台又这样了,也挂了,然后集群不可用了。第二次是 6 节点 kafka 突然有一台 cpu 很高,重启没用,停掉后部分业务又开始报错,提高 cpu 配置(容器),并迁移了受影响的一个业务后启动后突然就一切正常,cpu 使用率也没那么高了,其他业务也没事了。第三个是 docker info 、docker images 突然 hang 住,几个小时自己恢复了,然后又开始反复。这几次中间件除了 zk 那个日志被清理了看不到当时报错,其他都没有什么报错,无从查起,很无力,领导 又要结果。
    26 条回复    2025-05-10 16:28:18 +08:00
    liprais
        1
    liprais  
       4 天前
    gc log 都不看的话确实没啥结果
    zhoudaiyu
        2
    zhoudaiyu  
    OP
       4 天前
    @liprais 这准备加呢,之前确实有的集群没有,有的有,这次赶上的都没有
    seers
        3
    seers  
       4 天前
    有点像是磁盘 io 出问题了,建议这个方向看看
    ronen
        4
    ronen  
       4 天前
    接着 #3 问,你们的基础设施是自建的,还是云上的, op 能力或人力不足的时候,就拆一部分到云厂商去,规避一个人要同时关注过长技术链条。
    zhoudaiyu
        5
    zhoudaiyu  
    OP
       4 天前 via iPhone
    @ronen 是自建的,用的是上级集团的自建机房,找他们他们查过,永远一句话,一切正常
    zhoudaiyu
        6
    zhoudaiyu  
    OP
       4 天前 via iPhone
    @seers 您说的是 Kafka 吧?从监控看 io ok 的,用的是 nvme 的固态,响应时间一直比较快
    tomatocici2333
        7
    tomatocici2333  
       4 天前
    给领导说你排查下来没什么问题,需要上级机房一起排查看看能不能让领导协助一下
    zhoudaiyu
        8
    zhoudaiyu  
    OP
       4 天前
    @tomatocici2333 #7 机房就一句话,一切 OK ,要么就是坏了才告诉我们(其实之前就知道了,就故意不告)
    Liv1Dad
        9
    Liv1Dad  
       4 天前
    转开发吧,已经我也是运维,遇到问题天天脑带大, 还要 7*24 。现在开发,天天摸鱼。运维,狗都不干
    clocean
        10
    clocean  
       4 天前
    @Liv1Dad 难转吗
    zhoudaiyu
        11
    zhoudaiyu  
    OP
       4 天前
    @Liv1Dad #9 我之前确实是运维开发(告警平台、中间件运维平台这些),但是近两年部门有变动,我就变运维了,开发倒是也可以搞
    jellysheep
        12
    jellysheep  
       4 天前
    负载高吗
    tomatocici2333
        13
    tomatocici2333  
       4 天前
    @zhoudaiyu #8 这种情况下你就要告诉 +1 了,让他去拉上开发还有机房一起去查。责任面扩大一下
    defunct9
        14
    defunct9  
       4 天前
    开 ssh ,让我上去看看
    Huelse
        15
    Huelse  
       4 天前
    99%是硬盘问题,固态硬盘故障有时就是玄学,可以往这方面排查下
    SmiteChow
        16
    SmiteChow  
       4 天前
    可能是网卡问题,这也是为什么我推荐拉取信息而不是推送信息做监测的原因,有时候网卡能发不能收,有时候能收不能发。
    edisonwong
        17
    edisonwong  
       3 天前
    atop 或者 sar 监控
    sjkdsfkkfd
        18
    sjkdsfkkfd  
       3 天前
    整点 bpf 啥的?学好了还能跳个槽
    zhoudaiyu
        19
    zhoudaiyu  
    OP
       3 天前
    @Huelse #15 是集中式存储( ZK ),估计是 HDD ,然后 Kafka 用的是 nvme 的 ssd ,从 dmseg 、带外、监控看都正常,docker 这个机械盘反正确实性能比较差,但是 30 多台机器就只有 3 台这样

    @edisonwong #17 sar 每次抓数据间隔时间太长了

    @SmiteChow #16 网卡也是正常的

    @sjkdsfkkfd #18 内核太好了 2.6 和 3.10 的😂
    @defunct9 #14 这给我开监狱去了
    sjkdsfkkfd
        20
    sjkdsfkkfd  
       3 天前
    > 内核太好了 2.6 和 3.10 的

    啊这,那确实很无力了😐
    zhoudaiyu
        21
    zhoudaiyu  
    OP
       3 天前
    @sjkdsfkkfd #20 也有 4.19 的几台,但是没出这些幺蛾子
    Liv1Dad
        22
    Liv1Dad  
       3 天前
    @clocean #10 都是搬砖,也没啥难不难的。
    hellolinuxer
        23
    hellolinuxer  
       3 天前
    这也叫 sre 吗
    feedcode
        24
    feedcode  
       3 天前
    kafka JVM 的 thread stack, heap dump 有吗?
    dockerd 的 stack, trace 有吗?
    没有的话只能靠猜
    zhoudaiyu
        25
    zhoudaiyu  
    OP
       2 天前
    @hellolinuxer 那您理解啥叫 SRE ?
    zhoudaiyu
        26
    zhoudaiyu  
    OP
       2 天前
    @feedcode docker strace 了一下,发现是一直在扫镜像 imagedb/sha256 中的文件,都是小文件所以慢 kafka 没打 dump 和 jstack 😂
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5217 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 07:53 · PVG 15:53 · LAX 00:53 · JFK 03:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.