V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tsingke
V2EX  ›  程序员

报警太多又不想漏掉关键报警消息,有什么解决思路或者办法

  •  
  •   tsingke · 2022-06-03 17:08:55 +08:00 · 3621 次点击
    这是一个创建于 903 天前的主题,其中的信息可能已经有所发展或是发生改变。

    写了个监控报警系统,日志有错误就可以收到报警,但是报警太多又不想漏掉关键报警消息,请教下大家有什么好主意。 项目地址: https://github.com/AutohomeCorp/frostmourne

    11 条回复    2022-06-04 06:18:24 +08:00
    Kinnice
        1
    Kinnice  
       2022-06-03 17:12:39 +08:00 via Android
    对你认为的关键的报警信息,进行单独提醒
    比如 一般的走钉钉通知,紧急的走短信 /电话,超紧急的走物理硬件(电视里面的那种报警灯)
    gabon
        2
    gabon  
       2022-06-03 17:13:50 +08:00 via iPhone
    error 分级别,p0 ,p1 ,p2 等等。p0 立刻报警; p1 的 suppress 几次就升级 p0 ,balabala
    sadfQED2
        3
    sadfQED2  
       2022-06-03 17:20:25 +08:00 via Android
    先配置级别,就是楼上说的那样

    再加报警规则,比如一小时内触发 3 次以内发邮件,触发 10 次发短信,触发 100 次打电话
    anonymousar
        4
    anonymousar  
       2022-06-03 17:49:18 +08:00
    报警只报失败率
    janxin
        5
    janxin  
       2022-06-03 19:30:08 +08:00
    合并报警信息(错误率报警)、优先级划分
    Macolor21
        6
    Macolor21  
       2022-06-03 20:40:29 +08:00
    醉翁之意不在酒
    Garasu
        7
    Garasu  
       2022-06-03 22:08:12 +08:00
    所有消息都报警 = 不报警,警告分等级通知就好了。。。
    zlowly
        8
    zlowly  
       2022-06-03 23:16:27 +08:00
    可以考虑告警收敛设计,最近在 51CTO 上看到篇《我们一起聊聊关于运维监控中告警收敛问题》看看有没帮助。
    struggle001
        9
    struggle001  
       2022-06-04 00:32:31 +08:00
    我有个紧急告警钉钉群,一个日常告警钉钉群
    紧急告警都是系统故障,必须要看的
    日常告警都是无关紧要的,有可能要漂一眼的,漏掉也没关系
    pengtdyd
        10
    pengtdyd  
       2022-06-04 04:23:36 +08:00
    紧急告警是主动推送的,日常告警是被动查看的,如果日常告警都主动推送那等于没有告警
    i3x
        11
    i3x  
       2022-06-04 06:18:24 +08:00 via Android
    debug info 到致命错误。我从造轮子的整个流程就贯穿。。。。。。平时 syslog 也保存 debug 。。。。是不是有病

    各部分算是把 syslog 玩出花了。最终集中到 zabbix 处理逻辑。

    @Kinnice 物理硬件没啥用,不一定在电脑旁。。。usb 那种三色灯也好,热敏打印机,寻呼机,自建 GSM LTE usbACM(自动传真,固定电话外呼)我都玩过,也就只能玩一下。除了装 x 毫无卵用。。。。。。好端端的玩寻呼机怕长辈说一大堆话,我都是偷偷玩的。。。。。电话或者短信外呼才能随时。。。。担心手机没电或者有骚扰电话一惊一乍?那就单独备一台 cdma 功能机或者老安卓机,给模块的卡号白名单。这就没错了。

    cdma 理论上各种状态都辐射低,带来的显著优势就是省电。。。。同样的手机我试过一动不动的纯单待的待机方式。2014 年的安卓机啥配置我忘了 2g 运存的,cdma 单待 35 天,gsm5 天。完全不碰的情况下。。后来拿红米 note 试了下单 lte 和 gsm 待机对比,cdma 就不试了,时间太长了没那么多闲置的电信卡。。

    发送也好,随身接收的卡也好,成本很重要。不请求 lte 联网的我就 1 元月租的虚拟运营商。纯发送方向用不上来显。随身接收的用大 3 元或者类似的有来显的,白名单用。

    我给每个运维权限的伙伴发了一只专用安卓机。没有装任何软件,网也不连,通知声音每人一个特殊的自编提示音,轻柔,渐响。各自熟悉自己的声音,免得在外面碰上同通知音的人被吓一跳影响心情。

    服务降级及以下都不通知,只电话通知需要立刻介入的。。接听后 tts 播放预定义的触发原因。按 1 记录为处理中。按 2 转给下一个。按 7 挨个群呼。。

    不依赖需要网络或者需要 app 保活的避免丢失信息。也省得外部接口之类的可能会改动失效。

    声音的冷门独特性很重要,避免惊吓。其次就是渐响轻柔。要是都用默认铃声认错了多尴尬。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2031 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 16:14 · PVG 00:14 · LAX 08:14 · JFK 11:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.