V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
blueking
V2EX  ›  酷工作

不要小瞧了监控这件事

  blueking · 2014-11-06 23:48:44 +08:00 · 16605 次点击
这是一个创建于 3452 天前的主题,其中的信息可能已经有所发展或是发生改变。
这个世界上开源和收费的监控系统实在是太多了,而不是太少了。无论是传统的nagios,ganglia,还是所谓的云监控系统。它们的工作方式其实都差不多,安装一个agent,上报数据,然后花花绿绿的图表就显示在web界面上了。无论这些系统如何包装,前端写得多么漂亮,一看截图十有八九图例是“cpu1”,“cpu2”。cpu使用率,内存,磁盘,仿佛把这些东西的曲线画在一个web界面上,监控工作就完成了似的。好吧,你有cpu使用率曲线图了,so what?

监控是多学科交叉非常有深度的课题。其职责一般落在一个部门里的运维身上来落实,比如我这样的人。我们知道技术里一流的人才去做架构师了,二流的人才去做后台开发了,三流的人才比如我这样的就来搞运维了。搞好监控是一项与运维传统技能(能熬夜肯加班,虎背熊腰扛机器)非常不match的工作,它包含四个方面的内容:

1、根据目标选择监控对象和策略
2、数据上报与实时统计
3、异常检测
4、由人或者系统来处理

其中数据上报与实时统计就需要非常综合的工程能力。简单的搞个小脚本往中央的一台开源监控系统定时报个数就行了,表面上很简单。但是大型系统监控往往对应到了jd里的所谓“大数据”经验。你需要从选择hbase还是postgresql,选择storm还是spark,选择metaq开始kafka,选择flume还是logstash这些开始,然后经过一个漫长的学习过程,最终学会了如何fancy而优雅地“数数”。其实我一直很纳闷的是,怎么有这么多牛b的人写这么多牛b的系统来干小学生都会的数数工作。

异常检测是一件表面上非常简单的活。比如给定一颗cpu,平时都是40%的占用率。那好,我配置一个80%的阈值,超过就告警,完事了。但如果你要监控的对象一根一天上下变化非常剧烈的曲线呢?早上可能只有几千,中午和晚上可以到几十万。这个时候去检测异常就不再是一个阈值这么简单的工作了。这项工作的学名叫Outlier Detection,按照分类来说属于机器学习,自打有计算机这门学科以来从简单的自回归到现在的SVM神马的,paper是层出不穷的。简单来说,这是一片有着科学家头衔人群从事的领域。

即便是发条告警消息这么简单的一件事,也事关cognitive bias。有人还研究飞机驾驶舱的告警消息设计是如何导致大西洋坠机事件的。还有花花绿绿的仪表盘,如何设计好以更好利用人眼的认知方式以传达信息,这也是一门很深的学问,叫data visualization。这个领域有一家大名鼎鼎的公司叫tableau,其创始人以前是在好莱坞搞动漫渲染的。凌晨四点需要叫运维起床尿尿的系统,必须重视人机交互这块的。给头脑不清醒的人设计界面一个场景就是club里给醉汉们用的点唱机,另外一个我所知的场景就是接到电话之后愤怒起床来定位问题的运维了。

故障处理就是个擦屁股的活,这话一点没错。那些架构师们设计了一个高可用的架构之后,他们的工作就高大上的完成了。故事是这样的,一台application server挂了,前段nginx检测到自动把这台application server踢掉,用户完全不受影响。然后后台开发们就可以光荣自豪的说,前段机器哈随便挂的说。运维苦哈哈的嘟囔着,尼玛又挂了。一个集群里挂个一两台application server可能是没啥关系的,但是挂多了呢,雪崩了呢?挂掉的机器咋处理,放那晾干么?故障及不还得修,不还是得人来管?运维们就像唐顿庄园里地下室的仆人们一样,做一些卑微但是必要又无人欣赏的工作。更加不要说,没有做高可用的架构了。一台登陆服务器挂了,cao,无论你是在陪女朋友逛街,还是第一次相亲,都得飞奔到有3g信号的地方开始ssh。

好像少了什么。哦,忘记说了。这是篇招聘帖,老板说了再招不来人我就要滚蛋了。如果你对以上工作内容的任何一条感兴趣,请联系我: [email protected]。没有薪资范围的招聘都是耍流氓,我就耍了,怎么的?有本事来找我啊,联系地址:腾讯游戏,深圳南山科兴科学园。是的,英雄联盟,穿越火线,天天酷跑就是我们部门负责运维的。经常挂,进不了大区?是的……所以我们要招人好好来搞嘛。anyway,call me,约吗?
第 1 条附言  ·  2014-11-07 18:28:42 +08:00
社招
求前端开发
求java后台
求python后台
求php后台
求c/c++后台
求perl/bash脚本熟练工
求异常点检测,文本分词聚类,机器学习算法工程师
80 条回复    2016-03-25 16:10:24 +08:00
maemual
    1
maemual  
   2014-11-06 23:49:59 +08:00 via Android   ❤️ 1
赞招聘方式!
yywudi
    2
yywudi  
   2014-11-07 00:07:36 +08:00
点赞!我很有兴趣的看完了,然后觉得运维也是很高大上啊,这么多看不懂的单词biubiubiu的。
然后,估计我干不了这活...
thinkxen
    3
thinkxen  
   2014-11-07 00:09:55 +08:00
可惜不会~~~~~~~~
ksc010
    4
ksc010  
   2014-11-07 00:16:20 +08:00
Jaylee
    5
Jaylee  
   2014-11-07 00:19:29 +08:00
zhouhua97
    6
zhouhua97  
   2014-11-07 00:20:09 +08:00
好特别的招聘贴,我喜欢,哈哈。
seki
    7
seki  
   2014-11-07 00:21:33 +08:00
招聘要求是啥,能理解这篇文章的每个术语吗?
kurtrossel
    8
kurtrossel  
   2014-11-07 00:22:52 +08:00   ❤️ 1
好牛逼,跟我认识的运维完全不在一个维度
abelyao
    9
abelyao  
   2014-11-07 00:24:07 +08:00
尼玛,这招聘才是真正的招聘啊!
如果一个人对你这帖子内容有兴趣,甚至觉得可以做得比你更好,那这人肯定就是你们要找的!
如果有一个人对其中有兴趣,愿意去深入学习,那你们招了也有前途!
这招聘帖逆天了!
sivacohan
    10
sivacohan  
   2014-11-07 00:27:03 +08:00 via Android
说的很诚恳。
不过作招聘贴。还是把
工作范围
能力要求
薪酬范围
写出来比较好
ichigo
    11
ichigo  
   2014-11-07 00:27:21 +08:00
mark
saturnast
    12
saturnast  
   2014-11-07 00:33:27 +08:00
哈哈,大腾讯的运维吗?对运维超感兴趣,可惜不会,为楼主的实诚点赞!
AstroProfundis
    13
AstroProfundis  
   2014-11-07 00:58:38 +08:00
居然看到了野生的鹅厂同行_(:зゝ∠)_
233
    14
233  
   2014-11-07 01:09:47 +08:00   ❤️ 1
牛逼....
V2上招聘帖top2, 另一个是上海百度的哥们
webjin
    15
webjin  
   2014-11-07 01:21:15 +08:00
目前在广州的某机房做机房运维,去过很多机房,很多机房都有腾讯整楼层的包下来,然后请外包公司代维。
davidyin
    16
davidyin  
   2014-11-07 01:35:10 +08:00
诚恳有噱头
ericFork
    17
ericFork  
   2014-11-07 02:41:43 +08:00
好赞的招聘帖,看得都心动了 XD
Keinez
    18
Keinez  
   2014-11-07 06:34:22 +08:00 via Android
我比较好奇写这篇文章的是一个人还是团队。如果是出自个人之手,这个人一定很有趣。
dreampuf
    19
dreampuf  
   2014-11-07 06:41:31 +08:00
我就奇怪,烂服务这么多,监控这一块怎么就每个声响
zxy
    20
zxy  
   2014-11-07 07:29:47 +08:00 via iPhone
很有意思!
zy2013
    21
zy2013  
   2014-11-07 08:32:59 +08:00
赞,也做过监控,感觉要学习的地方还有好多
ryanking8215
    22
ryanking8215  
   2014-11-07 08:38:07 +08:00   ❤️ 1
恩,老有劲额。
就是为啥是gmail,不是qq mail或者tencent mail?
trdcaz
    23
trdcaz  
   2014-11-07 08:44:19 +08:00
深有感触,不过深圳太远,不想去
leassy
    24
leassy  
   2014-11-07 08:44:23 +08:00
我们公司的DBA跑了,然后我现在就又要搞服务器又要写程序,弄得我整个人都醉了,醉了~~~
neutrino
    25
neutrino  
   2014-11-07 09:06:34 +08:00
回复:“不约,叔叔我们不约。”
eric227
    26
eric227  
   2014-11-07 09:12:54 +08:00
哈哈哈哈哈哈 写得好!
catmic27
    27
catmic27  
   2014-11-07 09:19:34 +08:00   ❤️ 1
屌丝装机男看的泪流满面,不得不赞一个。
haoba
    28
haoba  
   2014-11-07 09:21:02 +08:00
想约啊
suckli
    29
suckli  
   2014-11-07 09:21:35 +08:00
9楼的同事你好
hbkdsm
    30
hbkdsm  
   2014-11-07 09:23:20 +08:00
招聘贴能写成软文类型的也是人才了!
soli
    31
soli  
   2014-11-07 09:31:33 +08:00
有点意思。
Tankpt
    32
Tankpt  
   2014-11-07 09:37:07 +08:00
赞。。。。。。
Tinet
    33
Tinet  
   2014-11-07 09:40:34 +08:00
对此还是很有体会的。
roadli
    34
roadli  
   2014-11-07 09:43:57 +08:00
同为苦逼的运维在这里赞一个,说的深得我心啊,可惜深圳太远
Catstyle
    35
Catstyle  
   2014-11-07 09:44:05 +08:00
同为DevOps的默默up一下
xidianlz
    36
xidianlz  
   2014-11-07 09:48:11 +08:00
看头像是蓝鲸,项目貌似也是蓝鲸吧,周末投个简历看看~
:)
WildCat
    37
WildCat  
   2014-11-07 09:53:50 +08:00 via iPad
lazyphp
    38
lazyphp  
   2014-11-07 09:54:06 +08:00
腾讯的招聘,竟然耍流氓了。好吧,我是进不了的。哈哈~~不过这招聘太有意思了。我还以为是说运维之苦。
halfbloodrock
    39
halfbloodrock  
   2014-11-07 09:56:24 +08:00
我去。。。LZ是我们合作方啊。。。。
CMGS
    40
CMGS  
   2014-11-07 10:08:11 +08:00
这个招聘不错……我也在招类似的人- -
behappy
    41
behappy  
   2014-11-07 10:19:43 +08:00
好顶赞
yechengxiao
    42
yechengxiao  
   2014-11-07 10:24:25 +08:00
看着好吸引人
zyxfsky
    43
zyxfsky  
   2014-11-07 10:24:58 +08:00
监控出身,看到帖子还以为是要探讨,原来是招聘贴,不过还是要赞下
xiaohanyu
    44
xiaohanyu  
   2014-11-07 10:25:55 +08:00
赞赞赞,独树一帜的招聘贴
iyaozhen
    45
iyaozhen  
   2014-11-07 10:39:08 +08:00
叼,我也在做监控。赞
hjxx
    46
hjxx  
   2014-11-07 10:40:18 +08:00
看到最后才知道是招聘贴 赞,中间几个英文专业术语一般人不知道
tftk
    47
tftk  
   2014-11-07 10:54:09 +08:00
不错。
mnsw
    48
mnsw  
   2014-11-07 11:21:56 +08:00
这招聘。。。。赞一个!
cbwzwsq
    49
cbwzwsq  
   2014-11-07 11:33:30 +08:00
赞!
siko
    50
siko  
   2014-11-07 11:46:19 +08:00
赞!
jaxiinofea
    51
jaxiinofea  
   2014-11-07 11:53:57 +08:00
有点意思~
likexian
    52
likexian  
   2014-11-07 11:54:21 +08:00   ❤️ 3
楼主啊,字太多了,密集恐惧症啊,不想看啊,随便拉了拉啊,我也说一说吧。

在这个世界上,监控都不是目的啊,就比如你监控一个女神的活动,你以为你真的是想收集这个女神的数据来做大数据吗?很明显不是啊,你是想上她啊。所以说,监控任何时候都不是最终目的。

那么既然监控不是目的,那目的是什么呢?

答案是:目的是发现宕机,然后处理宕机。

如果有服务器挂了,你应该首先做什么呢?查原因,解决问题?

如果你这样说,那么你就不是一个合格的运维了。

宕机了,运维要做的首先是切换服务器啊,保证对用户的影响才小才是合格的运维啊。



那么问题来了,挖掘机可能会坏,我们需要监控它,监控到坏了怎么办?切换它!


那么答案来了,监控切换哪家强,中国山东D监控啊!!!




D监控,监控切换一条龙。





编者注:DNSPod D监控,不仅可以监控,还可以在服务器宕机后第一时间切换服务器并发送微信、短信、邮件通知。无痛切换,首选D监控!
mlhorizon
    53
mlhorizon  
   2014-11-07 12:20:54 +08:00
同做监控,专业公司,偏基础设施。
跟楼主是邻居,离科兴不到200米。
大腾讯的基础设施监控用的我司的产品。
同招人!!
wwek
    54
wwek  
   2014-11-07 12:35:16 +08:00
cao,无论你是在陪女朋友逛街,还是第一次相亲,都得飞奔到有3g信号的地方开始ssh。
frankzeng
    55
frankzeng  
   2014-11-07 12:38:04 +08:00
切换服务器,最怕就是你切到备机,然后故障排除后切不回主机,悲催啊。
再者90%的故障都小故障,简单排除其实就可以的,运维监控能做到不让故障发生两次就已经非常不错了。
frankzeng
    56
frankzeng  
   2014-11-07 12:41:29 +08:00
@wwek 没那么夸张,有专门轮班24小时值班的,先由值班人员处理的,处理不了再提交研发人员处理的。研发人员是要对自己所写代码负责的,想在节假日才点骚扰,努力提高代码质量呗。
bigzhu
    57
bigzhu  
   2014-11-07 13:48:50 +08:00
完全就是神一般的招聘帖
楼主应该单独开一个帖子, 来聊聊监控和运维那点破事
1yndonn3u
    58
1yndonn3u  
   2014-11-07 13:50:57 +08:00
@mlhorizon 哈哈哈,你借着这个地方招聘人啊。~~~~~

话说楼主招聘的算是运维的还是算是招聘的做监控的?是用监控的还是做监控的?

无要求,无薪资。233333

还真想投递简历试试呢~~~~
dhlwing
    59
dhlwing  
   2014-11-07 13:51:29 +08:00
gysutantoman
    60
gysutantoman  
   2014-11-07 14:50:41 +08:00
笑喷了, 好招聘
ipush
    61
ipush  
   2014-11-07 15:27:44 +08:00
其实运维做好了,真的是技术活。
只是成本中心,不像利润中心那么容易让老板觉得出彩而已。
你给公司省了几千万,哦。
你给公司多赚了几百万? 哇塞!
boogiefer
    62
boogiefer  
   2014-11-07 16:20:56 +08:00
赞!
c0878
    63
c0878  
   2014-11-07 17:11:33 +08:00
招聘贴写成这样也是蛮拼的
yuankui
    64
yuankui  
   2014-11-07 17:23:40 +08:00
顶楼主
cocalrush
    65
cocalrush  
   2014-11-07 18:26:51 +08:00
去去去~~~
pierrec
    66
pierrec  
   2014-11-07 19:09:13 +08:00
你们部门也够负责了,各种断线无法重连,必须重启客户端,各种莫名崩溃,切换桌面必定崩溃,外服就没这个问题
hljjhb
    67
hljjhb  
   2014-11-07 19:59:21 +08:00
V2上见过的最好的招聘帖
manoon
    68
manoon  
   2014-11-07 20:19:59 +08:00 via Android
好的文案胜过妹纸和美食的诱惑
est
    69
est  
   2014-11-07 20:20:46 +08:00
很好的文案。
ibillxia
    70
ibillxia  
   2014-11-07 20:30:24 +08:00
鹅厂的友情bd
Parahexen
    71
Parahexen  
   2014-11-07 23:14:45 +08:00
很有意思,道的也是实情,真正能把CS里面一些东西学以致用的人太少。
lairdnote
    72
lairdnote  
   2014-11-08 11:18:17 +08:00
哈哈。 鹅厂牛。。我们正在做这样的平台。 用机器学习去运维。。
lairdnote
    73
lairdnote  
   2014-11-08 11:19:08 +08:00
架构为 snmp spark 机器学习 elasticsearch aws api salt 自动化
scys
    74
scys  
   2014-11-08 11:50:43 +08:00 via Android
有趣~监控是独立于服务器开发的?有点很蛋疼。应该混合开发才是王道
ashora
    75
ashora  
   2014-11-08 12:10:59 +08:00
顶一个
flied
    76
flied  
   2014-11-08 14:14:31 +08:00
赞诚意

这样的招聘贴才像个样子。
genffy
    77
genffy  
   2014-11-09 01:03:24 +08:00 via iPhone
前端开发,马。
exuxu
    78
exuxu  
   2014-11-10 09:38:03 +08:00
yue
mogging
    79
mogging  
   2014-11-11 13:29:09 +08:00
同为DevOps的人表示干了些年都不想挪窝了,支持楼主校招些有激情的吧
homu
    80
homu  
   2016-03-25 16:10:24 +08:00
@ipush 说得好
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1095 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 23:17 · PVG 07:17 · LAX 16:17 · JFK 19:17
Developed with CodeLauncher
♥ Do have faith in what you're doing.