全球运行指挥中心( Global Operations Center,GOC )隶属阿里云智能事业群,负责阿里集团云计算、电商、蚂蚁、菜鸟等各垂直业务的核心业务指标监控和应急故障管理工作。GOC 团队是业界在 AIOps(智能运维)技术领域的核心倡导者和领先实践者。GOC 团队通过自研的机器学习算法及工程框架对每秒数千万数据的处理,把握阿里每一项业务的运行状况,通过专业高效的平台化系统实现对近百个技术团队、数万名研发人员的应急信息实时互联,让一切线上问题无所遁形,让所有阿里技术团队令行禁止。
- 加入我们,你将有机会应对阿里巴巴全球业务形态的高速增长与变化,让我们的技术框架能够服务于千万级别的监控项和数据维度,自动适应各类数据趋式和形态。
- 加入我们,你将有机会通过技术手段来采集、组织、存储、展现和阿里集团稳定性相关的所有数据和信息,服务于阿里集团的故障分析和稳定性建设。
- 加入我们,你将有机会将阿里集团智能运维的先进实践以商业化产品的形式赋能给云上客户,让客户企业的业务在飞速发展中稳如磐石。
工作地点:杭州
招聘对象:2019 年暑期实习生( 2020 毕业,表现优异可直接转正)
具体工作岗位如下:
Java 开发工程师
岗位描述
- 负责阿里集团业务监控和应急协作、故障管理等平台的设计及开发,帮助提升阿里巴巴集团业务的稳定性及快速自愈能力;
- 负责支持阿里集团监控和应急领域的智能运维工程框架的研发,为智能运维算法策略提供更加稳定、高效的分布式工程框架;
- 深入了解监控应急场景,挖掘监控数据价值,探索集团上云过程中稳定性问题合适的解决方案,帮助业务方解决技术问题,用技术推动业务发展;
岗位要求
- 计算机相关专业本科及以上学历;
- 熟悉 Java 开发语言,熟悉 spring 等常用 web 框架,对 Java 底层原理有一定理解,了解多线程、非阻塞、一致性等后端分布式系统常用技术;
- 对技术有热情,持续学习新技术,不断推动技术创新。有优秀的分析问题和解决问题的能力,对解决具有挑战性问题充满激情;
- 具有 hadoop/spark/Flink/storm/elasticsearch/kafka 等分布式计算系统及消息队列系统开发 /运维经验者优先
- 具有 AWS/Google Cloud Platform/阿里云使用经验者优先;
- 熟悉主流开源监控系统架构,或有相应系统二次开发经验者优先;
监控运维开发工程师
岗位描述
- 负责阿里巴巴海量业务监控和应急协同平台的设计、研发;
- 负责阿里巴巴全球运行指挥中心( GOC )的业务监控及应急值班工作;
- 负责阿里巴巴应急流程和故障管理方案的建设和完善,帮助集团和云上客户提升业务的稳定性;
- 参与阿里巴巴各业务团队监控、应急、故障管理方案的制定、推进实施;
- 引领阿里巴巴监控业务向自动化、智能化方向发展;
岗位要求
- 本科及以上学历,计算机、通信等相关专业;
- 熟练使用主流编程语言和开发框架进行业务开发,熟悉 JAVA 语言及主流开发框架者优先;
- 具备 linux 系统运维经验,熟练使用常见 linux 系统命令和操作;熟悉主流开源监控 /运维系统架构,或有相应系统二次开发经验者优先;
- 熟悉 TCP/IP,HTTP 等网络协议者优先;
- 具备强烈的钻研精神和自我学习能力、自我驱动能力;
- 自信、严谨、客观、乐于尝试新事物,勇于挑战自我;
- 具有较好的逻辑思维能力、沟通能力、善于和他人合作,富有集体荣誉感;
- 具备良好的责任心与担当意识;
- 具备良好的英语沟通能力;
有意请将简历通过邮件发送给 changlong.wcl@alibaba-inc.com 并标注来自 v2ex,多谢。