V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
anotherhub
V2EX  ›  分享创造

Rainbond V3.7.1 发布,零配置支持全方位集群资源监控与报警

  •  1
     
  •   anotherhub · 2018-09-05 16:36:25 +08:00 · 2084 次点击
    这是一个创建于 2310 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Rainbond是一款以应用为中心的开源 PaaS,由好雨基于 Docker、Kubernetes 等容器技术自主研发,可作为企业在公有云或私有云环境下的应用交付平台、DevOps 平台、自动化运维平台和行业云平台,或作为企业级的混合云多云管理工具、Kubernetes 容器管理工具或 Service Mesh 微服务架构治理工具。

    继 Rainbond V3.7.0 版本大量提高平台稳定性更新后,我们又推出了 V3.7.1 版本,本次更新进一步完善集群全方位的监控与报警体系。Rainbond 集群需要监控的目标分为三类:

    • 节点操作系统和硬件指标

      Rainbond 每个节点的资源使用情况和健康状况的监控和快速发现故障对于 Rainbond 运维人员来说是非常必要的。Rainbond Node 服务集成了node-exporter,运行于所有节点之上,暴露出经过精简的 Prometheus 规范的操作系统和硬件的指标。

    • 管理服务监控指标

      Rainbond 所有服务和第三方服务都提供了 Prometheus 的 exporter API,以暴露当前服务的关键监控指标。

    • 应用容器资源指标

      应用运行的实例容器的资源占用情况(内存、CPU、IO、Net )虽然不能直接体现应用的负载情况,但可以配合应用业务级性能分析定位应用问题。容器的监控具有特殊性,容器是一个飘忽不定的监控目标。应用是确定的。因此 Rainbond 监控的维度是应用级容器。当前版本采用收集 Kubelet 集成的 Cadvisor 收集的容器监控指标。但其由于监控指标比较丰富,大多数情况下监控系统会冗余大量无用数据。Rainbond 后续版本将精简容器监控指标。

    Rainbond 提供了 rbd-monitor 组件,组件由 monitor 进程服务和Prometheus服务组成。monitor 服务有以下几方面工作:

    • 自动发现三方面监控目标。
    • 自动生成监控目标 Prometheus 配置并生效。
    • 提供配置报警规则的 API 服务,并自动设置 Prometheus 生效。用户可以通过 grctl 命令方便设置报警规则。
    • 自动对监控目标进行自动分类,集群统筹数据分区,以解决单机监控目标数有限问题。[TODO]
    • 对外提供集群负载的查询 API, 屏蔽底层 Prometheus 的数据分区差异,类似于项目thanos [TODO]

    Rbd-monitor 提供的查询 API, 数据显示方面可对接 Grafana 进行可视化,对接Altermanager进行报警信息处理。

    instance-monitor

    应用实例内存使用占比

    instance-monitor

    容器资源监控

    instance-monitor

    操作系统和硬件指标监控

    instance-alerting

    报警规则

    除此之外,当前版本还带来了一系列改进:进一步优化源码构建体系,支持 SVN 基于 Tag 方式构建应用、支持 Maven 的子项目构建、改进源码构建容器的创建策略,使用原始代码创建容器替换掉调用docker run命令以解决之前版本关于复杂构建变量无法传入的问题。为方便用户调试源码,支持使用 grctl 工具对源码进行脱离平台的检查和构建。通过简单的命令快速验证源码是否符合 Rainbond 要求。

    另外,借鉴广大企业用户对于 Rainbond 产品的使用体验的反馈,支持了应用的批量删除与批量移动组别、优化日志推送与存储、支持更改数据中心内部仓库域名等功能。

    具体更新清单如下:

    新增功能

    1. 增加应用实例所创建容器的资源指标 [文档]
    2. 增加节点操作系统和硬件指标监控 [文档]
    3. 增加各服务组件健康监控 [文档]
    4. 增加应用异常事件的查询与处理 [文档]
    5. 增加控制台可视化应用每个实例的内存使用情况 [文档]
    6. 增加支持自定义 Prometheus 报警规则 [文档]
    7. 增加 monitor 组件与 Alertmanager 的对接支持 [文档]
    8. 增加对 SVN 基于 Tag 版本选择构建的支持 [文档]
    9. 增加支持更改数据中心内部仓库域名 [文档]
    10. 增加批量删除应用,批量移动分组功能 [文档]
    11. 增加 grctl 命令行工具支持源码构建测试 [文档]
    12. 改进操作日志和构建日志的推送与存储
    13. 改进源码构建容器的构建策略,支持更多的参数传入

    已知问题修复

    1. 应用导出时存在的 bug
    2. grctl 获取应用信息时的信息缺失
    3. 自动部署提供的 URL 错误
    4. 解决了应用备份由于版本不存在导致的 bug

    关于 Rainbond 5.X 的 RaodMap 的草案讨论

    Rainbond 至开源以来,深受社区用户的欢迎,已经有大量企业用户尝试使用 Rainbond 作为企业产品开发,架构,运维和交付的重要基础平台。Rainbond 在经历了 3.X 系列 7 个版本的迭代周期以后,即将进入 5.X 版本周期。Rainbond 团队将在 Rainbond 5.X 体系中深入与社区生态结合。你是否关注 PaaS、Kubernetes, 微服务架构领域呢?

    点击查看并参与 Rainbond 5.X 版本规划:

    About Rainbond 5.X RoadMap Community needs collection

    了解更多

    1 条回复    2018-09-05 17:19:53 +08:00
    smarthadron
        1
    smarthadron  
       2018-09-05 17:19:53 +08:00
    42 分钟惨案……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2606 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 10:46 · PVG 18:46 · LAX 02:46 · JFK 05:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.