常用告警配置

集群投入生产后,您需要时刻关注集群的整体状况,也可通过告警设置,在集群发生异常时接收通知。

进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,平台已内置多种告警策略,您可以通过 类型模板 选择使用。

常用告警配置 - 图1

您也可以根据实际情况,自定义配置告警规则,选择合适的阀值及相关聚合函数。

节点

对于机器节点,您需要着重关注其资源的使用情况、节点状态等。

常用告警配置 - 图2

状态

若机器出现意外宕机,结果极有可能影响服务。因此建议您首要设置机器宕机告警。

CPU

CPU 使用率将衡量一段时间内 CPU 在用户进程、内核进程以及中断处理中的占比。CPU 高未必一定是坏事,这只能说明系统正在全力工作。然而,当 CPU 使用率长时间保持高位时,您便需要多加关注了。

一般情况下,5 分钟内 CPU 使用率不应高于 95%。

内存

在机器层面,您只需关注内存使用率,它表示机器整体的内存资源使用情况。

一般情况下,内存使用率不应高于 80%。

磁盘

磁盘作为物理资源,同样也会影响用户进程。例如,磁盘满后数据库应用将不可写入,Inode 满后将无法创建新文件等。

一般情况下,磁盘使用率不应高于 86%,磁盘 Inode 使用率不应高于 85%。

平均负载

平均负载指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,即平均活跃进程数,和 CPU 使用率无直接关联。

您也可以将其理解为系统的整体繁忙程度,负载越大则系统越繁忙,各类资源相对紧缺。默认情况下阀值设置为 20,您可以根据实际节点的 CPU 个数进行调整。

一般情况下,单个 CPU 的平均负载不应高于 70%。

集群组件

除关注机器节点的情况外,您还需要关注系统组件的状况。多数情况下,Erda 运行在 Kubernetes 集群上,因此,下文将以 Kuberntes 集群为例进行说明。

状态

Kubernetes 系统组件的状态尤为重要。平台将采集组件退出的事件、实例是否满足逾期个数等信息,因此建议您开启 Kubernetes 的相关告警策略。

常用告警配置 - 图3

资源使用

组件实例的资源使用情况将影响组件稳定性,例如内存不足导致 OOM,CPU 不足导致处理缓慢、卡死等。平台提供的默认配置相对保守,您也可以根据实际情况调整阈值。

其他

其他预置告警策略,主要涉及 Erda 自身组件及相关中间件,一般无需开启。