配置常用的机器告警

集群投入生产后，您需要时刻关注集群的整体状况，也可通过告警设置，在集群发生异常时接收通知。

进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略，平台已内置多种告警策略，您可以通过 类型模板 选择使用。

您也可以根据实际情况，自定义配置告警规则，选择合适的阀值及相关聚合函数。

节点

对于机器节点，您需要着重关注其资源的使用情况、节点状态等。

若机器出现意外宕机，结果极有可能影响服务。因此建议您优先设置机器宕机告警。

CPU 使用率将衡量一段时间内 CPU 在用户进程、内核进程以及中断处理中的占比。高 CPU 不等同于故障，但若 CPU 使用率长时间保持高位，则需多加关注了。

一般情况下，5 分钟内 CPU 使用率不应高于 95%。

在机器层面，您只需关注内存使用率，它表示机器整体的内存资源使用情况。

一般情况下，内存使用率不应高于 80%。

磁盘作为物理资源，同样会影响用户进程。例如，磁盘满后数据库应用将不可写入，Inode 满后将无法创建新文件等。

一般情况下，磁盘使用率不应高于 86%，磁盘 Inode 使用率不应高于 85%。

平均负载指单位时间内，系统处于可运行状态和不可中断状态的平均进程数，即平均活跃进程数，和 CPU 使用率无直接关联。

您也可以将其理解为系统的整体繁忙程度，负载越大则系统越繁忙，各类资源相对紧缺。默认情况下阀值设置为 20，您可以根据实际节点的 CPU 个数进行调整。

一般情况下，单个 CPU 的平均负载不应高于 70%。

除关注机器节点的情况外，您还需要关注系统组件的状况。多数情况下，Erda 运行在 Kubernetes 集群上，因此，下文将以 Kuberntes 集群为例进行说明。

Kubernetes 系统组件的状态尤为重要。平台将采集组件退出的事件、实例是否满足逾期个数等信息，因此建议您开启 Kubernetes 的相关告警策略。

组件实例的资源使用情况将影响组件稳定性，例如内存不足导致 OOM，CPU 不足导致处理缓慢、卡死等。平台提供的默认配置相对保守，您也可以根据实际情况调整阈值。