告警策略(节点级别)
KubeSphere 为节点和工作负载提供告警策略。本教程演示如何为集群中的节点创建告警策略。如需了解如何为工作负载配置告警策略,请参见告警策略(工作负载级别)。
KubeSphere 还具有内置策略,一旦满足为这些策略定义的条件,将会触发告警。 在内置策略选项卡,您可以点击任一策略查看其详情。请注意,这些策略不能直接在控制台上进行删除或编辑。
准备工作
- 您需要启用 KubeSphere 告警系统。
- 如需接收告警通知,您需要预先配置一个通知渠道。
- 您需要创建一个帐户 (
cluster-admin
) 并授予其clusters-admin
角色。有关更多信息,请参见创建企业空间、项目、帐户和角色。 - 您需要确保集群中存在工作负载。如果尚未就绪,请参见部署并访问 Bookinfo 创建一个示例应用。
创建告警策略
使用
cluster-admin
用户登录控制台。点击左上角的平台管理,然后点击集群管理。导航至监控告警下的告警策略,然后点击创建。
在出现的对话框中,填写以下基本信息。点击下一步继续。
- 名称:使用简明名称作为其唯一标识符,例如
node-alert
。 - 别名:帮助您更好地识别告警策略。
- 告警持续时间(分钟):若在告警持续时间内的任意时间点均满足为告警策略定义的条件,告警将会触发。
- 告警级别:提供的值包括一般告警、重要告警和危险告警,代表告警的严重程度。
- 描述信息:对告警策略的简要介绍。
- 名称:使用简明名称作为其唯一标识符,例如
在告警规则选项卡,您可以使用规则模板或创建自定义规则。如需使用规则模板,请填写以下字段,然后点击下一步继续。
- 监控目标:选择集群中的一个节点进行监控。
- 告警规则:为告警策略定义一个规则。下拉菜单中提供的规则基于 Prometheus 表达式,满足条件时将会触发告警。您可以对 CPU、内存等对象进行监控。
备注
您可以在监控指标字段输入表达式(支持自动补全),以使用 PromQL 创建自定义规则。有关更多信息,请参见 Querying Prometheus。
在通知设置选项卡,输入想要包含在通知中的告警标题和消息,点击创建。
告警策略刚创建后将显示为未触发状态;一旦满足规则表达式中的条件,则会首先达到待触发状态;满足告警条件的时间达到告警持续时间后,将变为触发中状态。
编辑告警策略
如需在创建后编辑告警策略,在告警策略页面点击右侧的 。
点击下拉菜单中的编辑,根据与创建时相同的步骤来编辑告警策略。点击通知设置页面的更新保存更改。
点击下拉菜单中的删除以删除告警策略。
查看告警策略
在告警策略页面,点击一个告警策略查看其详情,包括告警规则和告警消息。您还可以看到创建告警策略时基于所使用模板的告警规则表达式。
在监控下,告警监控图显示一段时间内的实际资源使用情况或使用量。通知设置显示您在通知中设置的自定义消息。