本节介绍如何创建告警规则组。
KubeSphere 企业版的监控告警功能底层基于 Promtheus 实现,每个规则组可包含多条告警规则。您可以使用系统提供的规则模板创建告警规则,也可手动输入 PromQL 表达式创建告警规则。有关更多信息,请参阅 Prometheus 官方文档。
说明 |
---|
KubeSphere 企业版仅支持创建自定义规则组,不支持创建内置规则组。 |
前提条件
您需要在 KubeSphere 企业版平台具有 platform-admin 角色。有关更多信息,请参阅用户和平台角色。
如需对应用程序的指标进行监控,您需要配置运行在容器中的应用程序,将符合 Prometheus 规范的监控指标暴露在某个服务端路径下,并在用于暴露工作负载的服务上设置监控导出器,以声明提供应用程序监控指标的路径。有关更多信息,请参阅编辑监控导出器。
操作步骤
以具有 platform-admin 角色的用户登录 KubeSphere 企业版 Web 控制台。
在页面右上角点击图标,选择 Whizard 可观测中心。
在左侧导航栏选择监控告警 > 规则组。
在规则组页面,点击自定义规则组打开规则组列表。
在页面点击创建。
在基本信息页签,设置规则组的基本信息,然后点击下一步。
参数 描述 名称
规则组的名称。
名称只能包含小写字母、数字和连字符(-),必须以小写字母或数字开头和结尾,最长 63 个字符。
别名
规则组的别名。不同规则组的别名可以相同。别名只能包含中文、字母、数字和连字符(-),不得以连字符(-)开头或结尾,最长 63 个字符。
检查间隔
指标检查之间的时间间隔。默认值为 1 分钟。
描述
规则组的描述信息。
描述可包含任意字符,最长 256 个字符。
在告警规则页签,点击添加告警规则,根据需要选择规则模板或自定义规则设置告警规则。
通用参数
参数 描述 规则名称
告警规则的名称。规则名称可包含任意字符,最长 63 个字符。
标签设置
为告警规则设置键值对标签,以便在通知订阅中通过标签过滤,发送标签符合特定条件的告警通知。
告警规则创建后,会自动生成一个键为 rule_id 的标签。
概要
告警消息的内容概要。消息概要可包含任意字符,最长 63 个字符。
详情
告警消息的详细描述。消息详情可包含任意字符,最长 256 个字符。
规则模板
通过下拉列表选择监控目标和触发条件。
参数 描述 监控目标
需要监控的集群节点或工作负载。
触发条件
触发告警的条件。您可以设置条件的指标、操作符、阈值、持续时间和告警的级别。例如,CPU 用量 > 80% 持续 60 分钟时触发重要告警。
自定义规则
通过 PromQL 表达式指定监控目标和触发条件。
参数 描述 集群设置
选择需要监控的资源所在的集群。
持续时间
设置系统等待一段时间并检查告警情况是否持续存在,如果告警情况持续存在才触发告警。
告警级别
告警的级别,包括提醒、警告、重要、紧急。
告警规则表达式
用于指定监控目标和触发条件的 PromQL 表达式。有关更多信息,请参阅 Prometheus 官方文档。
完成告警规则设置后点击保存设置,然后点击创建。
规则组创建完成后将显示在规则组列表中。