本节介绍如何创建告警规则组。

KubeSphere 企业版的监控告警功能底层基于 Promtheus 实现,每个规则组可包含多条告警规则。您可以使用系统提供的规则模板创建告警规则,也可手动输入 PromQL 表达式创建告警规则。有关更多信息,请参阅 Prometheus 官方文档

前提条件

  • KubeSphere 企业版平台需要安装并启用 WhizardTelemetry 告警管理扩展组件。

  • 您需要加入一个集群或项目,并在集群或项目中具有规则组管理权限。有关更多信息,请参阅集群角色项目角色

操作步骤

  1. 以具有规则组管理权限的用户登录 KubeSphere 企业版 Web 控制台并进入您的集群或项目。

  2. 在左侧导航栏选择监控告警 > 规则组

  3. 规则组页面,点击自定义规则组内置规则组打开规则组列表。

  4. 在页面点击创建

  5. 基本信息页签,设置规则组的基本信息,然后点击下一步

    参数描述

    名称

    规则组的名称。

    名称只能包含小写字母、数字和连字符(-),必须以小写字母或数字开头和结尾,最长 63 个字符。

    别名

    规则组的别名。不同规则组的别名可以相同。别名只能包含中文、字母、数字和连字符(-),不得以连字符(-)开头或结尾,最长 63 个字符。

    检查间隔

    指标检查之间的时间间隔。默认值为 1 分钟。

    描述

    规则组的描述信息。

    描述可包含任意字符,最长 256 个字符。

  6. 告警规则页签,点击添加告警规则,根据需要选择规则模板自定义规则设置告警规则。

    • 通用参数

      参数描述

      规则名称

      告警规则的名称。规则名称可包含任意字符,最长 63 个字符。

      标签设置

      为告警规则设置键值对标签,以便在通知订阅中通过标签过滤,发送标签符合特定条件的告警通知。

      告警规则创建后,会自动生成一个键为 rule_id 的标签。

      概要

      告警消息的内容概要。消息概要可包含任意字符,最长 63 个字符。

      详情

      告警消息的详细描述。消息详情可包含任意字符,最长 256 个字符。

    • 规则模板

      通过下拉列表选择监控目标和触发条件。

      参数描述

      资源类型

      需要监控的工作负载的类型,如部署、有状态副本集、守护进程集。仅显示在项目的告警规则设置中。

      监控目标

      需要监控的目标,如集群节点、工作负载等。

      触发条件

      触发告警的条件。您可以设置条件的指标、操作符、阈值、持续时间和告警的级别。例如,CPU 用量 > 80% 持续 60 分钟时触发重要告警。

    • 自定义规则

      通过 PromQL 表达式指定监控目标和触发条件。

      参数描述

      持续时间

      设置系统等待一段时间并检查告警情况是否持续存在,如果告警情况持续存在才触发告警。

      告警级别

      告警的级别,包括提醒、警告、重要、紧急

      告警规则表达式

      用于指定监控目标和触发条件的 PromQL 表达式。有关更多信息,请参阅 Prometheus 官方文档

  7. 完成告警规则设置后点击check保存设置,然后点击创建

    规则组创建完成后将显示在规则组列表中。