目的

KubeSphere 提供节点和工作负载级别的告警策略,普通用户可以在项目中设置工作负载级别的告警策略。本篇文档以创建一个工作负载级别的告警策略并发送邮件通知作为示例,引导用户在项目中如何设置工作负载级别的告警策略。

操作示例

前提条件

  • 需由集群管理员预先配置邮件服务器,若还未配置可参考 邮件服务器
  • 已创建了企业空间和项目并且创建了项目普通用户 project-regular 的账号,若还未创建请参考 多租户管理快速入门
  • 项目中已有工作负载,若没有可在 「应用」→「部署新应用」,选择 「部署示例应用 Bookinfo」 快速部署一个应用。

第一步:添加告警策略

以项目普通用户 project-regular 登录 KubeSphere,进入示例项目 demo-namespace,选择 「监控告警」→「告警策略」,点击 「添加策略」。

告警策略 —— 工作负载级别 - 图1

第二步:填写基本信息

在弹窗中,参考如下提示填写基本信息,完成后点击 「下一步」。

  • 名称:为告警策略起一个简洁明了的名称,便于用户浏览和搜索,比如 alert-demo
  • 别名:帮助您更好的区分资源,并支持中文名称,比如 告警策略示例
  • 描述信息:简单介绍该告警策略。

告警策略 —— 工作负载级别 - 图2

第三步:选择监控目标

监控目标支持部署、有状态副本集、守护进程集三种工作负载,这里选择 部署,选择 reviews-v1 和 details-v1 作为监控目标,然后点击 「下一步」。

告警策略 —— 工作负载级别 - 图3

第四步:添加告警规则

点击 「添加规则」,本示例以设置 内存用量 作为告警指标,监控周期为 1 分钟/周期,选择 连续 2 次,内存用量的阈值 > 20 MiB,级别为重要告警,设置的规则如截图所示:

告警策略 —— 工作负载级别 - 图4

说明: 工作负载支持的告警规则如下:

  • CPU 用量;
  • 内存用量 (包含缓存);
  • 内存用量;
  • 网络:网络发送数据速率、网络接收数据速率;
  • 工作负载指标:部署副本不可用率、有状态副本集副本不可用率、守护进程集不可用率 (工作负载的副本不可用率: 比如对 Nginx 的 部署设置 5 个副本后正常运行的副本状态是 5/5, 如果部署不可用率设置了大于等于 20%,那么只要当副本运行状态为 4/5 的时刻就会发送告警)

完成后点击 「保存」,然后点击 「下一步」。

第五步:设置通知规则

  1. 通知有效时间可以设置发送通知邮件的时间范围,例如 09:00 ~ 19:00,通知渠道目前仅支持邮箱,在通知列表中输入需要通知的成员邮箱。

  2. 重复规则设置的是告警通知的发送周期和重发频度,如果告警一直未解决,相隔一定的时间将会重复发送告警。针对不同级别的告警也可以设置不同的重复规则,由于上一步设置的告警级别是重要告警,因此选择重要告警的规则为 每 5 分钟警告一次,最多重发 3 次。参考如下截图设置通知规则:

告警策略 —— 工作负载级别 - 图5

  1. 点击 「创建」,可以看到示例告警策略创建成功。

说明:告警的等待时间 = 检测周期 x 连续次数。例如检测周期为 1 分钟/周期,连续次数为 2 次,那么需要等待 2 分钟。

告警策略 —— 工作负载级别 - 图6

第六步:查看告警策略

告警策略创建成功后,点击进入 alert-demo 告警策略的详情页,查看告警规则当前的状态和详细信息,包括监控目标、通知规则和告警历史等。

告警策略 —— 工作负载级别 - 图7

左侧点击 「更多操作」 → 「更改状态」,支持启用或停用告警策略。