告警策略 —— 节点级别
告警是 KubeSphere Advanced 2.0.0 的新功能,自研的多租户告警系统支持灵活的告警策略和告警规则,目前 KubeSphere 告警系统具备以下特性:
- 支持基于多租户、多维度的监控指标告警,目前告警策略支持集群管理员对节点级别和租户对工作负载级别等两个层级;
- 灵活的告警策略:可自定义包含多个告警规则的告警策略,并且可以指定通知规则和重复告警的规则;
- 丰富的监控告警指标:提供节点级别和工作负载级别的监控告警指标,包括容器组、CPU、内存、磁盘、网络等多个监控告警指标;
- 灵活的告警规则:可自定义某监控指标的检测周期长度、周期次数、告警等级等;
- 灵活的通知发送规则:可自定义发送通知时间段及通知列表,目前支持邮件通知;
- 灵活的重复告警规则:可自定义重复告警周期、最大重复次数并和告警级别挂钩。
目的
本篇文档以创建一个节点级别的告警策略并发送邮件通知作为示例,引导集群管理员如何设置节点级别的告警策略。
操作示例
前提条件
管理员需预先配置邮件服务器,若还未配置可参考 邮件服务器。
演示视频
第一步:添加告警策略
以
cluster-admin
登录 KubeSphere,点击 「平台管理」,选择 「监控中心」。选择 「告警策略」,点击 「添加策略」。
第二步:填写基本信息
在弹窗中,参考如下提示填写基本信息,完成后点击 「下一步」。
- 名称:为告警策略起一个简洁明了的名称,便于用户浏览和搜索,比如
alert-demo
; - 别名:帮助您更好的区分资源,并支持中文名称,比如
示例告警
; - 描述信息:简单介绍该告警策略。
第三步:选择监控目标
监控目标支持按三种指标进行排行,这里选择 按内存使用率排行,选择排行前三的三台主机,注意这三台主机的内存利用率都超过了 50%,为了演示方便,下一步告警规则中可以设置内存使用率的阈值为 > 50%。完成后点击 「下一步」。
监控目标支持按如下三种指标排行:
- 按内存使用率排行
- 按 CPU 使用率排行
- 按容器组用量排行
第四步:添加告警规则
告警规则支持的指标、扫描周期、连续次数、告警等级非常丰富,本示例以设置内存利用率作为告警指标,内存使用率的阈值为 > 50%,级别为重要告警,设置的规则如截图所示:
说明:节点支持的告警指标如下:
- CPU:节点 CPU 利用率、节点 CPU 1 分钟平均负载、节点 CPU 5 分钟平均负载、节点 CPU 15 分钟平均负载;
- 内存:节点可用内存、节点内存利用率;
- 磁盘:节点本地磁盘可用空间、节点本地磁盘空间利用率、节点本地磁盘读取 IOPS、节点本地磁盘写入 IOPS、本地磁盘读取吞吐量、本地磁盘写入吞吐量、inode 利用率;
- 网络:网络发送数据速率、网络接收数据速率;
- 容器组:容器组异常率、容器组利用率。
完成后点击 「保存」,然后选择 「下一步」。
第五步:设置通知规则
通知有效时间可以设置发送通知邮件的时间范围,例如
09:00 ~ 19:00
,通知渠道目前仅支持邮箱,在通知列表中输入需要通知的成员邮箱。重复规则设置的是告警通知的发送周期和重发频度,如果告警一直未解决,相隔一定的时间将会重复发送告警。针对不同级别的告警也可以设置不同的重复规则,由于上一步设置的告警级别是重要告警,因此选择重要告警的规则为 每 5 分钟警告一次,最多重发 3 次。参考如下截图设置通知规则:
- 点击 「创建」,可以看到示例告警策略创建成功。
说明:告警的等待时间 = 检测周期 x 连续次数。例如检测周期为 1 分钟/周期,连续次数为 2 次,那么需要等待 2 分钟。
第六步:查看告警策略
告警策略创建成功后,点击进入 alert-demo
告警策略的详情页,查看告警规则当前的状态和详细信息,包括监控目标、通知规则和告警历史等。
左侧点击 「更多操作」 → 「更改状态」,支持启用或停用告警策略。