告警策略
告警策略是运维告警中至关重要的一部分,有助于您及时了解资源使用情况并处理突发事件。若您需针对某个资源对象的某个状态发送告警,可通过创建告警策略实现。
监控告警事项
目前平台支持以下事项的监控:
微服务
- API 网关实例 CPU 使用率异常
- API 网关实例内存使用率异常
- 注册中心实例 CPU 使用率异常
- 注册中心实例内存使用率异常
机器
- 机器时钟一致性异常
- 机器 CPU
- 机器磁盘
- 磁盘 Inode 异常
- 机器磁盘 IO
- 机器 Load 5
- 网盘
- 网盘容量使用量异常
- 机器宕机
扩展中间件
- MySQL SLAVE DELAY ALERT
- MySQL SLAVE SYNC ALERT
平台中间件
- 平台中间件 Cassandra GC 次数异常
- 平台中间件 Cassandra GC 耗时异常
- 平台中间件实例 CPU 状态
- 平台中间件异常退出
- 平台中间件实例内存状态
- 平台中间件实例 Ready 状态异常
- 平台中间件 Elasticsearch GC 次数异常
- 平台中间件 Elasticsearch GC 耗时异常
- 平台中间件 Kafka GC 次数异常
- 平台中间件 Kafka GC 耗时异常
- 平台中间件 Kafka 消费堆积
平台组件
- 平台组件实例 CPU 状态
- 平台组件异常退出
- 平台组件实例内存状态
- 平台组件实例 Ready 状态异常
- 平台组件 Flink 任务 checkpoint 延迟异常
- 平台组件 Flink 吞吐量异常
- 平台组件网盘不可用
- 平台组件日志存储保护器状态变化
Kubernetes
- Kubernetes 组件实例 CPU 状态
- Kubernetes 组件异常退出
- Kubernetes 组件实例内存状态
- Kubernetes 组件实例 Ready 状态异常
- Kubernetes 节点异常
项目中间件
- Elasticsearch 实例 CPU 使用率异常
- Elasticsearch 实例内存使用率异常
- MySQL 实例 CPU 使用率异常
- MySQL 实例内存使用率异常
- MySQL 实例主从同步异常
- Redis 实例内存使用率异常
创建告警策略
进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,指定需检测的集群、告警规则、沉默周期、选择群组等。
告警名称
创建告警策略时,需填写策略名称以作区分,策略名称不可重复。
告警集群
选择告警集群时,集群列表通过组织 ID 获取,集群可多选。
告警规则
选择告警规则时,可为监控项配置多条告警规则,满足其中任一条件即可触发告警。您可通过以下两种方式选择:
选择 类型模板
点击后将添加所选模版中的所有告警规则。例如,选择机器模版,告警规则将添加所有机器告警规则如下:
选择 添加规则
点击后将随机添加一条告警规则,如需修改,可通过下拉列表自定义选择,列表中包含所有类型模版的告警规则。
沉默周期
为避免告警发送过于频繁,您可以选择设置沉默周期,即设置相同规则所触发的告警相隔时间。目前支持的沉默周期为 5 分钟、10 分钟、15 分钟、30 分钟、60 分钟和 3 小时。
沉默周期策略
沉默周期策略需与沉默周期配合使用,目前平台支持以下两种沉默周期策略:
- 固定:若您设置了 5 分钟的沉默周期,且沉默周期策略为固定,则相同规则所触发的告警间隔时间将保持为 5 分钟。
- 翻倍:若您设置了 5 分钟的沉默周期,且沉默周期策略为翻倍,则相同规则所触发的告警间隔时间将翻倍,例如 5 分钟、10 分钟、20 分钟,以此递增。
选择群组
进入 管理中心 > 组织设置 > 通知管理 > 通知组,选择告警发送对象。