告警策略

告警策略是运维告警中至关重要的一部分,有助于您及时了解资源使用情况并处理突发事件。若您需针对某个资源对象的某个状态发送告警,便可通过创建告警策略实现。

监控告警事项

目前平台支持以下事项的监控:

微服务

  • API 网关实例 CPU 使用率异常
  • API 网关实例内存使用率异常
  • 注册中心实例 CPU 使用率异常
  • 注册中心实例内存使用率异常

机器

  • 机器时钟一致性异常
  • 机器 CPU
  • 机器磁盘
  • 磁盘 Inode 异常
  • 机器磁盘 IO
  • 机器 Load 5
  • 网盘
  • 网盘容量使用量异常
  • 机器宕机

扩展中间件

  • MySQL SLAVE DELAY ALERT
  • MySQL SLAVE SYNC ALERT

平台中间件

  • 平台中间件 Cassandra GC 次数异常
  • 平台中间件 Cassandra GC 耗时异常
  • 平台中间件实例 CPU 状态
  • 平台中间件异常退出
  • 平台中间件实例内存状态
  • 平台中间件实例 Ready 状态异常
  • 平台中间件 Elasticsearch GC 次数异常
  • 平台中间件 Elasticsearch GC 耗时异常
  • 平台中间件 Kafka GC 次数异常
  • 平台中间件 Kafka GC 耗时异常
  • 平台中间件 Kafka 消费堆积

平台组件

  • 平台组件实例 CPU 状态
  • 平台组件异常退出
  • 平台组件实例内存状态
  • 平台组件实例 Ready 状态异常
  • 平台组件 Flink 任务 checkpoint 延迟异常
  • 平台组件 Flink 吞吐量异常
  • 平台组件网盘不可用
  • 平台组件日志存储保护器状态变化

Kubernetes

  • Kubernetes 组件实例 CPU 状态
  • Kubernetes 组件异常退出
  • Kubernetes 组件实例内存状态
  • Kubernetes 组件实例 Ready 状态异常
  • Kubernetes 节点异常

项目中间件

  • Elasticsearch 实例 CPU 使用率异常
  • Elasticsearch 实例内存使用率异常
  • MySQL 实例 CPU 使用率异常
  • MySQL 实例内存使用率异常
  • MySQL 实例主从同步异常
  • Redis 实例内存使用率异常

创建告警策略

进入 多云管理平台 > 运维告警 > 告警策略 > 新建策略,指定需检测的集群、告警规则、沉默周期、选择群组等。

告警名称

创建告警策略时,需填写策略名称以作区分,策略名称不可重复。

告警集群

选择告警集群时,集群列表通过组织 ID 获取,集群可多选。

告警策略 - 图1

告警规则

选择告警规则时,可为监控项配置多条告警规则,满足其中任一条件即可触发告警。您可通过以下两种方式选择:用户在选择告警规则时有两种方式:

  • 选择 类型模板

    点击后将添加所选模版中的所有告警规则。例如,选择机器模版,告警规则将添加所有机器告警规则如下:

    告警策略 - 图2

  • 选择 添加规则

    点击后将随机添加一条告警规则,如需修改,可通过下拉列表自定义选择,列表中包含所有类型模版的告警规则。

    告警策略 - 图3

沉默周期

为避免告警发送过于频繁,您可以选择设置沉默周期,即设置相同规则所触发的告警相隔时间。目前支持的沉默周期有 5 分钟、10 分钟、15 分钟、30 分钟、60 分钟和 3 小时。

沉默周期策略

沉默周期策略需与沉默周期配合使用,目前平台支持以下两类沉默周期策略:

  • 固定:若您设置了 5 分钟的沉默周期,且沉默周期策略为固定,则相同规则所触发的告警间隔时间将保持为 5 分钟。
  • 翻倍:若您设置了 5 分钟的沉默周期,且沉默周期策略为翻倍,则相同规则所触发的告警间隔时间将翻倍,例如 5 分钟、10 分钟、20 分钟,以此递增。

选择群组

进入 管理中心 > 组织设置 > 通知管理 > 通知组,选择告警发送对象。

告警策略 - 图4