告警 - 常用告警项管理 - 《OceanBase v2.2.30 官方教程》

背景信息
告警项管理
告警项说明列表

您可以通过 OCP 的告警项功能，对常用的告警项进行管理。

背景信息

不同 OCP 版本的操作界面可能不同，本节以 OCP V2.4.4版本为例提供操作指导，OCP 其他版本的操作请参考对应版本的《OCP 用户指南》文档。

告警项管理

登录 OCP。
在左侧导航栏上，单击 系统管理 > 告警。
单击 告警项配置 页签。

可以查看和编辑系统内置的告警项。
单击 分组管理 后，再单击 管理告警项 可进入分组管理告警项界面，对各个分组下的告警项进行添加和删除。
回到告警项列表页面，单击 新建告警项，进入 新建告警项 界面。
配置告警项的规则信息。
1. 设置告警项所属范围。
2. 设置匹配对象，确定告警规则适用的对象。
3. 设置触发条件。
  1. 根据告警项所属范围的不同，可以在运算规则里选择不同的指标。
  2. 持续时长为 0 表示立即触发，可以设定时长，用于避免因指标毛刺产生的告警误报。
4. 设置检测周期和消除周期。
配置告警项的基本信息。
1. 设置告警项名称和中文名称。
2. 设置告警等级。
3. 根据页面提示设置告警概述模板。
4. 根据页面提示设置告警详情模板。
  - 告警概述模板用于在通道的模板字段中引用，对应的变量名为 alarm_summary。
  - 告警详情模板用于在通道的模板字段中引用，对应的变量名为 alarm_description。
单击确定。

告警项说明列表

内置的告警项及其说明如下，您可以根据不同环境特点对部分告警项阈值进行配置。

告警项名称	告警项说明	采集范围	告警等级	阈值推荐值	告警触发影响
ob_cluster_exists_inactive_server	OceanBase 集群存在不工作 OBserver	集群	严重	0	OceanBase 集群内节点心跳数据发送超时导致状态变为 inactive，一般可能的原因有网络异常、操作系统奔溃等
ob_cluster_merge_timeout	OceanBase 集群合并超时	集群	严重	1	OceanBase 集群合并超过集群内配置合并超时时长导致集群合并状态变为 TIMEOUT，原因需登录集群排查
ob_cluster_merge_error	OceanBase 集群合并出错	集群	严重	1	OceanBase 集群合并异常导致集群合并状态变为 ERROR，原因需登录集群排查
ob_cluster_no_merge	OceanBase 集群合并检测失败	集群	严重	108000	OceanBase 集群超过阈值秒未合并触发告警，原因需登录集群排查
ob_cluster_no_frozen	OceanBase 集群冻结检测失败	集群	严重	172800	OceanBase 集群版本超过阈值秒未冻结触发告警，原因需登录集群排查
ob_cluster_exists_index_fail_table	OceanBase 集群存在索引失败的表	集群	严重	0	OceanBase 集群合并后存在索引构建失败的表触发，原因需登录集群排查
ob_tenant500_mem_hold_percent_over_threshold	OceanBase 集群内 500 租户内存占用率超限	集群	严重	25	OceanBase 集群内部 500 租户内存使用超过阈值百分比，原因可能与部分节点内存泄漏有关，需登录集群排查
ob_zone_sstable_percent_over_threshold	OceanBase 集群 Zone 数据盘使用率超限	集群	严重	95	OceanBase 集群 Zone 数据盘使用率超过阈值百分比触发，原因与集群磁盘已使用水位过高有关，需登录集群排查
ob_cluster_frozen_version_delta_over_threshold	OceanBase 集群冻结版本和基线版本的差值超限	集群	严重	1	OceanBase 集群冻结版本与基线版本差值超过 1 触发告警，原因与集群冻结异常有关，需登录集群排查
tenant_memstore_percent_over_threshold	OceanBase 集群租户内存使用百分比超限	租户	警告	90	OceanBase 集群租户内存使用百分比超过阈值，原因与集群转储或合并异常有关，需登录集群排查
tenant_disk_percent_over_threshold	OceanBase 集群内租户数据盘使用率超限	租户	警告	70	OceanBase 集群租户数据盘使用超过阈值触发，原因与租户磁盘使用水位过高有关，需登录集群排查
tenant_cpu_percent_over_threshold	OceanBase 集群内租户 CPU 使用率超限	租户	警告	100	OceanBase 集群租户 CPU 使用超过阈值触发，原因与租户读写压力有关，需结合 QTPS 监控项排查
tenant_connection_percent_over_threshold	OceanBase 集群内租户连接数百分比超限	租户	警告	10000	OceanBase 集群内租户当前连接数超过阈值触发，原因与租户使用行为有关，需结合Active_session 监控项排查，该监控项推荐结合租户节点数进行配置，目前 OceanBase 数据库单节点连接数上限为 65535
tenant_active_memstore_percent_over_threshold	OceanBase 集群内租户活跃内存百分比超限	租户	警告	100	OceanBase 集群内租户活跃内存百分比超过阈值时触发，原因与租户读写压力、租户内存异常泄漏等有关，需登录集群排查
obagent_upgrade_failed	OBAgent 升级失败	服务器	严重	0	OCP 基础组件 OBAgent 升级失败触发，原因与 OBAgent升级行为有关，需登录对应服务器进行排查
ob_host_down	OceanBase 数据库机器不可用	服务器	停服	0	服务器节点宕机触发，原因与服务器硬件、软件等有关，需登录对应服务器进行排查
ob_host_tcp_retrans_percent_over_threshold	OceanBase 数据库服务器 TCP 重传率超限	服务器	严重	50	服务器节点 TCP 重传率超过阈值触发，与服务器网卡或集群网络异常等有关，需结合 NET 监控项并登录对应服务器进行排查
ob_server_sstable_percent_over_threshold	OceanBase 数据库服务器数据盘使用率超限	服务器	警告	85	服务器数据盘使用率超过阈值触发，与服务器数据盘使用有关，需登录对应服务器进行排查
ob_host_ssd_wear_indicator_over_threshold	OceanBase 数据库服务器 SSD 使用百分比超限	服务器	严重	95	服务器 SSD 盘损耗百分比超过阈值触发，与服务器 SSD 使用损耗有关，需登录对应服务器进行确认排查
ob_tenant500_mem_hold_over_threshold	OceanBase 集群内 500 租户的占用内存大小超限	服务器	严重	50	服务器 OceanBase 数据库进程内部租户内存使用百分比超过阈值触发，与内部租户内存消耗有关，需登录系统租户进行排查
ob_host_disk_readonly	OceanBase 数据库服务器磁盘只读	服务器	严重	1	服务器磁盘状态变为只读触发告警，与磁盘可用状态异常有关，需登录对应服务器确认
ob_host_partition_count_over_threshold	OceanBase 数据库服务器分区数量超限	服务器	严重	30000	OceanBase 数据库节点上 Partition分区数超过阈值触发告警，与集群 Partition 总数及分布有关，需登录系统租户进行排查
ob_host_net_send_percent_over_threshold	OceanBase 数据库服务器网络发送带宽使用率超限	服务器	警告	80	服务器网络发送带宽使用率超限触发，与集群读写压力、集群内部状态等有关，需结合 NET 监控并登录系统租户进行排查
ob_host_ntp_command_not_found	OceanBase 数据库服务器 ntp 命令不存在	服务器	严重	1	OceanBase 数据库服务器上 NTP 服务命令不可用触发告警，与服务器操作系统 NTP 服务器可用性有关，需登录对应服务器排查
ob_host_ntp_offset_too_large	OceanBase 数据库服务器 ntp 偏移量过大	服务器	严重	50	OceanBase 数据库服务器 NTP 服务偏移量超过阈值触发，与节点配置的 NTP 服务本身、节点 NTP 时钟服务、网络等有关，需登录对应服务器进行排查
ob_host_net_exception	OceanBase 数据库服务器网络错误	服务器	停服		OceanBase 集群网络错误触发，与服务器网络有关，需排查服务器网络可用性
ob_host_mem_percent_over_threshold	OceanBase 数据库服务器内存使用率超限	服务器	严重	90	服务器 OceanBase 数据库进程内存使用超过阈值触发，与进程内存溢出有关，需登录对应服务器进行排查
ob_mem_assigned_percent_over_threshold	OceanBase 集群已经分配给租户的内存占比超限	服务器	警告	100	OceanBase 集群分配给租户的内存占比超过阈值触发，与租户内存分配有关，需登录系统租户及对应服务器进行排查
ob_host_load1_per_cpu_over_threshold	OceanBase 数据库服务器CPU平均 load1 超限	服务器	严重	4	OceanBase 数据库服务器 CPU 平均 load 超过阈值持续 5 分钟触发，与该服务器上读写压力有关，需结合 QTPS 监控项进行排查
ob_host_net_recv_percent_over_threshold	OceanBase 数据库服务器网络接收带宽使用率超限	服务器	警告	80	服务器网络接收带宽使用率超限触发，与集群读写压力、集群内部状态等有关，需结合 NET 监控并登陆系统租户进行排查
ob_host_exists_expired_trans	OceanBase 数据库服务器存在悬挂事务	服务器	警告	1	OceanBase 数据库服务器上存在悬挂事务超过阈值触发，与用户行为有关，需结合 TPS 及 SQL 监控进行排查
ob_host_disk_percent_over_threshold	OceanBase 数据库服务器磁盘使用率超限	服务器	警告	97	OceanBase 数据库服务器磁盘使用率超过阈值触发，与磁盘使用水位过高有关，需登录到对应服务器进行排查
ob_cpu_percent_over_threshold	OceanBase 集群内统计的CPU使用率超限	服务器	严重	99	OceanBase 集群内部统计 CPU 使用率超过阈值持续 5 分钟触发，与用户行为有关，需结合 TPS 及 SQL 监控进行排查
ob_cpu_assigned_percent_over_threshold	OceanBase 集群已经分配给租户的 CPU 占比超限	服务器	警告	100	OceanBase 集群分配给租户的 CPU 占比超过阈值触发，与租户 CPU 分配有关，需登录系统租户及对应服务器进行排查
ob_host_cpu_percent_over_threshold	OceanBase 数据库服务器 CPU 使用率超限	服务器	严重	100	OceanBase 数据库服务器使用系统 CPU 超过阈值 1 分钟触发，与 OceanBase 数据库服务及服务器上其他进程使用 CPU 有关，需登录到对应服务器进行排查
ob_cannot_connected	OceanBase 数据库服务器无法连接	服务器	停服	0	OceanBase 数据库服务器无法连接触发，需与服务器运维方确认
ob_log_alarm	OceanBase 数据库日志告警	服务器	警告		OceanBase 数据库的 election、rootservice、observer 日志中出现 ERROR 级告警日志触发，与 OceanBase 数据库内部行为、运行状况等有关，需登录系统租户确认
obagent_process_dead	obagent 进程不可用	服务器	严重		OceanBase 数据库服务器上 OCP 组件obagent 进程异常不工作触发，与 obagent 进程运行异常、操作系统异常等有关，需登录对应服务器进行排查确认
obagent_dead	obagent 服务不可用	服务器	停服		OceanBase 数据库服务器上 OCP 组件obagent 服务结束触发，与 obagent 进程消亡、进程异常终止等有关，需登录服务器排查确认