您可以通过 OCP 的告警项功能,对常用的告警项进行管理。
背景信息
不同 OCP 版本的操作界面可能不同,本节以 OCP V2.4.4版本为例提供操作指导,OCP 其他版本的操作请参考对应版本的《OCP 用户指南》文档。
告警项管理
登录 OCP。
在左侧导航栏上,单击 系统管理 > 告警。
单击 告警项配置 页签。
可以查看和编辑系统内置的告警项。
单击 分组管理 后,再单击 管理告警项 可进入分组管理告警项界面,对各个分组下的告警项进行添加和删除。
回到告警项列表页面,单击 新建告警项,进入 新建告警项 界面。
配置告警项的规则信息。
设置告警项所属范围。
设置匹配对象,确定告警规则适用的对象。
设置触发条件。
根据告警项所属范围的不同,可以在运算规则里选择不同的指标。
持续时长为 0 表示立即触发,可以设定时长,用于避免因指标毛刺产生的告警误报。
设置检测周期和消除周期。
配置告警项的基本信息。
设置告警项名称和中文名称。
设置告警等级。
根据页面提示设置告警概述模板。
根据页面提示设置告警详情模板。
告警概述模板用于在通道的模板字段中引用,对应的变量名为 alarm_summary。
告警详情模板用于在通道的模板字段中引用,对应的变量名为 alarm_description。
- 单击 确定。
告警项说明列表
内置的告警项及其说明如下,您可以根据不同环境特点对部分告警项阈值进行配置。
告警项名称 | 告警项说明 | 采集范围 | 告警等级 | 阈值推荐值 | 告警触发影响 |
---|---|---|---|---|---|
ob_cluster_exists_inactive_server | OceanBase 集群存在不工作 OBserver | 集群 | 严重 | 0 | OceanBase 集群内节点心跳数据发送超时导致状态变为 inactive,一般可能的原因有网络异常、操作系统奔溃等 |
ob_cluster_merge_timeout | OceanBase 集群合并超时 | 集群 | 严重 | 1 | OceanBase 集群合并超过集群内配置合并超时时长导致集群合并状态变为 TIMEOUT,原因需登录集群排查 |
ob_cluster_merge_error | OceanBase 集群合并出错 | 集群 | 严重 | 1 | OceanBase 集群合并异常导致集群合并状态变为 ERROR,原因需登录集群排查 |
ob_cluster_no_merge | OceanBase 集群合并检测失败 | 集群 | 严重 | 108000 | OceanBase 集群超过阈值秒未合并触发告警,原因需登录集群排查 |
ob_cluster_no_frozen | OceanBase 集群冻结检测失败 | 集群 | 严重 | 172800 | OceanBase 集群版本超过阈值秒未冻结触发告警,原因需登录集群排查 |
ob_cluster_exists_index_fail_table | OceanBase 集群存在索引失败的表 | 集群 | 严重 | 0 | OceanBase 集群合并后存在索引构建失败的表触发,原因需登录集群排查 |
ob_tenant500_mem_hold_percent_over_threshold | OceanBase 集群 内 500 租户内存占用率超限 | 集群 | 严重 | 25 | OceanBase 集群内部 500 租户内存使用超过阈值百分比,原因可能与部分节点内存泄漏有关,需登录集群排查 |
ob_zone_sstable_percent_over_threshold | OceanBase 集群 Zone 数据盘使用率超限 | 集群 | 严重 | 95 | OceanBase 集群 Zone 数据盘使用率超过阈值百分比触发,原因与集群磁盘已使用水位过高有关,需登录集群排查 |
ob_cluster_frozen_version_delta_over_threshold | OceanBase 集群冻结版本和基线版本的差值超限 | 集群 | 严重 | 1 | OceanBase 集群冻结版本与基线版本差值超过 1 触发告警,原因与集群冻结异常有关,需登录集群排查 |
tenant_memstore_percent_over_threshold | OceanBase 集群租户内存使用百分比超限 | 租户 | 警告 | 90 | OceanBase 集群租户内存使用百分比超过阈值,原因与集群转储或合并异常有关,需登录集群排查 |
tenant_disk_percent_over_threshold | OceanBase 集群内租户数据盘使用率超限 | 租户 | 警告 | 70 | OceanBase 集群租户数据盘使用超过阈值触发,原因与租户磁盘使用水位过高有关,需登录集群排查 |
tenant_cpu_percent_over_threshold | OceanBase 集群内租户 CPU 使用率超限 | 租户 | 警告 | 100 | OceanBase 集群租户 CPU 使用超过阈值触发,原因与租户读写压力有关,需结合 QTPS 监控项排查 |
tenant_connection_percent_over_threshold | OceanBase 集群内租户连接数百分比超限 | 租户 | 警告 | 10000 | OceanBase 集群内租户当前连接数超过阈值触发,原因与租户使用行为有关,需结合Active_session 监控项排查,该监控项推荐结合租户节点数进行配置,目前 OceanBase 数据库单节点连接数上限为 65535 |
tenant_active_memstore_percent_over_threshold | OceanBase 集群 内租户活跃内存百分比超限 | 租户 | 警告 | 100 | OceanBase 集群内租户活跃内存百分比超过阈值时触发,原因与租户读写压力、租户内存异常泄漏等有关,需登录集群排查 |
obagent_upgrade_failed | OBAgent 升级失败 | 服务器 | 严重 | 0 | OCP 基础组件 OBAgent 升级失败触发,原因与 OBAgent升级行为有关,需登录对应服务器进行排查 |
ob_host_down | OceanBase 数据库机器不可用 | 服务器 | 停服 | 0 | 服务器节点宕机触发,原因与服务器硬件、软件等有关,需登录对应服务器进行排查 |
ob_host_tcp_retrans_percent_over_threshold | OceanBase 数据库服务器 TCP 重传率超限 | 服务器 | 严重 | 50 | 服务器节点 TCP 重传率超过阈值触发,与服务器网卡或集群网络异常等有关,需结合 NET 监控项并登录对应服务器进行排查 |
ob_server_sstable_percent_over_threshold | OceanBase 数据库服务器数据盘使用率超限 | 服务器 | 警告 | 85 | 服务器数据盘使用率超过阈值触发,与服务器数据盘使用有关,需登录对应服务器进行排查 |
ob_host_ssd_wear_indicator_over_threshold | OceanBase 数据库服务器 SSD 使用百分比超限 | 服务器 | 严重 | 95 | 服务器 SSD 盘损耗百分比超过阈值触发,与服务器 SSD 使用损耗有关,需登录对应服务器进行确认排查 |
ob_tenant500_mem_hold_over_threshold | OceanBase 集群内 500 租户的占用内存大小超限 | 服务器 | 严重 | 50 | 服务器 OceanBase 数据库进程内部租户内存使用百分比超过阈值触发,与内部租户内存消耗有关,需登录系统租户进行排查 |
ob_host_disk_readonly | OceanBase 数据库服务器磁盘只读 | 服务器 | 严重 | 1 | 服务器磁盘状态变为只读触发告警,与磁盘可用状态异常有关,需登录对应服务器确认 |
ob_host_partition_count_over_threshold | OceanBase 数据库服务器分区数量超限 | 服务器 | 严重 | 30000 | OceanBase 数据库节点上 Partition分 区数超过阈值触发告警,与集群 Partition 总数及分布有关,需登录系统租户进行排查 |
ob_host_net_send_percent_over_threshold | OceanBase 数据库服务器网络发送带宽使用率超限 | 服务器 | 警告 | 80 | 服务器网络发送带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合 NET 监控并登录系统租户进行排查 |
ob_host_ntp_command_not_found | OceanBase 数据库服务器 ntp 命令不存在 | 服务器 | 严重 | 1 | OceanBase 数据库服务器上 NTP 服务命令不可用触发告警,与服务器操作系统 NTP 服务器可用性有关,需登录对应服务器排查 |
ob_host_ntp_offset_too_large | OceanBase 数据库服务器 ntp 偏移量过大 | 服务器 | 严重 | 50 | OceanBase 数据库服务器 NTP 服务偏移量超过阈值触发,与节点配置的 NTP 服务本身、节点 NTP 时钟服务、网络等有关,需登录对应服务器进行排查 |
ob_host_net_exception | OceanBase 数据库服务器网络错误 | 服务器 | 停服 | OceanBase 集群网络错误触发,与服务器网络有关,需排查服务器网络可用性 | |
ob_host_mem_percent_over_threshold | OceanBase 数据库服务器内存使用率超限 | 服务器 | 严重 | 90 | 服务器 OceanBase 数据库进程内存使用超过阈值触发,与进程内存溢出有关,需登录对应服务器进行排查 |
ob_mem_assigned_percent_over_threshold | OceanBase 集群已经分配给租户的内存占比超限 | 服务器 | 警告 | 100 | OceanBase 集群分配给租户的内存占比超过阈值触发,与租户内存分配有关,需登录系统租户及对应服务器进行排查 |
ob_host_load1_per_cpu_over_threshold | OceanBase 数据库服务器CPU平均 load1 超限 | 服务器 | 严重 | 4 | OceanBase 数据库服务器 CPU 平均 load 超过阈值持续 5 分钟触发,与该服务器上读写压力有关,需结合 QTPS 监控项进行排查 |
ob_host_net_recv_percent_over_threshold | OceanBase 数据库服务器网络接收带宽使用率超限 | 服务器 | 警告 | 80 | 服务器网络接收带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合 NET 监控并登陆系统租户进行排查 |
ob_host_exists_expired_trans | OceanBase 数据库服务器存在悬挂事务 | 服务器 | 警告 | 1 | OceanBase 数据库服务器上存在悬挂事务超过阈值触发,与用户行为有关,需结合 TPS 及 SQL 监控进行排查 |
ob_host_disk_percent_over_threshold | OceanBase 数据库服务器磁盘使用率超限 | 服务器 | 警告 | 97 | OceanBase 数据库服务器磁盘使用率超过阈值触发,与磁盘使用水位过高有关,需登录到对应服务器进行排查 |
ob_cpu_percent_over_threshold | OceanBase 集群内统计的CPU使用率超限 | 服务器 | 严重 | 99 | OceanBase 集群内部统计 CPU 使用率超过阈值持续 5 分钟触发,与用户行为有关,需结合 TPS 及 SQL 监控进行排查 |
ob_cpu_assigned_percent_over_threshold | OceanBase 集群已经分配给租户的 CPU 占比超限 | 服务器 | 警告 | 100 | OceanBase 集群分配给租户的 CPU 占比超过阈值触发,与租户 CPU 分配有关,需登录系统租户及对应服务器进行排查 |
ob_host_cpu_percent_over_threshold | OceanBase 数据库服务器 CPU 使用率超限 | 服务器 | 严重 | 100 | OceanBase 数据库服务器使用系统 CPU 超过阈值 1 分钟触发,与 OceanBase 数据库服务及服务器上其他进程使用 CPU 有关,需登录到对应服务器进行排查 |
ob_cannot_connected | OceanBase 数据库服务器无法连接 | 服务器 | 停服 | 0 | OceanBase 数据库服务器无法连接触发,需与服务器运维方确认 |
ob_log_alarm | OceanBase 数据库日志告警 | 服务器 | 警告 | OceanBase 数据库的 election、rootservice、observer 日志中出现 ERROR 级告警日志触发,与 OceanBase 数据库内部行为、运行状况等有关,需登录系统租户确认 | |
obagent_process_dead | obagent 进程不可用 | 服务器 | 严重 | OceanBase 数据库服务器上 OCP 组件obagent 进程异常不工作触发,与 obagent 进程运行异常、操作系统异常等有关,需登录对应服务器进行排查确认 | |
obagent_dead | obagent 服务不可用 | 服务器 | 停服 | OceanBase 数据库服务器上 OCP 组件obagent 服务结束触发,与 obagent 进程消亡、进程异常终止等有关,需登录服务器排查确认 |