通过 2.3.0 版本的 OCP 云平台的告警>告警项,您可以对常用的告警项进行管理。

操作步骤

  1. 登录 OCP 云平台。
  2. 单击左导航栏告警>告警项。

image.png

  1. 单击分组管理。

image.png

  • 可对系统内置的 40 个告警项进行查看编辑操作。
  • 单击管理告警项可进入分组管理告警项界面,对各个分组下的告警项进行添加和删除。

image.png

  1. 单击新建告警项”,可进入新建告警项界面。

image.png

  • 告警项所属范围:“来源”默认选择“OB”,“范围”可选范围有集群、租户、服务器三种,按需选择即可;

说明

用于选择 OB/应用 已经指标的所属范围,目前包括:OB集群 ObCluster、OB租户 ObTenant、应用集群 AppCluster、服务 Service、服务器主机 Host、进程 Process (预留类型)

  • 匹配对象:为具体被监控集群;用于确定告警规则适用的对象。
  • 触发条件:“运算规则”可选择OCP内置监控项表达式。根据告警项所属范围的不同,可以在运算规则里选择不同的指标;持续时长为0表示立即触发,可以设定时长,用于避免因指标毛刺产生的告警误报。

分别说明如下:

  • 表达式触发:告警由告警规则引擎基于监控指标生成;对于表达式触发的告警,其告警规则表达式在告警项里配置;
  1. 可通过告警项管理的查看编辑操作进入对应界面进行查看和修改,目前版本支持触发条件阈值、持续时长告警等级三个指标修改。

告警项说明列表

下表为目前版本 OCP 内置 40 个告警项及其说明,用户可根据不同环境特点进行部分告警项阈值配置:

告警项名称

告警项说明

采集范围

告警等级

阈值推荐值

告警触发影响

ob_cluster_exists_inactive_server

OB 集群存在不工作 OBserver

集群

严重

0

OB 集群内节点心跳数据发送超时导致状态变为 inactive,一般可能的原因有网络异常、操作系统奔溃等

ob_cluster_merge_timeout

OB 集群合并超时

集群

严重

1

OB 集群合并超过集群内配置合并超时时长导致集群合并状态变为 TIMEOUT,原因需登录集群排查

ob_cluster_merge_error

OB 集群合并出错

集群

严重

1

OB 集群合并异常导致集群合并状态变为 ERROR,原因需登录集群排查

ob_cluster_no_merge

OB 集群合并检测失败

集群

严重

108000

OB 集群超过阈值秒未合并触发告警,原因需登录集群排查

ob_cluster_no_frozen

OB集群冻结检测失败

集群

严重

172800

OB 集群版本超过阈值秒未冻结触发告警,原因需登录集群排查

ob_cluster_exists_index_fail_table

OB集群存在索引失败的表

集群

严重

0

OB集群合并后存在索引构建失败的表触发,原因需登录集群排查

ob_tenant500_mem_hold_percent_over_threshold

OB500租户内存占用率超限

集群

严重

25

OB集群内部500租户内存使用超过阈值百分比,原因可能与部分节点内存泄漏有关,需登录集群排查

ob_zone_sstable_percent_over_threshold

OB集群Zone数据盘使用率超限

集群

严重

95

OB集群Zone数据盘使用率超过阈值百分比触发,原因与集群磁盘已使用水位过高有关,需登录集群排查

ob_cluster_frozen_version_delta_over_threshold

OB集群冻结版本和基线版本的差值超限

集群

严重

1

OB集群冻结版本与基线版本差值超过1触发告警,原因与集群冻结异常有关,需登录集群排查

tenant_memstore_percent_over_threshold

OB租户内存使用百分比超限

租户

警告

90

OB集群租户内存使用百分比超过阈值,原因与集群转储或合并异常有关,需登录集群排查

tenant_disk_percent_over_threshold

OB租户数据盘使用率超限

租户

警告

70

OB集群租户数据盘使用超过阈值触发,原因与租户磁盘使用水位过高有关,需登录集群排查

tenant_cpu_percent_over_threshold

OB租户CPU使用率超限

租户

警告

100

OB集群租户CPU使用超过阈值触发,原因与租户读写压力有关,需结合QTPS监控项排查

tenant_connection_percent_over_threshold

OB租户连接数百分比超限

租户

警告

10000

OB租户当前连接数超过阈值触发,原因与租户使用行为有关,需结合Active_session监控项排查,该监控项推荐结合租户节点数进行配置,目前OB单节点连接数上限为65535

tenant_active_memstore_percent_over_threshold

OB租户活跃内存百分比超限

租户

警告

100

OB租户活跃内存百分比超过阈值触发,原因与租户读写压力、租户内存异常泄漏等有关,需登录集群排查

obagent_upgrade_failed

obagent升级失败

服务器

严重

0

OCP基础组件obagent升级失败触发,原因与obagent升级行为有关,需登录对应服务器进行排查

ob_host_down

OB机器不可用

服务器

停服

0

服务器节点宕机触发,原因与服务器硬件、软件等有关,需登录对应服务器进行排查

ob_host_tcp_retrans_percent_over_threshold

OB服务器TCP重传率超限

服务器

严重

50

服务器节点TCP重传率超过阈值触发,与服务器网卡或集群网络异常等有关,需结合NET监控项并登录对应服务器进行排查

ob_server_sstable_percent_over_threshold

OB服务器数据盘使用率超限

服务器

警告

85

服务器数据盘使用率超过阈值触发,与服务器数据盘使用有关,需登录对应服务器进行排查

ob_host_ssd_wear_indicator_over_threshold

OB服务器SSD使用百分比超限

服务器

严重

95

服务器SSD盘损耗百分比超过阈值触发,与服务器SSD使用损耗有关,需登录对应服务器进行确认排查

ob_tenant500_mem_hold_over_threshold

OB500租户的占用内存大小超限

服务器

严重

50

服务器OB进程内部租户内存使用百分比超过阈值触发,与内部租户内存消耗有关,需登录系统租户进行排查

ob_host_disk_readonly

OB服务器磁盘只读

服务器

严重

1

服务器磁盘状态变为只读触发告警,与磁盘可用状态异常有关,需登录对应服务器确认

ob_host_partition_count_over_threshold

OB服务器分区数量超限

服务器

严重

30000

OB节点上partition分区数超过阈值触发告警,与集群partition总数及分布有关,需登录系统租户进行排查

ob_host_net_send_percent_over_threshold

OB服务器网络发送带宽使用率超限

服务器

警告

80

服务器网络发送带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合NET监控并登陆系统租户进行排查

ob_host_ntp_command_not_found

OB服务器ntp命令不存在

服务器

严重

1

OB服务器上ntp服务命令不可用触发告警,与服务器操作系统ntp服务器可用性有关,需登录对应服务器排查

ob_host_ntp_offset_too_large

OB服务器ntp偏移量过大

服务器

严重

50

OB服务器ntp服务偏移量超过阈值触发,与节点配置的ntp服务本身、节点ntp时钟服务、网络等有关,需登录对应服务器进行排查

ob_host_net_exception

OB服务器网络错误

服务器

停服

OB集群网络错误触发,与服务器网络有关,需排查服务器网络可用性

ob_host_mem_percent_over_threshold

OB服务器内存使用率超限

服务器

严重

90

服务器OB进程内存使用超过阈值触发,与进程内存溢出有关,需登录对应服务器进行排查

ob_mem_assigned_percent_over_threshold

OB已经分配给租户的内存占比超限

服务器

警告

100

OB分配给租户的内存占比超过阈值触发,与租户内存分配有关,需登录系统租户及对应服务器进行排查

ob_host_load1_per_cpu_over_threshold

OB服务器CPU平均load1超限

服务器

严重

4

OB服务器CPU平局load超过阈值持续5分钟触发,与该服务器上读写压力有关,需结合QTPS监控项进行排查

ob_host_net_recv_percent_over_threshold

OB服务器网络接收带宽使用率超限

服务器

警告

80

服务器网络接收带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合NET监控并登陆系统租户进行排查

ob_host_exists_expired_trans

OB服务器存在悬挂事务

服务器

警告

1

OB服务器上存在悬挂事务超过阈值触发,与用户行为有关,需结合TPS及SQL监控进行排查

ob_host_disk_percent_over_threshold

OB服务器磁盘使用率超限

服务器

警告

97

OB服务器磁盘使用率超过阈值触发,与磁盘使用水位过高有关,需登录到对应服务器进行排查

ob_cpu_percent_over_threshold

OB内统计的CPU使用率超限

服务器

严重

99

OB内部统计CPU使用率超过阈值持续5分钟触发,与用户行为有关,需结合TPS及SQL监控进行排查

ob_cpu_assigned_percent_over_threshold

OB已经分配给租户的CPU占比超限

服务器

警告

100

OB分配给租户的CPU占比超过阈值触发,与租户CPU分配有关,需登录系统租户及对应服务器进行排查

ob_host_cpu_percent_over_threshold

OB服务器CPU使用率超限

服务器

严重

100

OB服务器使用系统CPU超过阈值1分钟触发,与OB服务及服务器上其他进程使用CPU有关,需登录到对应服务器进行排查

ob_cannot_connected

OB服务器无法连接

服务器

停服

0

OB服务器无法连接触发,需与服务器运维方确认

ob_log_alarm

OB日志告警

服务器

警告

OB election、rootservice、observer日志中出现ERROR级告警日志触发,与OB内部行为、运行状况等有关,需登录系统租户确认

obagent_process_dead

obagent进程不可用

服务器

严重

OB服务器上OCP组件obagent进程异常不工作触发,与obagent进程运行异常、操作系统异常等有关,需登录对应服务器进行排查确认

obagent_dead

obagent服务不可用

服务器

停服

OB服务器上OCP组件obagent服务结束触发,与obagent进程消亡、进程异常终止等有关,需登录服务器排查确认