通过 2.3.0 版本的 OCP 云平台的告警>告警项,您可以对常用的告警项进行管理。
操作步骤
- 登录 OCP 云平台。
- 单击左导航栏告警>告警项。
- 单击分组管理。
- 可对系统内置的 40 个告警项进行查看和编辑操作。
- 单击管理告警项可进入分组管理告警项界面,对各个分组下的告警项进行添加和删除。
- 单击新建告警项”,可进入新建告警项界面。
- 告警项所属范围:“来源”默认选择“OB”,“范围”可选范围有集群、租户、服务器三种,按需选择即可;
说明:
用于选择 OB/应用 已经指标的所属范围,目前包括:OB集群 ObCluster、OB租户 ObTenant、应用集群 AppCluster、服务 Service、服务器主机 Host、进程 Process (预留类型)
- 匹配对象:为具体被监控集群;用于确定告警规则适用的对象。
- 触发条件:“运算规则”可选择OCP内置监控项表达式。根据告警项所属范围的不同,可以在运算规则里选择不同的指标;持续时长为0表示立即触发,可以设定时长,用于避免因指标毛刺产生的告警误报。
分别说明如下:
- 表达式触发:告警由告警规则引擎基于监控指标生成;对于表达式触发的告警,其告警规则表达式在告警项里配置;
- 可通过告警项管理的查看和编辑操作进入对应界面进行查看和修改,目前版本支持触发条件阈值、持续时长、告警等级三个指标修改。
告警项说明列表
下表为目前版本 OCP 内置 40 个告警项及其说明,用户可根据不同环境特点进行部分告警项阈值配置:
告警项名称 | 告警项说明 | 采集范围 | 告警等级 | 阈值推荐值 | 告警触发影响 |
ob_cluster_exists_inactive_server | OB 集群存在不工作 OBserver | 集群 | 严重 | 0 | OB 集群内节点心跳数据发送超时导致状态变为 inactive,一般可能的原因有网络异常、操作系统奔溃等 |
ob_cluster_merge_timeout | OB 集群合并超时 | 集群 | 严重 | 1 | OB 集群合并超过集群内配置合并超时时长导致集群合并状态变为 TIMEOUT,原因需登录集群排查 |
ob_cluster_merge_error | OB 集群合并出错 | 集群 | 严重 | 1 | OB 集群合并异常导致集群合并状态变为 ERROR,原因需登录集群排查 |
ob_cluster_no_merge | OB 集群合并检测失败 | 集群 | 严重 | 108000 | OB 集群超过阈值秒未合并触发告警,原因需登录集群排查 |
ob_cluster_no_frozen | OB集群冻结检测失败 | 集群 | 严重 | 172800 | OB 集群版本超过阈值秒未冻结触发告警,原因需登录集群排查 |
ob_cluster_exists_index_fail_table | OB集群存在索引失败的表 | 集群 | 严重 | 0 | OB集群合并后存在索引构建失败的表触发,原因需登录集群排查 |
ob_tenant500_mem_hold_percent_over_threshold | OB500租户内存占用率超限 | 集群 | 严重 | 25 | OB集群内部500租户内存使用超过阈值百分比,原因可能与部分节点内存泄漏有关,需登录集群排查 |
ob_zone_sstable_percent_over_threshold | OB集群Zone数据盘使用率超限 | 集群 | 严重 | 95 | OB集群Zone数据盘使用率超过阈值百分比触发,原因与集群磁盘已使用水位过高有关,需登录集群排查 |
ob_cluster_frozen_version_delta_over_threshold | OB集群冻结版本和基线版本的差值超限 | 集群 | 严重 | 1 | OB集群冻结版本与基线版本差值超过1触发告警,原因与集群冻结异常有关,需登录集群排查 |
tenant_memstore_percent_over_threshold | OB租户内存使用百分比超限 | 租户 | 警告 | 90 | OB集群租户内存使用百分比超过阈值,原因与集群转储或合并异常有关,需登录集群排查 |
tenant_disk_percent_over_threshold | OB租户数据盘使用率超限 | 租户 | 警告 | 70 | OB集群租户数据盘使用超过阈值触发,原因与租户磁盘使用水位过高有关,需登录集群排查 |
tenant_cpu_percent_over_threshold | OB租户CPU使用率超限 | 租户 | 警告 | 100 | OB集群租户CPU使用超过阈值触发,原因与租户读写压力有关,需结合QTPS监控项排查 |
tenant_connection_percent_over_threshold | OB租户连接数百分比超限 | 租户 | 警告 | 10000 | OB租户当前连接数超过阈值触发,原因与租户使用行为有关,需结合Active_session监控项排查,该监控项推荐结合租户节点数进行配置,目前OB单节点连接数上限为65535 |
tenant_active_memstore_percent_over_threshold | OB租户活跃内存百分比超限 | 租户 | 警告 | 100 | OB租户活跃内存百分比超过阈值触发,原因与租户读写压力、租户内存异常泄漏等有关,需登录集群排查 |
obagent_upgrade_failed | obagent升级失败 | 服务器 | 严重 | 0 | OCP基础组件obagent升级失败触发,原因与obagent升级行为有关,需登录对应服务器进行排查 |
ob_host_down | OB机器不可用 | 服务器 | 停服 | 0 | 服务器节点宕机触发,原因与服务器硬件、软件等有关,需登录对应服务器进行排查 |
ob_host_tcp_retrans_percent_over_threshold | OB服务器TCP重传率超限 | 服务器 | 严重 | 50 | 服务器节点TCP重传率超过阈值触发,与服务器网卡或集群网络异常等有关,需结合NET监控项并登录对应服务器进行排查 |
ob_server_sstable_percent_over_threshold | OB服务器数据盘使用率超限 | 服务器 | 警告 | 85 | 服务器数据盘使用率超过阈值触发,与服务器数据盘使用有关,需登录对应服务器进行排查 |
ob_host_ssd_wear_indicator_over_threshold | OB服务器SSD使用百分比超限 | 服务器 | 严重 | 95 | 服务器SSD盘损耗百分比超过阈值触发,与服务器SSD使用损耗有关,需登录对应服务器进行确认排查 |
ob_tenant500_mem_hold_over_threshold | OB500租户的占用内存大小超限 | 服务器 | 严重 | 50 | 服务器OB进程内部租户内存使用百分比超过阈值触发,与内部租户内存消耗有关,需登录系统租户进行排查 |
ob_host_disk_readonly | OB服务器磁盘只读 | 服务器 | 严重 | 1 | 服务器磁盘状态变为只读触发告警,与磁盘可用状态异常有关,需登录对应服务器确认 |
ob_host_partition_count_over_threshold | OB服务器分区数量超限 | 服务器 | 严重 | 30000 | OB节点上partition分区数超过阈值触发告警,与集群partition总数及分布有关,需登录系统租户进行排查 |
ob_host_net_send_percent_over_threshold | OB服务器网络发送带宽使用率超限 | 服务器 | 警告 | 80 | 服务器网络发送带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合NET监控并登陆系统租户进行排查 |
ob_host_ntp_command_not_found | OB服务器ntp命令不存在 | 服务器 | 严重 | 1 | OB服务器上ntp服务命令不可用触发告警,与服务器操作系统ntp服务器可用性有关,需登录对应服务器排查 |
ob_host_ntp_offset_too_large | OB服务器ntp偏移量过大 | 服务器 | 严重 | 50 | OB服务器ntp服务偏移量超过阈值触发,与节点配置的ntp服务本身、节点ntp时钟服务、网络等有关,需登录对应服务器进行排查 |
ob_host_net_exception | OB服务器网络错误 | 服务器 | 停服 | OB集群网络错误触发,与服务器网络有关,需排查服务器网络可用性 | |
ob_host_mem_percent_over_threshold | OB服务器内存使用率超限 | 服务器 | 严重 | 90 | 服务器OB进程内存使用超过阈值触发,与进程内存溢出有关,需登录对应服务器进行排查 |
ob_mem_assigned_percent_over_threshold | OB已经分配给租户的内存占比超限 | 服务器 | 警告 | 100 | OB分配给租户的内存占比超过阈值触发,与租户内存分配有关,需登录系统租户及对应服务器进行排查 |
ob_host_load1_per_cpu_over_threshold | OB服务器CPU平均load1超限 | 服务器 | 严重 | 4 | OB服务器CPU平局load超过阈值持续5分钟触发,与该服务器上读写压力有关,需结合QTPS监控项进行排查 |
ob_host_net_recv_percent_over_threshold | OB服务器网络接收带宽使用率超限 | 服务器 | 警告 | 80 | 服务器网络接收带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合NET监控并登陆系统租户进行排查 |
ob_host_exists_expired_trans | OB服务器存在悬挂事务 | 服务器 | 警告 | 1 | OB服务器上存在悬挂事务超过阈值触发,与用户行为有关,需结合TPS及SQL监控进行排查 |
ob_host_disk_percent_over_threshold | OB服务器磁盘使用率超限 | 服务器 | 警告 | 97 | OB服务器磁盘使用率超过阈值触发,与磁盘使用水位过高有关,需登录到对应服务器进行排查 |
ob_cpu_percent_over_threshold | OB内统计的CPU使用率超限 | 服务器 | 严重 | 99 | OB内部统计CPU使用率超过阈值持续5分钟触发,与用户行为有关,需结合TPS及SQL监控进行排查 |
ob_cpu_assigned_percent_over_threshold | OB已经分配给租户的CPU占比超限 | 服务器 | 警告 | 100 | OB分配给租户的CPU占比超过阈值触发,与租户CPU分配有关,需登录系统租户及对应服务器进行排查 |
ob_host_cpu_percent_over_threshold | OB服务器CPU使用率超限 | 服务器 | 严重 | 100 | OB服务器使用系统CPU超过阈值1分钟触发,与OB服务及服务器上其他进程使用CPU有关,需登录到对应服务器进行排查 |
ob_cannot_connected | OB服务器无法连接 | 服务器 | 停服 | 0 | OB服务器无法连接触发,需与服务器运维方确认 |
ob_log_alarm | OB日志告警 | 服务器 | 警告 | OB election、rootservice、observer日志中出现ERROR级告警日志触发,与OB内部行为、运行状况等有关,需登录系统租户确认 | |
obagent_process_dead | obagent进程不可用 | 服务器 | 严重 | OB服务器上OCP组件obagent进程异常不工作触发,与obagent进程运行异常、操作系统异常等有关,需登录对应服务器进行排查确认 | |
obagent_dead | obagent服务不可用 | 服务器 | 停服 | OB服务器上OCP组件obagent服务结束触发,与obagent进程消亡、进程异常终止等有关,需登录服务器排查确认 |