OCP 对告警消息的管理主要包括:告警事件、告警消息通知记录、告警屏蔽和日志过滤。
告警事件:当某集群处于异常状态,导致用户收到大量告警消息时,如需要对其中部分指定告警项进行查看和统计,可通过告警事件进行管理。
告警通知:为您提供 90 天内的通知记录查看,超过 90 天的通知记录将会自动归档。
告警屏蔽:实际生产过程中,当集群出现异常引发告警时,某些导致告警的已知问题可能需要较长时间才能恢复解决,为避免消息打扰,这时可使用告警界面中“告警屏蔽”页签中屏蔽告警的功能,对具体告警项进行短时间屏蔽。
日志过滤:由于 OceanBase 数据库为分布式数据库,故存在三类不同的类型日志,包括 election 选举日志、 rootservice 管控服务日志、 observer 运行日志。OceanBase 数据库日志告警不基于告警规则触发,实现原理是在 OceanBase 数据库服务器节点上监视三种日志,发现 ERROR 级别的日志则触发告警。由于物理机环境及不同节点上系统环境千差万别,如果用户发现有 ERROR 级别日志误报的情况,可以在此日志过**滤**页面配置日志过滤规则。
背景信息
不同 OCP 版本的操作界面可能不同,本节以 OCP V2.4.4版本为例提供操作指导,OCP 其他版本的操作请参考对应版本的《OCP 用户指南》文档。
告警事件
登录 OCP。
在左导航栏上单击 系统管理 > 告警。
在 告警事件 页签右侧,单击 展开。
可看到这里支持 集群、租户、服务器、告警状态、告警等级、起止时间 维度的筛选。
其中:告警状态 除了 全部 外还包括:已恢复、告警中、已屏蔽、已抑制、已过期 等状态;从 搜索 框中可输入告警内容关键字进行结果筛选。
告警通知
登录 OCP。
在左导航栏上单击 系统管理 > 告警。
单击 消息通知记录 页签,然后在右侧单击 展开。
可看到支持 告警范围、告警等级、告警项、接收人、起止时间 维度的筛选,同样这里也支持通过 搜索 告警内容关键字筛选告警通知记录。
告警屏蔽
登录 OCP。
在左导航栏上单击 系统管理 > 告警。
单击 屏蔽告警 页签,在右侧单击 新建屏蔽条件。
填写屏蔽条件内容。
集群:选择目标集群。
屏蔽范围:选择要屏蔽的告警范围,目前可选择集群内全部、某租户、某服务器三个范围。
屏蔽项:选择要屏蔽的告警项,支持多选。
结束时间:可选择 6小时、12小时、1 天、永久或者自定义时间。
单击 确定,即可生成屏蔽规则。
屏蔽条件新建后即时生效,已创建的屏蔽记录可在 屏蔽**告警** 界面查询到,并支持对已有屏蔽记录进行编辑和删除操作。
说明
为避免屏蔽记录复用及历史屏蔽记录查询,已失效的屏蔽记录不会自行删除。
日志过滤
登录 OCP。
在左导航栏上单击 系统管理 > 告警。
单击 OB 日志过滤 页签,然后在右侧单击 添加过滤关键字。
填写过滤关键字信息。
集群:选择目标集群,也可以选择全部集群。
服务器类型:election、rootservice、observer 三选一。
关键字:输入需要过滤的关键字,区分大小写及空格。
过期时间:自定义告警过期的时间。
单击 确定,即可创建日志关键字过滤规则。
规则创建后即时生效。在日志过滤界面可对已有屏蔽条件进行 修改过期时间 和 删除 操作。