告警相关
本节讲解告警相关的常见问题
Q1:配置了告警策略,监控指标有异常但没有发出告警
可能是以下几种情况
- 查看对象挂载:对象(通常是机器)需要挂载在配置策略的节点(或者其子孙节点)下面
- 查看监控数据:确认监控策略对应的监控数据是有值的,并且是肯定会触发阈值的
- 阈值设置有误:查看告警策略的告警函数设置,确认告警触发条件是否满足,确认策略的生效时间是否满足
- 策略被屏蔽:查看告警策略屏蔽列表,确认策略是否被屏蔽
- 通知网关问题:到告警历史页面,查看是否已经生成的告警事件,如果有告警事件,说明是通知网关的问题
- 策略下发问题:
- 执行
curl '127.0.0.1:5800/api/portal/stras/effective?all=1'
拿到全量策略列表 - 如果列表没有此策略,查看 monapi 日志,看是否有报错信息,有报错,按照提示处理
- 如果有,则查看judge_instance字段,找到策略分发给了哪个judge实例,登陆到judge所在机器,
curl 127.0.0.1:5840/api/judge/stra/:id
查看是否下发给judge
- 执行
- judge解析策略异常:查看judge WARNING.log 和 ERROR.log 日志,检查是否有此策略的报错信息
- judge没有收到数据:修改judge日志等级为DEBUG,
tail -f DEBUG.log|grep 监控指标
无日志输出,说明数据没有走到judge这里 - 查看数据链路:查看transfer的日志,看数据为何没有从transfer转发到judge模块