变更检查

本节讲解各个模块的变更checklist

前言

可以通过几个方面判断变更是否异常:

  1. 判断更改之后进程是否存活,此方式可以通过给模块添加进程监控来实现,当然,更直接的是登录机器查看
  2. 检查各个模块的日志,包括ERROR、WARNING这种落到文件中的日志,以及进程的标准输出,进程如果是用control脚本启动的,标准输出在stdout文件里,如果是用systemd启动的,就要用systemctl status查看了,或者使用journalctl
  3. 通过观察模块的业务指标是否正常,本节重点介绍下各个模块需要关注哪些业务指标

Nightingale的各个组件启动之后,会将自身的的一些状态数据上报到监控系统,通过上报的指标可以观测其运行是否正常,下面介绍下各个模块的监控指标

transfer 变更

transfer的核心业务指标如下,统计周期为10s

监控指标含义
n9e.transfer.points.in接收点数
n9e.transfer.points.out.tsdb向tsdb发送点数
n9e.transfer.points.out.tsdb.err向tsdb发送失败的点数
n9e.transfer.points.out.judge向judge发送的点数
n9e.transfer.points.out.judge.err向juege发送失败的点数
n9e.transfer.stra.count获取监控策略条数

如果transfer变更之后,transfer集群上述指标的数据没有明显的变化,则说明变更符合预期

tsdb 变更

tsdb的核心业务指标如下,统计周期为10s

监控指标含义
n9e.tsdb.points.in接收的点数
n9e.tsdb.query.miss查询数据为空的次数
n9e.tsdb.index.out.err推送索引失败条数

如果tsdb变更之后,tsdb集群上述指标的数据没有明显的变化,则说明变更符合预期

index 变更

index的核心业务指标如下,统计周期为10s

监控指标含义
n9e.index.query.counter.missfullmatch接口查索引未命中次数
n9e.index.xclude.missxclude接口查索引未命中次数

如果index变更之后,index集群上述指标的数据没有明显的变化,则说明变更符合预期

judge 变更

judge的核心业务指标如下,统计周期为10s

监控指标含义
n9e.judge.push.in接收点数
n9e.judge.running正在执行的judge任务数
n9e.judge.stra.count获取的策略数

如果judge变更之后,judge集群上述指标的数据没有明显的变化,则说明变更符合预期

最后修改 2021-02-06: v2 (bb04a83)