前言
可以通过两个方面判断变更是否异常:
- 判断更改之后进程是否存活,此方式可以通过给模块添加进程监控来实现
- 通过观察模块的业务指标是否正常,本节重点介绍下各个模块需要关注哪些业务指标
Nightingale的各个组件启动之后,会将自身的的一些状态数据上报到监控系统,通过上报的指标可以观测其运行是否正常,下面介绍下各个模块的监控指标
transfer 变更
transfer的核心业务指标如下,统计周期为10s
监控指标 | 含义 |
---|---|
n9e.transfer.points.in | 接收点数 |
n9e.transfer.points.out.tsdb | 向tsdb发送点数 |
n9e.transfer.points.out.tsdb.err | 向tsdb发送失败的点数 |
n9e.transfer.points.out.judge | 向judge发送的点数 |
n9e.transfer.points.out.judge.err | 向juege发送失败的点数 |
n9e.transfer.stra.count | 获取监控策略条数 |
如果transfer变更之后,transfer集群上述指标的数据没有明显的变化,则说明变更符合预期
tsdb 变更
tsdb的核心业务指标如下,统计周期为10s
监控指标 | 含义 |
---|---|
n9e.tsdb.points.in | 接收的点数 |
n9e.tsdb.query.miss | 查询数据为空的次数 |
n9e.tsdb.index.out.err | 推送索引失败条数 |
如果tsdb变更之后,tsdb集群上述指标的数据没有明显的变化,则说明变更符合预期
index 变更
index的核心业务指标如下,统计周期为10s
监控指标 | 含义 |
---|---|
n9e.index.query.counter.miss | fullmatch接口查索引未命中次数 |
n9e.index.xclude.miss | xclude接口查索引未命中次数 |
如果index变更之后,index集群上述指标的数据没有明显的变化,则说明变更符合预期
judge 变更
judge的核心业务指标如下,统计周期为10s
监控指标 | 含义 |
---|---|
n9e.judge.push.in | 接收点数 |
n9e.judge.running | 正在执行的judge任务数 |
n9e.judge.stra.count | 获取的策略数 |
如果judge变更之后,judge集群上述指标的数据没有明显的变化,则说明变更符合预期