Prometheus
选择 Prometheus 数据类型,输入 PromQL 表达式,例如下图查询服务器 CPU 利用率:
下面介绍下几个常用函数的使用
使用 rate 函数,按照设置的时间段,取counter在这个时间段中平均每秒的增量,查询主机 eth0 网卡每分钟的变化率,如下图:
使用 increase 函数,用来针对counter数据类型,截取其中一段时间总的增量,查询主机 eth0 网卡1分钟的增量,如下图:
使用 topk 函数,取前几位的最高值,实际使用的时候一般会用该函数进行瞬时报警,而不是为了观察曲线图。如下图统计1分钟内,cpu 使用的每秒的变化率,只查看前2个结果。
使用 count 函数,把数值符合条件的,输出数目进行累加加和,一般用它进行一些某户的监控判断,比如说企业中有100台服务器,如果只有10台服务器CPU使用率高于80%时候是不需要报警的,但是数量超过70台时就需要报警了,如下图所示,一共3台主机,主机 cpu 使用率大于20%的数量大于1报警表达式
Table 视图与Graph 视图
Table 视图:查看原始数据,可以体现采集上报频率的原始数据,通过查看 Table 视图数据可以看到原始数据结果、上报时间和上报间隔。 Table 使用场景 一般是查询指标原始值,核对指标上报时间是否出现不符合预期(延迟)等,通过对比上报数据时间和上报数据间隔,可以判断上报数据值和上报数据状态是否有异常。如下图所示:
Graph 视图:通常用于查看时间序列数据的趋势,Graph视图绘图的查询条件中有一个重要的step参数,是自动计算(或手动输入)参数,当它和配置文件的采集频率不一致时, Graph 查询到的值就不是原始数据。如下图举例
指定 step 参数值为15秒,查询结果会和原始数据查询结果差异很大。