部署监控数据采集器 agent

对于一套监控系统而言,核心就是采集数据并存储,然后做告警判定、数据展示分析,这个 专栏文章 详细讲解了这个数据流架构,整个流程图如下:

20240222144606

采集方面,夜莺支持多种不同的采集器,比如 Categraf、Telegraf、Datadog-agent、Grafana-agent 等,Categraf 和夜莺的整合最为丝滑,最为推荐。和夜莺的整合方法请参考之前 V6 版本的文档,在和 Agent 对接这块,V7 和 V6 是一样的。

新版本的 Categraf 可以采集机器的元信息并上报夜莺,而且内置了命令执行能力,省去了 ibex-agent 的部署也可以完成告警自愈,其次,夜莺内置的告警规则、仪表盘大都是针对 Categraf 定制的,所以采集器优选 Categraf,后面的文档也会以 Categraf 为例。

Categraf 的详细文档在这里:Categraf Docs,各位按照文档安装和夜莺对接即可,如果正常对接,则可以在夜莺的机器管理页面看到相关的机器。如图所示:

20240222155748

上图是机器列表,菜单入口在:基础设施 - 机器列表,点击全部机器,就能看到所有安装了 Categraf 的机器。如果发现机器的内存、CPU 等字段都是 unknown,说明 Categraf 的配置中忘记开启 Heartbeat 了。

如果 Categraf 没有报错,理论上监控数据也成功上报了。后面就可以体验夜莺服务端的各项能力了。

补充

Categraf 采集数据,然后通过 Prometheus remote write 协议推给夜莺,所以需要把夜莺的地址告诉 Categraf,在 Categraf 的配置文件中配置夜莺的地址就可以了。Categraf 的配置文件在 conf/config.toml,把配置文件中的 127.0.0.1:17000(老版本默认写的是 127.0.0.1:19000) 改成你的夜莺的 IP 和端口即可。