监控和告警介绍

使用 rancher-monitoring 应用程序，你可以快速部署领先的开源监控和告警解决方案到你的集群。

功能
监控的工作原理
默认组件和部署
基于角色的访问控制
指南
Windows 群集支持
已知问题

功能

Prometheus 让你从 Rancher 和 Kubernetes 对象中查看指标。通过使用时间戳，Prometheus 可以让你通过 Rancher UI 或 Grafana（与 Prometheus 一起部署的分析查看平台）查询并易于阅读的图表和视觉效果查看这些指标。

通过查看 Prometheus 从集群控制平面、节点和 deployment 中采集的数据，你可以随时了解集群中发生的一切。然后，你可以使用这些分析来更好地运行你的环境：在系统紧急情况开始之前就阻止它们，制定维护策略，或恢复崩溃的服务器。

Rancher v2.5 中引入的 rancher-monitoring operator 由Prometheus、Grafana、Alertmanager、Prometheus Operator 和 Prometheus 适配器提供支持。

监控应用程序允许你：

监控你的集群节点、Kubernetes 组件和软件部署的状态和进程
根据通过 Prometheus 收集的指标定义告警
创建自定义的 Grafana 仪表盘
使用 Prometheus Alertmanager 通过电子邮件、Slack、PagerDuty 等配置基于告警的通知
根据通过 Prometheus 收集的指标，将预先计算的、经常需要的或计算成本高的表达式定义为新的时间序列
通过 Prometheus 适配器将收集的指标从 Prometheus 暴露给 Kubernetes 自定义指标 API，以便在 HPA 中使用

监控的工作原理

关于监控组件如何协同工作的说明，请参阅本页面

默认组件和部署

内置仪表盘

默认情况下，监控应用会将 Grafana 仪表盘（由 kube-prometheus 项目管理）部署到集群上。

它还部署了一个 Alertmanager UI 和一个 Prometheus UI。关于这些工具的更多信息，请参见内置仪表盘。

默认的 Metrics Exporters

默认情况下，Rancher 监控部署了 exporters（如 node-exporter 和 kube-state-metrics）。

这些默认的 exporters 会自动从你的 Kubernetes 集群的所有组件（包括你的工作负载）收集 CPU 和内存指标。

默认告警

监控应用程序默认部署了一些告警。要查看默认告警，请进入 Alertmanager UI 并点击 展开所有组。

Rancher UI 中暴露的组件

关于 Rancher UI 中公开的监控组件的列表，以及编辑这些组件的常见用例，请参见本节。

基于角色的访问控制

关于配置监控访问的信息，请参阅此页面

指南

配置

在 Rancher 中配置监控资源

配置参考假定您熟悉监控组件如何协同工作。有关更多信息，请参阅监控的工作原理。

配置 Helm chart 选项

关于 rancher-monitoring chart 选项的更多信息，包括设置资源限制和请求的选项，请参阅此页

Windows 集群支持

从 v2.5.8 版本可用

当部署到 RKE1 Windows 集群上时，Monitoring V2 会自动部署一个 windows-exporter DaemonSet，并设置一个 ServiceMonitor，从每个部署的 Pod 中收集指标。这将为 Prometheus 提供windows_指标，与 Linux 主机的 node_exporter 的 node_ 指标相似。

为了能够完全部署 Windows 的 Monitoring V2，你的所有 Windows 主机必须有至少 wins v0.1.0 的版本。

关于如何在现有的 Windows 主机上升级 wins 的更多细节，请参阅 Windows 集群对监控 V2 的支持一节。

已知的问题

有一个已知问题，K3s 群集需要更多的默认内存。如果你在 K3s 集群上启用监控，我们建议将prometheus.prometheusSpec.resources.memory.limit设为 2500 Mi，prometheus.prometheusSpec.resources.memory.request设为 1750 Mi。

关于调试高内存使用率的技巧，请参见本页