监控
从 v0.3.0 起可用
仪表盘指标
Harvester 已使用 Prometheus 内置集成监控。监控会在 Harvester 安装期间自动启用。
在 Harvester 的 Dashboard
页面中,你可以分别查看集群指标以及最常用的 10 个虚拟机指标。 此外,你可以单击 Grafana 仪表盘链接,从而在 Grafana UI 上查看更多仪表盘。
备注
只有管理员用户才能查看集群仪表盘指标。
另外,Grafana 是由 rancher-monitoring
提供的,因此默认的管理员密码是 prom-operator。
参考:values.yaml
虚拟机详细指标
你可以单击 VM details page > VM Metrics
来查看各个虚拟机的指标:
备注
当前 Memory Usage
的计算公式是 (1 - free/total) x 100%
,而不是 (used/total) x 100%
。
例如,在 Linux 操作系统中,free -h
命令输出当前内存的统计信息:
$ free -h
total used free shared buff/cache available
Mem: 7.7Gi 166Mi 4.6Gi 1.0Mi 2.9Gi 7.2Gi
Swap: 0B 0B 0B
对应的 Memory Usage
为 (1 - 4.6/7.7) x 100%
,即大致为 40%
。
配置 Monitoring
从 v1.0.1 起可用
Monitoring 有几个可用于收集和聚合所有节点/Pod/VM 指标数据的组件。Monitoring 所需的资源取决于你的工作负载和硬件资源。Harvester 会根据一般用例设置默认值,你可以相应地更改它们。
目前,Resources Settings
可以配置以下组件:
- Prometheus
- Prometheus Node Exporter(从 v1.0.2 开始可以从 UI 中进行配置)
使用 WebUI
在 Advanced Settings
页面中,你可以查看和更改资源设置:
导航到设置页面,找到
harvester-monitoring
。点击
Show harvester-monitoring
以查看当前的值:单击
⋮ > Edit Setting
设置新值:点击
Save
,Monitoring
资源会在几秒后重启。请注意,重新启动可能需要一些时间来重新加载以前的数据。
最常用的选项:内存设置
Requested Memory
是Monitoring
资源所需的最小内存。建议设置为单个管理节点系统内存的 5% 到 10%。小于 500Mi 的值将被拒绝。Memory Limit
是可以分配给Monitoring
资源的最大内存。对于单个管理节点,推荐设置为系统内存的 30% 左右。达到这个阈值时,Monitoring
会自动重启。
你可以根据可用的硬件资源和系统负载相应地更改以上设置。
备注
如果你有多个不同硬件资源的管理节点,请根据较小的节点来设置 Prometheus 的值。
警告
如果某个节点上部署了越来越多的虚拟机,prometheus-node-exporter
Pod 可能会由于 OOM(内存不足)而被杀死。在这种情况下,你需要增加 limits.memory
的值。
使用 CLI
你可以使用 CLI 命令 $kubectl edit managedchart rancher-monitoring -n fleet-local
来更新这些值。
对于 >= v1.0.1
的 Harvester 版本,相关路径和默认值为:
# Prometheus configs
spec.values.prometheus.prometheusSpec.resources.limits.cpu: 1000m
spec.values.prometheus.prometheusSpec.resources.limits.memory: 2500Mi
spec.values.prometheus.prometheusSpec.resources.requests.cpu: 750m
spec.values.prometheus.prometheusSpec.resources.requests.memory: 1750Mi
---
# node exporter configs
spec.values.prometheus-node-exporter.resources.limits.cpu: 200m
spec.values.prometheus-node-exporter.resources.limits.memory: 180Mi
spec.values.prometheus-node-exporter.resources.requests.cpu: 100m
spec.values.prometheus-node-exporter.resources.requests.memory: 30Mi
对于 <= v1.0.0
的版本,managedchart rancher-monitoring
中没有指定相关路径和默认值,因此你需要相应添加它们。
故障排除
如需 Monitoring 的支持和故障排除,请参阅故障排除页面。