自 v2.2.0 起可用

集群指标用于展示集群内所有节点的硬件资源利用率,它们可以让您洞悉集群的全局状况。

注意: 持续的监控需要”指标基准”。确立”指标基准”的方式往往是结合实践和经验:首先对组件进行一段时间的操作并观察相关指标,然后评估出能描述其”健康”的指标值,最后建立可供日后度量的参考系。

以下是 Rancher 集群指标的说明:

  • CPU 利用率

    当集群的 CPU 利用率处于高水平时,这表明集群可能在高效的运行,也可能是 CPU 资源不足。

  • 磁盘利用率

    当某个节点快满时,需要特别留意这个节点的磁盘读写速率。这一点对于部署运行了 etcd 的节点尤为重要,因为集群会由于这类节点的存储空间不足而崩溃。

  • 内存利用率

    内存利用率的异常增量通常意味着内存泄露。

  • 平均负载

    理想的情况下,平均负载与集群的逻辑 CPU 数量应该保持一致。例如,如果集群有 8 个逻辑 CPU,则理想的平均负载也应该等于 8。如果平均负载远低于集群的逻辑 CPU 数量,则可能需要减少集群资源。相反,集群可能需要更多资源。

查看某个集群的节点指标

  1. 全局页面找到需要查看节点指标的目标集群。
  2. 在导航栏中选择节点
  3. 点选对应的节点。
  4. 展开节点指标查看。

获取具体的指标表达式

Etcd 指标

注意: 仅支持通过 Rancher 安装的 Kubernetes 集群

Etcd 指标用于展示 etcd 数据库的操作情况。当确立了 etcd 数据库操作的”基准指标”后,您就可以通过这些”基准指标”来观察异常的增量。当出现异常的增量时,这表明 etcd 集群可能存在问题,您应该尽快予以解决。

另外,您还需要关注位于 Etcd 指标顶部的文本。这些文本代表着 etcd 集群领导者选举的信息,描述了当前 etcd 集群是否具有领导者,即协调集群中其他 etcd 实例的 etcd 实例。如果出现大幅度的 etcd 领导者变化,那将意味着 etcd 集群处于不稳定的状态。

需要对下面几个重要的指标做些说明:

  • Etcd 有领导者

    etcd 通常以集群形式部署,部署到多个节点上并选举出一个领导者来协调集群操作。如果 ectd 集群没有领导者,集群的操作将无法被协调。

  • 领导者变更次数

    如果该统计数字突然增长,通常表明网络通信问题不断迫使 etcd 集群选举新的领导者。

获取具体的指标表达式

Kubernetes 组件指标

Kubernetes 组件指标用于展示集群里各个 Kubernetes 组件的监控数据。它表示每个组件的链接和延迟的信息:API Server,Controller Manager,Scheduler 以及 Ingress Controller。

注意: 仅支持通过 Rancher 安装的 Kubernetes 集群

当分析 Kubernetes 组件指标时,不能仅关注图表内的某时刻的单个独立指标。相反,您应该观察一段时间以确立”指标基准”,通过它们来观察异常的增量。这些增量通常表明集群可能存在问题,您需要进行调查。

下面几个重要的组件指标需要做些说明:

  • API Server 请求延迟

    API 响应时间的增加表明存在普遍的问题,需要进行调查。

  • API Server 请求率

    API 请求率的上升通常和响应时间的增加相吻合。请求率的增加也表明存在普片的问题,需要进行调查。

  • Scheduler 抢占请求

    如果看到 Scheduler 抢占请求图表内出现高峰,则表明硬件资源已消耗完,Kubernetes 没有足够的资源来运行所有 Pod,只能优先处理更重要的 Pod。

  • Pods 调度失败次数

    Pods 调度失败可能有很多原因,例如未绑定的 PVC,耗尽的硬件资源,无响应的节点等。

  • Ingress Controller 请求处理时长

    Ingress 路由请求到集群内的速度。

获取具体的指标表达式

Rancher 日志指标

Rancher 日志指标可以展示日志服务相关组件的操作情况,前提是您需要为 Rancher 启用日志服务

获取具体的指标表达式

查看某个工作负载的指标

工作负载的指标用于展示某个 Kubernetes 工作负载的硬件资源利用率。您可以查看关于 DeploymentStatefulSet 等工作负载的指标。

  1. 全局页面找到需要查看工作负载指标的目标项目。

  2. 在导航栏中下拉资源菜单,选择工作负载(在早于 v2.3.0 的版本中,可直接在导航栏中选择工作负载)。

  3. 点选对应的工作负载。

  4. 展开工作负载指标查看。

  5. 如果需要进一步查看 Pod 指标,可以点选该工作负载的 Pod 部分,

    • 展开 Pod 指标查看。

    • 如果需要再进一步查看 容器指标,可以点选该 Pod 的容器部分,

      • 展开容器指标查看。

获取具体的指标表达式