监控告警指标列表
监控 & 告警指标列表
目前 TKEStack 提供了以下维度的监控指标,所有指标均为统计周期内的平均值。
监控
集群监控指标
指标 | 单位 | 说明 |
---|
CPU 利用率 | % | 集群整体的 CPU 利用率 |
内存利用率 | % | 集群整体的内存利用率 |
节点监控指标
指标 | 单位 | 说明 |
---|
Pod 重启次数 | 次 | 节点内所有 Pod 的重启次数之和 |
异常状态 | - | 节点的状态,正常或异常 |
CPU 利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 | % | 节点内所有 Pod 的内存使用量占节点总量之比 |
内网入带宽 | bps | 节点内所有 Pod 的内网入方向带宽之和 |
内网出带宽 | bps | 节点内所有 Pod 的内网出方向带宽之和 |
外网入带宽 | bps | 节点内所有 Pod 的外网入方向带宽之和 |
外网出带宽 | bps | 节点内所有 Pod 的外网出方向带宽之和 |
TCP 连接数 | 个 | 节点保持的 TCP 连接数 |
工作负载监控指标
指标 | 单位 | 说明 |
---|
Pod 重启次数 | 次 | 工作负载内所有 Pod 的重启次数之和 |
CPU 使用量 | 核 | 工作负载内所有 Pod 的 CPU 使用量 |
CPU 利用率(占集群) | % | 工作负载内所有 Pod 的 CPU 使用量占集群总量之比 |
内存使用量 | B | 工作负载内所有 Pod 的内存使用量 |
内存利用率(占集群) | % | 工作负载内所有 Pod 的内存使用量占集群总量之比 |
网络入带宽 | bps | 工作负载内所有 Pod 的入方向带宽之和 |
网络出带宽 | bps | 工作负载内所有 Pod 的出方向带宽之和 |
网络入流量 | B | 工作负载内所有 Pod 的入方向流量之和 |
网络出流量 | B | 工作负载内所有 Pod 的出方向流量之和 |
网络入包量 | 个/s | 工作负载内所有 Pod 的入方向包数之和 |
网络出包量 | 个/s | 工作负载内所有 Pod 的出方向包数之和 |
Pod 监控指标
指标 | 单位 | 说明 |
---|
异常状态 | - | Pod 的状态,正常或异常 |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Pod 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) | % | Pod 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 | B | Pod 的内存使用量,含缓存 |
内存使用量(不包含 Cache) | B | Pod 内所有 Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) | % | Pod 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) | % | Pod 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) | % | Pod 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
网络入带宽 | bps | Pod 的入方向带宽之和 |
网络出带宽 | bps | Pod 的出方向带宽之和 |
网络入流量 | B | Pod 的入方向流量之和 |
网络出流量 | B | Pod 的出方向流量之和 |
网络入包量 | 个/s | Pod 的入方向包数之和 |
网络出包量 | 个/s | Pod 的出方向包数之和 |
Container 监控指标
指标 | 单位 | 说明 |
---|
CPU 使用量 | 核 | Container 的 CPU 使用量 |
CPU 利用率(占节点) | % | Container 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Container 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) | % | Container 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 | B | Container 的内存使用量,含缓存 |
内存使用量(不包含 Cache) | B | Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) | % | Container 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) | % | Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) | % | Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
块设备读带宽 | B/s | Container 从硬盘读取数据的吞吐量 |
块设备写带宽 | B/s | Container 把数据写入硬盘的吞吐量 |
块设备读 IOPS | 次/s | Container 从硬盘读取数据的 IO 次数 |
块设备写 IOPS | 次/s | Container 把数据写入硬盘的 IO 次数 |
告警
目前容器服务提供了以下维度的告警指标,所有指标均为统计周期内的平均值。
集群告警指标
指标 | 单位 | 说明 |
---|
CPU 利用率 | % | 集群整体的 CPU 利用率 |
内存利用率 | % | 集群整体的内存利用率 |
CPU 分配率 | % | 集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比 |
内存分配率 | % | 集群所有容器设置的内存 Request 之和与集群总可分配内存之比 |
Apiserver 正常 | - | Apiserver 状态,默认 False 时告警,仅独立集群支持该指标 |
ETCD 正常 | - | ETCD 状态,默认 False 时告警,仅独立集群支持该指标 |
Scheduler 正常 | - | Scheduler 状态,默认 False 时告警,仅独立集群支持该指标 |
Controll Manager 正常 | - | Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标 |
节点告警指标
指标 | 单位 | 说明 |
---|
CPU 利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 | % | 节点内所有 Pod 的内存使用量占节点总量之比 |
节点上 Pod 重启次数 | 次 | 节点内所有 Pod 重启次数之和 |
Node Ready | - | 节点状态,默认 False 时告警 |
Pod 告警指标
指标 | 单位 | 说明 |
---|
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
内存利用率(占节点) | % | Pod 的内存使用量占节点总量之比 |
实际内存利用率(占节点,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
CPU 利用率(占 Limit) | % | Pod 的CPU使用量和设置的 Limit 值之比 |
内存利用率(占 Limit) | % | Pod 的内存使用量和设置的 Limit 值之比 |
实际内存利用率(占 Limit,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
Pod 重启次数 | 次 | Pod 的重启次数 |
Pod Ready | - | Pod 的状态,默认 False 时告警 |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
内存使用量 | MB | Pod 的内存使用量,含缓存 |
实际内存使用量 | MB | Pod 内所有 Container 的真实内存使用量之和,不含缓存 |