Karmada Metrics 参考

Metrics

本章节详细介绍了 Karmada 不同组件导出的 Metrics 指标。

您可以使用 HTTP 抓取查询这些组件的指标端点,并以 Prometheus 格式获取当前指标数据。

名称类型帮助标签源组件
schedule_attempts_totalCounter尝试调度 resourceBinding 的次数result
schedule_type
karmada-scheduler
e2e_scheduling_duration_secondsHistogramE2E 调度延迟 (单位秒)result
schedule_type
karmada-scheduler
scheduling_algorithm_duration_secondsHistogram调度算法延迟 (单位秒,不包括 scale 调度器)schedule_stepkarmada-scheduler
queue_incoming_bindings_totalCounter按事件类型添加到调度队列的 bindings 数量eventkarmada-scheduler
framework_extension_point_duration_secondsHistogram运行特定扩展点的所有插件的延迟extension_point
result
karmada-scheduler
plugin_execution_duration_secondsHistogram在特定扩展点运行插件的持续时间plugin
extension_point
result
karmada-scheduler
estimating_request_totalCounter调度器估算器的请求数result
type
karmada_scheduler_estimator
estimating_algorithm_duration_secondsHistogram估算每个步骤的算法的延迟(单位秒)result
type
step
karmada_scheduler_estimator
cluster_ready_stateGauge集群的状态 (1 代表就绪, 0 代表其他)cluster_namekarmada-controller-manager
karmada-agent
cluster_node_numberGauge集群中节点的数量cluster_namekarmada-controller-manager
karmada-agent
cluster_ready_node_numberGauge集群中就绪节点的数量cluster_namekarmada-controller-manager
karmada-agent
cluster_memory_allocatable_bytesGauge集群中可分配的内存资源 (单位字节)cluster_namekarmada-controller-manager
karmada-agent
cluster_cpu_allocatable_numberGauge集群中可分配的 CPU 数量cluster_namekarmada-controller-manager
karmada-agent
cluster_pod_allocatable_numberGauge集群中可分配的 Pod 数量cluster_namekarmada-controller-manager
karmada-agent
cluster_memory_allocated_bytesGauge集群中已分配的内存资源 (单位字节)cluster_namekarmada-controller-manager
karmada-agent
cluster_cpu_allocated_numberGauge集群中已分配的 CPU 数量cluster_namekarmada-controller-manager
karmada-agent
cluster_pod_allocated_numberGauge集群中已分配的 Pod 数量cluster_namekarmada-controller-manager
karmada-agent
cluster_sync_status_duration_secondsHistogram同步一次群集状态的持续时间 (单位秒)cluster_namekarmada-controller-manager
karmada-agent
resource_match_policy_duration_secondsHistogram为资源模板找到匹配的调度策略的持续时间 (单位秒)/karmada-controller-manager
resource_apply_policy_duration_secondsHistogram为资源模板应用调度策略的持续时间 (单位秒),”error” 代表资源模板应用该策略失败,否则为 “success”resultkarmada-controller-manager
policy_apply_attempts_totalCounter为资源模板应用调度策略的尝试次数次数,”error” 代表资源模板应用该策略失败,否则为 “success”resultkarmada-controller-manager
binding_sync_work_duration_secondsHistogram为 binding 对象同步 work 的持续时间 (单位秒),”error” 代表为 binding 同步 work 失败,否则为 “success”resultkarmada-controller-manager
work_sync_workload_duration_secondsHistogram将 workload 对象同步到目标群集的持续时间 (单位秒),”error” 代表同步 workload 失败,否则为 “success”resultkarmada-controller-manager
karmada-agent
policy_preemption_totalCounter资源模板的抢占次数,”error” 代表资源模版抢占失败,否则为 “success”resultkarmada-controller-manager
cronfederatedhpa_process_duration_secondsHistogram处理 CronFederatedHPA 的持续时间 (单位秒),”error” 代表处理 CronFederatedHPA 失败,否则为 “success”resultkarmada-controller-manager
cronfederatedhpa_rule_process_duration_secondsHistogram处理 CronFederatedHPA 规则的持续时间 (单位秒),”error” 代表处理 CronFederatedHPA 规则失败,否则为 “success”resultkarmada-controller-manager
federatedhpa_process_duration_secondsHistogram处理 FederatedHPA 的持续时间 (单位秒),”error” 代表处理 FederatedHPA 失败,否则为 “success”resultkarmada-controller-manager
federatedhpa_pull_metrics_duration_secondsHistogramFederatedHPA 拉取 metrics 指标所需的时间 (单位秒),”error” 代表 FederatedHPA 拉取 metrics 指标失败,否则为 “success”result
metricType
karmada-controller-manager
pool_get_operation_totalCounter从池中拉数据的总次数name
from
karmada-controller-manager
karmada-agent
pool_put_operation_totalCounter向池中推数据的总次数name
to
karmada-controller-manager
karmada-agent
recreate_resource_to_clusterCounter在成员集群中重新创建资源的操作次数,”error” 代表重新创建资源失败,否则为 “success”,”cluster” 代表目标成员集群result
apiversion
kind
cluster
karmada-controller-manager
update_resource_to_clusterCounter在成员集群中更新资源的操作次数,”error” 代表更新资源失败,否则为 “success”,”cluster” 代表目标成员集群result
apiversion
kind
cluster
karmada-controller-manager