集群故障 FAQ

如何判断 Kubernetes 集群节点异常

第一步:查询节点状态

  1. kubectl get node -o wide

第二步:通过以下命令,查询高负载的节点,如果节点异常的话一般都可以使用该命令查询

  1. kubectl top node

如果有发现某个节点的状态为 unknown,则该节点已经存在异常,此时有以下几种解决办法

  • 将该节点设置封锁,将相关异常 Pod 从该节点删除,让其重新分配到正常的节点上
  • 重启该节点服务器,让该节点的 kubelet 正常和 master 上的 apiserver 通信

更多 kubernetes 集群异常诊断,详见 官方 kubernetes 集群诊断