集群故障 FAQ
如何判断 Kubernetes 集群节点异常
第一步:查询节点状态
kubectl get node -o wide
第二步:通过以下命令,查询高负载的节点,如果节点异常的话一般都可以使用该命令查询
kubectl top node
如果有发现某个节点的状态为 unknown,则该节点已经存在异常,此时有以下几种解决办法
- 将该节点设置封锁,将相关异常 Pod 从该节点删除,让其重新分配到正常的节点上
- 重启该节点服务器,让该节点的 kubelet 正常和 master 上的 apiserver 通信
更多 kubernetes 集群异常诊断,详见 官方 kubernetes 集群诊断