故障自愈
Nebula Operator调用Nebula Graph集群提供的接口,动态地感知服务是否正常运行。当Nebula Graph集群中某一组件停止运行时,Nebula Operator会自动地进行容错处理。本文通过删除Nebula Graph集群中1个Storage服务Pod,模拟集群故障为例,说明Nebular Operator如何进行故障自愈。
前提条件
操作步骤
创建Nebula Graph集群。具体步骤参考使用Kubectl部署Nebula Graph集群或者使用Helm部署Nebula Graph集群。
待所有Pods都处于
Running
状态时,模拟故障,删除名为<cluster_name>-storaged-2
Pod。kubectl delete pod <cluster-name>-storaged-2 --now
<cluster_name>
为Nebula Graph集群的名称。Nebula Operator自动创建名为
<cluster-name>-storaged-2
的Pod,以修复故障。执行
kubectl get pods
查看<cluster-name>-storaged-2
Pod的创建状态。...
nebula-cluster-storaged-1 1/1 Running 0 5d23h
nebula-cluster-storaged-2 0/1 ContainerCreating 0 1s
...
...
nebula-cluster-storaged-1 1/1 Running 0 5d23h
nebula-cluster-storaged-2 1/1 Running 0 4m2s
...
当
<cluster-name>-storaged-2
的状态由ContainerCreating
变为Running
时,说明自愈成功。
最后更新: September 28, 2021
当前内容版权归 Nebula Graph 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 Nebula Graph .