为使用云存储的 TiDB 集群更换节点

本文介绍一种在不停机情况下为使用云存储的 TiDB 集群更换、升级节点的方法。你可以为 TiDB 集群更换更高节点规格,也可以为节点升级新版本 Kubernetes。

本文以 Amazon EKS 为例,介绍了如何创建新的节点组,然后使用滚动重启迁移 TiDB 集群到新节点组,用于 TiKV 或者 TiDB 更换计算资源更多的节点组,EKS 升级等场景。

更换云存储节点 - 图1注意

其它公有云环境请参考GCP GKEAzure AKS阿里云 ACK 操作节点组。

前置条件

  • 云上已经存在一个 TiDB 集群。如果没有,可参考 Amazon EKS 进行部署。
  • TiDB 集群使用云存储作为数据盘。

第一步:创建新的节点组

  1. 找到 TiDB 集群所在的 EKS 集群的配置文件 cluster.yaml,将其拷贝保存为 cluster-new.yaml

  2. cluster-new.yaml 中加入新节点组 tidb-1b-newtikv-1a-new

    1. apiVersion: eksctl.io/v1alpha5
    2. kind: ClusterConfig
    3. metadata:
    4. name: your-eks-cluster
    5. region: ap-northeast-1
    6. nodeGroups:
    7. ...
    8. - name: tidb-1b-new
    9. desiredCapacity: 1
    10. privateNetworking: true
    11. availabilityZones: ["ap-northeast-1b"]
    12. instanceType: c5.4xlarge
    13. labels:
    14. dedicated: tidb
    15. taints:
    16. dedicated: tidb:NoSchedule
    17. - name: tikv-1a-new
    18. desiredCapacity: 1
    19. privateNetworking: true
    20. availabilityZones: ["ap-northeast-1a"]
    21. instanceType: r5b.4xlarge
    22. labels:
    23. dedicated: tikv
    24. taints:
    25. dedicated: tikv:NoSchedule

    更换云存储节点 - 图2注意

    • availabilityZones 需要和要替换的节点组保持一致。
    • 本例仅以 tidb-1b-newtikv-1a-new 节点组为例,请自行配置参数。

    如果要升级节点规格,修改 instanceType。如果要升级节点 Kubernetes 版本,请先升级 Kubernetes Control Plane 版本,可以参考更新集群

  3. cluster-new.yaml 中删除要更换的原节点组。

    本例中删除 tidb-1btikv-1a 节点组,请根据情况自行删除。

  4. cluster.yaml 中删除无需更换的节点组,保留要更换的原节点组,这些节点组将从集群中被删除。

    本例中留下 tidb-1btikv-1a 节点组,删除其他节点组。请根据情况自行调整。

  5. 执行以下命令,创建新的节点组:

    1. eksctl create nodegroup -f cluster_new.yml

    更换云存储节点 - 图3注意

    该命令只创建新的节点组,已经存在的节点组会忽略,不会重复创建,更不会删除不存在的节点组。

  6. 执行下面命令,确认新节点已加入:

    1. kubectl get no -l alpha.eksctl.io/nodegroup-name=${new_nodegroup1}
    2. kubectl get no -l alpha.eksctl.io/nodegroup-name=${new_nodegroup2}
    3. ...

    其中 ${new_nodegroup} 是新节点组名称,本例中是 tidb-1b-newtikv-1a-new,请根据情况自行调整。

第二步:标记原节点组的节点为不可调度

使用 kubectl cordon 命令标记原节点组节点为不可调度,防止新的 Pod 调度上去:

  1. kubectl cordon -l alpha.eksctl.io/nodegroup-name=${origin_nodegroup1}
  2. kubectl cordon -l alpha.eksctl.io/nodegroup-name=${origin_nodegroup2}
  3. ...

其中 ${origin_nodegroup} 是原节点组名称,本例中是 tidb-1btikv-1a,请根据情况自行调整。

第三步:滚动重启 TiDB 集群

参考重启 Kubernetes 上的 TiDB 集群滚动重启 TiDB 集群。

第四步:删除原来节点组

通过下面命令确认是否有 TiDB/PD/TiKV Pod 遗留在原节点组节点上:

  1. kubectl get po -n ${namespace} -owide

确认没有 TiDB/PD/TiKV Pod 遗留后,运行下面命令删除原节点组:

  1. eksctl delete nodegroup -f cluster.yaml --approve