概述

使用 RKE 部署 Kubernetes 后,您可以升级 Kubernetes 集群中组件的版本、编辑Kubernetes services 列表或编辑插件

RKE 的版本说明列出了每个 RKE 版本支持的 Kubernetes 版本,详情请参考RKE 版本说明。本文基于 RKE v1.x 写作。

您也可以使用更新的 Kubernetes 版本安装集群。

每个版本的 RKE 都有对应的支持Kubernetes 版本列表

如果在kubernetes_versionsystem-images都定义了 Kubernetes 版本号,system-images中的版本号优先级高于kubernetes_version的版本号。

工作原理

本文讲述了编辑或升级 RKE Kubernetes 集群时发生的事项。

先决条件

  • 保证cluster.yml缺少system_images的说明和配置。如果您使用的是RKE 不支持的 Kubernetes 版本,则要保证只在system——images中说明 Kubernetes 版本号。详情请参考Kubernetes 版本优先级

  • 保证工作目录中有管理Kubernetes 集群状态所需的文件,不同版本的 RKE 使用不同的文件管理 Kubernetes 集群状态。

    • RKE v0.2.0 及更新版本

      RKE v0.2.0 及以上的版本使用cluster.rkestate文件管理集群状态。cluster.rkestate文件中含有集群的当前状态,包括 RKE 配置和证书等信息。

      这个文件和cluster.yml位于同一目录下。

      cluster.rkestate文件非常重要,控制集群和升级集群的时候都需要用到这个文件,请妥善保管该文件。

    • RKE v0.2.0 之前的版本

      请保证工作目录中含有kube_config_cluster.yml文件

      RKE 以密文的方式保存 Kubernetes 集群状态。编辑集群状态时,RKE 拉取密文,变更集群状态,然后将变更后的状态以密文的方式保存到kube_config_cluster.yml文件中。如果您使用的是 RKE v0.2.0 之前的版本,请妥善保管该文件。

升级 Kubernetes 版本

打开cluster.yml文件,找到 kubernetes_version字符串,将原有的版本号修改为新的版本号即可。每个 RKE 版本支持的 Kubernetes 版本不同,请参考列举支持的 Kubernetes 版本

  1. kubernetes_version: "v1.15.5-rancher1-1"

然后在命令行工具中输入 rke up,使用cluster.yml文件指定的新版本器启动 RKE。

  1. rke up --config cluster.yml

配置升级策略

从 v0.1.8 开始,RKE 支持升级插件(Add-on)。也可以在配置文件中直接编辑组件版本,然后运行rke up重启 RKE,重启后 RKE 就会使用更新后的插件

从 v1.1.0 开始,RKE 提供了更多的升级选项,让用户在升级插件的过程中可控的选择更多。这些选项可以使业务在升级的过程中不中断。

升级配置选项的详情请查看配置升级策略

不间断业务升级

这个文档讲述了如何实现不中断业务的升级过程,详情请参考不中断业务的升级

列举支持的 Kubernetes 版本

请参考RKE 版本说明,获取您当前使用的 RKE 支持的 Kubernetes 版本号。

也可以输入以下命令,快速获取支持的版本号。

  1. rke config --list-version --all
  2. v1.15.3-rancher2-1
  3. v1.13.10-rancher1-2
  4. v1.14.6-rancher2-1
  5. v1.16.0-beta.1-rancher1-1

Kubernetes 版本优先级

如果在kubernetes_versionsystem_images中都定义了 Kubernetes 版本,system_images中定义的版本会生效,而kubernetes_version中定义的版本不会生效。如果两者都没有定义 Kubernetes 版本,RKE 会使用默认的 Kubernetes 版本。总体来说,选取 Kubernetes 版本的优先级从高到底的排序是这样的:kubernetes_version > system_images > 默认版本。

使用不支持的 Kubernetes 版本 Using an Unsupported Kubernetes Version

使用 RKEv0.2.0 或更旧的版本时,如果kubernetes_version定义的版本和 RKE 支持的 Kubernetes 版本不同,RKE 会无法运行。

使用 RKEv0.2.0 之后的版本是,如果kubernetes_version定义的版本和 RKE 支持的 Kubernetes 版本不同,RKE 会转而使用自身支持的 Kubernetes 版本。

如果您想将既定的 Kubernetes 版本替换为其他版本,请使用system images选项。

Kubernetes 版本和服务的映射关系

在 RKE 中,kubernetes_version将 Kubernetes 版本映射到默认的服务、参数和选项中。

使用 v0.3.0+时,RKE 有这些默认服务

使用 v0.3.0 之前的版本时,有这些默认服务。目录中的服务版本与 Rancher 版本相同。因此,使用 Rancher2.1.x 时应该使用这个文件

升级服务

您可以修改服务的对象,或添加extra_args,然后运行rke up命令,升级服务。

说明: service_cluster_ip_rangecluster_cidr不可修改。

手动升级节点

v1.1.0 开始可用

您可以手动升级每种类型的节点。建议您先升级 etcd 节点,然后升级 controlplane 节点,最后再升级 worker 节点。

回滚 Kubernetes 版本

v1.1.0 开始可用

您可以使用快照,将集群恢复到使用上一个 Kubernetes 版本的时候。

问题排查

v1.1.0 开始可用

如果一个节点在升级之后不出现,rke up指令会报错。

如果实际不可用的节点超出了配置文件中限定不可用节点数量的最大值,则不会升级。

如果升级停止了,您可能需要修改一些不可用的节点,或者将它从集群中移除,然后继续升级。

一个不可用的节点可能处于以下几种状态:

  • 关机
  • 不可用
  • 用户执行了 drain 命令,将该节点上运行的 pod 驱逐到了其他节点上,导致该节点上没有 kubelets
  • 升级失败

以下是升级失败的常见场景:

  • 升级过程中,不可用的节点数量达到预设的最大值,RKE CLI 会报错,停止工作。
  • 如果一些节点升级失败,但是不可用的节点数量小于预设的最大值,RKE CLI 会将这些节点升级失败的事项记录在日志里,然后跳过这些节点,升级其他节点和插件。完成插件升级或,RKE 会报错,然后退出。