如何为 Rancher 轮换证书?

概述

默认情况下,Kubernetes 集群所需要的证书由 Rancher 生成,如果出现证书过期,或证书泄露等情况,则需要使用新的证书轮换掉有问题的证书。轮换证书后,Kubernetes 组件将自动重新启动。

以下服务支持证书轮换:

  • etcd
  • kubelet
  • kube-apiserver
  • kube-proxy
  • kube-scheduler
  • kube-controller-manager
警告

轮换 Kubernetes 证书可能会导致集群在重新启动组件时暂时不可用。对于生产环境,建议在维护时段内执行此操作。

Rancher v2.2.x 中的证书轮换

Rancher 启动的 Kubernetes 集群(RKE 集群)能够通过 UI 轮换自动生成的证书。

  1. 全局视图中,导航到要轮换证书的集群。

  2. 选择省略号(…)>轮换证书

  3. 选择要轮换的证书。

    • 轮换所有服务证书(保持相同的 CA)
    • 轮换单个服务,然后从下拉菜单中选择一项服务
  4. 单击保存

结果:所选证书将被轮换,相关服务将重新启动以开始使用新证书。

注意: 尽管 RKE CLI 可以为 Kubernetes 集群组件使用自定义证书,但目前 Rancher 不支持在 Rancher UI 中创建 RKE 集群时上传这些证书。

Rancher v2.1.x 和 v2.0.x 中的证书轮换

在版本 v2.0.14 以及 v2.1.9 中支持

Rancher 启动的 Kubernetes 集群能够通过 API 轮换自动生成的证书。

1.在全局视图中,导航到要轮换证书的集群。

2.选择省略号(…)>在 API 中查看

3.单击 RotateCertificates

4.单击显示请求

5.单击发送请求

结果:所有 Kubernetes 证书将被轮换。

升级较旧的 Rancher 版本后轮换过期的证书

如果要从 Rancher v2.0.13 或更早版本或 v2.1.8 或更早版本升级,并且您的集群已过期证书,则需要一些手动步骤来完成证书轮换。

  1. 对于 controlplaneetcd 节点,登录到每个对应的主机,并检查证书 kube-apiserver-requestheader-ca.pem 是否在以下目录中:

    1. cd /etc/kubernetes/.tmp

    如果证书不在目录中,请执行以下命令:

    1. cp kube-ca.pem kube-apiserver-requestheader-ca.pem
    2. cp kube-ca-key.pem kube-apiserver-requestheader-ca-key.pem
    3. cp kube-apiserver.pem kube-apiserver-proxy-client.pem
    4. cp kube-apiserver-key.pem kube-apiserver-proxy-client-key.pem

    如果.tmp目录不存在,则可以将整个 SSL 证书复制到.tmp中:

    1. cp -r /etc/kubernetes/ssl /etc/kubernetes/.tmp
  2. 轮换证书。对于 Rancher v2.0.x 和 v2.1.x,请使用 Rancher API,对于 Rancher 2.2.x 请使用Rancher UI

  3. 命令完成后,检查 worker 节点是否处于活动状态。如果不是,请登录到每个 worker 节点,然后重新启动 kubelet 和 agent。

RKE 证书轮换 (local 集群和业务集群通用)

可用版本: rke v0.2.0+

注意 如果以前是通过rke v0.2.0之前的版本创建的 Kubernetes 集群,在轮换证书前先执行rke up操作,参考证书管理

  • 通过 RKE 轮换证书,目前支持的操作包括:

    • 批量更新所有服务证书(CA 证书不变)
    • 更新某个指定服务(CA 证书不变)
    • 轮换 CA 和所有服务证书
  1. 批量更新所有服务证书(CA 证书不变)

    ``` rke cert rotate

  1. INFO[0000] Initiating Kubernetes cluster
  2. INFO[0000] Rotating Kubernetes cluster certificates
  3. INFO[0000] [certificates] Generating Kubernetes API server certificates
  4. INFO[0000] [certificates] Generating Kube Controller certificates
  5. INFO[0000] [certificates] Generating Kube Scheduler certificates
  6. INFO[0001] [certificates] Generating Kube Proxy certificates
  7. INFO[0001] [certificates] Generating Node certificate
  8. INFO[0001] [certificates] Generating admin certificates and kubeconfig
  9. INFO[0001] [certificates] Generating Kubernetes API server proxy client certificates
  10. INFO[0001] [certificates] Generating etcd-xxxxx certificate and key
  11. INFO[0001] [certificates] Generating etcd-yyyyy certificate and key
  12. INFO[0002] [certificates] Generating etcd-zzzzz certificate and key
  13. INFO[0002] Successfully Deployed state file at [./cluster.rkestate]
  14. INFO[0002] Rebuilding Kubernetes cluster with rotated certificates
  15. .....
  16. INFO[0050] [worker] Successfully restarted Worker Plane..
  17. ```
  1. 更新指定服务(CA 证书不变)

    ```

  1. rke cert rotate --service kubelet
  2. INFO[0000] Initiating Kubernetes cluster
  3. INFO[0000] Rotating Kubernetes cluster certificates
  4. INFO[0000] [certificates] Generating Node certificate
  5. INFO[0000] Successfully Deployed state file at [./cluster.rkestate]
  6. INFO[0000] Rebuilding Kubernetes cluster with rotated certificates
  7. .....
  8. INFO[0033] [worker] Successfully restarted Worker Plane..
  9. ```
  1. 轮换 CA 和所有服务证书

    ``` rke cert rotate —rotate-ca

  1. INFO[0000] Initiating Kubernetes cluster
  2. INFO[0000] Rotating Kubernetes cluster certificates
  3. INFO[0000] [certificates] Generating CA kubernetes certificates
  4. INFO[0000] [certificates] Generating Kubernetes API server aggregation layer requestheader client CA certificates
  5. INFO[0000] [certificates] Generating Kubernetes API server certificates
  6. INFO[0000] [certificates] Generating Kube Controller certificates
  7. INFO[0000] [certificates] Generating Kube Scheduler certificates
  8. INFO[0000] [certificates] Generating Kube Proxy certificates
  9. INFO[0000] [certificates] Generating Node certificate
  10. INFO[0001] [certificates] Generating admin certificates and kubeconfig
  11. INFO[0001] [certificates] Generating Kubernetes API server proxy client certificates
  12. INFO[0001] [certificates] Generating etcd-xxxxx certificate and key
  13. INFO[0001] [certificates] Generating etcd-yyyyy certificate and key
  14. INFO[0001] [certificates] Generating etcd-zzzzz certificate and key
  15. INFO[0001] Successfully Deployed state file at [./cluster.rkestate]
  16. INFO[0001] Rebuilding Kubernetes cluster with rotated certificates
  17. ```
  1. 因为证书改变,相应的token也会变化,所以在完成集群证书更新后,需要对连接API SERVER的 Pod 进行重建,以获取新的token

    • cattle-system/cattle-cluster-agent
    • cattle-system/cattle-node-agent
    • cattle-system/kube-api-auth
    • ingress-nginx/nginx-ingress-controller
    • kube-system/canal
    • kube-system/kube-dns
    • kube-system/kube-dns-autoscaler
    • 其他应用 Pod

独立容器 Rancher Server 证书更新

  • 证书未过期

    证书未过期时,rancher server 可以正常运行。升级到 Rancher v2.0.14+ 、v2.1.9+、v2.2.2+ 后会自动检查证书有效期,如果发现证书即将过期,将会自动生成新的证书。所以独立容器运行的 Rancher Server,只需在证书过期前把 rancher 版本升级到支持自动更新 ssl 证书的版本即可,无需做其他操作。

  • 证书已过期

    如果证书已过期,那么 rancher server 无法正常运行。即使升级到 Rancher v2.0.14+ 、v2.1.9+、v2.2.2+ 也可能会提示证书错误。如果出现这种情况,可通过以下操作进行处理:

    1. 正常升级 rancher 版本到 v2.0.14+ 、v2.1.9+、v2.2.2+;

    2. 执行以下命令:

      • 2.0 或 2.1 版本

        1. docker exec -ti <rancher_server_id> mv /var/lib/rancher/management-state/certs/bundle.json /var/lib/rancher/management-state/certs/bundle.json-bak
      • 2.2 +

        1. docker exec -ti <rancher_server_id> mv /var/lib/rancher/management-state/tls/localhost.crt /var/lib/rancher/management-state/tls/localhost.crt-bak
      • 2.3 +

        1. docker exec -ti <rancher_server_id> mv /var/lib/rancher/k3s/server/tls /var/lib/rancher/k3s/server/tlsbak
        2. # 执行两侧,第一次用于申请证书,第二次用于加载证书并启动
        3. docker restart <rancher_server_id>
      • 2.4 +

        1. exec 到 rancher server
        1. kubectl --insecure-skip-tls-verify -n kube-system delete secrets k3s-serving
        2. kubectl --insecure-skip-tls-verify delete secret serving-cert -n cattle-system
        3. rm -f /var/lib/rancher/k3s/server/tls/dynamic-cert.json
        1. 重启 rancher-server

        2. 执行以下命令刷新参数

        1. curl --insecure -sfL https://server-url/v3
    3. 重启 Rancher Server 容器

      1. docker restart <rancher_server_id>

故障处理

提示 CA 证书为空

如果执行更新证书后出现如下错误提示,因为没有执行集群更新操作

image-20190423133555060

解决方法

  1. 选择对应问题集群,然后查看浏览器的集群 ID,如下图:ran'chimage-20190423133810076
  2. 执行命令 kubectl edit clusters <clusters_ID>
    • 如果 Rancher 是 HA 安装,直接在 local 集群中,通过rke生成的kube配置文件执行以上命令;
    • 如果 Rancher 是单容器运行,通过docker exec -ti <容器ID> bash进入容器中,然后执行apt install vim -y安装 vim 工具,然后再执行以上命令;
  3. 删除spec.rancherKubernetesEngineConfig.rotateCertificates层级下的配置参数:image-20190423135522178修改为image-20190423135604503
  4. 输入:wq保存 yaml 文件后集群将自动更新,更新完成后再进行证书更新。

证书已过期导致无法连接 K8S

如果集群证书已经过期,那么即使升级到Rancher v2.0.14、v2.1.9以及更高版本也无法轮换证书。rancher 是通过Agent去更新证书,如果证书过期将无法与Agent连接。

解决方法

可以手动设置节点的时间,把时间往后调整一些。因为Agent只与K8S masterRancher Server通信,如果 Rancher Server 证书未过期,那就只需调整K8S master节点时间。

调整命令:

  1. # 关闭ntp同步,不然时间会自动更新
  2. timedatectl set-ntp false
  3. # 修改节点时间
  4. timedatectl set-time '2019-01-01 00:00:00'

然后再对 Rancher Server 进行升级,接着按照证书轮换步骤进行证书轮换,等到证书轮换完成后再把时间同步回来。

  1. timedatectl set-ntp true

检查证书有效期

  1. openssl x509 -in /etc/kubernetes/ssl/kube-apiserver.pem -noout -dates