Kubernetes 集群升级与高可用部署

记录 k8s 集群的版本升级和高可用部署过程。先对单 master 集群进行升级，然后搭建一个三 master 的高可用集群，使用 kube-vip 实现 VIP 漂移。

第一部分：集群升级#

环境说明#

现有集群：

k8s-master: 192.168.100.20
k8s-node1: 192.168.100.21
k8s-node2: 192.168.100.22
当前版本：v1.33.5
目标版本：v1.34.1

参考官方文档：

升级 Master 节点#

1. 修改 yum 源#

所有节点修改源版本：

1
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
2
[kubernetes]
3
name=Kubernetes
4
baseurl=https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.34/rpm/
5
enabled=1
6
gpgcheck=0
7
EOF
8

9
yum makecache fast

2. 准备镜像#

在 harbor 节点上拉取镜像并推送到私有仓库：

1
# 拉取阿里云镜像
2
docker pull registry.aliyuncs.com/google_containers/kube-apiserver:v1.34.1
3
docker pull registry.aliyuncs.com/google_containers/kube-controller-manager:v1.34.1
4
docker pull registry.aliyuncs.com/google_containers/kube-scheduler:v1.34.1
5
docker pull registry.aliyuncs.com/google_containers/kube-proxy:v1.34.1
6
docker pull registry.aliyuncs.com/google_containers/coredns:v1.12.1
7
docker pull registry.aliyuncs.com/google_containers/pause:3.10.1
8
docker pull registry.aliyuncs.com/google_containers/etcd:3.6.4-0
9

10
# 打标签并推送到 Harbor
11
docker images |grep google_containers | awk '{print $1":"$2}' | awk -F/ '{system("docker tag "$0" reg.westos.org/k8s/"$3"")}'
12
docker images |grep reg.westos.org/k8s | awk '{system("docker push "$1":"$2"")}'

3. 修改 containerd 配置#

在所有节点更新 pause 镜像版本：

1
sed -i 's#sandbox_image = ".*"#sandbox_image = "reg.westos.org/k8s/pause:3.10.1"#g' /etc/containerd/config.toml
2
systemctl restart containerd

4. 升级 kubeadm#

在 master 节点：

1
yum install -y kubeadm-1.34.1
2

3
# 验证版本
4
kubeadm version

输出：

1
kubeadm version: &version.Info{Major:"1", Minor:"34", GitVersion:"v1.34.1", ...}

5. 验证升级计划#

1
kubeadm upgrade plan

会列出可升级的版本和组件变化。

6. 执行升级#

1
kubeadm upgrade apply v1.34.1

等待升级完成，会看到类似输出：

1
[upgrade/successful] SUCCESS! Your cluster was upgraded to "v1.34.1". Enjoy!

7. 升级 kubelet 和 kubectl#

1
# 腾空节点（驱逐 Pod）
2
kubectl drain k8s-master --ignore-daemonsets
3

4
# 升级组件
5
yum install -y kubelet-1.34.1 kubectl-1.34.1
6

7
# 重启 kubelet
8
systemctl daemon-reload
9
systemctl restart kubelet
10

11
# 解除保护
12
kubectl uncordon k8s-master
13

14
# 验证
15
kubectl get node

升级 Worker 节点#

在每个 worker 节点上依次执行：

1. 升级 kubeadm#

1
yum install -y kubeadm-1.34.1

2. 升级节点#

1
kubeadm upgrade node

3. 升级 kubelet#

1
# 在 master 上腾空节点
2
kubectl drain k8s-node1 --ignore-daemonsets
3

4
# 在 node1 上升级
5
yum install -y kubelet-1.34.1
6
systemctl daemon-reload
7
systemctl restart kubelet
8

9
# 在 master 上解除保护
10
kubectl uncordon k8s-node1

对 node2 重复相同步骤。

验证升级结果#

1
kubectl get node

输出：

1
NAME         STATUS   ROLES           AGE   VERSION
2
k8s-master   Ready    control-plane   10d   v1.34.1
3
k8s-node1    Ready    <none>          10d   v1.34.1
4
k8s-node2    Ready    <none>          10d   v1.34.1

第二部分：高可用集群部署#

环境规划#

主机	IP	用途
k8s-master01	192.168.100.20	控制平面节点
k8s-master02	192.168.100.21	控制平面节点
k8s-master03	192.168.100.22	控制平面节点
k8s-worker01	192.168.100.23	工作节点
harbor	192.168.100.14	私有镜像仓库
VIP	192.168.100.200	虚拟 IP（漂移）

软件版本：

k8s: v1.34.1
kube-vip: v1.0.1
Calico: v3.31.0

Harbor 仓库地址：reg.westos.org

系统初始化#

所有节点都需要执行以下操作（参考搭建k8s集群文章的完整流程）。

关闭 swap#

1
swapoff -a
2
sed -i '/swap/s/^/#/' /etc/fstab

调整内核参数#

1
cat <<EOF > /etc/sysctl.d/k8s.conf
2
net.ipv4.ip_forward = 1
3
net.bridge.bridge-nf-call-iptables = 1
4
net.bridge.bridge-nf-call-ip6tables = 1
5
EOF
6

7
sysctl --system

配置主机名和解析#

1
# 在各节点设置主机名
2
hostnamectl set-hostname k8s-master01  # master01 上
3
hostnamectl set-hostname k8s-master02  # master02 上
4
hostnamectl set-hostname k8s-master03  # master03 上
5
hostnamectl set-hostname k8s-worker01  # worker01 上
6

7
# 所有节点添加 hosts
8
cat >> /etc/hosts <<EOF
9
192.168.100.20  k8s-master01
10
192.168.100.21  k8s-master02
11
192.168.100.22  k8s-master03
12
192.168.100.23  k8s-worker01
13
192.168.100.14  reg.westos.org
14
192.168.100.200 k8s-apiserver
15
EOF

配置 yum 源#

1
cat <<EOF > /etc/yum.repos.d/kubernetes.repo
2
[kubernetes]
3
name=Kubernetes
4
baseurl=https://mirrors.aliyun.com/kubernetes-new/core/stable/v1.34/rpm/
5
enabled=1
6
gpgcheck=0
7
EOF

配置 IPVS#

1
cat > /etc/modules-load.d/ipvs.conf <<EOF
2
ip_vs
3
ip_vs_rr
4
ip_vs_wrr
5
ip_vs_sh
6
nf_conntrack
7
overlay
8
br_netfilter
9
EOF
10

11
modprobe ip_vs ip_vs_rr ip_vs_wrr ip_vs_sh nf_conntrack overlay br_netfilter
12
dnf install -y ipvsadm ipset

安装 containerd#

所有节点安装：

1
yum install -y containerd.io cri-tools
2
containerd config default > /etc/containerd/config.toml
3

4
# 启用 systemd cgroup
5
sed -i 's#SystemdCgroup = false#SystemdCgroup = true#g' /etc/containerd/config.toml
6

7
systemctl enable --now containerd
8

9
# 配置 crictl
10
cat <<EOF > /etc/crictl.yaml
11
runtime-endpoint: unix:///run/containerd/containerd.sock
12
image-endpoint: unix:///run/containerd/containerd.sock
13
EOF

配置 Harbor 证书#

1
# 所有节点创建目录
2
mkdir -p /etc/containerd/certs.d/reg.westos.org
3

4
# 从 harbor 复制证书（在各节点上执行）
5
scp root@192.168.100.14:/etc/docker/certs.d/reg.westos.org/ca.crt /etc/containerd/certs.d/reg.westos.org/
6

7
# 修改 containerd 配置
8
sed -i "s#config_path = ''#config_path = '/etc/containerd/certs.d'#g" /etc/containerd/config.toml
9
sed -i "s#registry.k8s.io/pause.*#reg.westos.org/k8s/pause:3.10.1'#g" /etc/containerd/config.toml
10

11
systemctl restart containerd

安装 k8s 组件#

所有节点安装：

1
yum install -y kubelet kubeadm kubectl
2
systemctl enable --now kubelet

部署 kube-vip（第一个 master）#

kube-vip 用于实现控制平面的高可用，通过 VIP 漂移确保 apiserver 的访问入口始终可用。

准备 kube-vip 镜像#

在 harbor 节点上：

1
docker pull ghcr.io/kube-vip/kube-vip:v1.0.1
2

3
# 打标签并推送
4
docker tag ghcr.io/kube-vip/kube-vip:v1.0.1 reg.westos.org/kube-vip/kube-vip:v1.0.1
5
docker push reg.westos.org/kube-vip/kube-vip:v1.0.1

创建 kube-vip 静态 Pod#

在 master01 上创建 kube-vip 配置（注意：要在初始化集群之前创建）：

1
# 先创建 manifests 目录
2
mkdir -p /etc/kubernetes/manifests
3

4
# 创建 kube-vip 配置
5
cat > /etc/kubernetes/manifests/kube-vip.yaml <<EOF
6
apiVersion: v1
7
kind: Pod
8
metadata:
9
  name: kube-vip
10
  namespace: kube-system
11
spec:
12
  containers:
13
  - args:
14
    - manager
15
    env:
16
    - name: vip_arp
17
      value: "true"
18
    - name: port
19
      value: "6443"
20
    - name: vip_nodename
21
      valueFrom:
22
        fieldRef:
23
          fieldPath: spec.nodeName
24
    - name: vip_interface
25
      value: ens160
26
    - name: vip_subnet
27
      value: "32"
28
    - name: dns_mode
29
      value: first
30
    - name: cp_enable
31
      value: "true"
32
    - name: cp_namespace
33
      value: kube-system
34
    - name: svc_enable
35
      value: "true"
36
    - name: svc_leasename
37
      value: plndr-svcs-lock
38
    - name: vip_leaderelection
39
      value: "true"
40
    - name: vip_leasename
41
      value: plndr-cp-lock
42
    - name: vip_leaseduration
43
      value: "5"
44
    - name: vip_renewdeadline
45
      value: "3"
46
    - name: vip_retryperiod
47
      value: "1"
48
    - name: address
49
      value: 192.168.100.200
50
    - name: prometheus_server
51
      value: :2112
52
    image: reg.westos.org/kube-vip/kube-vip:v1.0.1
53
    imagePullPolicy: IfNotPresent
54
    name: kube-vip
55
    resources: {}
56
    securityContext:
57
      capabilities:
58
        add:
59
        - NET_ADMIN
60
        - NET_RAW
61
        drop:
62
        - ALL
63
    volumeMounts:
64
    - mountPath: /etc/kubernetes/admin.conf
65
      name: kubeconfig
66
  hostAliases:
67
  - hostnames:
68
    - kubernetes
69
    ip: 127.0.0.1
70
  hostNetwork: true
71
  volumes:
72
  - hostPath:
73
      path: /etc/kubernetes/super-admin.conf
74
    name: kubeconfig
75
status: {}
76
EOF

准备集群初始化配置#

在 master01 上创建配置文件：

1
cat > kubeadm-config.yaml <<EOF
2
apiVersion: kubeadm.k8s.io/v1beta4
3
kind: InitConfiguration
4
bootstrapTokens:
5
- groups:
6
  - system:bootstrappers:kubeadm:default-node-token
7
  token: abcdef.0123456789abcdef
8
  ttl: 24h0m0s
9
  usages:
10
  - signing
11
  - authentication
12
localAPIEndpoint:
13
  advertiseAddress: 192.168.100.20    # master01 本机 IP
14
  bindPort: 6443
15
nodeRegistration:
16
  criSocket: unix:///var/run/containerd/containerd.sock
17
  imagePullPolicy: IfNotPresent
18
  name: k8s-master01                   # master01 主机名
19
  taints: null
20
---
21
apiVersion: kubeadm.k8s.io/v1beta4
22
kind: ClusterConfiguration
23
kubernetesVersion: v1.34.1
24
clusterName: kubernetes
25
controlPlaneEndpoint: "192.168.100.200:6443"  # VIP 地址
26
imageRepository: reg.westos.org/k8s
27
certificatesDir: /etc/kubernetes/pki
28
apiServer:
29
  certSANs:
30
  - 192.168.100.200                    # VIP 加入证书
31
  - 192.168.100.20
32
  - 192.168.100.21
33
  - 192.168.100.22
34
etcd:
35
  local:
36
    dataDir: /var/lib/etcd
37
networking:
38
  serviceSubnet: 10.96.0.0/12
39
  podSubnet: 10.244.0.0/16
40
  dnsDomain: cluster.local
41
---
42
apiVersion: kubeproxy.config.k8s.io/v1alpha1
43
kind: KubeProxyConfiguration
44
mode: ipvs
45
ipvs:
46
  scheduler: rr
47
  strictARP: true                      # 高可用必须开启，避免 ARP 冲突
48
EOF

初始化第一个 Master#

在 master01 上执行：

1
kubeadm init --config=kubeadm-config.yaml --upload-certs

初始化成功后会输出两条 join 命令，一条给 master 用，一条给 worker 用，记录下来：

1
# Master 节点加入命令（带 --control-plane）
2
kubeadm join 192.168.100.200:6443 --token abcdef.0123456789abcdef \
3
  --discovery-token-ca-cert-hash sha256:xxx... \
4
  --control-plane --certificate-key yyy...
5

6
# Worker 节点加入命令
7
kubeadm join 192.168.100.200:6443 --token abcdef.0123456789abcdef \
8
  --discovery-token-ca-cert-hash sha256:xxx...

配置 kubectl#

在 master01 上：

1
mkdir -p $HOME/.kube
2
cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
3
chown $(id -u):$(id -g) $HOME/.kube/config
4

5
# 命令补全
6
yum install -y bash-completion
7
echo "source <(kubectl completion bash)" >> ~/.bashrc
8
source ~/.bashrc

查看节点状态：

1
kubectl get node

输出：

1
NAME           STATUS     ROLES           AGE   VERSION
2
k8s-master01   NotReady   control-plane   2m    v1.34.1

安装 Calico 网络插件#

在 harbor 节点准备镜像：

1
docker pull quay.io/calico/cni:v3.31.0
2
docker pull quay.io/calico/node:v3.31.0
3
docker pull quay.io/calico/kube-controllers:v3.31.0
4

5
# 打标签并推送
6
docker images |grep calico | awk '{print $1":"$2}' | awk -F/ '{system("docker tag "$0" reg.westos.org/calico/"$3"")}'
7
docker images |grep reg.westos.org/calico | awk '{system("docker push "$1":"$2"")}'

在 master01 上部署：

1
wget https://raw.githubusercontent.com/projectcalico/calico/v3.31.0/manifests/calico.yaml
2
sed -i 's#quay.io/#reg.westos.org/#g' calico.yaml
3
kubectl apply -f calico.yaml

等待 Calico 启动：

1
kubectl get pod -A |grep calico

节点变为 Ready：

1
kubectl get node

输出：

1
NAME           STATUS   ROLES           AGE   VERSION
2
k8s-master01   Ready    control-plane   5m    v1.34.1

验证 kube-vip#

检查 VIP 是否生效：

1
ip a s eth0 |grep 192.168.100.200

应该能看到：

1
inet 192.168.100.200/32 scope global eth0

查看 kube-vip Pod：

1
crictl ps |grep kube-vip

加入其他 Master 节点#

在 master02 和 master03 上，先创建 kube-vip 配置（使用命令生成）：

1
# 下载 kube-vip 二进制（或用 docker run 方式生成）
2
mkdir -p /etc/kubernetes/manifests
3

4
# 生成配置
5
 kube-vip manifest pod --interface eth0 --address 192.168.100.200 --controlplane --services  --arp --leaderElection --image reg.westos.org/kube-vip/kube-vip:v1.0.1 > /etc/kubernetes/manifests/kube-vip.yaml

然后执行 join 命令：

1
# 使用之前记录的 master join 命令
2
kubeadm join 192.168.100.200:6443 --token abcdef.0123456789abcdef \
3
  --discovery-token-ca-cert-hash sha256:xxx... \
4
  --control-plane --certificate-key yyy...

在 master01 上查看：

1
kubectl get node

输出：

1
NAME           STATUS   ROLES           AGE   VERSION
2
k8s-master01   Ready    control-plane   20m   v1.34.1
3
k8s-master02   Ready    control-plane   5m    v1.34.1
4
k8s-master03   Ready    control-plane   3m    v1.34.1

加入 Worker 节点#

在 worker01 上执行：

1
# 使用之前记录的 worker join 命令
2
kubeadm join 192.168.100.200:6443 --token abcdef.0123456789abcdef \
3
  --discovery-token-ca-cert-hash sha256:xxx...

添加节点标签：

1
kubectl label nodes k8s-worker01 node-role.kubernetes.io/worker=

查看集群状态：

1
kubectl get node

输出：

1
NAME           STATUS   ROLES           AGE   VERSION
2
k8s-master01   Ready    control-plane   30m   v1.34.1
3
k8s-master02   Ready    control-plane   15m   v1.34.1
4
k8s-master03   Ready    control-plane   13m   v1.34.1
5
k8s-worker01   Ready    worker          2m    v1.34.1

验证 etcd 集群#

查看 etcd 集群状态：

1
# 获取 etcd Pod 名称
2
ETCD_POD=$(kubectl get pod -n kube-system -l component=etcd -o jsonpath='{.items[0].metadata.name}')
3

4
# 查看 etcd 成员
5
kubectl -n kube-system exec ${ETCD_POD} -- sh -c \
6
  "ETCDCTL_API=3 etcdctl \
7
  --endpoints=https://127.0.0.1:2379 \
8
  --cert=/etc/kubernetes/pki/etcd/server.crt \
9
  --key=/etc/kubernetes/pki/etcd/server.key \
10
  --cacert=/etc/kubernetes/pki/etcd/ca.crt \
11
  member list -w table"

应该能看到 3 个 etcd 成员。

查看集群健康状态：

1
kubectl -n kube-system exec ${ETCD_POD} -- sh -c \
2
  "ETCDCTL_API=3 etcdctl \
3
  --endpoints=https://127.0.0.1:2379 \
4
  --cert=/etc/kubernetes/pki/etcd/server.crt \
5
  --key=/etc/kubernetes/pki/etcd/server.key \
6
  --cacert=/etc/kubernetes/pki/etcd/ca.crt \
7
  endpoint status --cluster -w table"

测试高可用#

测试 VIP 漂移：

1
# 关闭当前持有 VIP 的 master 节点
2
# 在另一台 master 上观察 VIP 是否漂移过来
3
ip a s eth0 |grep 192.168.100.200

测试 apiserver 访问：

1
# 通过 VIP 访问 apiserver
2
kubectl --server=https://192.168.100.200:6443 get node

常见问题#

遇到过几个问题：

kube-vip 没启动：检查 /etc/kubernetes/super-admin.conf 是否存在，kubelet 初始化后才会生成这个文件
VIP 冲突：确保 strictARP: true，避免多个节点同时响应 ARP

token 过期：重新生成 join 命令：

1
kubeadm token create --print-join-command
2
# 获取 certificate-key
3
kubeadm init phase upload-certs --upload-certs

etcd 不健康：检查防火墙，etcd 需要 2379、2380 端口互通

Simple Blog