Centos7.9部署Rancher 2.9.3 自定义集群(报错)

Rancher Server 设置

  • Rancher 版本:2.9.3
  • 安装选项 (Docker install/Helm Chart): Docker install
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
  • 在线或离线部署:离线部署

下游集群信息

  • Kubernetes 版本: 1.30.2+k3s2
  • Cluster Type (Local/Downstream):
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等):
      自定义集群报错

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):admin
    • 如果自定义,自定义权限集:

主机操作系统: Centos7.9

问题描述: 在创建rancher自定义集群时候一直卡在 waiting for probes :calico状态

重现步骤:

结果:

预期结果:

截图:
rancher 容器日志

rancher-agent服务报错

rke2-server服务正常启动

其他上下文信息:

日志


从这个 rancher-system-agent 主机去连接 192.168.220.20 4000 端口通么?

rancher容器和自定义test集群是在一台服务器上,都是192.168.220.20
我的操作步骤是,创建自定义集群,设置网络10.45.0.0/16 ,10.46.0.0/16,设置阿里源 。创建集群之后执行脚本:
curl --insecure -fL https://192.168.220.20:4000/system-agent-install.sh | sudo sh -s - --server https://192.168.220.20:4000 --label ‘cattle.io/os=linux’ --token xcgv2pwgkgd5rb7shdv45z6jjhxwpnbwzlb66nm2l7l59t4vnxlvwt --ca-checksum 0def4da5ec7a395e140b2603f84794a79f493cfea322c655e8adb75fcd9d2773 --etcd --controlplane --worker

我就一直等着rk2集群启动,刚开始rancher-agent服务是running状态,rk2-server服务是没启动,我等待rk2自己拉取,rk2-server服务也启动成功了,但还是卡在拉取calio网络,我看rancher容器日志k3s会被杀掉进程重启,然后我重启容器,rancher-agent服务就启动报错了。k3s不断重启。。。现在是rancher直接崩了。
下面是我的执行命令:

2.Centos7.9安装Rancher2.9.3版本

2.1拉取需要的镜像

docker pull rancher/rancher:v2.9.3 && docker pull rancher/shell:v0.2.2 && docker pull rancher/mirrored-pause:3.6 && docker pull rancher/mirrored-coredns-coredns:1.10.1 &&  docker pull rancher/gitjob:v0.9.8  && docker pull rancher/mirrored-cluster-api-controller:v1.7.3 && docker pull rancher/rancher-webhook:v0.5.3 && docker pull rancher/kubectl:v1.29.2 && docker pull rancher/rancher-agent:v2.9.3 && docker pull rancher/fleet:v0.10.4 && docker pull rancher/fleet-agent:v0.10.4

2.2打包镜像

docker save -o k3s-airgap-images.tar  rancher/shell:v0.2.2 rancher/mirrored-pause:3.6 rancher/mirrored-coredns-coredns:1.10.1   rancher/gitjob:v0.9.8 rancher/mirrored-cluster-api-controller:v1.7.3 rancher/rancher-webhook:v0.5.3 rancher/kubectl:v1.29.2  rancher/rancher-agent:v2.9.3  rancher/fleet:v0.10.4 rancher/fleet-agent:v0.10.4

2.3运行rancher容器

docker run --privileged  -dit --restart=unless-stopped -p 4001:80 -p 4000:443 -e CATTLE_SYSTEM_DEFAULT_REGISTRY="registry.cn-hangzhou.aliyuncs.com" -e CATTLE_BOOTSTRAP_PASSWORD="rancher"  --name rancher rancher/rancher:v2.9.3

2.4查看rancher容器日志

docker logs -f  rancher

2.5打开浏览器访问IP地址

https://192.168.220.20:4000

2.6重启rancher

##打包镜像前需要先停止容器,然后再把tar包复制到指定目录中重新启动

docker stop rancher

##复制镜像到容器内

docker cp ./k3s-airgap-images.tar rancher:/var/lib/rancher/k3s/agent/images/

docker start rancher

RKE2 自定义集群操作
docker restart rancher
curl --insecure -fL https://192.168.220.20:4000/system-agent-install.sh | sudo sh -s - --server https://192.168.220.20:4000 --label ‘cattle.io/os=linux’ --token xcgv2pwgkgd5rb7shdv45z6jjhxwpnbwzlb66nm2l7l59t4vnxlvwt --ca-checksum 0def4da5ec7a395e140b2603f84794a79f493cfea322c655e8adb75fcd9d2773 --etcd --controlplane --worker
docker ps
docker logs -f rancher
systemctl status rancher-system-agent.service
systemctl status rke2-server.service
journalctl -u rke2-server -f
docker restart rancher

从操作步骤来看,是没问题的,但是有可能是因为 rancher 2.9.3 不支持 centos 7.9 的原因。

你可以参考本论坛右上角的 支持矩阵,去选择支持的操作系统再试一下

但是我们线上环境的服务器是centos7.5的版本就可以正常运行,按理说不支持7.9,更不支持7.5啊,这是什么原因?

那就在看看 calico 的 log 或者 describe 看看启动失败的原因,因为即使相同版本的操作系统,也有一些操作系统的参数配置的区别导致 组件启动失败。

好的我先去看看日志报错原因,我后续有进展在跟您同步。