(紧急)node节点无法以work角色扩到RKE集群

Rancher Server 设置

  • Rancher 版本:V2.5.12
  • 安装选项 (Docker install/Helm Chart):
    • 如果是 Helm Chart 安装,需要提供 Local 集群的类型(RKE1, RKE2, k3s, EKS, 等)和版本:
  • 在线或离线部署:离线

下游集群信息

  • Kubernetes 版本: v1.20.14
  • Cluster Type (Local/Downstream): 自定义RKE集群
    • 如果 Downstream,是什么类型的集群?(自定义/导入或为托管 等):

用户信息

  • 登录用户的角色是什么? (管理员/集群所有者/集群成员/项目所有者/项目成员/自定义):
    • 如果自定义,自定义权限集:

主机操作系统:
redhat 7.6
问题描述:
node节点无法以work角色扩到RKE集群,选择全部角色能正常添加节点,从agent和系统的日志,没发现异常。

重现步骤:

截图:


其他上下文信息:

日志
INFO: Arguments: --server https://www.rancher.com --token REDACTED --ca-checksum d499c26e09ddac5fb56fe6533ff92c1b45ee51686b71e415ad6be8059d2e145a --internal-address 10.16.132.111 --worker
INFO: Environment: CATTLE_ADDRESS=10.16.132.111 CATTLE_INTERNAL_ADDRESS=10.16.132.111 CATTLE_NODE_NAME=localhost CATTLE_ROLE=,worker CATTLE_SERVER=https://www.rancher.com CATTLE_TOKEN=REDACTED
INFO: Using resolv.conf: nameserver 10.0.3.10 search localdomain
INFO: https://www.rancher.com/ping is accessible
INFO: www.rancher.com resolves to 10.2.7.102 10.2.7.101 10.2.7.100
INFO: Value from https://www.rancher.com/v3/settings/cacerts is an x509 certificate
time="2022-08-08T03:19:02Z" level=info msg="Listening on /tmp/log.sock"
time="2022-08-08T03:19:02Z" level=info msg="Rancher agent version v2.5.12 is starting"
time="2022-08-08T03:19:02Z" level=info msg="Option worker=true"
time="2022-08-08T03:19:02Z" level=info msg="Option requestedHostname=localhost"
time="2022-08-08T03:19:02Z" level=info msg="Option customConfig=map[address:10.16.132.111 internalAddress:10.16.132.111 label:map[] roles:[worker] taints:[]]"
time="2022-08-08T03:19:02Z" level=info msg="Option etcd=false"
time="2022-08-08T03:19:02Z" level=info msg="Option controlPlane=false"
time="2022-08-08T03:19:03Z" level=info msg="Connecting to wss://www.rancher.com/v3/connect/register with token vv4vxlvh9jjvc4rcmcdkdj9vvk229wt9zgccfctgx5r594z54b4s8t"
time="2022-08-08T03:19:03Z" level=info msg="Connecting to proxy" url="wss://www.rancher.com/v3/connect/register"
time="2022-08-08T03:19:03Z" level=info msg="Waiting for node to register. Either cluster is not ready for registering, cluster is currently provisioning, or etcd, controlplane and worker node have to be registered"
time="2022-08-08T03:19:05Z" level=info msg="Starting plan monitor, checking every 15 seconds"

这里是纯粹社区交流的论坛,不是所谓的“工单系统”。在题目中使用 紧急 没有意义,如果你希望有紧急的效果,可以选择商业付费支持。

这个新增节点的hostname是localhost,通常这不是专业的hostname,很容易给一些程序造成困扰。

可再提供rancher-sever的日志线索,以及该节点的docker daemon日志,辅助判断。

#kubectl -n cattle-system logs -l app=rancher

cat messages | grep docker

rancher没有新的日志产生

你的terminal显示的hostname是test01,而Rancher UI上展示的是localhost
这让我对基础OS的配置产生怀疑。

你可以参考这里校对一下:Rancher Docs: Requirements

同时,参考2.5.12的support matrix也是必要的,需要在安装部署前了解OS和软件之间的兼容性:Support matrix | SUSE

确实是兼容性的问题,由于我们节点数量较多,并且已经有业务数据,在变更时就没考虑换操作系统。
专门创建了一个测试环境,redhat 7.9 就不存在这个问题

和OS的hostname是没有关系的,实际上 我们变更时,会合理规划。