Rancher升级local集群异常

jarno517 · 2022 年8 月 17 日 06:21

Rancher Server 设置

Rancher 版本：
安装选项 (Docker install/Helm Chart):
- 如果是 Helm Chart 安装，需要提供 Local 集群的类型（RKE1, RKE2, k3s, EKS, 等）和版本：
在线或离线部署：

下游集群信息

Kubernetes 版本: 1.18.20-rancher1-3
Cluster Type (Local/Downstream): Local
- 如果 Downstream，是什么类型的集群?(自定义/导入或为托管等):

用户信息

登录用户的角色是什么？（管理员/集群所有者/集群成员/项目所有者/项目成员/自定义）：
- 如果自定义，自定义权限集：

主机操作系统：Ubuntu 18.04.6

问题描述：rancher2.4.6 升级K8S版本，从17.X升级到18.x，local集群显示异常，提示
Error while applying agent YAML, it will be retried automatically: exit status 1, Error from server (NotFound): the server could not find the requested resource

重现步骤：

结果：再次升级rancher2.4.6到2.4.15，问题仍然存在

预期结果：

**截图：

**

其他上下文信息：

日志

niusmallnan · 2022 年8 月 18 日 01:18

我不清楚你是如何部署Rancher的，因为你没有在帖子中写明，即使问题中询问了安装选项和部署模式，你也没有给出说明。

从你的截图中，可以看到一个问题：你使用的是2.4版本，它的支持矩阵最高只能支持到k8s 1.18（文档中应该有非常多的地方注明），但是local集群的版本是1.19。我怀疑是兼容问题造成的。

jarno517 · 2022 年8 月 18 日 02:11

小楠你好，我进行问题的补充，rancher2.4.6版本是单节点部署的，使用现有节点创建自定义（Custom）集群方式，昨天升级的过程是先升级业务集群K8S版本到1.18.X，然后继续升级rancher到2.4.16，版本，发现local集群异常，然后编辑local集群，将K8S升级到了1.18.X，还是有问题，最后升级到1.19.X，问题仍然存在，最后我将rancher升级到2.5.15版本，还是不行。

niusmallnan · 2022 年8 月 18 日 02:15

发现local集群异常，然后编辑local集群，将K8S升级到了1.18.X，还是有问题，最后升级到1.19.X

通常，Local集群不应该这么操作升级。这个编辑操作更多面向下游集群。并且，1.19和2.4并不兼容。

jarno517 · 2022 年8 月 18 日 02:17

现在rancher是2.5.15版本了，如果是兼容性的问题，我只能通过回滚的方式恢复吗?

jarno517 · 2022 年8 月 18 日 02:18

我的测试环境没有问题，生产环境升级反而出现了问题，一下图片是测试环境。

jarno517 · 2022 年8 月 18 日 02:19

niusmallnan · 2022 年8 月 18 日 02:21

这个操作流程存在一些对于Rancher来说不期望的行为，我无法给出标准解答。

你可以尝试查看local集群的全部Pod，尤其是kube-system/cattle-system下的Pod，是否有一些部署不正常。

另一种恢复方式，可能就是在local集群中编辑一些特殊的CRD，这些操作风险很大，并不是标准方案。

jarno517 · 2022 年8 月 18 日 02:31

我看到local集群所有NS下的pod均正常，唯独结群也显示一行警告信息，我担心会不会存在潜在的风险。

jarno517 · 2022 年8 月 18 日 02:49

我看到现在local集群中多了一个K3S的选项，这个在测试环境中是没有的。

jarno517 · 2022 年8 月 18 日 09:16

折腾好了