REK2下游集群执行命令custom.metrics.k8s.io/v1beta1报错

环境信息:
RKE2 版本: rke2 v1.26.5+rke2r1 Rancher 2.7.5

节点 CPU 架构,操作系统和版本:

Centos 7.9

集群配置:3 servers

问题描述:

1、因磁盘挂载问题将RKE2下游集群3台server节点逐次离线删除并重新加入集群,集群恢复后,执行kubectl命令就会报错,如下图所示

2、在Rancher UI上Deployment点击进入POD,页面一直卡着不动,一段时间后有时候能加载成功,有时候失败。

重现步骤:

  • 安装 RKE2 的命令:

预期结果:
页面点击流畅操作,不会有告警提示

实际结果:

日志

E1205 11:48:57.918699 23290 memcache.go:287] couldn’t get resource list for custom.metrics.k8s.io/v1beta1: the server is currently unable to handle the request
E1205 11:48:57.924786 23290 memcache.go:121] couldn’t get resource list for custom.metrics.k8s.io/v1beta1: the server is currently unable to handle the request
E1205 11:48:57.930510 23290 memcache.go:121] couldn’t get resource list for custom.metrics.k8s.io/v1beta1: the server is currently unable to handle the request
E1205 11:48:57.934266 23290 memcache.go:121] couldn’t get resource list for custom.metrics.k8s.io/v1beta1: the server is currently unable to handle the request

大概率是因为 metrics-server 容器 没有成功启动造成,你可以 get pod 看看对应的日志

F12 看看 哪个请求卡主了

我将metrics-serve pod重新部署了也没有解决

得看 network 的请求

没有错误日志?

删除Monitoring集群工具后故障消失,没弄清楚什么原因

还有个情况,就是集群有个节点一直在报这个情况,一会又好了,反复出现。怀疑是下游集群更新pod出现问题