Rancher2.5.5,目前只能用已加好的集群和用户

rancher2.5.5之前就被装好,也不知道中途操作了什么。目前的问题是,只能用已加好的集群和用户,新增的话,就一直报错。
另外,system的pod也全部挂了,错误都类似 dns的ip:443 timeout。我这边操作过的步骤-更新system的证书,步骤如下:
kubectl --insecure-skip-tls-verify -n kube-system delete secrets k3s-serving
kubectl --insecure-skip-tls-verify delete secret serving-cert -n cattle-system
rm -f /var/lib/rancher/k3s/server/tls/dynamic-cert.json
docker restart xxx

也用openssl更新过 cattle-webhook-tls,步骤见连接:Rancher创建用户报错 x509: certificate has expired or is not yet valid - 哈希得嘞 - 博客园

新增用户的同时,查看 rancher server 的日志,来定位问题的原因

rancher server报错日志:

ui报错

system的pod都异常了


大部分的日志都是报 10.43.0.1:443超时

麻烦大佬指点下怎么恢复,谢谢

看样子是网络组件有问题了,你上个月就跟过其他的帖子,跟着热心网友做了一些列的操作。

我想问下,当时做完操作之后集群正常了,还是说一直就这样的?我暂时不能一下定位到原因。

之前没有关注组件集群。
我个人账号都是12月月底的时候给新建的,能正常用,然后今年system的证书到期了,用官网的命令kubectl delete执行过,另外的tls证书是openssl重新续约的,证书问题显示没有问题后,才回头看了下功能嘛,包括新建用户和新建个人自定义集群,发现用不了,然后排查中发现system的pod也都整挂了。

可以试试更新 webhook 证书

tls 和 serving-cert 是在openssl更新后,在ui上传的。有影响吗?

这步执行了的,就是openssl来续约嘛
image

从上面黑色背景的日志来看,是你宿主机的 iptable 导致的 rancher server 启动异常,你可以参考 https://www.linuxquestions.org/questions/linux-kernel-70/iptables-broken-w-kernel-upgrade-can’t-initialize-iptables-table-‘filter’-and-could-not-insert-‘iptable_filter’-operation-not-permitted-4175700473/ 来解决 iptables v1.8.4 (legacy): can't initialize iptables table filter’: Table does not exist (do you need to insmod?)` 的报错

麻烦大佬帮忙看下在论坛留下的话题:rancher-agent一直增导致服务器宕机问题。