rancher2.5.5之前就被装好,也不知道中途操作了什么。目前的问题是,只能用已加好的集群和用户,新增的话,就一直报错。
另外,system的pod也全部挂了,错误都类似 dns的ip:443 timeout。我这边操作过的步骤-更新system的证书,步骤如下:
kubectl --insecure-skip-tls-verify -n kube-system delete secrets k3s-serving
kubectl --insecure-skip-tls-verify delete secret serving-cert -n cattle-system
rm -f /var/lib/rancher/k3s/server/tls/dynamic-cert.json
docker restart xxx
也用openssl更新过 cattle-webhook-tls,步骤见连接:Rancher创建用户报错 x509: certificate has expired or is not yet valid - 哈希得嘞 - 博客园
ksd
2
新增用户的同时,查看 rancher server 的日志,来定位问题的原因
system的pod都异常了
大部分的日志都是报 10.43.0.1:443超时
ksd
7
看样子是网络组件有问题了,你上个月就跟过其他的帖子,跟着热心网友做了一些列的操作。
我想问下,当时做完操作之后集群正常了,还是说一直就这样的?我暂时不能一下定位到原因。
之前没有关注组件集群。
我个人账号都是12月月底的时候给新建的,能正常用,然后今年system的证书到期了,用官网的命令kubectl delete执行过,另外的tls证书是openssl重新续约的,证书问题显示没有问题后,才回头看了下功能嘛,包括新建用户和新建个人自定义集群,发现用不了,然后排查中发现system的pod也都整挂了。
tls 和 serving-cert 是在openssl更新后,在ui上传的。有影响吗?
ksd
12
麻烦大佬帮忙看下在论坛留下的话题:rancher-agent一直增导致服务器宕机问题。