K3s 突然无法提供服务

环境信息:
K3s 版本: v1.18.20+k3s1

集群配置:
3 servers

问题描述:
k3s 集群突出无法访问
kubectl 也无法连接,
通过 journalctl -u k3s -f 查看日志
如下

查看磁盘空间是充足的,
重启 k3s,kubectl 还是无法连接
不清楚啥原因
请指教

重启服务器,整个集群恢复正常访问
可通过 journalctl -u k3s -f 查看日志
发现 大量异常 http: TLS handshake error from read: connection reset by peer
发现是阿里负载均衡监听6443端口引起的
请指教怎么处理这个问题

前几天更换了rancher 的 SSL 证书,可rancher pod 都正常
3

好像是这个 issues
(https://github.com/kubernetes/kubernetes/issues/60987)

[https://github.com/kubernetes/kubernetes/pull/95301]

2021年3月13日 修复代码,而 1.18.20 是在这个之后才发布的,按道理不应该出现问题才对

不确定你的部署架构。按照我的理解,如果k3s作为local集群,并不需要阿里云slb暴露k3s的6443端口。

另外,rancher有自己的一套证书体系,k3s也是有自己的证书体系,可以确认一下k3s的证书状态。

如果你提到kubectl连接k3s无法访问,最好能给出一个输出结果,具体提示什么信息。

如果方便可以额外给出这个命令的返回信息:

kubectl --insecure-skip-tls-verify  get secret -n kube-system k3s-serving -o jsonpath='{.data.tls\.crt}' | base64 -d | openssl x509 -noout -text

就是local 集群使用,关闭6443端口,SSL 错误没有了
问题一的 Orphaned pod found, but volume paths are still present on disk : There were a total of 1 errors similar to this. Turn up verbosity to see them.

不知道啥情况,看issue k8s 1.8.20 的版本应该修复了才对,可还是出现了,重启k3s都没有,重启服务器就可以恢复正常


原来是只修复仅删除空目录情况,我的挂载啥情况导致也不清楚
集群运行 700多天就出现过这一次