longhorn所在节点重启
问题现象
3台服务器16C 64G 1T SSD 数据盘 ,longhorn 副本数配置为3
其中一台服务器重启后,有部分PVC挂载超时导致服务无法启动,在longhorn界面点击创建新volume 或者手动 attach PV 时都会报错,但是我去查看 engine 容器都是正常running状态
报错内容(longhorn WEB 界面):
rancher v1.1.0: engine image ei-cf743f9c (longhornio/longhorn-engine:v1.1.0) is not ready, it's deploying
但是这个情况一直持续了2天左右,然后PVC又可以正常挂载了,创建新volume也可以了。 怀疑是否是longhorn内部有什么修复机制导致无法挂载某些PVC和创建, 然后经过2天时间自愈
日志
当时未找到error级别日志
环境信息
- Longhorn 版本: 1.1.0
- 安装方法 (helm):
- Kubernetes 发行版 (环境暂时查看不了,稍后补充) 和版本:
- 集群管理节点个数: 3
- 集群 worker 节点数: 3
- Node 配置
- 操作系统类型和版本:
- 每个节点的CPU: 16
- 每个节点的内存:64
- 磁盘类型(e.g. SSD/NVMe): SSD
- 节点间网络带宽::未知
- 底层基础设施 (e.g. on AWS/GCE, EKS/GKE, VMWare/KVM, Baremetal): 未知
- 集群中Longhorn卷的个数: 稍后补充