Longhorn 所在节点服务器重启，PVC挂载失败，无法创建volume的怪异问题

daG · 2022 年3 月 30 日 03:15

longhorn所在节点重启

问题现象

3台服务器16C 64G 1T SSD 数据盘，longhorn 副本数配置为3
其中一台服务器重启后，有部分PVC挂载超时导致服务无法启动，在longhorn界面点击创建新volume 或者手动 attach PV 时都会报错，但是我去查看 engine 容器都是正常running状态
报错内容（longhorn WEB 界面）：

rancher v1.1.0: engine image ei-cf743f9c (longhornio/longhorn-engine:v1.1.0) is not ready, it's deploying

但是这个情况一直持续了2天左右，然后PVC又可以正常挂载了，创建新volume也可以了。怀疑是否是longhorn内部有什么修复机制导致无法挂载某些PVC和创建，然后经过2天时间自愈

日志

当时未找到error级别日志

环境信息

Longhorn 版本: 1.1.0
安装方法 (helm):
Kubernetes 发行版 (环境暂时查看不了，稍后补充) 和版本:
- 集群管理节点个数: 3
- 集群 worker 节点数: 3
Node 配置
- 操作系统类型和版本:
- 每个节点的CPU: 16
- 每个节点的内存：64
- 磁盘类型(e.g. SSD/NVMe): SSD
- 节点间网络带宽:：未知
底层基础设施 (e.g. on AWS/GCE, EKS/GKE, VMWare/KVM, Baremetal): 未知
集群中Longhorn卷的个数: 稍后补充

zhangjunwe · 2022 年11 月 29 日 02:35

这个PVC挂载失败的时候，可以查看pod的描述信息来确定是哪个阶段出现了问题。提供的信息有限，看不出原因