Longhorn 所在节点服务器重启,PVC挂载失败,无法创建volume的怪异问题

longhorn所在节点重启

问题现象

3台服务器16C 64G 1T SSD 数据盘 ,longhorn 副本数配置为3
其中一台服务器重启后,有部分PVC挂载超时导致服务无法启动,在longhorn界面点击创建新volume 或者手动 attach PV 时都会报错,但是我去查看 engine 容器都是正常running状态
报错内容(longhorn WEB 界面):

rancher v1.1.0: engine image ei-cf743f9c (longhornio/longhorn-engine:v1.1.0) is not ready, it's deploying

但是这个情况一直持续了2天左右,然后PVC又可以正常挂载了,创建新volume也可以了。 怀疑是否是longhorn内部有什么修复机制导致无法挂载某些PVC和创建, 然后经过2天时间自愈

日志

当时未找到error级别日志

环境信息

  • Longhorn 版本: 1.1.0
  • 安装方法 (helm):
  • Kubernetes 发行版 (环境暂时查看不了,稍后补充) 和版本:
    • 集群管理节点个数: 3
    • 集群 worker 节点数: 3
  • Node 配置
    • 操作系统类型和版本:
    • 每个节点的CPU: 16
    • 每个节点的内存:64
    • 磁盘类型(e.g. SSD/NVMe): SSD
    • 节点间网络带宽::未知
  • 底层基础设施 (e.g. on AWS/GCE, EKS/GKE, VMWare/KVM, Baremetal): 未知
  • 集群中Longhorn卷的个数: 稍后补充

这个PVC挂载失败的时候,可以查看pod的描述信息来确定是哪个阶段出现了问题。 提供的信息有限,看不出原因