如何避免PV IO erorrs问题的发生?

问题描述

生产环境中,偶尔出现PV IO错误的问题,目前是通过e2fsck工具去修复,针对这个问题,有没有办法避免发生?

重现步骤

  1. Go to ‘…’
  2. Click on ‘…’
  3. Perform ‘…’
  4. See error

预期结果

日志

日志


环境信息

  • Longhorn 版本: V1.2.3
  • 安装方法 (e.g. Rancher Catalog App/Helm/Kubectl): Rancher Catalog App
  • Kubernetes 发行版 (e.g. RKE/K3s/EKS/OpenShift) 和版本: RKE
    • 集群管理节点个数: 3
    • 集群 worker 节点数: 14
  • Node 配置
    • 操作系统类型和版本: redhat 7.9
    • 每个节点的CPU: 104
    • 每个节点的内存: 320G
    • 磁盘类型(e.g. SSD/NVMe): SAS
    • 节点间网络带宽::10G
  • 底层基础设施 (e.g. on AWS/GCE, EKS/GKE, VMWare/KVM, Baremetal): 物理机
  • 集群中Longhorn卷的个数: 17

附加上下文

如果是类似 data corruption 的现象,那么我建议升级到 LH 1.2.6。Release Longhorn v1.2.6 release · longhorn/longhorn · GitHub

这个版本,有一些这方面的优化。

关于升级,longhorn是通过Longhorn App安装的,但是在rancher UI 上没看到哪里可以升级 Longhorn Manager? (官方产品手册说是通过rancher UI升级) 还有其他额外的升级文档吗