Rancher2.5.7 UI 一直不断重启,网络请求报错

背景:
配置:4c8g
基础服务:docker、frp、rancher
docker服务:rancher(单点部署)

发生情况:
背景:突然间,rancherui界面爆红色,然后rancher一直不断重启尝试重新起来。


部分日志:在容器里面没找到k3s.log,好像是2.5.7的问题

2022/05/07 08:21:41 [INFO] Watching metadata for /v1, Kind=ReplicationController
2022/05/07 08:21:41 [INFO] Watching metadata for /v1, Kind=LimitRange
2022/05/07 08:21:41 [INFO] Watching metadata for apps/v1, Kind=DaemonSet
2022/05/07 08:21:41 [INFO] Watching metadata for monitoring.coreos.com/v1, Kind=Alertmanager
2022/05/07 08:21:41 [INFO] Watching metadata for management.cattle.io/v3, Kind=User
2022/05/07 08:21:41 [INFO] Watching metadata for policy/v1beta1, Kind=PodDisruptionBudget
2022/05/07 08:21:41 [INFO] Watching metadata for helm.cattle.io/v1, Kind=HelmChart
2022/05/07 08:21:42 [ERROR] error syncing 'rancher-charts': handler helm-clusterrepo-ensure: git -C /var/lib/rancher-data/local-catalogs/v2/rancher-charts/4b40cac650031b74776e87c1a726b0484d0877c3ec137da0872547ff9b73a721 reset --hard FETCH_HEAD error: exit status 128, detail: fatal: Unable to create '/var/lib/rancher-data/local-catalogs/v2/rancher-charts/4b40cac650031b74776e87c1a726b0484d0877c3ec137da0872547ff9b73a721/.git/index.lock': File exists.

Another git process seems to be running in this repository, e.g.
an editor opened by 'git commit'. Please make sure all processes
are terminated then try again. If it still fails, a git process
may have crashed in this repository earlier:
remove the file manually to continue.
, requeuing
2022/05/07 08:21:42 [INFO] Registering namespaceHandler for adding labels 
2022/05/07 08:21:42 [INFO] Starting cluster controllers for local
2022/05/07 08:21:42 [INFO] Starting management.cattle.io/v3, Kind=SamlToken controller
2022/05/07 08:21:42 [INFO] driverMetadata: refreshing data from upstream https://releases.rancher.com/kontainer-driver-metadata/release-v2.5/data.json
2022/05/07 08:21:42 [INFO] Retrieve data.json from local path /var/lib/rancher-data/driver-metadata/data.json
2022/05/07 08:21:43 [INFO] Starting /v1, Kind=Pod controller
2022/05/07 08:21:43 [INFO] Starting catalog.cattle.io/v1, Kind=App controller
2022/05/07 08:21:43 [INFO] Starting catalog.cattle.io/v1, Kind=Operation controller

导了一部分出来。
步骤:没操作啥,自动就死了,之前用的好好的。
尝试
背景:在阿里云购买了台抢占式服务器 2c2g 来尝试启动,确认是不是我自己环境问题
结果:简单配置好之后,使用的docker安装是rancher官网上面的脚本安装,

docker run -d --privileged --restart=unless-stopped   -p 8080:80 -p 8443:443   rancher/rancher:v2.5.7

怀疑:请求的东西没有?是rancher自己的库少了还是被改?

刚刚换腾讯云 同样的方式启动,腾讯云确很稳很正常,这锅像是阿里云的

由于你是single docker安装模式,排查rancher-server crash,需要跟踪以下几点:

  1. 找到rancher-server fatal前的日志上下文
  2. rancher-server 容器内的 /var/lib/rancher 目录下去找k3s logs

通常这些日志都会提供足够的线索。

此外,2c2g的资源是不够用的,无法支撑rancher-server的运行,4g内存才是明智的选择。

不同云厂商的虚拟机的CPU和磁盘性能会略有差别,会影响rancher-server的运行。

至于,你反馈的rancher 2.5.7版本运行一段时间后就crash。如果你要深入排查,可能需要看一些监控信息,是否方式性能突发,资源不足等等。