Rancher集群不健康，etcd服务器岩机数据丢失，如何恢复？

Joeli · 2023 年11 月 14 日 02:32

Rancher Server 设置

Rancher 版本：v2.5.3

主机操作系统： ubuntu16.04

问题描述： etcd服务器岩机数据丢失，导致集群不可用

预期结果： 重新调整etcd节点，恢复集群可用

截图：

日志

2023-11-14T02:29:52.636552830Z I1114 02:29:52.636427       7 trace.go:205] Trace[266608822]: "Reflector ListAndWatch" name:pkg/mod/github.com/rancher/client-go@v1.19.0-rancher.1/tools/cache/reflector.go:157 (14-Nov-2023 02:29:42.557) (total time: 10079ms):
2023-11-14T02:29:52.636597423Z Trace[266608822]: [10.079274613s] [10.079274613s] END
2023-11-14T02:29:52.636603444Z E1114 02:29:52.636461       7 reflector.go:128] pkg/mod/github.com/rancher/client-go@v1.19.0-rancher.1/tools/cache/reflector.go:157: Failed to watch *v1.Endpoints: failed to list *v1.Endpoints: an error on the server ("") has prevented the request from succeeding (get endpoints.meta.k8s.io)

Joeli · 2023 年11 月 14 日 02:36

补充下：原本设置service为全部角色，001、002为worker，现在想调整001为全部，并且删除service

ksd · 2023 年11 月 14 日 06:13

ETCD 如果有备份的话就恢复备份，如果没有，那基本没办法了。

如果环境非常重要，可以考虑购买原厂的订阅，也许他们有办法

Joeli · 2023 年11 月 14 日 06:29

集群上有两个备份，原来etcd节点service服务器重新启动，/var/lib/etcd目录还在，但是docker服务与容器没有了，所以现在172.18.81.1就没有连上来，导致集群不健康
这种情况可以怎么办？是否可以重新将172.18.81.1运行起来？

Joeli · 2023 年11 月 14 日 06:30

如何购买原厂的订阅？

ksd · 2023 年11 月 14 日 06:40

这种问题，我也不知道咋弄，得登录到具体的环境上才有可能，反正比较复杂

咨询购买订阅的话，可以联系 rancher 的小助手牛牛，微信群里就有。

Joeli · 2023 年11 月 14 日 06:57

我加了微信，发了消息，没有得到回复

Joeli · 2023 年11 月 14 日 06:57

哪能远程我的电脑帮忙看看吗？