为什么当 k3s 节点故障后,Pod 需要大于 5 分钟时间才能被重新调度

环境信息:
K3s 版本: v1.22.3+k3s1

节点 CPU 架构、操作系统和版本::
ubuntu16.04 server

集群配置:
3台服务器全部部署为master control-plane

问题描述:
使用k3s部署集群,其中一台服务器故障,但是coredns或local-path-provisioner pod需要5分钟才能重新调度,这个时间太长,如何才能把这个时间调整短

查看文档K3s常见问题 | Rancher文档
但是不知道具体需要怎么操作

或者如何配置k3s组件 coredns或local-path-provisioner多实例进行负载均衡

多久迁移能满足你的需求?

如果调整成1min应怎么调整

你可以在对应的 coredns 和 local path 的 deployment 中添加如下配置来设置飘逸时间:

    spec:
      tolerations:
      - effect: NoExecute
        key: node.kubernetes.io/unreachable
        operator: Exists
        tolerationSeconds: 2
      - effect: NoExecute
        key: node.kubernetes.io/not-ready
        operator: Exists
        tolerationSeconds: 2

另外,如果你自在 K3s 的 默认 /var/lib/rancher/k3s/server/manifests 或直接修改对应的 deployment,当重启 K3s 之后会重置默认值。

加你启动的时候讲 coredns 和 local path 禁用掉,然后手动部署的时候添加上面的配置参数