摘要:节点作为承载工作负载的实体,是一个非常重要的对象,在实际运营过程中,节点会出现各种问题,本文简要描述下节点的各种异常状态及排查思路。预防节点该文档为预防节点的开源方案,不提供,仅做参考,请谨慎使用。
节点作为承载工作负载的实体,是 Kubernetes 一个非常重要的对象,在实际运营过程中,节点会出现各种问题,本文简要描述下节点的各种异常状态及排查思路。
节点情况 | 说明 | 处理办法 |
---|---|---|
Ready | True 表示节点是健康的,False 表示节点不健康,Unkown 表示节点失联 | |
DiskPressure | True 表示节点磁盘容量紧张,False 反之 | |
MemoryPressure | True 表示节点内存使用率过高,False 反之 | |
PIDPressure | True 表示节点有太多进程在运行,False 反之 | |
NetworkUnavailable | True 表示节点网络配置不正常,False 反之 |
kubectl get nodes
kubectl describe node ${NODE_NAME}
在上述两个命令看不出端倪的时候,还可以借助Linux的相关命令来辅助判断,这个时候我们就需要登录节点,通过linux相关命令来检查节点状态。
3.1 网络检查: 我们可以从集群的Master节点,使用 Ping 命令去检查该节点的网络是否可达;
3.2 健康检查: 登录UCloud控制台,从云主机页面查看该节点是否处于Running状态,包括查看CPU、内存使用率,确认节点是否处于高负载;
system status kube-proxy
system status kubelet
journalctl -u kubelet
journalctl -u kube-proxy
通过上述命令来查看节点中的两个核心组件,kube-proxy 和 kubelet 的状态是否正常,如果不正常,错误原因是什么。
该文档为预防节点OOM的开源方案,不提供SLA,仅做参考,请谨慎使用。
在用户态实时获取available内存,当小于阈值时开始依据策略发送sigterm与kill信号杀死进程
根据oom_score 分值来杀进程,如系统上有自行启动的进程且oom_score_adj未设置为-1000,就有被杀死的可能。
备注: 该程序无法阻止瞬时内存暴增引发的内存宕机,依旧需要设置pod合理的资源requests与limits。
apiVersion: apps/v1
kind: DaemonSet
metadata:
labels:
app: oom-protector
name: oom-protector
namespace: kube-system
spec:
selector:
matchLabels:
app: oom-protector
template:
metadata:
labels:
app: oom-protector
spec:
hostPID: true
containers:
- image: uhub.service.ucloud.cn/uk8s/earlyoom:alpine
name: earlyoom
args:
- -p
- -M
- "307200204800"
- --avoid
- "docker|kubelet|containerd|sshd"
securityContext:
capabilities:
add:
- KILL
resources:
requests:
memory: "32Mi"
cpu: "50m"
limits:
memory: "64Mi"
cpu: "100m"
实时文档欢迎访问https://docs.ucloud.cn/uk8s/troubleshooting/node_debug_summary
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/126289.html
摘要:镜像库常见问题如何在中镜像的和两个版本,目前节点没有安装服务,不支持在节点镜像。如果需要让容器时间与宿主机时间一致,可以使用的方式将宿主机上的时区文件挂载到容器中。一个可以挂载到多个吗不支持多点读写,如需要多点读写请使用。镜像库常见问题如何在UK8S中Build镜像?UK8S的1.12.7和1.13.5两个版本,目前Master节点没有安装Docker服务,不支持在Master节点Build...
摘要:对于节点已经登陆不了的情况,如果希望快速恢复可以在控制台找到对应主机断电重启。与绑定完成,插件完成后续的挂载和等工作。UK8S 人工支持对于使用 UK8S 遇到的本文档未涉及的问题,如果需要人工支持,请添加下面公钥信任,并提供主机的 uhost-idssh-rsa AAAAB3NzaC1yc2EAAAADAQABAAABAQDGIFVUtrp+jAnIu1fBvyLx/4L4GNsX+6v8...
摘要:存储插件问题插件导致删除失败现象描述使用插件自动创建绑定到,删除时,有可能导致处于状态,不能正常删除。版本插件版本问题原因重启后找不到对应的插件。日志中会报的错误,进而导致卡在的状态。存储插件问题Flexv插件导致pod删除失败现象描述使用flexv插件自动创建pv绑定到pod,删除pod时,有可能导致pod 处于Terminating状态,不能正常删除。kubernetes版本: 1.13...
摘要:对于存储资源,的节点默认系统盘。节点创建时可选择数据盘挂载亦可在节点创建完成后在主机侧挂载,如节点挂载有数据盘,将用于存放本地镜像的,否则本地镜像等将保存在系统盘。 集群节点配置推荐本篇目录1. Master 配置推荐2. 如何选择 Node 配置大小1. Master 配置推荐Master 规格跟集群规模有关,集群规模越大,所需要的 Master 规格也越高,不同集群规模的,Master ...
摘要:集群误删处理前置操作负载均衡分内网和外网两种,在误删情况下,首先需要重建,并且保证原地址不变。集群误删创建时类型需要与的类型相匹配,服务类型为时指定报文转发,为时指定请求代理类型删除集群内原根据文档重新绑定和使用已有创建服务。集群 ULB 误删处理前置操作负载均衡(ULB)分内网和外网两种,在误删情况下,首先需要重建 ULB,并且保证原 ULB IP 地址不变。对于内网 ULB,需要联系技术...
阅读 3514·2023-04-25 20:09
阅读 3720·2022-06-28 19:00
阅读 3035·2022-06-28 19:00
阅读 3058·2022-06-28 19:00
阅读 3131·2022-06-28 19:00
阅读 2859·2022-06-28 19:00
阅读 3014·2022-06-28 19:00
阅读 2610·2022-06-28 19:00