kubelet在多NUMA下的性能问题排查

问题发现 初步排查 定位及分析 复现 解决 todo 参考 问题发现 k8s 1.21, node使用了某国产化服务器,其CPU也是国产的,numa node数量多达8个 kubelet cpumanager 启用了best-effort policy 某kubevirt vm挂载sriov网卡数量大于5后,vm无法正常创建,具体表现为vm对应的pod持续卡在pending状态 初步排查

- 阅读全文 -

一次使用hosts访问公有云服务时奇怪问题的排查记录

问题 排查 结论 参考 问题 阿里云机器部署了k3s,使用traefik作为ingress controller。 部署了两个ingress,使用不同的域名,分别为A和B,都指向同一个后端服务 但是客户端访问时,不使用真实的dns系统,而是均通过配置hosts访问 但是奇怪的是,A域名可正常使用,B域名却不能访问 排查 在节点本地配置hosts,发现均可正常访问 此时可以怀疑是节点到客

- 阅读全文 -

kubelet非最佳配置导致的系统频繁OOM问题排查与解决

问题 排查 解决 取消kubelet对system.slice的硬限 重新配置system.slice的硬限 总结 参考 问题 开发环境集群中的业务pod每天频繁更新重建,最近发现部分节点出现以下问题: pod经常在创建时提示runc/pod sandbox相关的错误 想登陆节点时发现ssh也连不上节点 某个节点上的系统pod以及业务pod中的微服务均会出现不稳定的状态 node的状态会

- 阅读全文 -

排查calibre-web服务阻塞问题

问题 排查 本地复现 溯源 临时解决 问题 k8s集群中使用linuxServer的linuxserver/docker-calibre-web镜像部署了janeczku/calibre-web,在211011升级了最新的镜像后,发现网页频繁出现无响应的状况:浏览器标签页持续保持转圈的状态,直到很久以后才会报超时,且从此之后所有请求都无法正常完成。 经过多次尝试,发现在前端复现该问题的操作方法

- 阅读全文 -

排查kubernetes job重试次数异常问题

问题 排查 结论 问题 我司平台上支持用户创建k8s中job类型的负载,今天接到一个bug:设置了job的失败后重试次数,但是在集群里实际的重试次数并不是在平台上设置的次数。 关于k8s中job类型负载的重试次数,主要由yaml中的.spec.backoffLimit决定。如果由job控制器创建出来的pod没有正常退出,控制器会多次创建新的pod重试,直到重试次数达到了backoffLimit

- 阅读全文 -