2025年5月25日更新

在过去的5天中没有再发生死机的情况,说明下述方法有一定的作用。

2025年5月20日原文

好不容易安装了雷池,效果也还不错,结果状况还是出现了。平均一到两天会死机一次,服务器无法登录,雷池管理界面无法登录,所有关联网站也无法访问,总之就是彻底歇菜。只有重启服务器才能解决,并且整个过程相当漫长。
首先想到的就是京东云不给力,于是申请退款改用腾讯云。然而悲剧依旧,一天不到就卡死了。
2025-05-20 16 30 27.png
从监控内容上来看,其实服务器的CPU和内存使用率并不高。中间灰色部分就是死机时的,而后则是重启后的数据,相对应的是磁盘IO高于平常数据。
在腾讯云上提交工单,工程师提醒是oom造成的,使用cat /var/log/messages | grep oom命令,结果如下:
2025-05-20 20 39 22.png
确实是有进程被杀。其中提到dnf-makecache.service服务,那就试着将它关闭。两家厂商的轻量应用服务器我都使用了Rocky(CentOS版本太低,Debian一开始无法安装雷池被我弃用了,其他没做优先考虑)。对比Debian系统,好像它并没有这项服务。关闭之后也没有对雷池产生影响。
既然提到oom是因为内存不足引起的,那顺带增加swap来扩展一下内存(方法大同小异,参见《在Debian 12中增加swap空间》一文)。虽然有些文章不建议在使用docker时开启swap,但不是没有办法了嘛!
另外,还有篇文章也提到了跟我一样的问题,最终排查的结果是因为内核版本过低导致的,这一点应该不在我的考虑范围内,毕竟目前使用的内核版本高了不少。
暂时记录一下,看看上述简单处理是否会有所好转。

最后修改:2025 年 05 月 25 日
如果觉得我的文章对你有用,请随意赞赏