一次由Jenkins流水线中不当Docker清理引发的服务器超时事件复盘
本报告记录并分析了一次由Jenkins流水线中的自动化Docker清理脚本引发的服务器严重故障。报告详述了脚本因一次性删除大量Docker悬空镜像,导致服务器产生I/O风暴,进而使systemd进程阻塞,所有systemctl命令超时,最终连优雅重启(reboot)都无法执行的故障全过程。根本原因被定位为自动化脚本中不安全的批量I/O操作。文档最终提供了安全的、通过循环和延时来平滑负载的迭代式脚本修正方案,并提出了代码审查、存储优化等长期改进建议,旨在避免同类自动化“效率陷阱”再次发生。