Kubernetes v1.28 への更新後、PFN でジョブが OOM で終了するという問題に直面しました。本発表ではこの問題についての詳細な説明と解決した方法について説明します。本問題は upstream でも取り上げられ、kubelet に singleProcessOOMKill という設定を追加しました。
https://github.com/kubernetes/kubernetes/pull/126096
これらの実装についての苦労話や実装の詳細について説明します。
イベントサイト: https://k8sjp.connpass.com/event/365262/