CyberAgent group Infrastructure Unit(CIU)では、 社内の機械学習関連の研究開発を支援するための GPU 計算基盤サービス ML Platform を提供しています。
昨今生成 AI の波に伴い GPU の利用率が増加する中、この基盤を運用する上で我々運用者が特に注視しているのは GPU の専有率と利用率です。
本セッションでは、機械学習基盤として貴重な計算資源である GPU の利用効率の向上のために、これまで CIU が取り組んできた施策について紹介します。
特に、ユーザ人気の高い Jupyter Notebook などの対話型インスタンスで生じる計算基盤上の問題に焦点を当て、その対応策を紹介します。
https://cadc.cyberagent.co.jp/2024/sessions/cycloud-ml-jupyter/