Cloud Operator Days Tokyo 2025 Closing Event Keynote (20min)
https://cloudopsdays.com/closing/
LLMなどの大規模なAI基盤モデルの学習は、GPU計算ノード、高速ネットワークやスケーラブルなストレージを統合した高性能計算インフラを必要とします。さくらインターネットでは、この要件に最適化した大規模AI学習向けマネージドHPCクラスタ「さくらONE」を提供しています。 本講演では、MLPerf Trainingベンチマークスイートを用いたGPT-3の分散学習によるAIスパコンの評価事例を紹介します。 特に、分散学習ワークロードの特性、さくらONEのシステム構成と性能評価結果、および、処理効率を計るためのテレメトリー分析の観点を取り上げます。