https://www.ipsj-chugoku.jp/kouenkai/2025-20251222.html
+ 演題:
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性
+ 講師:
坪内 佑樹 氏(さくらインターネット株式会社 さくらインターネット研究所 上級研究員)
+ 講演概要:
LLMに代表される大規模なAI基盤モデルの学習には、数百から数万基の高性能GPU、高帯域・低遅延のネットワークや分散ストレージを統合した高性能計算基盤(AIスパコン)が不可欠である。AIスパコンでは、ハードウェアの故障・劣化やソフトウェア設定の不備により、学習ジョブの停止や性能劣化、非効率な実行が引き起こされるが、数多くの異種デバイスが協調して動作することから、原因やボトルネックの特定はときに困難である。そのため、システム内部の観測性向上やテレメトリーデータを機械学習で分析する手法が近年研究されている。本講演では、AIモデル学習のワークロード、AIスパコンの計算機アーキテクチャ、信頼性の基本概念と最新の研究動向を解説する。さらに、さくらインターネットが提供するAIスパコンサービス「さくらONE」を事例に、MLPerfベンチマークによる性能計測と可観測性向上の取り組みを紹介する。