Slide 9
Slide 9 text
ML Platform Distributedで抱えていた課題
• 直面していた課題
今までは1台のサーバーを利用して機械学習を行うことが前提
1. LLMの拡大により1台のGPUサーバーのMemoryで処理が困難
2. 学習時間を短くしたい (データパラレル/モデルパラレルなどで並列数を増やしたい)
9
複数台のGPUサーバーのメモリを使って分散学習できる環境(Distributed)
ML Platformをデータセンターからゼロベースで考える必要
大規模言語モデルとは、様々な自然言語で書かれたテキストをデータセットとして、機械的に学習したモデルです。
主に人工知能分野で利用される手法です。
• 日本語大規模言語モデル(LLM)を業務活用・研究
CALM2
OpenCALMで推論した結果