Slide 17
Slide 17 text
18
データが準備できたら、いよいよ「事前学習」のはじまり
u 事前学習タスク↓を準備したデータ(数 TB 〜 数百 TB のテキスト)に対し、ひたすら繰り返す
u モデルもデータも大規模なのでマルチ GPU での分散並列処理のお化けに
n 多くの並列化機会: データ並列 (DP), テンソル並列 (TP), パイプライン並列 (PP), シーケンス並列 (SP)
• DeepSpeed, Megatron-LM など、優れた分散並列学習のフレームワークが利用可能
u 一発で安定した学習ができると思ってはいけない (綿密な実験計画が求められる)
n 損失スパイクからの発散 (行かないで)
, 勾配爆発, ノード故障 → 学習再起動 → 状態ぶっこわれ, …
n Layer Normalization など、学習を安定化させるための様々なノウハウ [Takase+23] 他
吾輩は猫である。名前は>>>
末尾が空欄のテキスト
吾輩は猫である。名前はまだないかも。
LLM の推定結果 (末尾の空欄を埋める)
吾輩は猫である。名前はまだない。
正解のテキスト
次からは正しく生成できるよう
パラメータを更新 (学習)
誤差/勾配
算出
[Takase+23] Spike No More: Stabilizing the Pre-training of Large Language Models
① 事前学習 (Pre-Training) / モデルを決める / モデル規模とデータ量を決める / データを準備する / 準備したデータをモデルに学習させる