Slide 15
Slide 15 text
15
要約モデルのトレーニング
◼ハードウェア
⚫A100 80GB x 8 ノード1台
◼モデル
⚫Qwen2.5-7B
◼所要時間
⚫約16時間
ハイパーパラメータ 値
Optimizer Galore_AdamW_8bit
Optimizer Target Module q_proj, k_proj, v_proj, mlp
Learning Rate 5.5e-6
Scheduler Cosine
Warmup Ratio 0.07
Epochs 10
Batch Size 32 ※1
Weight Decay 0.1
Precision Bfloat16
Gradient Checkpointing True
※1 Gradient Accumulation Steps=4, Per Device Batch Size=1.