Slide 6
Slide 6 text
補足:DeepSeek-V3
● モデル概要
○ 総パラメーター数 671B
○ Mixture-of-Expertsモデル
○ Multi-head Latent Attentionを採用
○ Multi-Token Prediction トレーニング
○ FP8混合精度学習
● 性能
○ MMLU, GPQA, MATH などの多様なベン
チマークで高いスコアを達成
○ GPT-4 などの商用モデルと同等の性能
○ 他の大規模モデルに比べて低コストで学習
可能
6
DeepSeek-AI (2024)