Slide 20
Slide 20 text
20
KV cacheが長くなり、B/F比が向上せず
出力の速度がUXに大きく影響
出力 出力
出力
入力 入力
入力
出力 出力 出力 出力 出力
入力 入力 入力 入力 入力
KVキャッシュ
KVキャッシュ
KVキャッシュ
最近の生成AI : Reasoning, Thinkingを行い、多
くのTokenを出力することで性能向上
“s1: Simple test-time scaling” (Muennighoff et al.), arXiv:2501.19393, 2025.
特に長い推論では、よりバンド幅を要求