Slide 43
Slide 43 text
© SAKURA internet Inc.
KV Cache サイズとデータ転送の⾒積もり
フェーズ 累積tokens KV Cache サイズ 初期からの増加量
prefill 512 250.0MB 初期のためなし
1st token 513 (+1) 250.5MB (+512KB) +512KB
256th token 768 375MB +128MB
512th token 1,024 500MB +256MB
1,024th token 1,536 750MB +512MB
2,048th token 2,560 1,250MB +1,024MB
• MHA構造の7B LLMで推論時に保持するKV Cacheのメモリ使⽤量 (1リクエストあたり)
• 初期⼊⼒: 512 tokens, ⽬標出⼒: 2,048 tokens のチャットボットを想定(短⼊⼒ → ⻑出⼒)
• 512 tokens ≈ ⽇本語テキストで750字程度の⼊⼒に対して、 2,048 tokens ≈ 3,000字程度の出⼒
• 1トークン増えたときの増分は seq_len が +1 されるだけ
パラメータ 値
2 2
n_layers 32
n_heads 32
head_dim 128
precision_bytes 2 Byte (FP16)
batch 1
• PD Disaggregationしている場合、この250MBを転送する必要がある
• このサイズならまだ余裕?
• これは1リクエストあたりの転送量