推論基盤のパフォーマンス検証と最適化戦略

(C) SAKURA internet Inc. © SAKURA internet Inc. 推論基盤のパフォーマンス検証と最適化戦略
さくらインターネット株式会社道下幹也

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 2 ⾃⼰紹介
道下幹也（Mikiya Michishita）さくらインターネットインフラエンジニア担当業務： • ベアメタル型GPUクラウドサービス「⾼⽕⼒PHY」のインフラ設計・構築・性能調査 • 先端技術の調査・検証 • GPUを中⼼とした技術のサポート等略歴 : • 2025/08-現在さくらインターネット • 2019-2025/07 ヤフー → LINEヤフー https://speakerdeck.com/aztecher/distributed- inference-serving-vllm-lmcache-nixl-and-llm-d https://knowledge.sakura.ad.jp/author/mikiya_michishita

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 3 Agenda
• 推論基盤の課題と最適化戦略 • パフォーマンス検証例 - PD-Disaggregation • パフォーマンス検証例 - KV Cache Reuse

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 4 推論基盤の課題と
最適化戦略

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 5 推論基盤を考える上での現実的な課題
「推論基盤」といっても⽬指すビジネスモデルによってインフラ要求は⼤きく違う ① どのようなビジネスモデルを⽬指し、どのLLMモデルを選択し基盤として展開・利⽤するか → 企業としての戦略・ロードマップに依存。これがないと適切なリソース・コストの議論はできない ② 現在・将来のビジネス規模に応じ、どのようなインフラを⽬指し、リソースを最適化するか → この部分が今回の前半の議論の中核モデルをサーブする推論インフラへの要求やコストの⾒積もりが難しい推論で⾼スペックなGPUは不要 CPUなどでも動く！推論でも⾼スペックGPUは必要！ストレージなども今後重要に！いずれの意⾒も事実ではあるが… • 実現したいビジネスモデル • ⽬標とするサービス規模やユーザ体験この視点に違いが出ていて意⾒が合わない

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 6 「ユーザ体験」に基づく最適化戦略
最も重要なのはサービスを利⽤するユーザの体験を損ねないこと →「ユーザ体験」を定義し、それを基準に最適化する → SLO（SLA）の設計と継続的な計測に基づく最適化 LLM Inference System GPU GPU SLO（SLA）-based Optimization Loop SLO（SLA) Compliance Low Cost SLO（SLA）を設計する SLO（SLA）を維持しながらコストの最⼩化を狙っていく

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 7 ユーザ体験の定義に利⽤可能な指標
指標種類説明 TTFT （Time-to-First-Token） Latency ユーザーリクエストを送信してから最初のトークンを受信するまでの時間 ITL （Inter-Token Latency） Latency 連続する2つのトークン間の間隔の平均 E2EL （End-to-End Latency） Latency ユーザーリクエストを送信してから、最後のトークンを受信するまでの時間 RPS （Request Per Second） Throughput LLMが1秒間に処理するリクエスト数の総数 TPS （Tokens Per Second） Throughput LLMが1秒間に処理するトークン数の総数 Goodput Latency + Throughput Latency要件を満たす、 LLMが1秒間に処理するリクエスト数の総数＊各種メトリクスの詳細は補⾜資料を参照

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 8 ユーザ体験の分析とシステム最適化のループ
LLM Inference System GPU GPU ユーザワークロード傾向・負荷分析リソース・システム最適化判断 • ユーザリクエストの傾向・負荷の分析 • SLO（SLA）ベースの分析直近の動向に加え今後の予測を⽴てられるとなお良い負荷傾向やSLO（SLA）などの指標に基づき追加の投資やシステムの再構成を検討する • GPUのリソースを増やす・減らす • Aggregated → PD Disaggregation等に構成変更 • Prefill / Decode 各リソースのバランス調整 • KV Cache Storage等の検討 • …etc SLO（SLA）を満たしつつ、コスト最⼩化を狙う

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 9 最適化には技術的知⾒と「全体最適化」が必須
LLM Inference System GPU GPU ユーザワークロード傾向・負荷分析リソース・システム最適化判断正しく最適化を⾏うためには様々な技術に対しての理解、コスト感覚、実測が不可⽋ • どの指標に対しての最適化なのか • どのような技術が選択でき、改善幅はどの程度か • 最適化による追加コストに妥当性があるかさらにAIシステムの最適化においては • アプリケーションやフレームワーク、通信ライブラリ⾃体の動作原理の理解 • サーバ構成やネットワークなどのインフラの理解を基軸とした「全体最適」が必須になる

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 10 パフォーマンス検証例
PD-Disaggregation

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 11 疑問:
PD-Disaggregationのコスト効果 PD-Disagg構成ではP/D向けにGPUを分離 → GPUの利⽤枚数は増え、コストも増える → ⾼速伝送路（NVLink・インターコネクト等）も欲しいこれらのコスト的な要求に直⾯すると疑問が出てくる • ⼩規模な環境でもPD-Disagg構成がいいのか？ • コストに資するほど明確にメリットが出そうか？ → 1台のサーバ規模で検証を⾏う（NVLinkは利⽤、インターコネクトは使わない規模） https://developer.nvidia.com/blog/introducing-nvidia-dynamo- a-low-latency-distributed-inference-framework-for-scaling- reasoning-ai-models/ ＊ PD-Disaggの期待効果については以下の資料を参照して下さい分散推論基盤やその前提の考え⽅〜⾼⽕⼒ PHYで作る分散推論基盤 vol.1〜

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 12 PD-Disaggregation検証構成
Aggregated構成 • 4GPUを全て割り当てる Disaggregated構成 • 2GPUをPrefill / 2GPUをDecode • Disagg構成⽤のProxyを利⽤ • LMCacheによる KVCache転送合計で4枚利⽤するという点は同じ → リソースコストの側⾯でフェアにした上で、Agg vs.Disaggを⽐較

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 13 測定結果（ITL
/ ISL=8k, OSL=1k, GPU=4） Aggregated（4GPU） • 並列度の上昇に伴い、達成可能なTail- Latencyの値が落ちる Disaggregated（P=2GPU / D=2GPU） • 並列度の上昇に伴って全体的なLatency はすこし悪くなるが、Tail-Latencyを維持するこのグラフから、32同時接続（8k1k）では • (Agg) P99を100ms以内に収められない • (PD) P99を30ms以内に収められる SLOを定める視点からこの違いは⼤きい

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 14 PD-Disaggの効果
PD-Disagg構成がITLのTail-Latencyに与える影響はかなり⼤きい • SLOとしてITLのTail-Latencyを指標として利⽤する場合、SLOを満たすためには⾮常に強⼒な⼿法 • Aggでは、ユーザ数の同時接続数がスポットで増えただけでバイオレーションする可能性もある • PD-Disaggでは、上記のようなケースはケアできそう • ⼀⽅で恒常的にユーザワークロードが⼩規模な場合はメリットが薄く、Aggで良いケースも⼗分ある⻑い⼊⼒を伴うユーザワークロードが継続的に発⽣する環境において、SLOの定義にITLをもとにした指標を組み込んでいる場合は、⼩規模環境（サーバ1台規模）でもPD-Disagg構成にする⽅が望ましい＊ TTFTに関する議論については、詳細なベンチマークパラメータとともに補⾜事項に簡単にですが記載しています

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 15 パフォーマンス検証例
KV Cache Reuse

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 16 疑問:
KV Cache Reuseによる効果 KV Cacheを共有ストレージに格納し再利⽤する技術が普及してきている KV Cacheをうまく再利⽤できると、Prefillにかかる計算コストを削減できる対して疑問として • メインメモリやローカルストレージはともかく、リモートストレージの効⼒がどれくらいか？ • KV Cacheのヒット率と性能はうまく相関するか？ → リモートストレージを模擬してKV Cacheヒット率を変化させながら検証 LLM Prefill Decode LLM Prefill Decode KV Cache Store Output Input Output Input Same Prefix + α

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 17 測定内容
- KV Cache Reuse 同⼀vLLMインスタンスでの再利⽤ ① 設計したContext（8k）をリクエストし、Storageにストアさせる ② 2回⽬以降のリクエストでは、初回リクエストのPrefixとマッチする量を変化させたContext（8k）を設計して性能を測定モデルはgpt-oss-120b、GPUは2枚 KV Cache StoreとしてはMoonCake Storeを別サーバ上で起動し利⽤

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 18 測定内容
- KV Cache Share 異なるvLLMインスタンスでの再利⽤ ① 設計したContext（8k）を Instance 1にリクエストし、Storage にストアさせる ② 2回⽬以降のリクエストでは、初回リクエストのPrefixとマッチする量を変化させたContext（8k）を設計し、 Instance 2にリクエストして性能を測定採⽤技術や設定はReuseと同じだが、KV Cacheを使い回すvLLMインスタンスが別

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 19 測定結果（TTFT
/ ISL=8k, OSL=1k, GPU=2） 8k⼊⼒のうち、全くKV CacheにヒットしないケースではTTFTは350+ms程度 1k, 2k, 4k, 8kと段階的にヒット率を上げていくことで、最⼤1.75倍程度削減できている（200+ms程度） KV Cacheの再利⽤によって、TTFTの性能に明確な改善が⾒られる

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 20 KV
Cache Reuse / Sharingの効果 KV Cacheの再利⽤は、うまくキャッシュヒットするとTTFTを改善する • Tailも含む全体的なTTFTの性能向上に寄与する • ワークロード規模などに依存せず効果があるが、理論上Prefixの前⽅⼀致性に強く依存する • 実際はCache Blendなどの技術と併⽤することになる業界の動向としてコンテキストは⻑くなる傾向にあり、システム的にはPrefill処理が重くなる • 今後、最適化の上では外せなくなってくる可能性が⾼い技術の⼀つ KV Cacheの使い回し⾃体はシステム規模やワークロード規模に関わらず有効だが、コストメリットを出すためには、ある程度のユーザワークロードを受け⼊れる環境が望ましい • ストレージコスト、およびストレージへの⾼速通信のためのネットワークコストがかかる • （KV Cacheの再利⽤をしない場合は、KV Cache再計算によるGPUコスト等がかかることを勘案する）

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 21 おわりに

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 22 おわりに
• 推論インフラにおいて「ユーザ体験」を基軸とした最適化戦略が重要 • 「ユーザ体験」を反映するSLO（SLA）の定義 • SLO（SLA）をベースとする継続的な最適化 • 「最適化」を⾏う際には技術への理解、実測による検証、コスト感覚などが重要 • AIシステムの最適化には「全体最適」が不可⽋ • 特定ドメイン領域の知識のみでは不⼗分 • ベンチマークによる検証の重要性 • 最先端の技術が常に⾃⾝のインフラで適切とは限らない • どのような事業フェーズ、ユーザ規模、SLO（SLA）定義か、など複合的な状況のもので、適切な技術を選び取る必要がある • これを⾏う為には、理論も⼤切だが、実測による理解も⼤切

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 23 補⾜資料

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 24 ユーザ体験を反映する性能指標（Latency）
• TTFT：ユーザーリクエストを送信してから最初のトークンを受信するまでの時間 • TPOT（ITL）：連続する2つのトークン間の間隔の平均 • E2EL：ユーザーリクエストを送信してから、最後のトークンを受信するまでの時間

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 25 システムの性能指標（Throughput）
• RPS：LLMが1秒間に処理するリクエスト数の総数 • TPS：LLMが1秒間に処理するトークン数の総数

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 26 •
Goodput：Latency要件を満たす、 LLMが1秒間に処理するリクエスト数の総数ユーザ体験とシステム性能を織り込んだ指標（Goodput） Throughputが⾼くても、Latency要件を満たすとは限らないため、両⽅を織り込んだ指標投下コストに対して「Throughputを改善できるがLatencyの改善が限定的」のような落とし⽳を回避するなどに利⽤できる Throughput is Not All You Need: Maximizing Goodput in LLM Serving using Prefill-Decode Disaggregation

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 27 システム性能に対するコストを直接的に評価する指標
ランニングコストに対する効果を検討する上で参考となる⼀⽅で、導⼊時の初期投資⾦額や、⾃社サービスの抱えるワークロード負荷などを織り込んで総合的に判断すべき指標でもあるサービス提供者としては⾃⾝のサービスの費⽤対効果を測る上で⾒ておきたい指標 LLM Inference System GPU GPU • Tokens / Dollar：1ドルコスト*あたりのトークン⽣成量 • Tokens / User / Dollar：1ドルコスト*で、1⼈のユーザに対してどれだけトークンを⽣成できるか * 「1ドルコスト」は⽣成AIを提供するインフラ・電気代等も全て織り込んだコスト Tokens / 1ドルコスト

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 28 システム性能以外の重要な指標
- モデルの精度今回の話は「システムの性能がユーザ体験を損ねない程度に⼗分か？」という指標⼀⽅でユーザはこれ以外にも「欲しい結果を返してくれる」などの「精度」のような評価軸も存在するビジネス戦略・ロードマップの策定などにおいては、この変量も織り交ぜた判断が求められる Model A GPU GPU GPU Model B 取り扱うモデルによって推論基盤への要求も「⼤きく」変わるモデルの違いによって精度も⼤きく変わる ◎ ×

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 29 最先端の技術・動向とのギャップ
推論技術は最先端の世界の動向を反映して⽇々進化しているが、我々が置かれた状況とはあまりに違う • ハイエンドGPUを⼤量に横展開した推論基盤 • GPUメモリドメイン拡張技術（NVLink-C2C、Scale Up Network） • 推論向け⼤規模コンテキストストレージいずれも⼤規模な推論インフラを展開する企業にとっては重要な技術⼀⽅、現時点での国内のレベルの規模では費⽤対効果が出るか否かは慎重に⾒極める必要があるこのような業界内のギャップを適切に判断する為にも、技術的な理解、コスト感覚をもちつつ、今回話したような最適化戦略をとるのがよいのではないかと考えている⼀⽅で、将来的な動向の変化（Agentic AIの普及・拡⼤）を⾒据えた戦略の検討も必要かもしれない

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 30 PD-Disagg検証時のベンチマークパラメータ
近年のコンテキスト⻑の増加傾向を反映（8k⼊⼒）同時リクエスト数は可変（1 ~ 32）とし、常にリクエストが到達するようなユーザワークロードを収容するシステムを模擬同時接続数を上げるほど、AggではPrefillとDecodeの処理が競合し、ITLが悪くなることが想定される。 PD-Disaggの導⼊可否検討などのデータをとることには適しているが、TTFTの値は作為的に上昇するため取り扱いには注意が必要 --request-rateと--burstinessを調整して測定していくことでより網羅的なデータ分析もした⽅が良い vllm bench serve Parameter Description --dataset-name random Random Datasetの利⽤ --random-input-len 8192 8k ⼊⼒ --random-output-len 1024 1k 出⼒ --request-rate inf 常にmax_concurrency分のリクエストをかけ続ける --burstinessは無視される --max_concurrency ${CONC} 最⼤同時接続数（1 ~ 32） --num-prompts ${CONC x 10} Concurrency x 10

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 31 測定結果（TTFT
/ ISL=8k, OSL=1k, GPU=4）並列度が2までならAggが良いそれ以上になるとPDの⽅が全体的な Latency値がよいが、Tail-Latencyで⾒ると同程度か、場合によっては悪くなる Aggで平均的に悪い理由としては、P/Dの混在によるDecode側処理の遅延に、Prefillも引きづられているからではないかと推察（常にリクエストが来るベンチマーク設計なので顕著に⾒えていると想定される） ITLの測定時に同時TTFTについても測定していたものをプロットしたグラフ

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 32 Mooncake
Store LLM推論シナリオ向けに設計された Distributed Key-Value Cache Storage Engine • 複数サーバ上で起動し、KV Cache向けの分散メモリプールを構築できるOSSのソフトウェア • NIXL、LMCacheと連携可能今回の試験では以下の理由からMooncakeを利⽤した • 外部ストレージへのKV Cache転送の測定に帯域ペナルティを⼊れたくなかった • ⾼帯域のNICを利⽤でき、RDMAで書き込めるストレージが欲しかった • これに該当するエンタープライズストレージを検証環境上に簡単に⽤意できなかった • 幸いインターコネクト経由で検証⽤のサーバが繋がっていたためこれを利⽤することにした Mooncake⾃体の細かい検証等は今後余裕があれば検討

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 33 TTFTにおけるKV
Cache読み込みコスト先の検証において、TTFTに占めるKV Cache読み込みコストがどの程度かをプロットしたほぼ全てキャッシュヒットするケース（8k）でもKV Cacheの読み込みに占める時間が1/4程度になっているのはやや疑問が残るこの件については要調査事項としている

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 34 KV
Cacheの再利⽤に関する議論 KV Cacheの再利⽤性はワークロードやプロンプト構成などで⼤きく異なる • ⾼再利⽤性 = マルチターンチャット、カスタマーサポート等 • システムプロンプトを除き、ユーザとAIの過去の対話履歴がそのまま保持される • 新たな質問によって、過去の履歴は「Prefix」として扱われキャッシュヒットする。 • 低再利⽤性 = RAG、ユーザ定義プロンプト（テンプレートプロンプト） • 動的に取得されたコンテキストがプロンプトの中間に挿⼊されるとそこから再計算になる Agenticワークロードなどにおいても、各エージェントのプロンプト冒頭にロール固有のプロンプトが差し込まれるケースがあり、この場合はPrefixが異なるため再計算になってしまう。 CacheBlendなどの技術による解消

推論基盤のパフォーマンス検証と最適化戦略

推論基盤のパフォーマンス検証と最適化戦略

Mikiya Michishita

More Decks by Mikiya Michishita

Featured

Transcript

(C) SAKURA internet Inc. © SAKURA internet Inc. 推論基盤のパフォーマンス検証と最適化戦略

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 2 ⾃⼰紹介

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 3 Agenda

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 4 推論基盤の課題と

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 5 推論基盤を考える上での現実的な課題

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 6 「ユーザ体験」に基づく最適化戦略

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 7 ユーザ体験の定義に利⽤可能な指標

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 8 ユーザ体験の分析とシステム最適化のループ

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 9 最適化には技術的知⾒と「全体最適化」が必須

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 10 パフォーマンス検証例

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 11 疑問:

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 12 PD-Disaggregation検証構成

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 13 測定結果（ITL

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 14 PD-Disaggの効果

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 15 パフォーマンス検証例

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 16 疑問:

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 17 測定内容

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 18 測定内容

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 19 測定結果（TTFT

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 20 KV

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 21 おわりに

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 22 おわりに

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 23 補⾜資料

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 24 ユーザ体験を反映する性能指標（Latency）

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 25 システムの性能指標（Throughput）

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 26 •

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 27 システム性能に対するコストを直接的に評価する指標

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 28 システム性能以外の重要な指標

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 29 最先端の技術・動向とのギャップ

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 30 PD-Disagg検証時のベンチマークパラメータ

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 31 測定結果（TTFT

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 32 Mooncake

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 33 TTFTにおけるKV

(C) SAKURA internet Inc. (C) SAKURA internet Inc. 34 KV