PLaMo2シリーズのvLLM実装 / PFN LLM セミナー

PLaMo2シリーズの vLLM実装 2025/10/01 PLaMo LLMセミナー LLM推論最適化チーム Shinichi Hemmi

2 vLLMとは LLM推論のデファクトスタンダード - 効率的なメモリ管理・推論スケジューリング - Paged Attention - Continuous
Batching - 多様な高速化手法のサポート - 量子化, PP/TP/DP, torch.compile, Preﬁx caching, Chunked preﬁll… - OpenAI API互換のサーバ - 主要なモデル・ハードウェアを網羅 vLLM Office Hours #33 - Hybrid Models in vLLM - September 25, 2025

3 PLaMo2 on vLLM … PLaMo2シリーズもvLLMで利用可 - v0.8.5 : PLaMo2を公式サポート
- v0.10.1: PP/TP, torch.compile, chunked preﬁll - v0.10.2: V1 Engineへの対応 - Hybrid KV Cache Managerへの追従 - Schedulerの柔軟性向上 - torch.compileの対象を拡大 …vLLMの主要な高速化機能が利用可能に

4 V1 Engineによる高速化

5 V0 Engine（元々の実装）を基盤にコアシステムを刷新 - 実装の簡素化・CPU処理の高速化 - Cache Managerの統合 - PLaMo2ではSWAとMambaを採用
- Schedulerの自由度向上 - Chunked preﬁllからの発展 - torch.compileの対象の拡大・デフォルト有効化 - PLaMo2独自のMambaにも対応 V1 Engine vLLM V1: A Major Upgrade to vLLM’s Core Architecture vLLMのアーキテクチャ

6 Continuous Batching + Scheduler (V0) Prompt 1 Step 1
Step 2 Step 3 Step 4 Step 5 Prompt 3 Prompt 2 EOS EOS EOS Continuous Baching (V0) Step 6 Step 7 budget size = 10 Prompt 4 EOS - preﬁllとdecodeは別の反復にスケジュール - Chunked Preﬁllでは固定のChunk size

7 Continuous Batching + Scheduler (V1) Step 1 Step 2
Step 3 Step 4 Step 5 EOS EOS EOS Continuous Baching (V1) budget size = 10 EOS - preﬁllとdecodeの区別なくスケジュール Prompt 1 Prompt 3 Prompt 2 Prompt 4

8 torch.compile (V0 Engine) Fused qk_norm, RoPE torch.compile 自動的にテンソル演算の計算グラフをキャプチャ ->
最適化されたカーネルを生成 e.g.) PLaMo2のAttention layer - QK norm, RoPEをFuseして1つのTritonカーネルに - 約5%のスループット向上 (A100, L40S) Mamba Attention Mamba Attention …… compile_sizes=[1, 8, 16, 32, 64, 128, …..]

9 torch.compile (V1 Engine) Introduction to torch.compile and How It
Works with vLLM - デフォルトで有効化 - 対象も拡大。特に - PLaMo2のMambaレイヤーにも対応 - TP利用時のオーバヘッドも短縮 - PLaMo2.1 8B (L40S) - Latencyが約20%向上

10 まとめ

11 本発表でお話したこと - 推論フレームワークvLLMについて - PLaMo2実装アップデート (以降) - v0.10.1: (PP/TP,
torch.compile, chunked preﬁll対応) - v0.10.2: V1 Engineの対応 - Schedulerの改善 - torch.compileの拡大 QA - お気軽にご質問ください！おわりに

12 LLM推論最適化チームでは、 PLaMoの性能向上に一緒に取り組む仲間を募集しています！ • LLMのコスト効率改善（スループット向上・レイテンシ改善・省 GPUメモリ化） ◦ 重み/KV Cache量子化、CUDAカーネル実装、推論フレームワークの改善など
◦ 最新の手法を実際にサービスとしてデプロイできるようにする • Guided Decodingなど推論レイヤの技術開発 • vLLMのオープンソース開発ご興味のある方は、ぜひアンケートからカジュアル面談にご応募ください！ We’re Hiring!

Making the real world computable

PLaMo2シリーズのvLLM実装 / PFN LLM セミナー

PLaMo2シリーズのvLLM実装 / PFN LLM セミナー

Preferred Networks PRO

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

PLaMo2シリーズの vLLM実装 2025/10/01 PLaMo LLMセミナー LLM推論最適化チーム Shinichi Hemmi

2 vLLMとは LLM推論のデファクトスタンダード - 効率的なメモリ管理・推論スケジューリング - Paged Attention - Continuous

3 PLaMo2 on vLLM … PLaMo2シリーズもvLLMで利用可 - v0.8.5 : PLaMo2を公式サポート

4 V1 Engineによる高速化

5 V0 Engine（元々の実装）を基盤にコアシステムを刷新 - 実装の簡素化・CPU処理の高速化 - Cache Managerの統合 - PLaMo2ではSWAとMambaを採用

6 Continuous Batching + Scheduler (V0) Prompt 1 Step 1

7 Continuous Batching + Scheduler (V1) Step 1 Step 2

8 torch.compile (V0 Engine) Fused qk_norm, RoPE torch.compile 自動的にテンソル演算の計算グラフをキャプチャ ->

9 torch.compile (V1 Engine) Introduction to torch.compile and How It

10 まとめ

11 本発表でお話したこと - 推論フレームワークvLLMについて - PLaMo2実装アップデート (以降) - v0.10.1: (PP/TP,

Making the real world computable