精度/コスト/速度を最適化するLLM ルーティング技術

精度/コスト/速度を最適化する LLM ルーティング技術 1 X：＠bekku_zer 2026/03/10 ~ LLMのコスト・速度・品質を両立する ~

目次 01 02 03 04 動的なモデルモデルをルーティングする最近のLLMをルーティングする技術の動向実際にどう使える？ 05
LLM/MLOpsへの活用展望 2

01 動的なモデル 3

一般的なMLモデルは、静的なモデルである (モデル構造、パラメータ、前後処理が静的) 静的なモデル動的なモデル 4

Hello! 静的なモデルは固定されるため、簡単な問題を巨大モデルが解いたり、最善のモデルが別にあっても、そのモデルを利用することはできない。単純な問い合わせに高コストなモデルを使うのはコスト/速度において非効率 GPT-XX-thinking 医療系の質問単一モデルに固定すると、他の専門的なモデルの強みを活かせない静的なモデルの課題
動的なモデル 5

入力に応じて、モデル構造や処理を最適化させる self-attentionも、入力に応じて重みを調節するため動的な処理と言われる場合も ① Early Exit ② MoE ③ Layer Skip
④ Dynamic Parameters ⑤ Dynamic Routing ⑥ Dynamic Preprocessing[2] [1] Han, Yizeng, et al. "Dynamic neural networks: A survey." IEEE transactions on pattern analysis and machine intelligence 44.11 (2021): 7436-7456. [2] Wang, Yulin, et al. "Not all images are worth 16x16 words: Dynamic transformers for efficient image recognition." Advances in Neural Information Processing Systems 34 (2021): 11960-11973. 動的なモデル[1] 動的なモデル 6

LLMの発展に伴い、推論時の計算配分や処理経路を動的に最適化する手法が注目される。代表例として、MoE、Test-time scaling、Routing、Speculative Decoding などである。最近の動的モデルの動向動的なモデル 7 入力ごとに一部の expert
のみを活性化し、必要な計算だけを実行する疎なモデル構造推論時に思考の連鎖や探索、自己修正のプロセスを通して、計算時間を意図的に延長タスクの難易度や種類を判別し、適切なモデルや計算パスをリアルタイムで選択する機構高速な「draftモデル」で出力を先行予測、巨大な「targetモデル」で並列検証を行う同じ計算予算でも表現力を高めやすく、大規模化と推論効率を両立しやすい。「考える時間」をかけることで、複雑な数学や論理問題の解法精度を高める簡単な質問には軽量モデル、難問には重量モデルを割り当てることで、システム全体のスループットとコストを最適化するターゲットモデルの精度を維持したまま、自己回帰的な推論特有のボトルネックを解消して、生成速度を加速させる

02 モデルをルーティングする 8

1 + 1は？モデルをルーティングするとは？モデルをルーティングする入力に応じて、利用する最適なモデルを選択するルーティングの基準は、難易度 / タスクの種類 /
モデルの得意不得意などで、分配される Router方式: 最初にルーターが入力を受け取り、適したモデルを判別 Cascade方式: 最初にモデルが受け取り確信度やスコアで、追加でモデルを実行するか判断 ② Cascade方式 ① Router方式 9

効率を維持して、複数モデルの適応力を持つ実行モデルは少ないが、複数のモデルの表現力がある難易度に応じて計算を追加可能入力の難易度に応じた対応ができる専門特化モデルの活用専門的な特化モデルも利用することができる学習済みモデルを候補として利用しやすい既存の学習モデルを追加が容易な場合が多い(軽量なルーティングモデルのみ追加学習) LLM APIなども利用できる
MLモデルをルーティングする主なメリット 10 モデルをルーティングする

MoEとの違い？ Routing MoE 広義では同じだが、モデルの内部に選択先を持つか、外部に持つかの違い ▶︎ ルーティングは外部のモデルを選択するため、LLM APIも対象に 1 + 1は？
11 モデルをルーティングする

単純なNNやCNNベースのモデルでは、ルーティングの効率化において、価値を出しづらかった最大の理由は、ルーターのオーバーヘッドが、従来NNやCNNでは無視しづらいためである LLMは、ルーティングが効率性の面で活躍しやすいモデルの推論が短いとルーティングの時間を無視できない入力簡単！軽量モデルへ 2秒 1秒 1秒
モデルの推論が長いとルーティングは無視できる場合が多い入力簡単！軽量モデルへ 30秒 10秒 1秒こんにちは 12 モデルをルーティングする

① 入力を、候補となる経路の集合をとする。 ② Router は各入力と各経路に対して score関数　　
を与え、推論時に　　　　　　　　　により1つの経路を選択する。 ③ 最終出力は、その選ばれた経路に対応するモデル　　　　　　　により生成される一つのモデルを選択する、Hard Routingの定式化推論時 ① 各入力、正解ラベル、各経路に対して、性能、コストを定めて価値関数をと置く。は、性能とコストのトレードオフを調整するハイパーパラメータ。 ② Routerの score関数がこの価値を近似するように学習する: 学習時学習時の目的は、評価指標に加えて、コスト制約や性能要求を含む形に拡張できる 13 モデルをルーティングする

03 最近のLLMをルーティングする技術の動向 14

最近のLLMに対してルーティングを行う論文最近のLLMをルーティングする技術の動向【2024】 ✅ ICLR: Hybrid-LLM ✅ ICLR: Language Model
Cascades ✅ ICLR : MoT cascade ✅ NAACL: Zooter ✅ Neurips: RouterDC Neurips: TREACLE Neurips: Smoothie ✅ TMLR: FrugalGPT WSDM: FORC EMNLP: TO-Router 【2025】 ✅ ICLR: RouteLLM ICLR: GraphRouter ICLR: EMBED LLM ✅ ICML: BEST-Route ✅ Neurips: Lookahead Routing for LLM Neurips: MESS+ EMNLP: SATER EMNLP: Firewall Routing ACL: IRT-Router NAACL: MixLLM ✅ arxiv vllm: vLLM semantic router 【2026】 ✅ ICLR: UniRoute 15 ✅ のついた論文をこのスライドでは紹介する

高性能/高価なLLM、エッジでも利用できる低性能/安価なLLMを組み合わせ、　入力毎にどちらを利用するかルーター(DeBERTa-v3-large[4] 300M)で判定、　条件がデータセットでは、性能を維持して最大40%の高性能モデルの呼び出しを削減ルータは小モデルと大モデルの品質差を学習して判断する 2024: Hybrid-LLM[3] 最近のLLMをルーティングする技術の動向
[3] “Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing.” International Conference on Learning Representations (ICLR 2024), 2024. [4] He, Pengcheng, Jianfeng Gao, and Weizhu Chen. "DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing." arXiv preprint arXiv:2111.09543, 2021. 16

2024: FrugalGPT[5] 「複数LLM」を用意し、安いモデルから順番に試し、答えに自信が持てるときは止め、自信が低いときは次の高性能モデルへ送るカスケード推論ルーティングの基準となるスコアは、DistilBERT[6](約66M)で回帰的に推論商用LLM APIのコスト削減を目的にした LLM cascade の代表的な初期論文の一つ
予算制約つきの API 利用最適化を定式化し、コスト削減を目指している [5] Chen, Lingjiao, Matei Zaharia, and James Zou. “FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance.” Transactions on Machine Learning Research (TMLR), 2024. [6] Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019). 17 最近のLLMをルーティングする技術の動向

「小LLMと大LLM」でカスケード推論を前提とし、難しい入力のみ大LLMへ小LLMのtoken毎の確信度を全体で平均してしまうと、　出力の確信度が均されてしまい、ルーティングの性能に悪影響が生じる。どの入力を大LLMへ渡すかは、出力全体の確率ではなく “トークンごとの不確かさ” から判断する手法を提案(ある分位点のtokenの確信度を見る) 2024: Language
Model Cascades:Token-level uncertainty and beyond[7] [7] Gupta, Neha, Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Aditya Krishna Menon, and Sanjiv Kumar. “Language Model Cascades: Token-Level Uncertainty and Beyond.” International Conference on Learning Representations (ICLR 2024), 2024. 18 最近のLLMをルーティングする技術の動向

2024: LLM Cascades with MoT[8] 数理推論のようなLMにとって難しい推論タスクを対象にして、高性能と低性能LLMのカスケード方式でコストを下げながら推論を行う数理推論において入力だけでは、難易度や切り替えの判断ができないと示唆低性能LLMで、複数回CoT [9](Chain-of-Thought)、PoT[10]
(Program-of-Thought) を実行して一致しているかどうかで、後続の高性能モデルを実行するか判断する 2つのLLMのコストの差が十分大きいという前提がある [8] Yue, Murong, Jie Zhao, Min Zhang, Liang Du, and Ziyu Yao. “Large Language Model Cascades with Mixture of Thoughts Representations for Cost-Efficient Reasoning.” International Conference on Learning Representations (ICLR 2024), 2024. [9] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837. [10] Chen, Wenhu, et al. "Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks." arXiv preprint arXiv:2211.12588 (2022). 19 最近のLLMをルーティングする技術の動向

2024: Zooter[11] 報酬モデルで得た候補モデルのスコア分布を教師データにしてルーター(86M)を学習報酬モデルのスコアはノイズが多いため、学習対象の入力をグループに分けて、その平均との加重平均を取ることでノイズを低減得意不得意を含む、6個の候補モデルに対してルーティングを実施候補モデルすべてに回答を生成させた後で報酬モデルが順位付けして回答するReward Model Ranking (RMR)[12]よりも、効率よく同等の性能で推論が行えた
[11]Lu, Keming, et al. "Routing to the expert: Efficient reward-guided ensemble of large language models." Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024. [12]Jiang, Dongfu, Xiang Ren, and Bill Yuchen Lin. "Llm-blender: Ensembling large language models with pairwise ranking and generative fusion." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023. 20 最近のLLMをルーティングする技術の動向

2024: RouterDC[13] Zooterのように候補LLMの性能差が小さく、モデルの量が多い中から選択を行うと、 softmaxによりルーターのスコア分布が平坦になってしまい学習が困難になる「LLMの座標を意味する学習可能な埋め込みベクトル{k}」と「入力から埋め込みベクトルに変換するEncoder 」に対して、「スコアの高いLLMのグループに近づけ、スコアの低いLLMのグループから遠ざける」対照学習を行うことで上記の課題を改善「7個の候補モデル」とルーター(DeBERTaV3-base 100M)で、学習に含まれるデー
タや含まれないタスクのデータに対しても、最良の単体LLMやZooterよりも優れる [13] Chen, Shuhao, Weisen Jiang, Baijiong Lin, James T. Kwok, and Yu Zhang. "RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models." Advances in Neural Information Processing Systems 37, 2024. 21 最近のLLMをルーティングする技術の動向

2025: RouteLLM[14] 2モデルに対する、ルーターベースの難易度の高い質問を高性能モデルを利用する手法 4つのルーターを用いて網羅的に評価している Similarity-weighted ranking 入力に類似する、学習データのルーティングを参照 Matrix factorization[15] 入力とモデルのマッチングを2層程度の処理で実施
BERT classifier 2値分類を解くfull fine-tuning Causal LLM classifier（Llama 3[16] 8Bベース） 2値分類を解くinstruct形式でfull fine-tuning 報告上は、BERTやCausal LLMのような高性能なモデルでなくても、　軽量手法でも十分性能が高い [14] Ong, Isaac, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M. Kadous, and Ion Stoica. “RouteLLM: Learning to Route LLMs from Preference Data.” International Conference on Learning Representations (ICLR 2025), 2025. [15] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8):30–37, 2009. [16] Dubey, Abhimanyu, et al. "The Llama 3 Herd of Models." arXiv preprint arXiv:2407.21783, 2024. 22 最近のLLMをルーティングする技術の動向

2025 : BEST-Route[17] 今までのどのモデルを使うか？だけでなく、モデルから何本サンプルを生成するか？を入力毎に適応的に決める手法を提案 (モデル候補数は8個) 小さいモデルでも複数回出力して、品質良いものを選べば品質は上がる(Best-of-N) Multi-head Router (DeBERTa-v3-small
44M) で、多モデル/nサンプル数を一括で推論し、オーバーヘッドを小さく保つ推論時間において、ルーターの追加処理は非常に小さいオーバーヘッドであり、品質低下は 1%未満、最大 60%のコスト(API料金)削減に成功 [17] Ding, Dujian, Ankur Mallick, Shaokun Zhang, Chi Wang, Daniel Madrigal, Mirian Del Carmen Hipolito Garcia, Menglin Xia, Laks V. S. Lakshmanan, Qingyun Wu, and Victor Rühle. “BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute.” Proceedings of the 42nd International Conference on Machine Learning, vol. 267, pp. 13870–13884, 2025. 23 最近のLLMをルーティングする技術の動向

2025: Lookahead Routing for LLM[18] 従来は、「入力とスコア」からモデルを選択しており、モデルがどういう推論をしているかについてルーターは考えることがなかった。ルーターが各モデルの推論の再現を目指すように学習し、過程で得られる潜在表現を用いて、ルーティングすることで各モデルの推論内容まで想定した手法を提案 5つの7B~34BのLLMに対して選択を行い、ZooterやRouterDCなどの他のルーティング
手法よりも、ほとんどのタスクで優れる(数学やプログラミングの推論を要する手法含め) [18]Huang, Canbin, Tianyuan Shi, Yuhua Zhu, Ruijun Chen, and Xiaojun Quan. “Lookahead Routing for Large Language Models.” Advances in Neural Information Processing Systems (NeurIPS 2025), 2025. 24 最近のLLMをルーティングする技術の動向

2026: UniRoute[19] LLM ルーティングを「固定されたモデル集合」ではなく、あとから新しいモデルが追加されても再学習なしで使える形に拡張した研究従来の手法は、新しいモデルを追加するとルーターなどの再学習が必要な場合が多い各LLMを代表プロンプト群上での予測誤差ベクトルで表現し、入力 prompt に対する推定誤差
+ λ×cost が最小のモデルへ振り分ける 30~の未学習 LLM を含む評価で、再学習型ルータより良いコスト/性能トレードオフを達成。 [19] Jitkrittum, Wittawat, Harikrishna Narasimhan, Ankit Singh Rawat, Jeevesh Juneja, Congchao Wang, Zifeng Wang, Alec Go, Chen-Yu Lee, Pradeep Shenoy, Rina Panigrahy, Aditya Krishna Menon, and Sanjiv Kumar. "Universal Model Routing for Efficient LLM Inference." International Conference on Learning Representations (ICLR 2026), 2026. 25 最近のLLMをルーティングする技術の動向

2026 : vLLM Semantic Router[20] 2026/01にメジャーverリリース[21] [20] Liu, Xunzhuo, et
al. "vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models." arXiv preprint arXiv:2603.04444 (2026). [21] "vLLM Semantic Router." Accessed March 9, 2026. [22] Warner, Benjamin, et al. "Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025. vLLM Semantic Router は、リクエストの内容や状況に応じて、どのモデルに投げるか / どの安全処理を挟むか / キャッシュを使うかを判断する、LLM 推論の前段に置く賢いルーティング層 Hybrid-LLMやRouterDCなどのモデル選択手法も、実装ロードマップに含まれている 26 最近のLLMをルーティングする技術の動向

【2024~2025の研究の流れ】 2つのモデルルーティングから、候補モデルの数はどんどん増え続けている簡単なタスクから、推論のような高度なタスクに対する、ルーティングも登場「どのモデルを選ぶか？」だけでなく「どこまで計算するか？」のような観点の研究も増ルーターは従来学習必須であったが、UniRouteのような学習不要で利用できるものも登場【将来】「どこまで推論するか？」はthinking や Test-time scaling
の文脈で更に派生する geminiにも budget thinking があるため、設定対象になり得る非機能な要求は、コスト/速度/精度/に限らず、多様であり、特化タスクにおける切り替え基準も存在しうる。「条件式の定義」と「ルーターの学習」は今もなお必要とされることが一般的であり、動的な処理と言いつつも、タスク粒度では固定的であると言える。まとめ最近のLLMをルーティングする技術の動向 27

04 実際にどう使える？ 28

LLMのサービスに適用が考えられるケース実際にどう使える？ 29 難易度の差が大きいタスク ChatGPTのような簡単な相談から、難しい問題まで受け入れてしまうサービス常に巨大モデルを実行し続けるのではなく、軽量モデルもルーティングすることでコストを削減することが期待できる Webブラウザを実行するAI-Agent 「何が書いているかの認識」「次の挙動」など多様なタスクのなかで動作を進めていく。動作の中には非常に簡単なページの確認も含まれるため、ルーターなどでコストの最適化が期待
プロンプトインジェクションが怖いサービス LLMの軽量API(gemini-2.5-flash-lite)などで、ルーティングを行う場面はある軽量なモデルに即渡すのではなく、バイナリ出力しか許さないルーターを挟むことでセキュアな環境を作れる可能性も

05 LLM/MLOpsへの活用展望 30

MLやLLMにおいて、継続的な運用を考えると改善サイクルが必要になるデータ準備、モデルのトレーニング、チューニング、デプロイ、監視、データ準備... なぜ、「構築して終わり」じゃダメなのか？「明示的/暗黙的FB」や「正解データ」により、学習できるデータが時間と共に増える実際のデータの分布が検証した分布と異なっていた最初は適合していたけど、データ分布(データのドリフト)が変化して、性能が落ちた自然言語だと新たな言葉の出現や言葉の意味の変化(Semantic shift)が生じる LLM/MLOpsという考え方がある LLM/MLOpsへの活用展望
運用において、時間と共にデータが増えるため、常に性能改善や監視中に性能低下を検知した場合に、改善することが期待できる 31

LLMでは、API型でもローカル型でも、基盤モデル本体を継続的に更新するコストは高い「プロンプトの修正」や「モデルを変える」ことで対処する場合が多い DSPy[23]のような自動でプロンプトを最適化する試みは有効ルーティングを行うルーターのみなら追加学習は現実的追加データを用いた、ルーティングの性能改善を通じて、出力全体の改善も期待出力の精度だけでなく、ユーザの分布から「コスト」や「推論速度」の改善も継続的に行える可能性がある課題に対して特化モデルを追加して、ルーターのみ追加で学習することで、　　
重大な課題に対しても、従来の性能を維持したまま改善を期待できるルーティングがLLM/MLOpsの可能性を広げる LLM/MLOpsへの活用展望 [23] Khattab, Omar, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan A, Saiful Haq, Ashutosh Sharma, Thomas Joshi, Hanna Moazam, Heather Miller, Matei Zaharia, and Christopher Potts. “DSPy: Compiling Declarative Language Model Calls into State-of-the-Art Pipelines.” International Conference on Learning Representations (ICLR 2024), 2024. 32

精度/コスト/速度を最適化するLLM ルーティング技術

精度/コスト/速度を最適化するLLM ルーティング技術

bekku_zer

More Decks by bekku_zer

Other Decks in Technology

Featured

Transcript