Upgrade to Pro — share decks privately, control downloads, hide ads and more …

精度/コスト/速度を最適化するLLM ルーティング技術

精度/コスト/速度を最適化するLLM ルーティング技術

出身研究室主催のワークショップでの招待講演資料を、公開向けに一部調整したものです。

Avatar for bekku_zer

bekku_zer

March 10, 2026
Tweet

More Decks by bekku_zer

Other Decks in Technology

Transcript

  1. 入力に応じて、モデル構造や処理を最適化させる self-attentionも、入力に応じて重みを調節するため動的な処理と言われる場合も ① Early Exit ② MoE ③ Layer Skip

    ④ Dynamic Parameters ⑤ Dynamic Routing ⑥ Dynamic Preprocessing[2] [1] Han, Yizeng, et al. "Dynamic neural networks: A survey." IEEE transactions on pattern analysis and machine intelligence 44.11 (2021): 7436-7456. [2] Wang, Yulin, et al. "Not all images are worth 16x16 words: Dynamic transformers for efficient image recognition." Advances in Neural Information Processing Systems 34 (2021): 11960-11973. 動的なモデル[1] 動的なモデル 6
  2. LLMの発展に伴い、推論時の計算配分や処理経路を動的に最適化する手法が注目される。 代表例として、MoE、Test-time scaling、Routing、Speculative Decoding などである。 最近の動的モデルの動向 動的なモデル 7 入力ごとに一部の expert

    のみを活性化し、 必要な計算だけを実行する疎なモデル構造 推論時に思考の連鎖や探索、自己修正の プロセスを通して、計算時間を意図的に延長 タスクの難易度や種類を判別し、適切なモデル や計算パスをリアルタイムで選択する機構 高速な「draftモデル」で出力を先行予測、 巨大な「targetモデル」で並列検証を行う 同じ計算予算でも表現力を高めやすく、 大規模化と推論効率を両立しやすい。 「考える時間」をかけることで、複雑な数学 や論理問題の解法精度を高める 簡単な質問には軽量モデル、難問には重量 モデルを割り当てることで、システム全体の スループットとコストを最適化する ターゲットモデルの精度を維持したまま、 自己回帰的な推論特有のボトルネックを 解消して、生成速度を加速させる
  3. 1 + 1は? モデルをルーティングするとは? モデルをルーティングする 入力に応じて、利用する最適なモデルを選択する ルーティングの基準は、難易度 / タスクの種類 /

    モデルの得意不得意などで、分配される Router方式: 最初にルーターが入力を受け取り、適したモデルを判別 Cascade方式: 最初にモデルが受け取り確信度やスコアで、追加でモデルを実行するか判断 ② Cascade方式 ① Router方式 9
  4. ① 入力を 、候補となる経路の集合を とする。 ② Router は各入力 と各経路 に対して score関数  

    を与え、推論時に           により1つの経路を選択する。 ③ 最終出力は、その選ばれた経路に対応するモデル        により生成される 一つのモデルを選択する、Hard Routingの定式化 推論時 ① 各入力 、正解ラベル 、各経路 に対して、性能 、コスト を定めて 価値関数を と置く。 は、性能とコストのトレードオフを調整するハイパーパラメータ。 ② Routerの score関数 がこの価値を近似するように学習する: 学習時 学習時の目的は、評価指標に加えて、コスト制約や性能要求を含む形に拡張できる 13 モデルをルーティングする
  5. 最近のLLMに対してルーティングを行う論文 最近のLLMをルーティングする技術の動向 【2024】 ✅ ICLR: Hybrid-LLM ✅ ICLR: Language Model

    Cascades ✅ ICLR : MoT cascade ✅ NAACL: Zooter ✅ Neurips: RouterDC Neurips: TREACLE Neurips: Smoothie ✅ TMLR: FrugalGPT WSDM: FORC EMNLP: TO-Router 【2025】 ✅ ICLR: RouteLLM ICLR: GraphRouter ICLR: EMBED LLM ✅ ICML: BEST-Route ✅ Neurips: Lookahead Routing for LLM Neurips: MESS+ EMNLP: SATER EMNLP: Firewall Routing ACL: IRT-Router NAACL: MixLLM ✅ arxiv vllm: vLLM semantic router 【2026】 ✅ ICLR: UniRoute 15 ✅ のついた論文をこのスライドでは紹介する
  6. 高性能/高価なLLM、エッジでも利用できる低性能/安価なLLMを組み合わせ、   入力毎にどちらを利用するかルーター(DeBERTa-v3-large[4] 300M)で判定、   条件がデータセットでは、性能を維持して最大40%の高性能モデルの呼び出しを削減 ルータは小モデルと大モデルの品質差を学習して判断する 2024: Hybrid-LLM[3] 最近のLLMをルーティングする技術の動向

    [3] “Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing.” International Conference on Learning Representations (ICLR 2024), 2024. [4] He, Pengcheng, Jianfeng Gao, and Weizhu Chen. "DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing." arXiv preprint arXiv:2111.09543, 2021. 16
  7. 2024: FrugalGPT[5] 「複数LLM」を用意し、安いモデルから順番に試し、答えに自信が持てるときは止め、 自信が低いときは次の高性能モデルへ送るカスケード推論 ルーティングの基準となるスコアは、DistilBERT[6](約66M)で回帰的に推論 商用LLM APIのコスト削減を目的にした LLM cascade の代表的な初期論文の一つ

    予算制約つきの API 利用最適化を定式化し、コスト削減を目指している [5] Chen, Lingjiao, Matei Zaharia, and James Zou. “FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance.” Transactions on Machine Learning Research (TMLR), 2024. [6] Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019). 17 最近のLLMをルーティングする技術の動向
  8. 「小LLMと大LLM」でカスケード推論を前提とし、難しい入力のみ大LLMへ 小LLMのtoken毎の確信度を全体で平均してしまうと、   出力の確信度が均されてしまい、ルーティングの性能に悪影響が生じる。 どの入力を大LLMへ渡すかは、出力全体の確率ではなく “トークンごとの不確かさ” か ら判断する手法を提案(ある分位点のtokenの確信度を見る) 2024: Language

    Model Cascades:Token-level uncertainty and beyond[7] [7] Gupta, Neha, Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Aditya Krishna Menon, and Sanjiv Kumar. “Language Model Cascades: Token-Level Uncertainty and Beyond.” International Conference on Learning Representations (ICLR 2024), 2024. 18 最近のLLMをルーティングする技術の動向
  9. 2024: LLM Cascades with MoT[8] 数理推論のようなLMにとって難しい推論タスクを対象にして、高性能と低性能LLMのカス ケード方式でコストを下げながら推論を行う 数理推論において入力だけでは、難易度や切り替えの判断ができないと示唆 低性能LLMで、複数回CoT [9](Chain-of-Thought)、PoT[10]

    (Program-of-Thought) を実行して一致しているかどうかで、後続の高性能モデルを実行するか判断する 2つのLLMのコストの差が十分大きいという前提がある [8] Yue, Murong, Jie Zhao, Min Zhang, Liang Du, and Ziyu Yao. “Large Language Model Cascades with Mixture of Thoughts Representations for Cost-Efficient Reasoning.” International Conference on Learning Representations (ICLR 2024), 2024. [9] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837. [10] Chen, Wenhu, et al. "Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks." arXiv preprint arXiv:2211.12588 (2022). 19 最近のLLMをルーティングする技術の動向
  10. 2024: Zooter[11] 報酬モデルで得た候補モデルのスコア分布を教師データにしてルーター(86M)を学習 報酬モデルのスコアはノイズが多いため、学習対象の入力をグループに分けて、その 平均との加重平均を取ることでノイズを低減 得意不得意を含む、6個の候補モデルに対してルーティングを実施 候補モデルすべてに回答を生成させた後で報酬モデルが順位付けして回答するReward Model Ranking (RMR)[12]よりも、効率よく同等の性能で推論が行えた

    [11]Lu, Keming, et al. "Routing to the expert: Efficient reward-guided ensemble of large language models." Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024. [12]Jiang, Dongfu, Xiang Ren, and Bill Yuchen Lin. "Llm-blender: Ensembling large language models with pairwise ranking and generative fusion." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023. 20 最近のLLMをルーティングする技術の動向
  11. 2025: RouteLLM[14] 2モデルに対する、ルーターベースの難易度の高い質問を高性能モデルを利用する手法 4つのルーターを用いて網羅的に評価している Similarity-weighted ranking 入力に類似する、学習データのルーティングを参照 Matrix factorization[15] 入力とモデルのマッチングを2層程度の処理で実施

    BERT classifier 2値分類を解くfull fine-tuning Causal LLM classifier(Llama 3[16] 8Bベース) 2値分類を解くinstruct形式でfull fine-tuning 報告上は、BERTやCausal LLMのような高性能なモデルでなくても、   軽量手法でも十分性能が高い [14] Ong, Isaac, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M. Kadous, and Ion Stoica. “RouteLLM: Learning to Route LLMs from Preference Data.” International Conference on Learning Representations (ICLR 2025), 2025. [15] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8):30–37, 2009. [16] Dubey, Abhimanyu, et al. "The Llama 3 Herd of Models." arXiv preprint arXiv:2407.21783, 2024. 22 最近のLLMをルーティングする技術の動向
  12. 2025 : BEST-Route[17] 今までのどのモデルを使うか?だけでなく、モデルから何本サンプルを生成するか? を入力毎に適応的に決める手法を提案 (モデル候補数は8個) 小さいモデルでも複数回出力して、品質良いものを選べば品質は上がる(Best-of-N) Multi-head Router (DeBERTa-v3-small

    44M) で、多モデル/nサンプル数を一括で 推論し、オーバーヘッドを小さく保つ 推論時間において、ルーターの追加処理は非常に小さいオーバーヘッドであり、 品質低下は 1%未満、最大 60%のコスト(API料金)削減に成功 [17] Ding, Dujian, Ankur Mallick, Shaokun Zhang, Chi Wang, Daniel Madrigal, Mirian Del Carmen Hipolito Garcia, Menglin Xia, Laks V. S. Lakshmanan, Qingyun Wu, and Victor Rühle. “BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute.” Proceedings of the 42nd International Conference on Machine Learning, vol. 267, pp. 13870–13884, 2025. 23 最近のLLMをルーティングする技術の動向
  13. 2025: Lookahead Routing for LLM[18] 従来は、「入力とスコア」からモデルを選択しており、モデルがどういう推論をしてい るかについてルーターは考えることがなかった。 ルーターが各モデルの推論の再現を目指すように学習し、過程で得られる潜在表現を用 いて、ルーティングすることで各モデルの推論内容まで想定した手法を提案 5つの7B~34BのLLMに対して選択を行い、ZooterやRouterDCなどの他のルーティング

    手法よりも、ほとんどのタスクで優れる(数学やプログラミングの推論を要する手法含め) [18]Huang, Canbin, Tianyuan Shi, Yuhua Zhu, Ruijun Chen, and Xiaojun Quan. “Lookahead Routing for Large Language Models.” Advances in Neural Information Processing Systems (NeurIPS 2025), 2025. 24 最近のLLMをルーティングする技術の動向
  14. 2026: UniRoute[19] LLM ルーティングを「固定されたモデル集合」ではなく、あとから新しいモデルが追 加されても再学習なしで使える形に拡張した研究 従来の手法は、新しいモデルを追加するとルーターなどの再学習が必要な場合が多い 各LLMを代表プロンプト群上での予測誤差ベクトルで表現し、入力 prompt に対する 推定誤差

    + λ×cost が最小のモデルへ振り分ける 30~の未学習 LLM を含む評価で、再学習型ルータより良いコスト/性能トレードオフ を達成。 [19] Jitkrittum, Wittawat, Harikrishna Narasimhan, Ankit Singh Rawat, Jeevesh Juneja, Congchao Wang, Zifeng Wang, Alec Go, Chen-Yu Lee, Pradeep Shenoy, Rina Panigrahy, Aditya Krishna Menon, and Sanjiv Kumar. "Universal Model Routing for Efficient LLM Inference." International Conference on Learning Representations (ICLR 2026), 2026. 25 最近のLLMをルーティングする技術の動向
  15. 2026 : vLLM Semantic Router[20] 2026/01にメジャーverリリース[21] [20] Liu, Xunzhuo, et

    al. "vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models." arXiv preprint arXiv:2603.04444 (2026). [21] "vLLM Semantic Router." Accessed March 9, 2026. [22] Warner, Benjamin, et al. "Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025. vLLM Semantic Router は、リクエストの内容や状況に応じて、どのモデルに投げる か / どの安全処理を挟むか / キャッシュを使うかを判断する、LLM 推論の前段に置く 賢いルーティング層 Hybrid-LLMやRouterDCなどのモデル選択手法も、実装ロードマップに含まれている 26 最近のLLMをルーティングする技術の動向
  16. 【2024~2025の研究の流れ】 2つのモデルルーティングから、候補モデルの数はどんどん増え続けている 簡単なタスクから、推論のような高度なタスクに対する、ルーティングも登場 「どのモデルを選ぶか?」だけでなく「どこまで計算するか?」のような観点の研究も増 ルーターは従来学習必須であったが、UniRouteのような学習不要で利用できるものも登場 【将来】 「どこまで推論するか?」はthinking や Test-time scaling

    の文脈で更に派生する geminiにも budget thinking があるため、設定対象になり得る 非機能な要求は、コスト/速度/精度/に限らず、多様であり、特化タスクにおける切り替え 基準も存在しうる。 「条件式の定義」と「ルーターの学習」は今もなお必要とされることが一般的であり、動的 な処理と言いつつも、タスク粒度では固定的であると言える。 まとめ 最近のLLMをルーティングする技術の動向 27
  17. LLMでは、API型でもローカル型でも、基盤モデル本体を継続的に更新するコストは高い 「プロンプトの修正」や「モデルを変える」ことで対処する場合が多い DSPy[23]のような自動でプロンプトを最適化する試みは有効 ルーティングを行うルーターのみなら追加学習は現実的 追加データを用いた、ルーティングの性能改善を通じて、出力全体の改善も期待 出力の精度だけでなく、ユーザの分布から「コスト」や「推論速度」の改善も継続的 に行える可能性がある 課題に対して特化モデルを追加して、ルーターのみ追加で学習することで、    

    重大な課題に対しても、従来の性能を維持したまま改善を期待できる ルーティングがLLM/MLOpsの可能性を広げる LLM/MLOpsへの活用展望 [23] Khattab, Omar, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan A, Saiful Haq, Ashutosh Sharma, Thomas Joshi, Hanna Moazam, Heather Miller, Matei Zaharia, and Christopher Potts. “DSPy: Compiling Declarative Language Model Calls into State-of-the-Art Pipelines.” International Conference on Learning Representations (ICLR 2024), 2024. 32