予算制約つきの API 利用最適化を定式化し、コスト削減を目指している [5] Chen, Lingjiao, Matei Zaharia, and James Zou. “FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance.” Transactions on Machine Learning Research (TMLR), 2024. [6] Sanh, Victor, et al. "DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter." arXiv preprint arXiv:1910.01108 (2019). 17 最近のLLMをルーティングする技術の動向
(Program-of-Thought) を実行して一致しているかどうかで、後続の高性能モデルを実行するか判断する 2つのLLMのコストの差が十分大きいという前提がある [8] Yue, Murong, Jie Zhao, Min Zhang, Liang Du, and Ziyu Yao. “Large Language Model Cascades with Mixture of Thoughts Representations for Cost-Efficient Reasoning.” International Conference on Learning Representations (ICLR 2024), 2024. [9] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837. [10] Chen, Wenhu, et al. "Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks." arXiv preprint arXiv:2211.12588 (2022). 19 最近のLLMをルーティングする技術の動向
[11]Lu, Keming, et al. "Routing to the expert: Efficient reward-guided ensemble of large language models." Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). 2024. [12]Jiang, Dongfu, Xiang Ren, and Bill Yuchen Lin. "Llm-blender: Ensembling large language models with pairwise ranking and generative fusion." Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2023. 20 最近のLLMをルーティングする技術の動向
タや含まれないタスクのデータに対しても、最良の単体LLMやZooterよりも優れる [13] Chen, Shuhao, Weisen Jiang, Baijiong Lin, James T. Kwok, and Yu Zhang. "RouterDC: Query-Based Router by Dual Contrastive Learning for Assembling Large Language Models." Advances in Neural Information Processing Systems 37, 2024. 21 最近のLLMをルーティングする技術の動向
BERT classifier 2値分類を解くfull fine-tuning Causal LLM classifier(Llama 3[16] 8Bベース) 2値分類を解くinstruct形式でfull fine-tuning 報告上は、BERTやCausal LLMのような高性能なモデルでなくても、 軽量手法でも十分性能が高い [14] Ong, Isaac, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M. Kadous, and Ion Stoica. “RouteLLM: Learning to Route LLMs from Preference Data.” International Conference on Learning Representations (ICLR 2025), 2025. [15] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, 42(8):30–37, 2009. [16] Dubey, Abhimanyu, et al. "The Llama 3 Herd of Models." arXiv preprint arXiv:2407.21783, 2024. 22 最近のLLMをルーティングする技術の動向
44M) で、多モデル/nサンプル数を一括で 推論し、オーバーヘッドを小さく保つ 推論時間において、ルーターの追加処理は非常に小さいオーバーヘッドであり、 品質低下は 1%未満、最大 60%のコスト(API料金)削減に成功 [17] Ding, Dujian, Ankur Mallick, Shaokun Zhang, Chi Wang, Daniel Madrigal, Mirian Del Carmen Hipolito Garcia, Menglin Xia, Laks V. S. Lakshmanan, Qingyun Wu, and Victor Rühle. “BEST-Route: Adaptive LLM Routing with Test-Time Optimal Compute.” Proceedings of the 42nd International Conference on Machine Learning, vol. 267, pp. 13870–13884, 2025. 23 最近のLLMをルーティングする技術の動向
手法よりも、ほとんどのタスクで優れる(数学やプログラミングの推論を要する手法含め) [18]Huang, Canbin, Tianyuan Shi, Yuhua Zhu, Ruijun Chen, and Xiaojun Quan. “Lookahead Routing for Large Language Models.” Advances in Neural Information Processing Systems (NeurIPS 2025), 2025. 24 最近のLLMをルーティングする技術の動向
al. "vLLM Semantic Router: Signal Driven Decision Routing for Mixture-of-Modality Models." arXiv preprint arXiv:2603.04444 (2026). [21] "vLLM Semantic Router." Accessed March 9, 2026. [22] Warner, Benjamin, et al. "Smarter, better, faster, longer: A modern bidirectional encoder for fast, memory efficient, and long context finetuning and inference." Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2025. vLLM Semantic Router は、リクエストの内容や状況に応じて、どのモデルに投げる か / どの安全処理を挟むか / キャッシュを使うかを判断する、LLM 推論の前段に置く 賢いルーティング層 Hybrid-LLMやRouterDCなどのモデル選択手法も、実装ロードマップに含まれている 26 最近のLLMをルーティングする技術の動向
重大な課題に対しても、従来の性能を維持したまま改善を期待できる ルーティングがLLM/MLOpsの可能性を広げる LLM/MLOpsへの活用展望 [23] Khattab, Omar, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan A, Saiful Haq, Ashutosh Sharma, Thomas Joshi, Hanna Moazam, Heather Miller, Matei Zaharia, and Christopher Potts. “DSPy: Compiling Declarative Language Model Calls into State-of-the-Art Pipelines.” International Conference on Learning Representations (ICLR 2024), 2024. 32