Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最適化向けLLMベンチマークの潮流

Avatar for MIKIO KUBO MIKIO KUBO
August 04, 2025

 最適化向けLLMベンチマークの潮流

最適化向けLLMベンチマークの潮流
小林 和博
青山学院大学 理工学部, モアイ・ラボ 取締役 CAIO

Avatar for MIKIO KUBO

MIKIO KUBO

August 04, 2025
Tweet

More Decks by MIKIO KUBO

Other Decks in Business

Transcript

  1. 従来の課題 l数理モデルの定式化には専門知識が必要 l 問題文からモデルへの変換は手作業 lモデル作成コストが高く,汎用化が難しい A fighter jet is a

    crucial combat tool, but to make a fighter jet effective, enough pilots are required. Therefore, a portion of the produced fighter jets, besides those used directly in combat, must be allocated for training pilots. Given that the annual production of fighter jets is 𝑎! (𝑗 = 1,2), with 𝑎" = 10 and 𝑎# = 15, furthermore, each fighter jet can train 5 pilots per year. How should the annual production of fighter jets be allocated to maximize their contribution to air defense over 𝑛 years? , $∈& , '∈(! 𝑐' $𝑥' $ + , )∈* 𝑐) + 𝑦) + , ,∈- 𝑐, .𝑧, + , /∈0" 𝑐/ 𝑢/ , $∈& , '∈(! , )∈*# 𝑎)' $ 𝑥' $ − , )∈*$ 𝑦) + 𝑧, = 1 𝑦) − , $∈& , '∈(! 𝑎)' $ 𝑥' $ ≤ 0 6
  2. 従来の課題 l問題を自然言語で記述 l専門家が決定変数,目的関数,制約条件を抽出 l代数モデリング言語で記述 , $∈& , '∈(! 𝑐' $𝑥'

    $ + , )∈* 𝑐) + 𝑦) + , ,∈- 𝑐, .𝑧, + , /∈0" 𝑐/ 𝑢/ , $∈& , '∈(! , )∈*# 𝑎)' $ 𝑥' $ − , )∈*$ 𝑦) + 𝑧, = 1 𝑦) − , $∈& , '∈(! 𝑎)' $ 𝑥' $ ≤ 0 set R; set P; param a {R,P} >= 0; param b {R} > 0; param c {P} > 0; param u {P} > 0; var x{j in P} >= 0, <= u[j]; maximize total_profit: sum{j in P} c[j] * x[j]; subject to supply {I in R}: sum {j in P} a[I,j] * x[j] <= b[i]; 7
  3. 定式化とは? 現実世界の課題を数学的な表現に変換するプロセス 1. 決定変数の特定と定義 2. 目的関数の特定と定義 3. 制約式の特定と定義 最⼤化. ∑

    !1" 2 𝑐! 𝑥! 𝑥! ∶ ルート j を採用するとき1,それ以外 0 , !1" 2 𝑎3! 𝑥! ≤ 𝑏3 (𝑖 = 1,2, … , 𝑚) 9
  4. LLMによる支援の難しさ 1. 曖昧な用語 lvehicle と car, priceとcapacity, 𝑝と𝑐, 𝑥と𝑦 2.

    暗黙の前提の省略 l人数は非負整数 3. 長いコンテクスト l50ページの問題記述をLLMに渡せるか? 4. 信頼性の低い出力 l不正確なモデル,実行できないコードを出力することがある 11
  5. 問題文を直にChatGPTに? • ある工場では、食品Iと食品IIの2種類を生産している。現在、熟練労働者が 50人いる。 • 熟練労働者1人あたり、食品Iは毎時10kg,食品IIは毎時6kg 生産できる。 • 各労働者は週に40時間働く。 •

    予約により、今後8週間で両食品の需要が表1-11のように急増する。 • そのため、工場では8週目までに新たに50人の労働者を訓練して確保するこ とを決定した。 問題⽂(⾃然⾔語) IndustrialORの問題 12
  6. アプローチ分類 1. パイプライン型:エンティティ抽出 → モデル生成 2. マルチエージェント型:複数LLMで役割分担 3. プロンプト一括型:GPT-4等に一発指示 4.

    特化型LLM:LLM自体を訓練 5. 質問応答型+ソルバー連携: ユーザとLLMが自然言語で対話, 実行はソルバー 17
  7. 実例: 輸送問題(transportation problem) 問題文: ある企業は3つの工場と4つの倉庫を持ち,各工場の供給能 力と倉庫の需要が決まっている。輸送コストを最小化するモデルを構 築せよ。 import pulp prob

    = pulp.LpProblem("Transportation", pulp.LpMinimize) x = pulp.LpVariable.dicts("x", [(i, j) for i in plants for j in warehouses], lowBound=0) ……… LLM出力例(PuLPコード) 19
  8. NL4OPT タスク1: エンティティの抽出 l ラベル: “制限”, テキスト:“60,000” (17字-23字目) l ラベル:

    “制約方向”, テキスト:“available” (24字-33字目) l ラベル: “目的方向”, テキスト:“maximize” (400字-409字目) l ラベル: “目的名”, テキスト:“return” (413字-433字目) 23
  9. NL4OPT タスク2: 定式化 最大化 0.07𝑥 + 0.02𝑦 条件 𝑥 +

    𝑦 ≤ 60000 𝑥 ≥ 0.15(𝑥 + 𝑦) 𝑦 ≤ 0.6(𝑥 + 𝑦) 24
  10. OptiMUS l 前処理 l パラメータ,条項,背景 l 複数エージェントアプローチ l マネージャー :

    作業の調整 l 定式化 : 変数・制約・目的の定式化と修正 l プログラマー : コード生成,デバッグ l 評価者 : コードの実行とエラー特定 30
  11. OptiMUS l NLP4LP: 新たなベンチマーク l NP4Opt, ComplexORより複雑な問題 l より複雑で長い問題記述 l

    54のLPと13のMILP l 工場配置,ネットワークフロー,スケジューリングなど 32
  12. ベンチマーク比較 l NL4OPT (2022) l MAMO (2024) l NLP4LP (2024)

    l OptiGuide (2023) l IndustryOR(2024) l OptiBench (2024) 36
  13. 名称 問題数 特徴 評価指標 アプローチ NL4OPT (2022) 289 (LP) •

    自然言語記述から最適化問題 の意味抽出と定式化生成が目 的 • エンティティ認識 の精度(F1スコア) • 数学的表現への変 換精度 • パイプライン型 (エンティティ抽出 →モデル生成) MAMO (2024) 1059 (LP/MILP, ODE) • LLMの数理モデリング能力を評 価する目的 • 過程に焦点 • ソルバーによる最 適解の一致率 • ソルバー連携型 (モデル構築はLLM, 求解はソルバー) NLP4LP (2024) 67 (54LP/13MILP) • 記述が複雑で長い問題. • 工場配置,スケジューリング など • 解けた問題の割合 • OptiMUS (マルチエージェン ト型) 37
  14. 名称 問題数 特徴 評価指標 アプローチ OptiGuide (2023) 多数のQ&Aペア • MSでのサプライチェーン事

    例に基づくLLMとソルバー の協調フレームワーク • What-ifシナリオ に対するコードの 正答率 • 汎用性や外挿能力 • 質問応答+ソル バー連携 IndustryOR (2024) 100 (実世界OR) • 実世界のオペレーション ズ・リサーチの問題 • ソルバーによる最 適解の一致率 • ORLM (特化型LLM) OptiBench (2024) 605 (実世界OR) • 非線形計画問題や表形式 データを含む • Pass@1精度(単一 呼び出しで解けた 問題の割合) • OptimAI(マルチ エージェント型) 38