Upgrade to Pro — share decks privately, control downloads, hide ads and more …

学習理論に基づく離散最適化アルゴリズムの改良と解析

Shinsaku Sakaue
June 15, 2024
420

 学習理論に基づく離散最適化アルゴリズムの改良と解析

RAOTA 第6回研究会の坂上の発表資料です.
研究会 URL:https://orsj.org/raota/#raota6

Shinsaku Sakaue

June 15, 2024
Tweet

Transcript

  1. 2 2014 年 4 ⽉ ー 2016 年 3 ⽉

    2016 年 4 ⽉ ー 現在 2018 年 10 ⽉ ー 2020 年 3 ⽉ 2020 年 4 ⽉ ー 現在 東京⼤学⼤学院 情報理⼯学系研究科 数理情報第 7 研究室(修⼠) NTT コミュニケーション科学基礎研究所 京都⼤学⼤学院 情報学系研究科 通信情報システム専攻 湊研究室(社会⼈博⼠) 東京⼤学⼤学院 情報理⼯学系研究科 数理情報第 7 研究室 特任助教(出向) n 名前 坂上 晋作 (さかうえ しんさく) n 経歴 n 研究の興味 最適化(離散も連続も),データ構造(BDD, ZDD, etc.),オンライン学習,学習理論 ⾃⼰紹介
  2. 上記以外︓Instance Optimality, Parameterized Algorithms, Semirandom Models, Smoothed Analysis, etc. 6

    Mitzenmacher and Vassilvitskii. Algorithms with Predictions. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021. Balcan. Data-Driven Algorithm Design. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021. Beyond the Worst-Case Analysis of Algorithms さまざまな Beyond the Worst-Case の⽅針の中で 機械学習・学習理論寄りの2つの⽅針について紹介
  3. 8 アルゴリズム 問題 例︓スキーレンタル問題 期待競合⽐ ! !"# アルゴリズムが存在 (最悪ケース解析ではタイト) ⼊⼒

    予測値 (スキーに⾏く回数) 競合⽐ 1 + min{予測誤差, 最悪時定数} を達成可 • 予測が良ければ 1 に近づく • 最悪時でも定数競合⽐を達成 Predictor 予測はブラックボックス (アルゴリズムと切り分ける) 予測が使える場合のアルゴリズムの理論保証を解析 最悪時の性能を保ちつつ 予測が良ければより良い保証が得られる 1. Algorithms with Predictions Mitzenmacher and Vassilvitskii. Algorithms with Predictions. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021.
  4. パラメータを学習 サンプルサイズ ) ⼗分⼤のもとで ⼿元データでの性能 ≈ 将来の期待性能 を保証(汎化誤差バウンド) 11 過去の問題データからアルゴリズムのパタメータを学習

    問題 1 問題 ) ⋮ アルゴリズム (調整可能なパラメータを持つ) 問題 ⼊⼒ ∼ 過去のデータ ∼ 未知の分布 2. Data-Driven Algorithm Design Balcan. Data-Driven Algorithm Design. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021.
  5. 12 Algorithms with Predictions 1. L 凸関数最⼩化のウォームスタート学習 - S and

    Oki. Discrete-convex-analysis-based framework for warm-starting algorithms with predictions, NeurIPS, 2022. 2. 最適解の⾮⼀意性を考慮した L 凸関数最⼩化のウォームスタート学習 - S and Oki. Rethinking warm-starts with predictions: Learning predictions close to sets of optimal solutions for faster L-/L♮ -convex function minimization, ICML, 2023. 3. M 凸関数最⼩化のウォームスタート学習 - Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Data-Driven Algorithm Design 1. 貪欲・A* 探索におけるヒューリスティック関数の学習の汎化誤差解析 - S and Oki. Sample complexity of learning heuristic functions for greedy-best-first and A* search, NeurIPS, 2022. 2. 低ランク近似におけるスケッチング⾏列の学習の汎化誤差解析 - S and Oki. Improved generalization bound and learning of sparsity patterns for data-driven low-rank approximation, AISTATS, 2023. 3. 線形計画法における次元削減射影⾏列の学習の汎化誤差解析と学習⽅法 - S and Oki. Generalization Bound and Learning Methods for Data-Driven Projections in Linear Programming, arXiv:2309.00203, 2023. 本⽇の発表内容
  6. Part1 Part2 13 Algorithms with Predictions 1. L 凸関数最⼩化のウォームスタート学習 -

    S and Oki. Discrete-convex-analysis-based framework for warm-starting algorithms with predictions, NeurIPS, 2022. 2. 最適解の⾮⼀意性を考慮した L 凸関数最⼩化のウォームスタート学習 - S and Oki. Rethinking warm-starts with predictions: Learning predictions close to sets of optimal solutions for faster L-/L♮ -convex function minimization, ICML, 2023. 3. M 凸関数最⼩化のウォームスタート学習 - Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Data-Driven Algorithm Design 1. 貪欲・A* 探索におけるヒューリスティック関数の学習の汎化誤差解析 - S and Oki. Sample complexity of learning heuristic functions for greedy-best-first and A* search, NeurIPS, 2022. 2. 低ランク近似におけるスケッチング⾏列の学習の汎化誤差解析 - S and Oki. Improved generalization bound and learning of sparsity patterns for data-driven low-rank approximation, AISTATS, 2023. 3. 線形計画法における次元削減射影⾏列の学習の汎化誤差解析と学習⽅法 - S and Oki. Generalization Bound and Learning Methods for Data-Driven Projections in Linear Programming, arXiv:2309.00203, 2023. 本⽇の発表内容
  7. 14 ウォームスタートの学習による L 凸関数 最⼩化の⾼速化 1.概要 2.導⼊ – 予測によるハンガリー法の⾼速化(Dinitz et

    al. NeurIPS ’21) – 準備︓L 凸関数・L 凸集合・最急降下法 3.本研究について – 予測依存の計算量解析 – 予測の学習 – 実験 4.まとめ ⽬次 導⼊ Part 1 Part 2 まとめ
  8. 18 ⼊⼒︓⼆部グラフ + = - ∪ /, 0 ,重み 1

    ∈ ℤ$( - = / = 4/2,実⾏可能) 出⼒︓最⼤重み完全⼆部マッチング 7 ⊆ 0 ユーザー - アイテム / 1 2 3 4 5 6 7 8 4 2 3 3 2 2 1 1 1 1 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 主 LP(変数 G ∈ ℝ$ ) max ∑+∈$ 1+G+ s. t. ∑+∈,(.) G+ = 1 J ∈ - ∪ / , G ≥ 0 最⼤重み完全⼆部マッチング まとめ 本研究 導⼊ 概要
  9. 19 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 4 4 0 0 0 0 1 1 1 1 - / 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) まとめ 本研究 導⼊ 概要
  10. 20 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 4 4 0 0 0 0 1 1 1 1 - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  11. 21 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 4 4 0 0 0 0 & 1 1 1 1 (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) 4 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  12. 22 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 5 4 1 1 1 1 1 1 1 1 9 ← (: + PQ1, ; + PQ'∖3) - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  13. 23 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 5 4 1 1 1 1 1 1 1 1 - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要 上記を繰り返し |0∗| を増やす ⋮
  14. 24 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 5 5 2 1 2 2 & ( 1 1 1 1 - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) 上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  15. 25 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 5 5 2 1 2 2 1 1 1 1 - / If 0∗ に完全マッチングあり( M + N = 4/2) 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) 上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  16. 26 1 2 3 4 5 6 7 8 4

    2 3 3 2 2 4 4 5 5 2 1 2 2 1 1 1 1 - / 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) If 0∗ に完全マッチングあり( M + N = 4/2) 0∗の完全マッチングを⼀つ出⼒ 上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  17. 27 S(T 4) 時間 (Hopcroft−Karp の重み無しアルゴリズム) 総計算量(初期解 * は所与として) S(T

    4 × 反復回数) 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) If 0∗ に完全マッチングあり( M + N = 4/2) 0∗の完全マッチングを⼀つ出⼒ 上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける まとめ 本研究 導⼊ 概要
  18. 28 S(T 4) 時間 (Hopcroft−Karp の重み無しアルゴリズム) 総計算量(初期解 * は所与として) S(T

    4 × 反復回数) 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法(双対版) If 0∗ に完全マッチングあり( M + N = 4/2) 0∗の完全マッチングを⼀つ出⼒ 上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定 タイト部分グラフ (L, 0∗) を⾒つける 初期解 * を上⼿く選べば⾼速化可能︖ まとめ 本研究 導⼊ 概要
  19. 計算量上界 29 ハンガリー法(双対版)の計算量は S(T 4 × 9∗ − 9∘ #)

    (∵ 双対⽬的関数値 ∑!∈# -! − ∑$∈% /$ は毎反復 ≥ 1 改善) * ∗ = 双対最適解,* ∘ = 双対初期解 実⾏不可能な予測 ̂ 9 ∈ ℝ5 が与えられた場合の計算量は S(T 4 × 9∗ − ̂ 9 #) (∵ 任意の ̂ * から * ∗ − * ∘ ( ≤ 3 * ∗ − ̂ * ( を満たす * ∘ を 4(6) 時間の貪欲法で計算可) 予測誤差 9∗ − ̂ 9 # が⼩さい ̂ 9 を事前に学習できれば,最速で S(T 4) 時間 cf. • 通常のハンガリー法の最悪時計算量 S T4 (主問題の情報も必要) • Brand et al. ’23 のアルゴリズムは T#67(#) 時間(あまり実⽤的ではない) Brand et al. A deterministic almost-linear time algorithm for minimum-cost flow. FOCS, 2023 Dinitz et al. Faster matchings via learned duals. NeurIPS, 2021 ウォームスタートの学習による⾼速化 まとめ 本研究 導⼊ 概要 Dinitz et al. ’21
  20. 30 問題設定 • 頂点集合 L = - ∪ / 固定(

    - = / = 4/2) • 実⾏可能インスタンス W = - ∪ /, 0, 1 が分布 X から i.i.d. で発⽣ • ∃Z > 0, −Z, +Z 8 の中に双対最適解が存在( 8 ) ≤ 9/; なら成⽴) • タイブレイクルールを設定(各 < に対し最適解 * ∗ (<) ∈ −9, +9 * を⼀意に決める) Dinitz et al. Faster matchings via learned duals. NeurIPS, 2021 ) ⼗分⼤で学習した ̂ 9 を使うと,期待計算量 ≈ S(T 4 × ^上最良の ℓ9 予測誤差) 学習可能性 インスタンスが ) = ` Ω 4:Z;/b; 個与えられれば ⾼確率で以下を満たす ̂ 9 を poly(4, )) 時間で計算可能︓ @上最良の ℓ+ 予測誤差 g<∼> 9∗(W) − ̂ 9 # ≤ min ? @∗∈ "A,6A " g<∼> 9∗ W − ̂ 9∗ # + b ウォームスタートの学習による⾼速化 まとめ 本研究 導⼊ 概要 Dinitz et al. ’21
  21. 31 Dinitz et al. ’21 を L 凸関数最⼩化に拡張し改良 計算量上界 S(NCDCE

    + NFGH × 9∗ − ̂ 9 I) (,-,.︓予測 ̂ * から初期解を計算する時間 (/01︓⼀反復の計算時間(局所的に重み無し問題を解く時間) ⼆部マッチングの場合 (,-,. ≤ (/01 = 4(6 ;) 1.問題クラスの拡張 3.サンプル複雑度改善(; 2 9 3 /B 3 → ;9 3 /B 3) 4.* ∗ (<) は ̂ * の最近最適解(タイブレイク不要) 2.ℓ( から ℓ) に 学習可能性 インスタンスが D = E Ω ;9 3 /G 3 個与えられれば ⾼確率で以下を満たす ̂ * を poly(;, D) 時間で計算可能︓ 4つの貢献 g<∼> 9∗(W) − ̂ 9 I ≤ min ? @∗∈ "A,6A " g<∼> 9∗ W − ̂ 9∗ I + b L 凸関数最⼩化への拡張と改良 まとめ 本研究 導⼊ 概要
  22. J K J ∨ K J ∧ K 32 関数

    i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性.i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性.∃q ∈ ℝ,i 9 + Q = i 9 + q Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合 まとめ 本研究 導⼊ 概要
  23. J K J ∨ K J ∧ K 33 関数

    i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性.i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性.∃q ∈ ℝ,i 9 + Q = i 9 + q 集合 M ⊆ ℤ5 が L 凸 ⇔ 以下を満たす︓ 9, n ∈ M ⇒ 9 ∨ n, 9 ∧ n ∈ M and 9 ∈ M ⇒ 9 ± Q ∈ M Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合 まとめ 本研究 導⼊ 概要
  24. J K J ∨ K J ∧ K 34 関数

    i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性.i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性.∃q ∈ ℝ,i 9 + Q = i 9 + q 重要な性質 • L 凸 + L 凸 = L 凸 • L が L 凸関数 ⇒ dom L ≔ * ∈ ℤ 4 L * < +∞},及び argmin L は L 凸集合 • L 凸集合の不等式系表現︓& = * ∈ ℤ 4 | *$ − *! ≤ [!$ ∀], ^ ∈ _; ] ≠ ^ for some [!$ ∈ ℤ ∪ {+∞} • ℤ! を ℝ! に置き換えると P の凸包 集合 M ⊆ ℤ5 が L 凸 ⇔ 以下を満たす︓ 9, n ∈ M ⇒ 9 ∨ n, 9 ∧ n ∈ M and 9 ∈ M ⇒ 9 ± Q ∈ M Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合 まとめ 本研究 導⼊ 概要
  25. J K J ∨ K J ∧ K 35 重み付きマトロイド交叉,最⼩凸費⽤テンション問題なども扱える

    関数 i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性.i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性.∃q ∈ ℝ,i 9 + Q = i 9 + q i 9 = ∑(∈% :( − ∑*∈' ;* + ∑(*∈$ tQ#$ (:( − ;*) 線形, 並進不変 d5 e = 0 if e ≥ 8 and +∞ otherwise. ⼀般に,凸関数 f!$: ℝ → ℝ ∪ {+∞} に対し ∑!6$ f!$(*! − *$) は L 凸 Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. ⼆部マッチングの双対 LP min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Murota ’03 L 凸関数・L 凸集合 まとめ 本研究 導⼊ 概要
  26. 1: * ← * ∘ 2: while not converged 3:

    j ← argmin L * + j 7 j 7 ∈ 0, +1 4 ∪ 0, −1 4 4: if L * + j − L * = 0 5: return * 6: k ← 1 (or use the long-step rule) 7: * ← * + kj 36 argm in i 重み無し問題 定理 (Murota and Shioura ’14) 最急降下法は w(9∘) + 1 反復で停⽌し最適解を出⼒. w n ≔ min 9∗ − n I ± 9∗ ∈ argmin i (l ∈ ℤ 4 , e ) ± ≔ +e ∨ 0 ) + −e ∨ 0 ) ) Murota and Shioura. Exact bounds for steepest descent algorithms of L-convex function minimization. Oper. Res. Lett., 2014. J∘ ⼆部マッチングの場合はハンガリー法の双対版に対応 最急降下法 まとめ 本研究 導⼊ 概要
  27. 予測ありの計算量上界 37 計算量上界 任意の予測 ̂ 9 ∈ ℝ5 に対し ℓI

    ± -射影 y n を以下で定義︓ y n ∈ argmin n − ̂ 9 I ± n ∈ conv(dom i) w の連続版 ̅ w: ℝ5 → ℝ を定義︓ ℓI ± -射影の時間を NCDCE, 最急降下⽅向の計算時間 (Step 3) を NFGH とすると 総計算量 S(NCDCE + NFGH × ̅ w ̂ 9 ) (任意の * ∗ ∈ argmin L に対し ̅ o ̂ * ≤ o ̂ * ≤ * ∗ − ̂ * ) ± ≤ 2 * ∗ − ̂ * )) 1. 9∘ = y n ∈ dom i が成⽴(射影の四捨五⼊は実⾏可能解) 2. 9∘ を初期点とする最急降下法の反復回数は⾼々 2 ̅ w ̂ 9 + 2 ̅ w n ≔ min 9∗ − n I ± 9∗ ∈ conv(argmin i) (≤ w n ) まとめ 本研究 導⼊ 概要
  28. 38 n ∈ conv dom i ⇒ n ∈ dom

    i を⽰せば⼗分. L 凸集合の不等式表現︓ • dom i = 9 ∈ ℤ5 | 9* − 9( ≤ ~(* ∀D, E ∈ L; D ≠ E (~(* ∈ ℤ ∪ {+∞}) • conv(dom i) = 9 ∈ ℝ5 | 9* − 9( ≤ ~(* ∀D, E ∈ L; D ≠ E (~(* ∈ ℤ ∪ {+∞}) n ∈ conv dom i より n* − n( ≤ ~(* . ⌊n*⌉ − n( ≤ ⌈n*−n(⌉ ≤ ~(* より n ∈ dom i. さらに ~(* ∈ ℤ ∪ {+∞} より ⌈n*−n(⌉ ≤ ~(* . 1の証明 まとめ 本研究 導⼊ 概要
  29. 9∗ − 9∘ I ± ≤ 9∗ − y n

    I ± + 1 ≤ 9∗ − ̂ 9 I ± + ̂ 9 − y n I ± + 1 ≤ 2 ̅ w ̂ 9 + 1 39 (Murota and Shioura ’14) より反復回数は w 9∘ + 1. 整数点上では w = ̅ w だから w 9∘ = ̅ w 9∘ ≤ 9∗ − 9∘ I ± .右辺を上から抑える︓ w 9∘ ≤ 2 ̅ w ̂ 9 + 1 を⽰す(9∘ = y n , y n ∈ argmin n − ̂ 9 I ± n ∈ conv(dom i) ). 9∗ ∈ conv(argmin i) を ̅ w ̂ 9 = 9∗ − ̂ 9 I ± を達成するように定義. * ∗ − ̂ * ) ± = ̅ o ̂ * conv dom L ⊇ conv(argmin L) より ̂ * − s l ) ± ≤ ̂ * − * ∗ ) ± = ̅ o ̂ * * ∘ = s l 三⾓不等式 2の証明 まとめ 本研究 導⼊ 概要
  30. 40 以下全てのケースで NCDCE ≤ NFGH ,総計算量は S(NFGH × ̅ w

    ̂ 9 ) 重み付き⼆部マッチング Hopcroft−Karp の最⼤マッチング(最⼩被覆)アルゴリズムで (/01 = 4(6 ;) 重み付きマトロイド交叉 Cunningham の重み無しマトロイド交叉アルゴリズム で (/01 = 4(;t (.: ⋅ (,-;) Chakrabarty et al. ’19 のアルゴリズムで (/01 = 4(;t log t ⋅ (,-;) 最⼩凸費⽤テンション問題 Dinic の最⼤流(最⼩カット)アルゴリズムで (/01 = 4 6; 3 Brand et al. ’23 のアルゴリズムで (/01 = 6 (<=(() NFGH = 重み無しの問題を解く計算時間 様々な場合の計算量 まとめ 本研究 導⼊ 概要 Brand et al. A deterministic almost-linear time algorithm for minimum-cost flow. FOCS, 2023 Chakrabarty et al. Faster matroid intersection. FOCS, 2019.
  31. 41 ̅ w ̂ 9; i ≔ min 9∗ −

    ̂ 9 I ± 9∗ ∈ conv(argmin i) 学習可能性 L 上の L 凸関数(インスタンス)が分布 X から i.i.d. で⽣成される. インスタンスが ) = Ω Z/b ;(4 + log(1/t)) 個与えられれば,確率 1 − t で以下を満たす ̂ 9 を poly(4, )) 時間で計算可能︓ ) ⼗分⼤で学習した ̂ 9 を使うと,期待計算量 ≈ S(NFGH × ^上最良の ̅ w 予測誤差) @上最良の ̅ o 予測誤差(タイブレイク不要) gS∼> ̅ w ̂ 9; i ≤ min ? @∗∈ "A,6A " gS∼> ̅ w( ̂ 9∗; i) + b 予測の学習 まとめ 本研究 導⼊ 概要
  32. 42 敵対者︓凸関数 v@: ℝ * → ℝ (/ = 1,

    … , () を任意に決定 プレイヤー︓v(, … , v@ を観測し e@<( を右⼿順で計算 (x ⊆ ℝ * は ℓ3 -直径 z の凸集合) 1: Fix T# ∈ U 2: For V = 1, … , Z 3: Observe [$ 4: Compute \$ ∈ ][$ T$ 5: T$%# ← Proj&(T$ − d\$) Cutkosky. Anytime online-to-batch, optimism and acceleration. ICML, 2019 Cesa-Bianchi et al. On the generalization ability of on-line learning algorithms. IEEE Trans. Inf. Theory, 2004. Zinkevich ’03 Zinkevich. Online convex programming and generalized infinitesimal gradient ascent. ICML, 2003. リグレット上界 max e Öe ; ≤ - ならば,Ü = á/(- N) とすると ∑ef# 3 àe Ge ≤ min g∗∈h ∑ef# 3 àe G∗ + S(á- N) Online-to-Batch (Cesa-Bianchi et al. ’04, Cutkosky ’19) àe が i.i.d., max e Öe # ≤ -# , â の ℓI -直径が áI なら,確率 1 − t で g à # 3 ∑e Ge ≤ min g∗∈h g à(G∗) + S i% 86i%%& FGj(#/l) 3 オンライン劣勾配降下法(OSD) まとめ 本研究 導⼊ 概要
  33. 43 Projh で G∗ ∈ â に近づくから Ge6# − G∗

    ; = Projh(Ge − ÜÖe) − G∗ ; ≤ Ge − ÜÖe − G∗ ; = Ge − G∗ ; + Ü; Öe ; + 2Ü Öe, Ge − G∗ . 凸性と上式より àe Ge − àe G∗ ≤ − Öe, Ge − G∗ ≤ g'"g∗ ( " g')&"g∗ ( ;m + m ; Öe ;. ; について和を取り,− G36# − G∗ ;≤ 0 を無視して ∑e àe Ge − àe G∗ ≤ g&"g∗ ( ;m + m ; ∑e Öe ; ≤ i( ;m + m%( ; N = # ; á- N { = z/(| () OSD のリグレット上界の証明 まとめ 本研究 導⼊ 概要 1: Fix T# ∈ U 2: For V = 1, … , Z 3: Observe [$ 4: Compute \$ ∈ ][$ T$ 5: T$%# ← Proj&(T$ − d\$)
  34. 学習可能性 44 時刻 ; の損失関数を ̅ w ⋅; ie ≔

    min 9∗ −⋅ I ± 9∗ ∈ conv(argmin ie) とする • ̅ w ⋅; ie は ℝ5 上の凸関数 • 劣勾配 Öe ∈ ç ̅ w ⋅; ie s.t. Öe # = S(1) を多項式時間で計算可(後述) • 予測のドメイン â = −Z, +Z 8 の ℓ; -直径は 2Z 4,ℓI -直径は 2Z ̅ w ⋅; i# , … , ̅ w ⋅; i3 に対する OSD の出⼒を ̂ 9e , ̂ 9 = # 3 ∑e ̂ 9e とすると N = Ω Z/b ;(4 + log(1/t)) とすれば,誤差は⾼々 b. gS∼> ̅ w ̂ 9; i ≤ min ? @∗∈ "A,6A " gS∼> ̅ w ̂ 9∗; i + S A(86 FGj(#/l)) 3 . L@ ∼ ~ は L 凸関数 ̅ " についての理論保証 まとめ 本研究 導⼊ 概要
  35. 45 ̅ w ⋅; ie = min 9∗ −⋅ I

    ± 9∗ ∈ conv(argmin ie) の劣勾配を以下の⼿順で計算 Step 2: Step 1 の不等式系から,以下を満たすグラフ + = (L, 0, {è 1(* ̂ 9 }) を構成 ̅ w ̂ 9; ie = “+ の最短路⻑” Step 3: Danskin の定理 •  が ̂ * について凸 • max がコンパクト集合上 ならば適⽤可 Step 1: conv(argmin ie) の不等式系表現を構成 = − max n:pCqrF! rsEt {ê ̂ 9; ë ≔ − ∑(*∈n è 1(*( ̂ 9)} Step 1 Step 2 Step 3 çmax ê ̂ 9; ë ë: simple path = conv ∇ê ̂ 9; ë∗ ë∗: shortest path for ̂ 9 (_, Å, {Ç 8!$ ̂ * }) 上の最短路 É ∗ を⾒つけて ∇ ̂ *; É ∗ = ∑!$∈A∗ ∇Ç 8!$( ̂ *) を計算すれば OK 劣勾配の計算︓全体の流れ まとめ 本研究 導⼊ 概要
  36. 46 Murota. Combinatorial relaxation algorithm for the maximum degree of

    subdeterminants: Computing Smith-Mcmillan form at infinity and structural indices in Kronecker form. Appl. Algebra Eng. Commun. Comput., 1995. 最⼤重み完全⼆部マッチングの場合で説明 双対 LP(変数 9 = :, ; ∈ ℝ%∪' ) min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 主 LP(変数 G ∈ ℝ$ ) max ∑+∈$ 1+G+ s. t. ∑+∈,(.) G+ = 1 J ∈ - ∪ / , G ≥ 0 主双対実⾏可能解の組 (G, 9) が最適 ⟺ 以下の相補性条件を満たす︓ G+ :( − ;* − 1(* = 0 ó = D, E ∈ 0 任意の主最適解 G を⽤いて conv(argmin ie) を以下のように表現可︓ cf. Murota ’95 9 = :, ; ∈ ℝ%∪' :( − ;* ≥ 1(* for D, E ∈ 0 :( − ;* ≤ 1(* for D, E ∈ 0 s. t. G(* > 0 conv(argmin -! ) の不等式系表現の構成 まとめ 本研究 導⼊ 概要
  37. 47 ̅ w ̂ 9; ie = min 9∗ −

    ̂ 9 I ± 9∗ ∈ conv(argmin ie) = + 上の最短路⻑ ] ^ • L︓台集合 • 0︓全有向辺 D, E の集合 • è 1(*( ̂ 9)︓~(* − ̂ 9* + ̂ 9( 証明概略 左辺の LP 表現 = (_, Å, Ç 8!$( ̂ *)) 上の最短路問題の双対 LP で定義すると ⼀般に conv(argmin ie) は L 凸集合の凸包であり, ある ~(* ∈ ℤ ∪ {+∞} を⽤いて差分不等式系表現可能︓ 9 ∈ ℝ5 9* − 9( ≤ ~(* (D, E ∈ L, D ≠ E) グラフ + = (L, 0, {è 1(* ̂ 9 }) を グラフの構成 まとめ 本研究 導⼊ 概要
  38. 48 ë∗ の始点・終点以外の成分は打ち消し合い,結局劣勾配は Öe = 0, … , −1, 0,

    … , +1, 0, … ∈ ç ̅ w ̂ 9; ie (L, 0, è 1(*( ̂ 9)) 上の最短路 ë∗ を⾒つけて以下を計算︓ ∑(*∈n∗ ∇è 1(*( ̂ 9) = ∑(*∈n∗ ∇(~(* − ̂ 9* + ̂ 9() 幾何的解釈 −Öe ⽅向への移動は,conv(argmin ie) の不等式表現 9 ∈ ℝ5 9* − 9( ≤ ~(* (D, E ∈ L, D ≠ E) の中で違反度 ̂ 9* − ̂ 9( − ~(* > 0 が最も⼤きい DE を改善 Dth Eth conv(argmin |$) ̂ J J' − J( ≤ (' ] ^ 具体的な計算⽅法 まとめ 本研究 導⼊ 概要
  39. 49 10 頂点の⼆部マッチングのインスタンスをランダムに ; = 1,2, … , 1000 まで⽣成

    (Ö: 枝重みノイズ強度, Ü: OSD のステップ幅のスケール) / / 予測 ̂ 9 の計算⽅法 4 種を⽐較︓ • OSD + 損失関数 3 種︓ ̅ w( ̂ 9; ie) (提案法), ℓ# -誤差 (Dinitz et al. ’21), ℓI -誤差 • Cold-start 訓練データの増加に対するハンガリー法の反復回数の変化 実験 まとめ 本研究 導⼊ 概要
  40. 50 L 凸関数最⼩化に対する最急降下法の計算量は 予測 ̂ 9 から最適解集合への ℓI ± 距離

    ̅ w ̂ 9; i に⽐例 ̅ w ̂ 9; i は ̂ 9 ∈ ℝ5 について凸関数であり,オンライン凸最⼩化によって 観測された i#, i;, … の最適解集合に近くなるように学習可能 M 凸関数最⼩化についても類似の結果が得られる (Oki and S ’23) (だたしタイブレイクの扱いについては未解決) Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Part 1 まとめ まとめ 本研究 導⼊ 概要 今後の展開 • L 凸,M 凸以外の問題への適⽤(特に⼀般マッチング) • 平均計算時間以外の指標(CVaR, ⼀定時間内に解ける問題数, など) • 予測モデルの学習(新たなインスタンスに対し適切な予測を⽣成)
  41. 51 A* 探索におけるヒューリスティック関数の 学習の汎化誤差解析 1.導⼊ – 問題設定 – 学習理論的な準備 2.本研究について

    – A* 探索とヒューリスティック関数の学習 – 汎化誤差解析 3.まとめ ⽬次 導⼊ Part 1 Part 2 まとめ
  42. 52 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 合計の重さ 10 以下で合計価値を最⼤化したい ≤ 10 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  43. 53 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  44. 54 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  45. 55 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  46. 合計価値 4 56 アイテム 価値 * 重さ + a b

    c d 1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  47. 合計価値 4 57 アイテム 価値 * 重さ + a b

    c d 1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て,取れるなら取る 最適値は 5 最悪でも 1/2 近似(最後に価値最⼤要素と⽐較) 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  48. 58 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 ≤ 10 J/1#/; が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  49. 59 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 ≤ 10 J/1#/; が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  50. 60 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 合計価値 5 ≤ 10 J/1#/; が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  51. 61 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 合計価値 5 最適値は 5 ≤ 10 通常の貪欲法より良い解が出⼒される J/1#/; が⼤きい順に⾒て,取れるなら取る 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  52. 62 アイテム 価値 * 重さ + a b c d

    1 1 2 4 1 4 4 9 ≤ 10 */+â 1 1/4â 2/4â 4/9â ⼀般に J/1Ä についての貪欲法が考えられる 上と似た問題を何度も解くなら ò = 1/2 が良いかもしれない 例︓ナップサック問題に対する貪欲法 まとめ 本研究 導⼊
  53. 63 パラメータ調整によって経験的性能が向上するケースは多い n 勾配法 • ステップサイズを調整可能 • “1/平滑定数” は経験的に収束が遅い場合あり n

    整数計画ソルバー • 分枝カット法の切除平⾯の係数を調整可能 • 様々な平⾯の選択基準が存在 アルゴリズムのパラメータ調整 まとめ 本研究 導⼊
  54. 65 問題 分布 0 ∼ 問題 1 問題 1 ⋮

    クラス Π に属する問題が分布 X から⽣成される ⼿元には ) 個の問題のデータが存在 状況設定 まとめ 本研究 導⼊
  55. 66 問題 分布 0 ∼ 問題 1 問題 1 ⋮

    クラス Π に属する問題が分布 X から⽣成される ⼿元には ) 個の問題のデータが存在 状況設定 まとめ 本研究 導⼊ アルゴリズム öÄ のパラメータ ò を 問題 1, … , ) で経験的に⾼い性能を発揮するよう調整 3 â
  56. 67 問題 分布 0 ∼ 問題 1 問題 1 ⋮

    クラス Π に属する問題が分布 X から⽣成される ⼿元には ) 個の問題のデータが存在 状況設定 まとめ 本研究 導⼊ アルゴリズム öÄ のパラメータ ò を 問題 1, … , ) で経験的に⾼い性能を発揮するよう調整 3 â õÅ は新しい問題に対しても⾼い性能を発揮するか︖ ⼊⼒
  57. 68 問題 分布 0 ∼ 問題 1 問題 1 ⋮

    モデル ℎ ∈ ℋ を 問題 1, … , ) での経験損失最⼩化によって学習 ℎ û は新しい問題に対しても⼩さい損失を達成するか︖ あるクラスの問題(分類や回帰)が分布 X から⽣成される ⼿元には ) 個の問題のデータ(⼊⼒とラベル)が存在 ⼊⼒ 統計的学習理論との類似 まとめ 本研究 導⼊
  58. 69 問題 (G, ü) が分布 X から i.i.d. で )

    個得られる. クラス ℋ の 複雑度 が有界なら,確率 1 − t 以上で ∀ℎ ∈ ℋ に対し, ※ ⼀様性(∀ℎ ∈ ℋ)が過学習のリスクを排除 ℋ が “複雑” だと ) を⼤きくする必要がある. 1 ) † (f# , - ℎ G( , ü( − g(g,Ç)∼> - ℎ G , ü ≤ S 7 複雑度 + log 1/t ) . 回帰問題︓G ∈ °,ü ∈ ℝ モデルクラス︓ℋ ⊆ ℝÉ(各 ℎ ∈ ℋ は ℎ: ° → ℝ) 損失関数︓- y ü, ü ∈ [0, 7] ⼀様収束 まとめ 本研究 導⼊
  59. 70 ℋ ⊆ ℝÉ が G#, … G, ∈ °

    を粉砕 ⇔ ある値 ;#, … , ;, ∈ ℝ が存在して §(ℎ G# ≥ ;#), … , §(ℎ G, ≥ ;,) ℎ ∈ ℋ = 2, Pdim ℋ = max 1 ∃> á , … > å ∈ B, ℋ は > á , … , > å を粉砕可能 例︓Pdim ℎ: G ↦ 1ÑG + ¶ 1 ∈ ℝÖ, ¶ ∈ ℝ} = ß + 1 ;# ;; G# G; Pollard. Convergence of Stochastic Processes. Springer, 1984. Pollard ’84 擬似次元 (Pseudo-dimension) まとめ 本研究 導⼊ Pollard ’84
  60. 71 確率 1 − t 以上で ∀ℎ ∈ ℋ に対して

    1 ) † (f# , - ℎ G( , ü( − g(g,Ç)∼> - ℎ G , ü ≤ S 7 Pdim(ℋ) + log(1/t) ) 擬似次元 (pseudo-dimension) が ℋ の複雑度 回帰問題︓G ∈ °,ü ∈ ℝ モデルクラス︓ℋ ⊆ ℝÉ(各 ℎ ∈ ℋ は ℎ: ° → ℝ) 損失関数︓- y ü, ü ∈ [0, 7] Pollard ’84 回帰問題の⼀様収束(擬似次元有界の場合) まとめ 本研究 導⼊
  61. 72 問題︓W ∈ Π(分布 X に従う) アルゴリズムのクラス︓® = öÄ |

    ò ∈ © 効⽤関数︓™: ®×Π → [0, 7] 例︓ナップサック問題 アイテム 価値 * 重さ + a b c d ? ? ? ? ? ? ? ? ≤ ? Π = E = 3 â = */+â についての貪欲法 F ≥ 0 H = 合計価値(0 以上 I 以下と仮定) Pollard ’84 アルゴリズムの性能保証への適⽤ まとめ 本研究 導⼊
  62. 73 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W)

    ≤ S 7 Pdim ´ + log 1/t ) . J = H â : L ↦ H 3 â , L | F ∈ O ⊆ 0, I ç とすると同様の保証が成⽴︓ アルゴリズムが定める効⽤関数クラス J の Pdim(J) を抑えたい Gupta and Roughgarden. A PAC approach to application-specific algorithm selection. SIAM J. Comput., 2017. 経験的効⽤ 今後適⽤した時の期待効⽤ Gupta & Roughgarden ’17 アルゴリズムの性能保証への適⽤ まとめ 本研究 導⼊ 問題︓W ∈ Π(分布 X に従う) アルゴリズムのクラス︓® = öÄ | ò ∈ © 効⽤関数︓™: ®×Π → [0, 7]
  63. 74 アイテム数 4 の問題 W ∈ Π を⼀つ固定する ò ≥

    0 を動かしたとき,アイテム D, E 間のスコア の⼊れ替わりは⾼々 1 回 ò J(/1( Ä J*/1* Ä 4 アイテムのスコア J(/1( Ä の全順序が決まれば出⼒は⼀意 スコアの順序の変化は⾼々 8 ; 回 Ü(/á( ) > Ü'/á' ) Ü(/á( ) < Ü'/á' ) 例︓ナップサック問題に対する貪欲法の場合 まとめ 本研究 導⼊
  64. 75 アイテム数 4 の問題 ) 個(W#, … , W, )が与えられる

    問題 ¨ のアイテム D と問題 ≠ のアイテム E 間のスコア の⼊れ替わりは⾼々 1 回 ò Jä,(/1ä,( Ä Jã,*/1ã,* Ä (™Ä W# , … , ™Ä(W,)) は⾼々 ,8 ; 通り )4 個のスコアの全順序の変化は⾼々 ,8 ; 回 W#, … , W, を粉砕するには ,8 ; ≥ 2, が必要 ⇒ Pdim ´ = S(log 4) ※ 異なる問題間の順序変化は 上界導出の簡単のため考慮 ポイント︓出⼒パターン数が D について指数的でない 例︓ナップサック問題に対する貪欲法の場合 まとめ 本研究 導⼊
  65. 76 アイテム数 4 の問題 ) 個(W#, … , W, )が与えられたとき,

    確率 1 − t 以上で ∀t ≥ 0 に対して ) = Ω 7/Æ ;log(4/t) 個の問題から良い ò を⾒つければ, 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W) ≤ S log 4 + log 1/t ) . 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W) ≤ ϵ w.p. 1 − T ⼿元での平均効⽤ 今後の期待効⽤ 例︓ナップサック問題に対する貪欲法の場合 まとめ 本研究 導⼊
  66. 77 ⾮負重みつき有向グラフ + = (L, 0, 1+ +∈$),始点 :,終点 ;

    が与えられる (0, 1+ +∈$, :) はランダムに Π 上の分布 X から⽣成 問題 W ∈ Π が⽣成されるたびに 重みが⼩さい :-; パスを計算したい 全ての Π の問題は以下を満たす︓ 1.L と ; は固定(4 = |L| とする) 2.常に有向 :-; パスが存在(実⾏可能) 仮定 問題設定 まとめ 本研究 導⼊
  67. 78 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  68. 79 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  69. 80 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  70. 81 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  71. 82 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  72. 83 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  73. 84 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  74. 85 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  75. 86 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC (ℎ é′ = é′ から / への最短路⻑の推定値) A* 探索 まとめ 本研究 導⼊
  76. 87 ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒(admissible heuristic) • ℎ = 0

    ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが,適切な ℎ の⼈⼒設計はしばしば困難 ヒューリスティック関数の学習 まとめ 本研究 導⼊
  77. 88 機械学習による ℎ の設計の流⾏︓ • ロボット制御 (Bhardwaj et al. CoRL

    ’17) • 化学合成 (Chen et al. ICML ’20) • ⼈流予測 (Yonetani et al. ICML ’21) Bhardwaj, Choudhury, and Scherer. Learning heuristic search via imitation. CoRL, 2017. Chen, Li, Dai, and Song. Retro*: Learning retrosynthetic planning with neural guided A* search. ICML, 2020. Yonetani, Taniai, Barekatain, Nishimura, and Kanezaki. Path planning using neural A* search. ICML, 2021. ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒(admissible heuristic) • ℎ = 0 ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが,適切な ℎ の⼈⼒設計はしばしば困難 ヒューリスティック関数の学習 まとめ 本研究 導⼊
  78. 89 機械学習による ℎ の設計の流⾏︓ • ロボット制御 (Bhardwaj et al. CoRL

    ’17) • 化学合成 (Chen et al. ICML ’20) • ⼈流予測 (Yonetani et al. ICML ’21) Bhardwaj, Choudhury, and Scherer. Learning heuristic search via imitation. CoRL, 2017. Chen, Li, Dai, and Song. Retro*: Learning retrosynthetic planning with neural guided A* search. ICML, 2020. Yonetani, Taniai, Barekatain, Nishimura, and Kanezaki. Path planning using neural A* search. ICML, 2021. ℎ を学習すると最短路の保証無し (admissible とは限らない).解析も複雑 . 経験的性能から保証を得たい ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒(admissible heuristic) • ℎ = 0 ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが,適切な ℎ の⼈⼒設計はしばしば困難 ヒューリスティック関数の学習 まとめ 本研究 導⼊
  79. 90 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ = öÄ # , ∑(f# , ™Ä(W() − g<∼> ™Ä(W) ≤ S 7 çìCq(î)6FGj(#/l) , Pdim(´) は 4 = |L| についてどれほど⼤きくなり得るか︖ 各 ò. ∈ ℝïñ は J から ; への最短路⻑の推定値(ò ∈ ℝïñ 8 ,4 = |L|) ™Ä の⼊⼒は W ∈ Π ,出⼒は öÄ が出⼒した :-; パス⻑(≤ 7 と仮定) U V J i(J) ò. = ℎ(J) 類似次元の上界 まとめ 本研究 導⼊
  80. 91 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ 擬似次元上界 上記設定の ´ = ™Ä: Π → ℝïñ ò ∈ ℝïñ 8 } に対し Pdim ´ = S(4;log 4) が成⽴ 各 W ∈ Π の辺コストが整数 {0,1, … , æ} ならば Pdim ´ = S(4 log(4æ)) = öÄ 各 ò. ∈ ℝïñ は J から ; への最短路⻑の推定値(ò ∈ ℝïñ 8 ,4 = |L|) U V J i(J) ò. = ℎ(J) ™Ä の⼊⼒は W ∈ Π ,出⼒は öÄ が出⼒した :-; パス⻑(≤ 7 と仮定) 類似次元の上界 まとめ 本研究 導⼊
  81. 92 OPEN = {:}, CLOSED = {}, p : =

    None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ = öÄ 観察 問題 W ∈ Π に対する öÄ の挙動は i(J) + ò. の全順序を固定すれば⼀意 i(J) + ò. ≥ i(J′) + ò.* のような⼤⼩関係が全て決まれば ™Ä(W) は⼀意に決まる 各 i(J) (J ≠ :) は⾼々 (4 − 1)! 通りの値をとる(単純パスの数) 不等式の数は⾼々 8×(8"#)! ; 通り U V J i(J) ò. = ℎ(J) 証明概略︓A* 探索の挙動 まとめ 本研究 導⼊
  82. 93 観察より各 W ∈ Π に対して ™Ä の値の種類数 ≤ #cell

    ≤ e 8! ; 8 . W#, … W, ∈ Π が与えられたときの不等式は ) 8! ; 個. 粉砕するには以下の成⽴が必要︓ 2, ≤ § ™Ä W# ≥ ;# , … , § ™Ä W, ≥ ;, ™Ä ∈ ´ ≤ e) 8! ; 8 . 上式を達成し得る ) の上界を計算すると Pdim ´ = S(4; log 4). *! 3 hyperplanes L(é) + ÜE = L(é′) + ÜE" ™Ä value ℝ8 Cell cf. Balcan et al. ’21 Balcan, DeBlasio, Dick, Kingsford, Sandholm, and Vitercik. How much data is sufficient to learn high-performing algorithms? Generalization guarantees for data-driven algorithm design. STOC, 2021. Sauer の補題 ℝ8 内の T 枚の超平⾯による分割で作られる領域 (cell) の数は⾼々 eT 8 証明概略︓ Sauer の補題による上界 まとめ 本研究 導⼊
  83. 94 辺コストが整数 (1+ ∈ {0, 1, … æ}) なら,各 i(J)

    は⾼々 4æ 種((4 − 1)! ではなく) W#, … W, ∈ Π を粉砕するには以下の成⽴が必要︓ 2, ≤ § ™Ä W# ≥ ;# , … , § ™Ä W, ≥ ;, ™Ä ∈ ´ ≤ e) 4æ 2 8 . 上式を達成し得る ) の上界を計算すると Pdim ´ = S(4 log (4æ)). 全順序を定める超平⾯の数は⾼々 ) 8ô ; Sauer の補題を⽤いて同様に計算すると #cell ≤ e) 8ô ; 8 証明概略︓辺コストが整数の場合 まとめ 本研究 導⼊
  84. 95 ´ はある 4 − 4 個の重み無しグラフの⼊⼒ W#, … ,

    W8"ö を粉砕可能. すなわち Pdim ´ = Ω 4 . 整数重みの場合の上下界は対数を無視して漸近的にタイト. ⼀般の場合の ¬ S(4) のギャップについては未解決. 擬似次元の下界 下界を達成する問題の構成例 類似次元の下界 まとめ 本研究 導⼊
  85. 96 ⼿元のデータからアルゴリズムのパラメータ ò を学習して問題の傾向に適応 効⽤関数のクラス ´ = ™ öÄ,⋅ :

    Π → ℝ ò ∈ ℝ8} の擬似次元が Pdim(´), サンプルサイズが ) なら,汎化誤差 ≈ Pdim(´)/) 4 頂点グラフ上の A* 探索のヒューリスティック関数値が ò ∈ ℝ8 の場合︓ • 実数辺重み︓Pdim ´ = ¬ S(4;) • 整数辺重み︓Pdim ´ = ¬ S(4) • 下界︓Pdim ´ = Ω(4) ヒューリスティック関数 ℎ: Ü ↦ ù* のクラスが単純(e.g., 線形)な場合は,その複雑度に応じて より良い Pdim(î) の上界が得られる(発表では割愛) Part 2 まとめ まとめ 本研究 導⼊ 今後の展開 • 汎化誤差バウンド導出における beyond the worst-case • パラメータの学習⽅法の研究
  86. 99 “機械学習 × 最適化” のトレンド 最悪ケースに基づく最適化⼿法 J 理論保証を付けやすい J 動作を理解しやすい

    (信頼性が⾼い) L 理論の⽰唆は悲観的 L 問題の傾向を活⽤しにくい 機械学習による予測 J 経験的な成功例多数 J 問題の傾向を捉える柔軟性 L 理論保証が困難 L 動作の理解が困難 (失敗の原因を調べ難い)
  87. 100 “機械学習 × 最適化” のトレンド 最悪ケースに基づく最適化⼿法 機械学習による予測 × 機械学習 ×

    最適化 (良いとこ取り︖) Algorithms with predictions, Data-driven algorithm design は “機械学習 × 最適化” を理論側から理解する試みとも⾒れる 議論・共同研究しましょう︕ アルゴリズム研究者の視点が不可⽋ 分野としてはまだまだ未成熟 J 理論保証を付けやすい J 動作を理解しやすい (信頼性が⾼い) L 理論の⽰唆は悲観的 L 問題の傾向を活⽤しにくい J 経験的な成功例多数 J 問題の傾向を捉える柔軟性 L 理論保証が困難 L 動作の理解が困難 (失敗の原因を調べ難い)