学習理論に基づく離散最適化アルゴリズムの改良と解析

学習理論に基づく離散最適化アルゴリズムの改良と解析坂上晋作（東京⼤学）⼤城泰平⽒（東京⼤学）との共同研究 RAOTA 第 6
回研究会 @ NII

2 2014 年 4 ⽉ー 2016 年 3 ⽉
2016 年 4 ⽉ー現在 2018 年 10 ⽉ー 2020 年 3 ⽉ 2020 年 4 ⽉ー現在東京⼤学⼤学院情報理⼯学系研究科数理情報第 7 研究室（修⼠） NTT コミュニケーション科学基礎研究所京都⼤学⼤学院情報学系研究科通信情報システム専攻湊研究室（社会⼈博⼠）東京⼤学⼤学院情報理⼯学系研究科数理情報第 7 研究室特任助教（出向） n 名前坂上晋作（さかうえしんさく） n 経歴 n 研究の興味最適化（離散も連続も），データ構造（BDD, ZDD, etc.），オンライン学習，学習理論⾃⼰紹介

3 導⼊ A* 探索におけるヒューリスティック関数の学習の汎化誤差解析ウォームスタートの学習による L 凸関数最⼩化の⾼速化 Part 1 Part
2 まとめ⽬次

4 導⼊ A* 探索におけるヒューリスティック関数の学習の汎化誤差解析ウォームスタートの学習による L 凸関数最⼩化の⾼速化 Part 1 Part
2 まとめ⽬次

5 最悪ケース解析は理論的に強⼒だが，現実的な⽰唆に乏しい場合も多い（単体法の計算量解析，劣モジュラ関数最⼤化の近似⽐解析など）現実的なアルゴリズムの挙動に対して⽰唆的な理論解析の枠組を構築したい Roughgarden. Beyond worst-case analysis. Commun.
ACM, 2019. Roughgarden. Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021. Beyond the Worst-Case Analysis of Algorithms

上記以外︓Instance Optimality, Parameterized Algorithms, Semirandom Models, Smoothed Analysis, etc. 6
Mitzenmacher and Vassilvitskii. Algorithms with Predictions. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021. Balcan. Data-Driven Algorithm Design. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021. Beyond the Worst-Case Analysis of Algorithms さまざまな Beyond the Worst-Case の⽅針の中で機械学習・学習理論寄りの２つの⽅針について紹介

7 アルゴリズム問題例︓スキーレンタル問題期待競合⽐ ! !"# アルゴリズムが存在（最悪ケース解析ではタイト）⼊⼒
予測が使える場合のアルゴリズムの理論保証を解析 1. Algorithms with Predictions

8 アルゴリズム問題例︓スキーレンタル問題期待競合⽐ ! !"# アルゴリズムが存在（最悪ケース解析ではタイト）⼊⼒
予測値（スキーに⾏く回数）競合⽐ 1 + min{予測誤差, 最悪時定数} を達成可 • 予測が良ければ 1 に近づく • 最悪時でも定数競合⽐を達成 Predictor 予測はブラックボックス（アルゴリズムと切り分ける）予測が使える場合のアルゴリズムの理論保証を解析最悪時の性能を保ちつつ予測が良ければより良い保証が得られる 1. Algorithms with Predictions Mitzenmacher and Vassilvitskii. Algorithms with Predictions. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021.

9 関連⽂献リスト (by Lindermayr and Megow) https://algorithms-with-predictions.github.io/

10 過去の問題データからアルゴリズムのパタメータを学習アルゴリズム（調整可能なパラメータを持つ）問題⼊⼒ ∼ 未知の分布 2. Data-Driven
Algorithm Design

パラメータを学習サンプルサイズ ) ⼗分⼤のもとで⼿元データでの性能 ≈ 将来の期待性能を保証（汎化誤差バウンド） 11 過去の問題データからアルゴリズムのパタメータを学習
問題 1 問題 ) ⋮ アルゴリズム（調整可能なパラメータを持つ）問題⼊⼒ ∼ 過去のデータ ∼ 未知の分布 2. Data-Driven Algorithm Design Balcan. Data-Driven Algorithm Design. In Beyond the Worst-Case Analysis of Algorithms. Cambridge University Press, 2021.

12 Algorithms with Predictions 1. L 凸関数最⼩化のウォームスタート学習 - S and
Oki. Discrete-convex-analysis-based framework for warm-starting algorithms with predictions, NeurIPS, 2022. 2. 最適解の⾮⼀意性を考慮した L 凸関数最⼩化のウォームスタート学習 - S and Oki. Rethinking warm-starts with predictions: Learning predictions close to sets of optimal solutions for faster L-/L♮ -convex function minimization, ICML, 2023. 3. M 凸関数最⼩化のウォームスタート学習 - Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Data-Driven Algorithm Design 1. 貪欲・A* 探索におけるヒューリスティック関数の学習の汎化誤差解析 - S and Oki. Sample complexity of learning heuristic functions for greedy-best-first and A* search, NeurIPS, 2022. 2. 低ランク近似におけるスケッチング⾏列の学習の汎化誤差解析 - S and Oki. Improved generalization bound and learning of sparsity patterns for data-driven low-rank approximation, AISTATS, 2023. 3. 線形計画法における次元削減射影⾏列の学習の汎化誤差解析と学習⽅法 - S and Oki. Generalization Bound and Learning Methods for Data-Driven Projections in Linear Programming, arXiv:2309.00203, 2023. 本⽇の発表内容

Part1 Part2 13 Algorithms with Predictions 1. L 凸関数最⼩化のウォームスタート学習 -
S and Oki. Discrete-convex-analysis-based framework for warm-starting algorithms with predictions, NeurIPS, 2022. 2. 最適解の⾮⼀意性を考慮した L 凸関数最⼩化のウォームスタート学習 - S and Oki. Rethinking warm-starts with predictions: Learning predictions close to sets of optimal solutions for faster L-/L♮ -convex function minimization, ICML, 2023. 3. M 凸関数最⼩化のウォームスタート学習 - Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Data-Driven Algorithm Design 1. 貪欲・A* 探索におけるヒューリスティック関数の学習の汎化誤差解析 - S and Oki. Sample complexity of learning heuristic functions for greedy-best-first and A* search, NeurIPS, 2022. 2. 低ランク近似におけるスケッチング⾏列の学習の汎化誤差解析 - S and Oki. Improved generalization bound and learning of sparsity patterns for data-driven low-rank approximation, AISTATS, 2023. 3. 線形計画法における次元削減射影⾏列の学習の汎化誤差解析と学習⽅法 - S and Oki. Generalization Bound and Learning Methods for Data-Driven Projections in Linear Programming, arXiv:2309.00203, 2023. 本⽇の発表内容

14 ウォームスタートの学習による L 凸関数最⼩化の⾼速化１．概要２．導⼊ – 予測によるハンガリー法の⾼速化（Dinitz et
al. NeurIPS ’21） – 準備︓L 凸関数・L 凸集合・最急降下法３．本研究について – 予測依存の計算量解析 – 予測の学習 – 実験４．まとめ⽬次導⼊ Part 1 Part 2 まとめ

概要まとめ 15 離散凸関数最⼩化を最急降下法で解く計算量は初期解と最適解集合の距離に依存最適解集合初期解本研究導⼊概要

概要まとめ 16 離散凸関数最⼩化を最急降下法で解く計算量は初期解と最適解集合の距離に依存最適解集合初期解似た問題を繰り返し解くなら最適解集合に近い初期解を予測できると良さそう予測
本研究導⼊概要

概要まとめ 17 離散凸関数最⼩化を最急降下法で解く予測を使ってどれぐらい計算量を改善できるか︖ どのくらい問題サンプルがあれば良い予測を学習できるか︖ 計算量は初期解と最適解集合の距離に依存最適解集合初期解似た問題を繰り返し解くなら
最適解集合に近い初期解を予測できると良さそう予測本研究導⼊概要

18 ⼊⼒︓⼆部グラフ + = - ∪ /, 0 ，重み 1
∈ ℤ$（ - = / = 4/2，実⾏可能）出⼒︓最⼤重み完全⼆部マッチング 7 ⊆ 0 ユーザー - アイテム / 1 2 3 4 5 6 7 8 4 2 3 3 2 2 1 1 1 1 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 主 LP（変数 G ∈ ℝ$ ） max ∑+∈$ 1+G+ s. t. ∑+∈,(.) G+ = 1 J ∈ - ∪ / , G ≥ 0 最⼤重み完全⼆部マッチングまとめ本研究導⼊概要

19 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 4 4 0 0 0 0 1 1 1 1 - / 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版）まとめ本研究導⼊概要

20 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 4 4 0 0 0 0 1 1 1 1 - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版）初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

21 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 4 4 0 0 0 0 & 1 1 1 1 (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） 4 初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

22 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 5 4 1 1 1 1 1 1 1 1 9 ← (: + PQ1, ; + PQ'∖3) - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

23 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 5 4 1 1 1 1 1 1 1 1 - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要上記を繰り返し |0∗| を増やす ⋮

24 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 5 5 2 1 2 2 & ( 1 1 1 1 - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版）上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

25 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 5 5 2 1 2 2 1 1 1 1 - / If 0∗ に完全マッチングあり（ M + N = 4/2）双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版）上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

26 1 2 3 4 5 6 7 8 4
2 3 3 2 2 4 4 5 5 2 1 2 2 1 1 1 1 - / 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） If 0∗ に完全マッチングあり（ M + N = 4/2） 0∗の完全マッチングを⼀つ出⼒上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

27 S(T 4) 時間（Hopcroft−Karp の重み無しアルゴリズム）総計算量（初期解 * は所与として） S(T
4 × 反復回数) 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） If 0∗ に完全マッチングあり（ M + N = 4/2） 0∗の完全マッチングを⼀つ出⼒上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つけるまとめ本研究導⼊概要

28 S(T 4) 時間（Hopcroft−Karp の重み無しアルゴリズム）総計算量（初期解 * は所与として） S(T
4 × 反復回数) 双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Schrijver. Combinatorial Optimization: Polyhedra and Efficiency. Springer, 2003. cf. Schrijver ’03 (Section 18.5b) ハンガリー法（双対版） If 0∗ に完全マッチングあり（ M + N = 4/2） 0∗の完全マッチングを⼀つ出⼒上記を繰り返し |0∗| を増やす ⋮ 9 ← (: + PQ1, ; + PQ'∖3) (L, 0∗) の最⼩頂点被覆 (M, N) を⾒つける初期実⾏可能解 9 = :, ; ∈ ℤ%∪' を設定タイト部分グラフ (L, 0∗) を⾒つける初期解 * を上⼿く選べば⾼速化可能︖ まとめ本研究導⼊概要

計算量上界 29 ハンガリー法（双対版）の計算量は S(T 4 × 9∗ − 9∘ #)
（∵ 双対⽬的関数値 ∑!∈# -! − ∑$∈% /$ は毎反復 ≥ 1 改善） * ∗ = 双対最適解，* ∘ = 双対初期解実⾏不可能な予測 ̂ 9 ∈ ℝ5 が与えられた場合の計算量は S(T 4 × 9∗ − ̂ 9 #) （∵ 任意の ̂ * から * ∗ − * ∘ ( ≤ 3 * ∗ − ̂ * ( を満たす * ∘ を 4(6) 時間の貪欲法で計算可）予測誤差 9∗ − ̂ 9 # が⼩さい ̂ 9 を事前に学習できれば，最速で S(T 4) 時間 cf. • 通常のハンガリー法の最悪時計算量 S T4 （主問題の情報も必要） • Brand et al. ’23 のアルゴリズムは T#67(#) 時間（あまり実⽤的ではない） Brand et al. A deterministic almost-linear time algorithm for minimum-cost flow. FOCS, 2023 Dinitz et al. Faster matchings via learned duals. NeurIPS, 2021 ウォームスタートの学習による⾼速化まとめ本研究導⼊概要 Dinitz et al. ’21

30 問題設定 • 頂点集合 L = - ∪ / 固定（
- = / = 4/2） • 実⾏可能インスタンス W = - ∪ /, 0, 1 が分布 X から i.i.d. で発⽣ • ∃Z > 0， −Z, +Z 8 の中に双対最適解が存在（ 8 ) ≤ 9/; なら成⽴） • タイブレイクルールを設定（各 < に対し最適解 * ∗ (<) ∈ −9, +9 * を⼀意に決める） Dinitz et al. Faster matchings via learned duals. NeurIPS, 2021 ) ⼗分⼤で学習した ̂ 9 を使うと，期待計算量 ≈ S(T 4 × ^上最良の ℓ9 予測誤差) 学習可能性インスタンスが ) = ` Ω 4:Z;/b; 個与えられれば⾼確率で以下を満たす ̂ 9 を poly(4, )) 時間で計算可能︓ @上最良の ℓ+ 予測誤差 g<∼> 9∗(W) − ̂ 9 # ≤ min ? @∗∈ "A,6A " g<∼> 9∗ W − ̂ 9∗ # + b ウォームスタートの学習による⾼速化まとめ本研究導⼊概要 Dinitz et al. ’21

31 Dinitz et al. ’21 を L 凸関数最⼩化に拡張し改良計算量上界 S(NCDCE
+ NFGH × 9∗ − ̂ 9 I) (,-,.︓予測 ̂ * から初期解を計算する時間 (/01︓⼀反復の計算時間（局所的に重み無し問題を解く時間）⼆部マッチングの場合 (,-,. ≤ (/01 = 4(6 ;) １．問題クラスの拡張３．サンプル複雑度改善（; 2 9 3 /B 3 → ;9 3 /B 3）４．* ∗ (<) は ̂ * の最近最適解（タイブレイク不要）２．ℓ( から ℓ) に学習可能性インスタンスが D = E Ω ;9 3 /G 3 個与えられれば⾼確率で以下を満たす ̂ * を poly(;, D) 時間で計算可能︓ ４つの貢献 g<∼> 9∗(W) − ̂ 9 I ≤ min ? @∗∈ "A,6A " g<∼> 9∗ W − ̂ 9∗ I + b L 凸関数最⼩化への拡張と改良まとめ本研究導⼊概要

J K J ∨ K J ∧ K 32 関数
i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性．i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性．∃q ∈ ℝ，i 9 + Q = i 9 + q Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合まとめ本研究導⼊概要

J K J ∨ K J ∧ K 33 関数
i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性．i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性．∃q ∈ ℝ，i 9 + Q = i 9 + q 集合 M ⊆ ℤ5 が L 凸 ⇔ 以下を満たす︓ 9, n ∈ M ⇒ 9 ∨ n, 9 ∧ n ∈ M and 9 ∈ M ⇒ 9 ± Q ∈ M Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合まとめ本研究導⼊概要

J K J ∨ K J ∧ K 34 関数
i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性．i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性．∃q ∈ ℝ，i 9 + Q = i 9 + q 重要な性質 • L 凸 + L 凸 = L 凸 • L が L 凸関数 ⇒ dom L ≔ * ∈ ℤ 4 L * < +∞}，及び argmin L は L 凸集合 • L 凸集合の不等式系表現︓& = * ∈ ℤ 4 | *$ − *! ≤ [!$ ∀], ^ ∈ _; ] ≠ ^ for some [!$ ∈ ℤ ∪ {+∞} • ℤ! を ℝ! に置き換えると P の凸包集合 M ⊆ ℤ5 が L 凸 ⇔ 以下を満たす︓ 9, n ∈ M ⇒ 9 ∨ n, 9 ∧ n ∈ M and 9 ∈ M ⇒ 9 ± Q ∈ M Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. Murota ’03 L 凸関数・L 凸集合まとめ本研究導⼊概要

J K J ∨ K J ∧ K 35 重み付きマトロイド交叉，最⼩凸費⽤テンション問題なども扱える
関数 i: ℤ5 → ℝ ∪ {+∞} が L 凸 ⇔ 以下を満たす︓ 劣モジュラ性．i 9 + i n ≥ i 9 ∨ n + i(9 ∧ n) Q ⽅向線形性．∃q ∈ ℝ，i 9 + Q = i 9 + q i 9 = ∑(∈% :( − ∑*∈' ;* + ∑(*∈$ tQ#$ (:( − ;*) 線形, 並進不変 d5 e = 0 if e ≥ 8 and +∞ otherwise. ⼀般に，凸関数 f!$: ℝ → ℝ ∪ {+∞} に対し ∑!6$ f!$(*! − *$) は L 凸 Murota. Discrete Convex Analysis. Discrete Mathematics and Applications. SIAM, 2003. ⼆部マッチングの双対 LP min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 Murota ’03 L 凸関数・L 凸集合まとめ本研究導⼊概要

1: * ← * ∘ 2: while not converged 3:
j ← argmin L * + j 7 j 7 ∈ 0, +1 4 ∪ 0, −1 4 4: if L * + j − L * = 0 5: return * 6: k ← 1 (or use the long-step rule) 7: * ← * + kj 36 argm in i 重み無し問題定理 (Murota and Shioura ’14) 最急降下法は w(9∘) + 1 反復で停⽌し最適解を出⼒． w n ≔ min 9∗ − n I ± 9∗ ∈ argmin i (l ∈ ℤ 4 , e ) ± ≔ +e ∨ 0 ) + −e ∨ 0 ) ) Murota and Shioura. Exact bounds for steepest descent algorithms of L-convex function minimization. Oper. Res. Lett., 2014. J∘ ⼆部マッチングの場合はハンガリー法の双対版に対応最急降下法まとめ本研究導⼊概要

予測ありの計算量上界 37 計算量上界任意の予測 ̂ 9 ∈ ℝ5 に対し ℓI
± -射影 y n を以下で定義︓ y n ∈ argmin n − ̂ 9 I ± n ∈ conv(dom i) w の連続版 ̅ w: ℝ5 → ℝ を定義︓ ℓI ± -射影の時間を NCDCE, 最急降下⽅向の計算時間 (Step 3) を NFGH とすると総計算量 S(NCDCE + NFGH × ̅ w ̂ 9 ) （任意の * ∗ ∈ argmin L に対し ̅ o ̂ * ≤ o ̂ * ≤ * ∗ − ̂ * ) ± ≤ 2 * ∗ − ̂ * )）１. 9∘ = y n ∈ dom i が成⽴（射影の四捨五⼊は実⾏可能解）２. 9∘ を初期点とする最急降下法の反復回数は⾼々 2 ̅ w ̂ 9 + 2 ̅ w n ≔ min 9∗ − n I ± 9∗ ∈ conv(argmin i) (≤ w n ) まとめ本研究導⼊概要

38 n ∈ conv dom i ⇒ n ∈ dom
i を⽰せば⼗分． L 凸集合の不等式表現︓ • dom i = 9 ∈ ℤ5 | 9* − 9( ≤ ~(* ∀D, E ∈ L; D ≠ E （~(* ∈ ℤ ∪ {+∞}） • conv(dom i) = 9 ∈ ℝ5 | 9* − 9( ≤ ~(* ∀D, E ∈ L; D ≠ E （~(* ∈ ℤ ∪ {+∞}） n ∈ conv dom i より n* − n( ≤ ~(* ． ⌊n*⌉ − n( ≤ ⌈n*−n(⌉ ≤ ~(* より n ∈ dom i．さらに ~(* ∈ ℤ ∪ {+∞} より ⌈n*−n(⌉ ≤ ~(* ．１の証明まとめ本研究導⼊概要

9∗ − 9∘ I ± ≤ 9∗ − y n
I ± + 1 ≤ 9∗ − ̂ 9 I ± + ̂ 9 − y n I ± + 1 ≤ 2 ̅ w ̂ 9 + 1 39 (Murota and Shioura ’14) より反復回数は w 9∘ + 1．整数点上では w = ̅ w だから w 9∘ = ̅ w 9∘ ≤ 9∗ − 9∘ I ± ．右辺を上から抑える︓ w 9∘ ≤ 2 ̅ w ̂ 9 + 1 を⽰す（9∘ = y n , y n ∈ argmin n − ̂ 9 I ± n ∈ conv(dom i) ）． 9∗ ∈ conv(argmin i) を ̅ w ̂ 9 = 9∗ − ̂ 9 I ± を達成するように定義． * ∗ − ̂ * ) ± = ̅ o ̂ * conv dom L ⊇ conv(argmin L) より ̂ * − s l ) ± ≤ ̂ * − * ∗ ) ± = ̅ o ̂ * * ∘ = s l 三⾓不等式２の証明まとめ本研究導⼊概要

40 以下全てのケースで NCDCE ≤ NFGH ，総計算量は S(NFGH × ̅ w
̂ 9 ) 重み付き⼆部マッチング Hopcroft−Karp の最⼤マッチング（最⼩被覆）アルゴリズムで (/01 = 4(6 ;) 重み付きマトロイド交叉 Cunningham の重み無しマトロイド交叉アルゴリズムで (/01 = 4(;t (.: ⋅ (,-;) Chakrabarty et al. ’19 のアルゴリズムで (/01 = 4(;t log t ⋅ (,-;) 最⼩凸費⽤テンション問題 Dinic の最⼤流（最⼩カット）アルゴリズムで (/01 = 4 6; 3 Brand et al. ’23 のアルゴリズムで (/01 = 6 (<=(() NFGH = 重み無しの問題を解く計算時間様々な場合の計算量まとめ本研究導⼊概要 Brand et al. A deterministic almost-linear time algorithm for minimum-cost flow. FOCS, 2023 Chakrabarty et al. Faster matroid intersection. FOCS, 2019.

41 ̅ w ̂ 9; i ≔ min 9∗ −
̂ 9 I ± 9∗ ∈ conv(argmin i) 学習可能性 L 上の L 凸関数（インスタンス）が分布 X から i.i.d. で⽣成される．インスタンスが ) = Ω Z/b ;(4 + log(1/t)) 個与えられれば，確率 1 − t で以下を満たす ̂ 9 を poly(4, )) 時間で計算可能︓ ) ⼗分⼤で学習した ̂ 9 を使うと，期待計算量 ≈ S(NFGH × ^上最良の ̅ w 予測誤差) @上最良の ̅ o 予測誤差（タイブレイク不要） gS∼> ̅ w ̂ 9; i ≤ min ? @∗∈ "A,6A " gS∼> ̅ w( ̂ 9∗; i) + b 予測の学習まとめ本研究導⼊概要

42 敵対者︓凸関数 v@: ℝ * → ℝ (/ = 1,
… , () を任意に決定プレイヤー︓v(, … , v@ を観測し e@<( を右⼿順で計算（x ⊆ ℝ * は ℓ3 -直径 z の凸集合） 1: Fix T# ∈ U 2: For V = 1, … , Z 3: Observe [$ 4: Compute \$ ∈ ][$ T$ 5: T$%# ← Proj&(T$ − d\$) Cutkosky. Anytime online-to-batch, optimism and acceleration. ICML, 2019 Cesa-Bianchi et al. On the generalization ability of on-line learning algorithms. IEEE Trans. Inf. Theory, 2004. Zinkevich ’03 Zinkevich. Online convex programming and generalized infinitesimal gradient ascent. ICML, 2003. リグレット上界 max e Öe ; ≤ - ならば，Ü = á/(- N) とすると ∑ef# 3 àe Ge ≤ min g∗∈h ∑ef# 3 àe G∗ + S(á- N) Online-to-Batch (Cesa-Bianchi et al. ’04, Cutkosky ’19) àe が i.i.d., max e Öe # ≤ -# , â の ℓI -直径が áI なら，確率 1 − t で g à # 3 ∑e Ge ≤ min g∗∈h g à(G∗) + S i% 86i%%& FGj(#/l) 3 オンライン劣勾配降下法（OSD）まとめ本研究導⼊概要

43 Projh で G∗ ∈ â に近づくから Ge6# − G∗
; = Projh(Ge − ÜÖe) − G∗ ; ≤ Ge − ÜÖe − G∗ ; = Ge − G∗ ; + Ü; Öe ; + 2Ü Öe, Ge − G∗ . 凸性と上式より àe Ge − àe G∗ ≤ − Öe, Ge − G∗ ≤ g'"g∗ ( " g')&"g∗ ( ;m + m ; Öe ;. ; について和を取り，− G36# − G∗ ;≤ 0 を無視して ∑e àe Ge − àe G∗ ≤ g&"g∗ ( ;m + m ; ∑e Öe ; ≤ i( ;m + m%( ; N = # ; á- N { = z/(| () OSD のリグレット上界の証明まとめ本研究導⼊概要 1: Fix T# ∈ U 2: For V = 1, … , Z 3: Observe [$ 4: Compute \$ ∈ ][$ T$ 5: T$%# ← Proj&(T$ − d\$)

学習可能性 44 時刻 ; の損失関数を ̅ w ⋅; ie ≔
min 9∗ −⋅ I ± 9∗ ∈ conv(argmin ie) とする • ̅ w ⋅; ie は ℝ5 上の凸関数 • 劣勾配 Öe ∈ ç ̅ w ⋅; ie s.t. Öe # = S(1) を多項式時間で計算可（後述） • 予測のドメイン â = −Z, +Z 8 の ℓ; -直径は 2Z 4，ℓI -直径は 2Z ̅ w ⋅; i# , … , ̅ w ⋅; i3 に対する OSD の出⼒を ̂ 9e ， ̂ 9 = # 3 ∑e ̂ 9e とすると N = Ω Z/b ;(4 + log(1/t)) とすれば，誤差は⾼々 b． gS∼> ̅ w ̂ 9; i ≤ min ? @∗∈ "A,6A " gS∼> ̅ w ̂ 9∗; i + S A(86 FGj(#/l)) 3 . L@ ∼ ~ は L 凸関数 ̅ " についての理論保証まとめ本研究導⼊概要

45 ̅ w ⋅; ie = min 9∗ −⋅ I
± 9∗ ∈ conv(argmin ie) の劣勾配を以下の⼿順で計算 Step 2: Step 1 の不等式系から，以下を満たすグラフ + = (L, 0, {è 1(* ̂ 9 }) を構成 ̅ w ̂ 9; ie = “+ の最短路⻑” Step 3: Danskin の定理 • が ̂ * について凸 • max がコンパクト集合上ならば適⽤可 Step 1: conv(argmin ie) の不等式系表現を構成 = − max n:pCqrF! rsEt {ê ̂ 9; ë ≔ − ∑(*∈n è 1(*( ̂ 9)} Step 1 Step 2 Step 3 çmax ê ̂ 9; ë ë: simple path = conv ∇ê ̂ 9; ë∗ ë∗: shortest path for ̂ 9 (_, Å, {Ç 8!$ ̂ * }) 上の最短路 É ∗ を⾒つけて ∇ ̂ *; É ∗ = ∑!$∈A∗ ∇Ç 8!$( ̂ *) を計算すれば OK 劣勾配の計算︓全体の流れまとめ本研究導⼊概要

46 Murota. Combinatorial relaxation algorithm for the maximum degree of
subdeterminants: Computing Smith-Mcmillan form at infinity and structural indices in Kronecker form. Appl. Algebra Eng. Commun. Comput., 1995. 最⼤重み完全⼆部マッチングの場合で説明双対 LP（変数 9 = :, ; ∈ ℝ%∪' ） min ∑(∈% :( − ∑*∈' ;* s. t. :( − ;* ≥ 1(* (D, E) ∈ 0 主 LP（変数 G ∈ ℝ$ ） max ∑+∈$ 1+G+ s. t. ∑+∈,(.) G+ = 1 J ∈ - ∪ / , G ≥ 0 主双対実⾏可能解の組 (G, 9) が最適 ⟺ 以下の相補性条件を満たす︓ G+ :( − ;* − 1(* = 0 ó = D, E ∈ 0 任意の主最適解 G を⽤いて conv(argmin ie) を以下のように表現可︓ cf. Murota ’95 9 = :, ; ∈ ℝ%∪' :( − ;* ≥ 1(* for D, E ∈ 0 :( − ;* ≤ 1(* for D, E ∈ 0 s. t. G(* > 0 conv(argmin -! ) の不等式系表現の構成まとめ本研究導⼊概要

47 ̅ w ̂ 9; ie = min 9∗ −
̂ 9 I ± 9∗ ∈ conv(argmin ie) = + 上の最短路⻑ ] ^ • L︓台集合 • 0︓全有向辺 D, E の集合 • è 1(*( ̂ 9)︓~(* − ̂ 9* + ̂ 9( 証明概略左辺の LP 表現＝ (_, Å, Ç 8!$( ̂ *)) 上の最短路問題の双対 LP で定義すると⼀般に conv(argmin ie) は L 凸集合の凸包であり，ある ~(* ∈ ℤ ∪ {+∞} を⽤いて差分不等式系表現可能︓ 9 ∈ ℝ5 9* − 9( ≤ ~(* (D, E ∈ L, D ≠ E) グラフ + = (L, 0, {è 1(* ̂ 9 }) をグラフの構成まとめ本研究導⼊概要

48 ë∗ の始点・終点以外の成分は打ち消し合い，結局劣勾配は Öe = 0, … , −1, 0,
… , +1, 0, … ∈ ç ̅ w ̂ 9; ie (L, 0, è 1(*( ̂ 9)) 上の最短路 ë∗ を⾒つけて以下を計算︓ ∑(*∈n∗ ∇è 1(*( ̂ 9) = ∑(*∈n∗ ∇(~(* − ̂ 9* + ̂ 9() 幾何的解釈 −Öe ⽅向への移動は，conv(argmin ie) の不等式表現 9 ∈ ℝ5 9* − 9( ≤ ~(* (D, E ∈ L, D ≠ E) の中で違反度 ̂ 9* − ̂ 9( − ~(* > 0 が最も⼤きい DE を改善 Dth Eth conv(argmin |$) ̂ J J' − J( ≤ (' ] ^ 具体的な計算⽅法まとめ本研究導⼊概要

49 10 頂点の⼆部マッチングのインスタンスをランダムに ; = 1,2, … , 1000 まで⽣成
（Ö: 枝重みノイズ強度, Ü: OSD のステップ幅のスケール） / / 予測 ̂ 9 の計算⽅法 4 種を⽐較︓ • OSD + 損失関数 3 種︓ ̅ w( ̂ 9; ie) (提案法), ℓ# -誤差 (Dinitz et al. ’21), ℓI -誤差 • Cold-start 訓練データの増加に対するハンガリー法の反復回数の変化実験まとめ本研究導⼊概要

50 L 凸関数最⼩化に対する最急降下法の計算量は予測 ̂ 9 から最適解集合への ℓI ± 距離
̅ w ̂ 9; i に⽐例 ̅ w ̂ 9; i は ̂ 9 ∈ ℝ5 について凸関数であり，オンライン凸最⼩化によって観測された i#, i;, … の最適解集合に近くなるように学習可能 M 凸関数最⼩化についても類似の結果が得られる (Oki and S ’23) （だたしタイブレイクの扱いについては未解決） Oki and S. Faster discrete convex function minimization with predictions: The M-convex case, NeurIPS, 2023. Part 1 まとめまとめ本研究導⼊概要今後の展開 • L 凸，M 凸以外の問題への適⽤（特に⼀般マッチング） • 平均計算時間以外の指標（CVaR, ⼀定時間内に解ける問題数, など） • 予測モデルの学習（新たなインスタンスに対し適切な予測を⽣成）

51 A* 探索におけるヒューリスティック関数の学習の汎化誤差解析１．導⼊ – 問題設定 – 学習理論的な準備２．本研究について
– A* 探索とヒューリスティック関数の学習 – 汎化誤差解析３．まとめ⽬次導⼊ Part 1 Part 2 まとめ

52 アイテム価値 * 重さ + a b c d
1 1 2 4 1 4 4 9 合計の重さ 10 以下で合計価値を最⼤化したい ≤ 10 例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て，取れるなら取る例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

合計価値 4 56 アイテム価値 * 重さ + a b
c d 1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て，取れるなら取る例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

合計価値 4 57 アイテム価値 * 重さ + a b
c d 1 1 2 4 1 4 4 9 */+ 1 1/4 1/2 4/9 ≤ 10 J/1 が⼤きい順に⾒て，取れるなら取る最適値は 5 最悪でも 1/2 近似（最後に価値最⼤要素と⽐較）例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 ≤ 10 J/1#/; が⼤きい順に⾒て，取れるなら取る例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 合計価値 5 ≤ 10 J/1#/; が⼤きい順に⾒て，取れるなら取る例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

1 1 2 4 1 4 4 9 */+á/à 1 1/2 1 4/3 合計価値 5 最適値は 5 ≤ 10 通常の貪欲法より良い解が出⼒される J/1#/; が⼤きい順に⾒て，取れるなら取る例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

1 1 2 4 1 4 4 9 ≤ 10 */+â 1 1/4â 2/4â 4/9â ⼀般に J/1Ä についての貪欲法が考えられる上と似た問題を何度も解くなら ò = 1/2 が良いかもしれない例︓ナップサック問題に対する貪欲法まとめ本研究導⼊

63 パラメータ調整によって経験的性能が向上するケースは多い n 勾配法 • ステップサイズを調整可能 • “1/平滑定数” は経験的に収束が遅い場合あり n
整数計画ソルバー • 分枝カット法の切除平⾯の係数を調整可能 • 様々な平⾯の選択基準が存在アルゴリズムのパラメータ調整まとめ本研究導⼊

64 ⼀⽅，過去に解いた問題のデータは蓄積されるデータ上の経験的性能から何らかの理論保証を得たい • 最悪ケース解析の複雑化 • 経験的性能との乖離 • （パラメータ調整⾃体が難しい）経験的な性能の向上
Pros 理論保証が困難 Cons アルゴリズムのパラメータ調整まとめ本研究導⼊

65 問題分布 0 ∼ 問題 1 問題 1 ⋮
クラス Π に属する問題が分布 X から⽣成される⼿元には ) 個の問題のデータが存在状況設定まとめ本研究導⼊

66 問題分布 0 ∼ 問題 1 問題 1 ⋮
クラス Π に属する問題が分布 X から⽣成される⼿元には ) 個の問題のデータが存在状況設定まとめ本研究導⼊アルゴリズム öÄ のパラメータ ò を問題 1, … , ) で経験的に⾼い性能を発揮するよう調整 3 â

67 問題分布 0 ∼ 問題 1 問題 1 ⋮
クラス Π に属する問題が分布 X から⽣成される⼿元には ) 個の問題のデータが存在状況設定まとめ本研究導⼊アルゴリズム öÄ のパラメータ ò を問題 1, … , ) で経験的に⾼い性能を発揮するよう調整 3 â õÅ は新しい問題に対しても⾼い性能を発揮するか︖ ⼊⼒

68 問題分布 0 ∼ 問題 1 問題 1 ⋮
モデル ℎ ∈ ℋ を問題 1, … , ) での経験損失最⼩化によって学習 ℎ û は新しい問題に対しても⼩さい損失を達成するか︖ あるクラスの問題（分類や回帰）が分布 X から⽣成される⼿元には ) 個の問題のデータ（⼊⼒とラベル）が存在⼊⼒統計的学習理論との類似まとめ本研究導⼊

69 問題 (G, ü) が分布 X から i.i.d. で )
個得られる．クラス ℋ の複雑度が有界なら，確率 1 − t 以上で ∀ℎ ∈ ℋ に対し， ※ ⼀様性（∀ℎ ∈ ℋ）が過学習のリスクを排除 ℋ が “複雑” だと ) を⼤きくする必要がある． 1 ) † (f# , - ℎ G( , ü( − g(g,Ç)∼> - ℎ G , ü ≤ S 7 複雑度 + log 1/t ) . 回帰問題︓G ∈ °，ü ∈ ℝ モデルクラス︓ℋ ⊆ ℝÉ（各 ℎ ∈ ℋ は ℎ: ° → ℝ）損失関数︓- y ü, ü ∈ [0, 7] ⼀様収束まとめ本研究導⼊

70 ℋ ⊆ ℝÉ が G#, … G, ∈ °
を粉砕 ⇔ ある値 ;#, … , ;, ∈ ℝ が存在して §(ℎ G# ≥ ;#), … , §(ℎ G, ≥ ;,) ℎ ∈ ℋ = 2, Pdim ℋ = max 1 ∃> á , … > å ∈ B, ℋ は > á , … , > å を粉砕可能例︓Pdim ℎ: G ↦ 1ÑG + ¶ 1 ∈ ℝÖ, ¶ ∈ ℝ} = ß + 1 ;# ;; G# G; Pollard. Convergence of Stochastic Processes. Springer, 1984. Pollard ’84 擬似次元 (Pseudo-dimension) まとめ本研究導⼊ Pollard ’84

71 確率 1 − t 以上で ∀ℎ ∈ ℋ に対して
1 ) † (f# , - ℎ G( , ü( − g(g,Ç)∼> - ℎ G , ü ≤ S 7 Pdim(ℋ) + log(1/t) ) 擬似次元 (pseudo-dimension) が ℋ の複雑度回帰問題︓G ∈ °，ü ∈ ℝ モデルクラス︓ℋ ⊆ ℝÉ（各 ℎ ∈ ℋ は ℎ: ° → ℝ）損失関数︓- y ü, ü ∈ [0, 7] Pollard ’84 回帰問題の⼀様収束（擬似次元有界の場合）まとめ本研究導⼊

72 問題︓W ∈ Π（分布 X に従う）アルゴリズムのクラス︓® = öÄ |
ò ∈ © 効⽤関数︓™: ®×Π → [0, 7] 例︓ナップサック問題アイテム価値 * 重さ + a b c d ? ? ? ? ? ? ? ? ≤ ? Π = E = 3 â = */+â についての貪欲法 F ≥ 0 H = 合計価値（0 以上 I 以下と仮定） Pollard ’84 アルゴリズムの性能保証への適⽤まとめ本研究導⼊

73 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W)
≤ S 7 Pdim ´ + log 1/t ) . J = H â : L ↦ H 3 â , L | F ∈ O ⊆ 0, I ç とすると同様の保証が成⽴︓ アルゴリズムが定める効⽤関数クラス J の Pdim(J) を抑えたい Gupta and Roughgarden. A PAC approach to application-specific algorithm selection. SIAM J. Comput., 2017. 経験的効⽤今後適⽤した時の期待効⽤ Gupta & Roughgarden ’17 アルゴリズムの性能保証への適⽤まとめ本研究導⼊問題︓W ∈ Π（分布 X に従う）アルゴリズムのクラス︓® = öÄ | ò ∈ © 効⽤関数︓™: ®×Π → [0, 7]

74 アイテム数 4 の問題 W ∈ Π を⼀つ固定する ò ≥
0 を動かしたとき，アイテム D, E 間のスコアの⼊れ替わりは⾼々 1 回 ò J(/1( Ä J*/1* Ä 4 アイテムのスコア J(/1( Ä の全順序が決まれば出⼒は⼀意スコアの順序の変化は⾼々 8 ; 回 Ü(/á( ) > Ü'/á' ) Ü(/á( ) < Ü'/á' ) 例︓ナップサック問題に対する貪欲法の場合まとめ本研究導⼊

75 アイテム数 4 の問題 ) 個（W#, … , W, ）が与えられる
問題 ¨ のアイテム D と問題 ≠ のアイテム E 間のスコアの⼊れ替わりは⾼々 1 回 ò Jä,(/1ä,( Ä Jã,*/1ã,* Ä (™Ä W# , … , ™Ä(W,)) は⾼々 ,8 ; 通り )4 個のスコアの全順序の変化は⾼々 ,8 ; 回 W#, … , W, を粉砕するには ,8 ; ≥ 2, が必要 ⇒ Pdim ´ = S(log 4) ※ 異なる問題間の順序変化は上界導出の簡単のため考慮ポイント︓出⼒パターン数が D について指数的でない例︓ナップサック問題に対する貪欲法の場合まとめ本研究導⼊

76 アイテム数 4 の問題 ) 個（W#, … , W, ）が与えられたとき，
確率 1 − t 以上で ∀t ≥ 0 に対して ) = Ω 7/Æ ;log(4/t) 個の問題から良い ò を⾒つければ， 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W) ≤ S log 4 + log 1/t ) . 1 ) † (f# , ™Ä(W() − g<∼> ™Ä(W) ≤ ϵ w.p. 1 − T ⼿元での平均効⽤今後の期待効⽤例︓ナップサック問題に対する貪欲法の場合まとめ本研究導⼊

77 ⾮負重みつき有向グラフ + = (L, 0, 1+ +∈$)，始点 :，終点 ;
が与えられる (0, 1+ +∈$, :) はランダムに Π 上の分布 X から⽣成問題 W ∈ Π が⽣成されるたびに重みが⼩さい :-; パスを計算したい全ての Π の問題は以下を満たす︓ １．L と ; は固定（4 = |L| とする）２．常に有向 :-; パスが存在（実⾏可能）仮定問題設定まとめ本研究導⼊

78 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ヒューリスティック関数 ℎ: _ → ℝBC （ℎ é′ = é′ から / への最短路⻑の推定値） A* 探索まとめ本研究導⼊

79 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ヒューリスティック関数 ℎ: _ → ℝBC （ℎ é′ = é′ から / への最短路⻑の推定値） A* 探索まとめ本研究導⼊

80 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ヒューリスティック関数 ℎ: _ → ℝBC （ℎ é′ = é′ から / への最短路⻑の推定値） A* 探索まとめ本研究導⼊

81 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ℎ Jê } if J = ;: return :-; path tracing p ⋅ Move J from OPEN to CLOSED for each ∏ ∈ OutNeighrbors(J): iD!ë = i J + 1.,í if ∏ ∉ OPEN ∪ CLOSED: i ∏ ← iD!ë , p ∏ ← J, OPEN ← OPEN ∪ {∏} else if ∏ ∈ OPEN and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J else if ∏ ∈ CLOSED and iD!ë < i(∏) i ∏ ← iD!ë , p ∏ ← J Move ∏ from CLOSED to OPEN ︓OPEN ︓ℎ(J′) ︓CLOSED ヒューリスティック関数 ℎ: _ → ℝBC （ℎ é′ = é′ から / への最短路⻑の推定値） A* 探索まとめ本研究導⼊

82 OPEN = {:}, CLOSED = {}, p : =

83 OPEN = {:}, CLOSED = {}, p : =

84 OPEN = {:}, CLOSED = {}, p : =

85 OPEN = {:}, CLOSED = {}, p : =

86 OPEN = {:}, CLOSED = {}, p : =

87 ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒（admissible heuristic） • ℎ = 0
ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが，適切な ℎ の⼈⼒設計はしばしば困難ヒューリスティック関数の学習まとめ本研究導⼊

88 機械学習による ℎ の設計の流⾏︓ • ロボット制御 (Bhardwaj et al. CoRL
’17) • 化学合成 (Chen et al. ICML ’20) • ⼈流予測 (Yonetani et al. ICML ’21) Bhardwaj, Choudhury, and Scherer. Learning heuristic search via imitation. CoRL, 2017. Chen, Li, Dai, and Song. Retro*: Learning retrosynthetic planning with neural guided A* search. ICML, 2020. Yonetani, Taniai, Barekatain, Nishimura, and Kanezaki. Path planning using neural A* search. ICML, 2021. ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒（admissible heuristic） • ℎ = 0 ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが，適切な ℎ の⼈⼒設計はしばしば困難ヒューリスティック関数の学習まとめ本研究導⼊

89 機械学習による ℎ の設計の流⾏︓ • ロボット制御 (Bhardwaj et al. CoRL
’17) • 化学合成 (Chen et al. ICML ’20) • ⼈流予測 (Yonetani et al. ICML ’21) Bhardwaj, Choudhury, and Scherer. Learning heuristic search via imitation. CoRL, 2017. Chen, Li, Dai, and Song. Retro*: Learning retrosynthetic planning with neural guided A* search. ICML, 2020. Yonetani, Taniai, Barekatain, Nishimura, and Kanezaki. Path planning using neural A* search. ICML, 2021. ℎ を学習すると最短路の保証無し (admissible とは限らない)．解析も複雑．経験的性能から保証を得たい ℎ(J) が必ず J-; 最短路⻑を過⼩評価するなら最短路を出⼒（admissible heuristic） • ℎ = 0 ならダイクストラ法に⼀致 • ℎ が⼤きいほど経験的には速いが，適切な ℎ の⼈⼒設計はしばしば困難ヒューリスティック関数の学習まとめ本研究導⼊

90 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ = öÄ # , ∑(f# , ™Ä(W() − g<∼> ™Ä(W) ≤ S 7 çìCq(î)6FGj(#/l) , Pdim(´) は 4 = |L| についてどれほど⼤きくなり得るか︖ 各 ò. ∈ ℝïñ は J から ; への最短路⻑の推定値（ò ∈ ℝïñ 8 ，4 = |L|） ™Ä の⼊⼒は W ∈ Π ，出⼒は öÄ が出⼒した :-; パス⻑（≤ 7 と仮定） U V J i(J) ò. = ℎ(J) 類似次元の上界まとめ本研究導⼊

91 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ 擬似次元上界上記設定の ´ = ™Ä: Π → ℝïñ ò ∈ ℝïñ 8 } に対し Pdim ´ = S(4;log 4) が成⽴各 W ∈ Π の辺コストが整数 {0,1, … , æ} ならば Pdim ´ = S(4 log(4æ)) = öÄ 各 ò. ∈ ℝïñ は J から ; への最短路⻑の推定値（ò ∈ ℝïñ 8 ，4 = |L|） U V J i(J) ò. = ℎ(J) ™Ä の⼊⼒は W ∈ Π ，出⼒は öÄ が出⼒した :-; パス⻑（≤ 7 と仮定）類似次元の上界まとめ本研究導⼊

92 OPEN = {:}, CLOSED = {}, p : =
None, i : = 0 While OPEN ≠ ∅ J ← argmin.* ∈åçéè{i Jê + ò.ê} J の選択に応じた操作 ⋮ = öÄ 観察問題 W ∈ Π に対する öÄ の挙動は i(J) + ò. の全順序を固定すれば⼀意 i(J) + ò. ≥ i(J′) + ò.* のような⼤⼩関係が全て決まれば ™Ä(W) は⼀意に決まる各 i(J) (J ≠ :) は⾼々 (4 − 1)! 通りの値をとる（単純パスの数）不等式の数は⾼々 8×(8"#)! ; 通り U V J i(J) ò. = ℎ(J) 証明概略︓A* 探索の挙動まとめ本研究導⼊

93 観察より各 W ∈ Π に対して ™Ä の値の種類数 ≤ #cell
≤ e 8! ; 8 . W#, … W, ∈ Π が与えられたときの不等式は ) 8! ; 個．粉砕するには以下の成⽴が必要︓ 2, ≤ § ™Ä W# ≥ ;# , … , § ™Ä W, ≥ ;, ™Ä ∈ ´ ≤ e) 8! ; 8 . 上式を達成し得る ) の上界を計算すると Pdim ´ = S(4; log 4). *! 3 hyperplanes L(é) + ÜE = L(é′) + ÜE" ™Ä value ℝ8 Cell cf. Balcan et al. ’21 Balcan, DeBlasio, Dick, Kingsford, Sandholm, and Vitercik. How much data is sufficient to learn high-performing algorithms? Generalization guarantees for data-driven algorithm design. STOC, 2021. Sauer の補題 ℝ8 内の T 枚の超平⾯による分割で作られる領域 (cell) の数は⾼々 eT 8 証明概略︓ Sauer の補題による上界まとめ本研究導⼊

94 辺コストが整数 (1+ ∈ {0, 1, … æ}) なら，各 i(J)
は⾼々 4æ 種（(4 − 1)! ではなく） W#, … W, ∈ Π を粉砕するには以下の成⽴が必要︓ 2, ≤ § ™Ä W# ≥ ;# , … , § ™Ä W, ≥ ;, ™Ä ∈ ´ ≤ e) 4æ 2 8 . 上式を達成し得る ) の上界を計算すると Pdim ´ = S(4 log (4æ)). 全順序を定める超平⾯の数は⾼々 ) 8ô ; Sauer の補題を⽤いて同様に計算すると #cell ≤ e) 8ô ; 8 証明概略︓辺コストが整数の場合まとめ本研究導⼊

95 ´ はある 4 − 4 個の重み無しグラフの⼊⼒ W#, … ,
W8"ö を粉砕可能．すなわち Pdim ´ = Ω 4 . 整数重みの場合の上下界は対数を無視して漸近的にタイト．⼀般の場合の ¬ S(4) のギャップについては未解決．擬似次元の下界下界を達成する問題の構成例類似次元の下界まとめ本研究導⼊

96 ⼿元のデータからアルゴリズムのパラメータ ò を学習して問題の傾向に適応効⽤関数のクラス ´ = ™ öÄ,⋅ :
Π → ℝ ò ∈ ℝ8} の擬似次元が Pdim(´)，サンプルサイズが ) なら，汎化誤差 ≈ Pdim(´)/) 4 頂点グラフ上の A* 探索のヒューリスティック関数値が ò ∈ ℝ8 の場合︓ • 実数辺重み︓Pdim ´ = ¬ S(4;) • 整数辺重み︓Pdim ´ = ¬ S(4) • 下界︓Pdim ´ = Ω(4) ヒューリスティック関数 ℎ: Ü ↦ ù* のクラスが単純（e.g., 線形）な場合は，その複雑度に応じてより良い Pdim(î) の上界が得られる（発表では割愛） Part 2 まとめまとめ本研究導⼊今後の展開 • 汎化誤差バウンド導出における beyond the worst-case • パラメータの学習⽅法の研究

97 ⽬次導⼊ Part 1 Part 2 まとめ A* 探索におけるヒューリスティック関数の学習の汎化誤差解析
ウォームスタートの学習による L 凸関数最⼩化の⾼速化

98 より実⽤指向の⽅向性・プロジェクトも多数存在 “機械学習 × 最適化” のトレンド最適化タスク指向の損失関数の設計微分可能な最適化ソルバー “AI＋最適化” プロジェクト

99 “機械学習 × 最適化” のトレンド最悪ケースに基づく最適化⼿法 J 理論保証を付けやすい J 動作を理解しやすい
（信頼性が⾼い） L 理論の⽰唆は悲観的 L 問題の傾向を活⽤しにくい機械学習による予測 J 経験的な成功例多数 J 問題の傾向を捉える柔軟性 L 理論保証が困難 L 動作の理解が困難（失敗の原因を調べ難い）

100 “機械学習 × 最適化” のトレンド最悪ケースに基づく最適化⼿法機械学習による予測 × 機械学習 ×
最適化（良いとこ取り︖） Algorithms with predictions, Data-driven algorithm design は “機械学習 × 最適化” を理論側から理解する試みとも⾒れる議論・共同研究しましょう︕ アルゴリズム研究者の視点が不可⽋分野としてはまだまだ未成熟 J 理論保証を付けやすい J 動作を理解しやすい（信頼性が⾼い） L 理論の⽰唆は悲観的 L 問題の傾向を活⽤しにくい J 経験的な成功例多数 J 問題の傾向を捉える柔軟性 L 理論保証が困難 L 動作の理解が困難（失敗の原因を調べ難い）

学習理論に基づく離散最適化アルゴリズムの改良と解析

学習理論に基づく離散最適化アルゴリズムの改良と解析

More Decks by Shinsaku Sakaue

Featured

Transcript