Slide 1

Slide 1 text

機械学習による適応的実験計画 ベイズ最適化と能動的レベル集合推定の基礎と実践 松井 孝太 名古屋大学大学院医学系研究科 生物統計学分野 matsui.k@med.nagoya-u.ac.jp

Slide 2

Slide 2 text

Table of contents 1. はじめに: 適応的実験計画の基本概念 2. ベイズ線形回帰モデル 3. ガウス過程回帰モデル 4. ベイズ最適化 5. 獲得関数の設計 6. レベル集合推定のための能動学習 7. より複雑な問題に対するベイズ最適化 8. 事例紹介 松井 (名古屋大) 機械学習による適応的実験計画 1 / 151

Slide 3

Slide 3 text

本スライドの内容 ▶ 機械学習による適応的実験計画の基本的事項の理解を 目指す • 適応的実験計画 (または能動学習) 問題の説明 • 統計モデリングの方法 • ベイズ最適化 · 能動的レベル集合推定のアルゴリズム • 実例の紹介 ▶ 以下の文献を特に参考にしている • “Bayesian Optimization” [Garnett (2022)] (出版前の書籍) • “Taking the Human Out of the Loop: A Review of Bayesian Optimization” [Shahriari+ (2015)] • “Gaussian Processes for Machine Learning” [Rasmussen & Williams (2006)] • “ガウス過程と機械学習” [持橋 & 大羽 (2019)] • “ベイズ推論による機械学習” [須山 (2017)] 松井 (名古屋大) 機械学習による適応的実験計画 2 / 151

Slide 4

Slide 4 text

はじめに: 適応的実験計画の基本概念

Slide 5

Slide 5 text

統計的実験計画で扱う「実験」とは ある条件 x を入力し, その条件の下での実験結果 y を観測する システム ! "% ($ ')& ($ # 松井 (名古屋大) 機械学習による適応的実験計画 3 / 151

Slide 6

Slide 6 text

統計的実験計画で扱う「実験」とは ある条件 x を入力し, その条件の下での実験結果 y を観測する システム % 47 2 $ 20 %& -3 8# "51,*)47 '+ " !# $!# ! 47 .(/6 松井 (名古屋大) 機械学習による適応的実験計画 4 / 151

Slide 7

Slide 7 text

「実験」の抽象化: ブラックボックス関数 入力条件 x と観測結果 y の間の関係を f と書くと, f は実験そ のもの (これをブラックボックス関数と呼ぶ) 1 ε x f(x) y = f(x) + ε 適応的実験計画 (or 能動学習) 逐次的に教師データを収集しながらブラックボックス関数 f に関する統計的推論を行うための方法論 1簡単のため観測誤差 ε は分散既知の正規分布 N(0, σ2) に従うと仮定する 松井 (名古屋大) 機械学習による適応的実験計画 5 / 151

Slide 8

Slide 8 text

適応的実験計画の問題設定 ▶ 入力の候補集合 X が与えられている • 有限集合 X = {x1 , ..., xn } の場合をプール型といい • 連続的な集合 (e.g. X = [0, 1]) の場合をクエリ型という ▶ f を評価して出力 y = f(x) を得るにはコストがかかる このとき, できるだけ少ないコストで £ 関数推定 (回帰) : f そのものを知りたい f∗ = arg min ˆ f∈F n i=1 (f(xi) − ˆ f(xi))2 £ 最適化 : f を最適化する入力パラメータが知りたい x∗ = arg max x∈X f(x) 松井 (名古屋大) 機械学習による適応的実験計画 6 / 151

Slide 9

Slide 9 text

従来の実験計画 1 2 3 4 5 6 7 8 9 10 11 12 13 14 63 62 61 15 19 28 37 46 55 16 17 18 ▶ 予め実験を行う候補を列挙しておき (実験計画法),挙げら れた候補条件に対しては網羅的に実験を行う ▶ 候補条件の列挙はデータとは独立して行われる 松井 (名古屋大) 機械学習による適応的実験計画 7 / 151

Slide 10

Slide 10 text

適応的実験計画のイメージ モデルの推定, 実験条件の指定, データの観測を繰り返す ブラックボックス関数の統計モデル D = 次の実験条件を指定 観測したをデータ集合に加える 統計モデルを更新 指定された条件 で実実験を実施 ブラックボックス関数値 を観測 初期観測データ 松井 (名古屋大) 機械学習による適応的実験計画 8 / 151

Slide 11

Slide 11 text

ブラックボックス関数の統計モデル モデルに要求される性質 ▶ 更新可能かつ評価可能 • モデルの計算は低コストかつデータ観測毎に更新したい ▶ f の推定の不確実性を定量的に評価可能 • f の推定に対する確信度を適応的実験計画に利用 £ ベイズ線形回帰モデル (第2章) ▶ 線形モデル ˆ f(x) = w⊤x で f を近似 ▶ w は正規分布に従うと仮定: w ∼ N(0, Σ) £ ガウス過程回帰モデル (第3章) ▶ ノンパラメトリックモデル ˆ f で f を近似 ▶ ˆ f はガウス過程に従うと仮定: ˆ f ∼ GP(µ(x), k(x, x′)) 松井 (名古屋大) 機械学習による適応的実験計画 9 / 151

Slide 12

Slide 12 text

モデルの不確実性 不確実性は適応的実験計画に有用な情報をもたらす ▶ 知識不足に起因する不確実性 : 主にデータ不足によるもの • 未学習状態 • モデルの表現能力が不適切 ▶ 偶然変動による不確実性 : 主にノイズによるもの 松井 (名古屋大) 機械学習による適応的実験計画 10 / 151

Slide 13

Slide 13 text

探索と活用のトレードオフ 探索 事前知識のないパラメータに対する実験を行う ▶ これまでよりも良くなるかもしれない未知のパラメータ を試す 活用 実験済みのパラメータ値に近いパラメータに対する実験 を行う ▶ これまでに良かったパラメータを活かす 探索と活用のトレードオフ 探索のみを行っていると過去の実験結果が活かせず, 活用ば かり行っているとまだ見ぬ良いパラメータを発見できない 適応的実験計画では, 両者のバランスを取りながら最適なパラ メータを探す 松井 (名古屋大) 機械学習による適応的実験計画 11 / 151

Slide 14

Slide 14 text

関数推定のための能動学習の例 Input Output Step 0 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 15

Slide 15 text

関数推定のための能動学習の例 Input Output Step 1 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 16

Slide 16 text

関数推定のための能動学習の例 Input Output Step 2 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 17

Slide 17 text

関数推定のための能動学習の例 Input Output Step 3 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 18

Slide 18 text

関数推定のための能動学習の例 Input Output Step 4 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 19

Slide 19 text

関数推定のための能動学習の例 Input Output Step 5 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 20

Slide 20 text

関数推定のための能動学習の例 Input Output Step 6 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 21

Slide 21 text

関数推定のための能動学習の例 Input Output Step 7 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 22

Slide 22 text

関数推定のための能動学習の例 Input Output Step 8 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 23

Slide 23 text

関数推定のための能動学習の例 Input Output Step 9 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 12 / 151

Slide 24

Slide 24 text

最適化のための能動学習の例 Input Output Step 0 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 25

Slide 25 text

最適化のための能動学習の例 Input Output Step 1 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 26

Slide 26 text

最適化のための能動学習の例 Input Output Step 2 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 27

Slide 27 text

最適化のための能動学習の例 Input Output Step 3 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 28

Slide 28 text

最適化のための能動学習の例 Input Output Step 4 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 29

Slide 29 text

最適化のための能動学習の例 Input Output Step 5 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 30

Slide 30 text

最適化のための能動学習の例 Input Output Step 6 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 31

Slide 31 text

最適化のための能動学習の例 Input Output Step 7 Objective Prediction Observations Next Sample Uncertainty 松井 (名古屋大) 機械学習による適応的実験計画 13 / 151

Slide 32

Slide 32 text

ベイズ線形回帰モデル

Slide 33

Slide 33 text

線形回帰モデル ブラックボックス関数 f をパラメータ w = (w1, ..., wd) を用い た線形モデル ˜ f(x) = w⊤x = d j=1 wjxj で近似することを考える. このとき, 観測系は y = w⊤x + ε, ε ∼ N(0, σ2) とモデル化できる. これは観測 y に対して正規モデル p(y | w, x) = N(w⊤x, σ2) を仮定することに対応 松井 (名古屋大) 機械学習による適応的実験計画 14 / 151

Slide 34

Slide 34 text

線形回帰モデルの当てはめ 松井 (名古屋大) 機械学習による適応的実験計画 15 / 151

Slide 35

Slide 35 text

線形回帰モデルのパラメータ最適化 i 方程式 ∂ ∂w n i=1 (yi − ˆ yi)2 = 0 を w に関して解く 単回帰の場合 ∂ ∂w0 n i=1 (yi − ˆ yi)2 = 0, ∂ ∂w1 n i=1 (yi − ˆ yi)2 = 0 ⇔ w0 = ( n i=1 x2 i )( n i=1 yi) − n i=1 xi n i=1 xiyi n n i=1 x2 i − ( n i=1 xi)2 , w1 = n n i=1 xiyi − n i=1 xi n i=1 yi n n i=1 x2 i − ( n i=1 xi)2 松井 (名古屋大) 機械学習による適応的実験計画 16 / 151

Slide 36

Slide 36 text

線形回帰モデルのパラメータ最適化 ii 方程式 ∂ ∂w n i=1 (yi − ˆ yi)2 = 0 を w に関して解く 重回帰の場合 (行列 · ベクトル表記) 2       ˆ y1 y2 . . . yn       y =       1 x11 x12 · · · x1d 1 x21 x22 · · · x2d . . . . . . 1 xn1 xn2 · · · xnd       X         w0 w1 w2 . . . wd         w ∂ ∂w n i=1 (yi − ˆ yi)2 = ∂ ∂w y⊤y − 2w⊤(X⊤y) + w⊤X⊤Xw = 0 ⇔ X⊤Xw = X⊤y (正規方程式) w = (X⊤X)−1X⊤y 2 X を計画行列とよぶ 松井 (名古屋大) 機械学習による適応的実験計画 17 / 151

Slide 37

Slide 37 text

線形モデルによる非線形関数のモデル化 入力 x を特徴写像 ϕ で非線形変換する:ϕ = ϕ(x) 例: x = (1, x1, x2) として, ▶ ϕ(x) = (1, x1, x2, x2 1 , x2 2 ) ▶ ϕ(x) = (1, x1, x2, sin(x1), sin(x2)) Φ = (ϕ1, ..., ϕn) とおくと線形モデルは一般に以下で書ける       y1 y2 . . . yn       y =       1 ϕ1 (x1) · · · ϕD (x1) 1 ϕ1 (x2) · · · ϕD (x2) . . . . . . 1 ϕ1 (xn) · · · ϕD (xn)       Φ          w0 w1 . . . . . . wD          w このとき, パラメータ w は w = (Φ⊤Φ)−1Φ⊤y で推定できる 松井 (名古屋大) 機械学習による適応的実験計画 18 / 151

Slide 38

Slide 38 text

ベイズ線形モデルによるブラックボックス関数の近似 ▶ ここまでのモデルでは線形モデルのパラメータ w は決定 論的に扱っている ▶ ベイズ線形回帰モデルでは, w に対して事前分布 p(w) を仮定 • w の取りうる値の範囲と実現可能性の度合いを表現 • 以下では平均 0, 分散共分散行列 Σ の正規分布を考える: w ∼ p(w) = N(0, Σ) 松井 (名古屋大) 機械学習による適応的実験計画 19 / 151

Slide 39

Slide 39 text

ベイズ線形回帰 i 事前分布と尤度関数 ▶ 事前分布 (平均 0 の d 変量正規分布) p(w) = N(0, Σ) = 1 √ 2π d |Σ| exp − 1 2 wT Σ−1w ▶ 観測 y = (y1, ..., yn) の分布 (尤度関数) p(y|X, w) = N(Xw, σ2In) = 1 √ 2πσ2 n exp − 1 2σ2 (y − Xw)T (y − Xw) 松井 (名古屋大) 機械学習による適応的実験計画 20 / 151

Slide 40

Slide 40 text

ベイズ線形回帰 ii ベイズの定理 観測データを使って事前分布を更新する ベイズの定理 事後分布 = 尤度関数 × 事前分布 周辺尤度 ▶ 事後分布 (データ X, y 観測後の w の条件付き分布) p(w | X, y) = p(y | X, w)p(w) p(y | X) = p(y | X, w)p(w) p(y | X, w)p(w)dw ∝ p(y | X, w)p(w) 松井 (名古屋大) 機械学習による適応的実験計画 21 / 151

Slide 41

Slide 41 text

ベイズ線形回帰 iii 事後分布の導出 右辺の計算 (細かい式変形は省略) p(y | X, w)p(w) ∝ exp − 1 2σ2 (y − Xw)T (y − Xw) exp − 1 2 wT Σ−1w ∝ exp − 1 2 (w − ¯ w)T A(w − ¯ w) ▶ ¯ w = 1 σ2 A−1Xy ▶ A = 1 σ2 XXT + Σ−1 以上より, 以上より, w の事後分布は再び正規分布になる3 p(w | X, y) = N( ¯ w, A−1) 3正規分布を事前分布としたとき, データ X, y を観測した下での w の事後 分布は再び正規分布となる (共役事前分布) 松井 (名古屋大) 機械学習による適応的実験計画 22 / 151

Slide 42

Slide 42 text

ベイズ線形回帰 iv : 事後分布を利用した予測 ▶ 新たな点 xnew における関数値 f(xnew) の予測分布の計算: f(xnew) | X, y ∼ N(x⊤ new ¯ w, x⊤ new A−1xnew) ▶ 予測分布による学習 f(x) = (1, x)⊤w f(x) = (1, x, x2)⊤w f(x) = (1, x, x2, x3)⊤w • モデルのとり方で表現力が変わる → モデル選択 松井 (名古屋大) 機械学習による適応的実験計画 23 / 151

Slide 43

Slide 43 text

ベイズ線形回帰 iV p(w) w p(w) f(x) = w x p(w | X, y) ↓ w p(w | X, y) w 松井 (名古屋大) 機械学習による適応的実験計画 24 / 151

Slide 44

Slide 44 text

事後分布に基づく w の点推定 事後分布を使って以下のような w の点推定も可能 最大事後確率推定 (Maximum a posteriori estimation, MAP 推 定) 1.「データ X, y を観測した」という条件の下での w の事後 分布 p(w | X, y) を導出 2. p(w | X, y) が最大となる点 (すなわち p(w | X, y) の最頻 値) を w の推定値 ˆ wMAP とする 事前分布が正規分布の場合 ▶ w の事後分布: w | X, y ∼ N( ¯ w, A−1) ▶ 正規分布では最頻値 = 平均 → ˆ wMAP = ¯ w ただし予測の不確実性を考慮できていない (分散項を無視して しまう) 松井 (名古屋大) 機械学習による適応的実験計画 25 / 151

Slide 45

Slide 45 text

ガウス過程回帰モデル

Slide 46

Slide 46 text

ノンパラメトリックモデル:より柔軟なモデリングへ ベイズ線形回帰モデルでは ▶ f に線形モデル ˆ f(x) = w⊤x を仮定 • モデル (基底関数) を上手く選べば複雑な非線形関数でもモ デル化できる ▶ しかし, 入力 x の次元に応じて推定しなければならないパ ラメータ w の次元が指数的に増加 (次元の呪い) → パラメータを積分消去しノンパラメトリックに扱うことで 次元の呪いを回避 ノンパラメトリックモデリング パラメータによる特定の関数形を指定せず, より柔軟なモデ リングを行なう 松井 (名古屋大) 機械学習による適応的実験計画 26 / 151

Slide 47

Slide 47 text

ベイズ線形回帰のノンパラ化 i ▶ 観測系の確率モデル (再掲) : y ∼ N(w⊤x, σ2) ▶ ベイズ線形回帰では, w に対して平均 0 の正規分布を事前 分布として仮定した: p(w) = N(0, Σ) ▶ このとき, 観測値 y の分布から w を積分消去できる: p(y | X, σ) = p(y | X, w, σ2)p(w)dw = N(Xw, σ2I)N(0, Σ)dw = N(0, XΣX⊤ + σ2I) 松井 (名古屋大) 機械学習による適応的実験計画 27 / 151

Slide 48

Slide 48 text

ベイズ線形回帰のノンパラ化 ii ▶ 入力 xi を特徴写像 ϕ で非線形変換する:ϕi = ϕ(xi) このときの計画行列を Φ = (ϕ1, ..., ϕn) とおく =⇒ 観測の分布は Φ を用いて以下のような表現になる p(y | Φ, σ) = N(0, ΦΣΦ⊤ + σ2I) (1) ▶ ΦΣΦ⊤ は半正定値対称行列であり, 非線形変換した特徴の Σ による内積を表す: ϕ⊤ i Σϕj = ⟨ϕi, ϕj⟩Σ, i, j = 1, ..., n ▶ 上式を見ると, 変換後の特徴 ϕi に関する内積さえ計算でき れば事後分布は計算可能であることに気づく. 松井 (名古屋大) 機械学習による適応的実験計画 28 / 151

Slide 49

Slide 49 text

ベイズ線形回帰のノンパラ化 iii ▶ そこで, k(xi, xj) = ⟨ϕi, ϕj⟩Σ となるようなカーネル関数 k(xi, xj) を取る • 左辺が計算できれば事後分布を求めるには十分で, 変換後 の特徴 ϕi を直接計算する必要はない (カーネルトリック): p(y | Φ, σ2) = N(0, K + σ2I), ここで, Ki,j = k(xi , xj ) (カーネル行列) ▶ カーネル関数は, 入力 xi, xj の間の類似度を測っている • “近い入力に対応する出力は似ている” という性質を表現 松井 (名古屋大) 機械学習による適応的実験計画 29 / 151

Slide 50

Slide 50 text

カーネル関数とカーネルトリック Example 1 (線形カーネル) 自然数 d に対して k を以下で定める: k(x, x′) = d i=0 xix′i ▶ 例えば d = 2 のとき k(x, x′) = 1 + xx′ + x2x′2 ▶ これは, x = (1, x)⊤, x′ = (1, x′)⊤ に対して ϕ(x) = (1, x, x2)⊤, ϕ(x′) = (1, x′, x′2)⊤ で非線形変換した 特徴量の間の通常の内積 ϕ(x)⊤ϕ(x′) を計算していること に相当 松井 (名古屋大) 機械学習による適応的実験計画 30 / 151

Slide 51

Slide 51 text

カーネル関数とカーネルトリック Example 2 (ガウスカーネル (二乗指数カーネル)) x ∈ R とし, θ > 0 に対して k を以下で定める: k(x, x′) = exp −θ|x − x′|2 k は以下のように書き換えられる: k(x, x′) = exp { −θ(x2 + x′2 ) } × ( 1 · 1 + √ 2θ 1! x · √ 2θ 1! x′ + √ (2θ)2 2! x2 · √ (2θ)2 2! x′2 + · · · ) これは特徴量 ϕ(x) を無限次元のベクトル ϕ(x) = exp{−θx2} ( 1, √ 2θ 1! x, √ (2θ)2 2! x2, ... ) ⊤ としたときの内積 ϕ(x)⊤ϕ(x′) を計算していることに相当 松井 (名古屋大) 機械学習による適応的実験計画 31 / 151

Slide 52

Slide 52 text

カーネル関数とカーネルトリック ▶ 無限次元ベクトル ϕ(x) = exp{−θx2} ( 1, √ 2θ 1! x, √ (2θ)2 2! x2, ... ) ⊤ に対して直接 ϕ(x)⊤ϕ(x′) を計算する?→ 厳しい ▶ しかしカーネル関数 k(x, x′) = exp −θ|x − x′|2 を使えば 右辺の計算は一瞬 ▶ しかもカーネル関数 k の中には特徴量 ϕ(x) が登場しない ので, ϕ(x) を具体的に考えなくて良い (カーネルトリック) どんなカーネル関数 k が上の性質を満たすのか? 命題 ([福水 2010] の命題 2.6 + 定理 2.11) 正定値カーネルk に対して k(x, x′) = ϕ(x)⊤ϕ(x′) を満たすよ うな特徴写像 ϕ が 1 対 1 に存在する 松井 (名古屋大) 機械学習による適応的実験計画 32 / 151

Slide 53

Slide 53 text

ガウス過程 ベイズ線形回帰のノンパラ化は, f のガウス過程によるモデリ ングに対応する Definition 1 (ガウス過程の数学的な定義) 確率過程 {Xt}t∈T がガウス過程であるとは, 任意の n ∈ N と 任意の t1, ..., tn ∈ T に対して (Xt1 , ..., Xtn ) が n 次元正規分布 に従うことと定義する. ▶ f(x) を x に関する確率変数の無限列と見なすことで確率 過程として取り扱う 松井 (名古屋大) 機械学習による適応的実験計画 33 / 151

Slide 54

Slide 54 text

ガウス過程の特徴づけ ▶ ガウス過程は, 平均関数とカーネル関数 µ(x) = E[f(x)] k(x, x′) = E[(f(x) − µ(x))(f(x′) − µ(x′)] によって特徴づけることができる (µ と k を決めるとガウ ス過程が決まる) • 平均関数とカーネル関数をどう設定すれば良いかは後述 ▶ 関数 f がガウス過程に従うことを以下で表す: f(x) ∼ GP(µ(x), k(x, x′)) 松井 (名古屋大) 機械学習による適応的実験計画 34 / 151

Slide 55

Slide 55 text

ガウス過程によるモデリング i 記号の用意 ▶ 入力点: x1, ..., xn ▶ 未知の関数値: fi = f(xi) ▶ 観測値: yi = fi + εi , εi ∼ N(0, σ2) このとき, f(x) ∼ GP(µ(x), k(x, x′)) ⇐⇒ f | X ∼ N(m, K), yi | fi, σ2 ∼ N(fi, σ2) ここで, mi = µ(xi), Ki,j = k(xi, xj). → 関数値 f = (f1, ..., fn) が n 変量正規分布であり, 観測値 yi は 平均 fi の正規分布となるモデル 松井 (名古屋大) 機械学習による適応的実験計画 35 / 151

Slide 56

Slide 56 text

ガウス過程によるモデリング ii " !" 松井 (名古屋大) 機械学習による適応的実験計画 36 / 151

Slide 57

Slide 57 text

ガウス過程によるモデリング iii 予測分布 Dn = {(xi, yi)}n i=1 を既観測点とし, x を任意のテスト点とする. このとき, 関数値 f(x) は Dn を観測したという条件の下で正規 分布に従う (予測分布): f(x) | Dn ∼ N(µn(x), σ2 n (x)) ここで, µn(x) 及び σ2 n (x) はそれぞれ予測平均と予測分散4 と呼 ばれ, µn(x) = µ(x) + k(x)⊤(K + σ2I)−1(y − m) σ2 n (x) = k(x, x) − k(x)⊤(K + σ2I)−1k(x) と書ける. ここで, k(x) = (k(x, x1), ..., k(x, xn)) 4 x における関数値 f(x) の予測値と予測の不確実性に対応 松井 (名古屋大) 機械学習による適応的実験計画 37 / 151

Slide 58

Slide 58 text

ガウス過程回帰の実行例 ▶ 黒破線: 真の関数 ▶ 青線: ガウス過程の平均関数 ▶ 青枠: 予測平均 ±1.96× √ 予測分散 (95% ベイズ信用区間) ▶ 赤点: 観測点 松井 (名古屋大) 機械学習による適応的実験計画 38 / 151

Slide 59

Slide 59 text

カーネル関数の選択 カーネル関数の役割 ▶ 目的関数に対する仮定を表現する ▶ データ点に対して “類似度” を定義する • 近い入力の出力はやはり近いという気分を表す • テストデータ点に近い学習データ点は, 前者の予測に対し て十分に informative であることが期待される. 様々なカーネル関数が提案されているが, ここでは 1. 二乗指数カーネル (ガウスカーネル) 2. Matérn カーネル の 2 種類を紹介する. 松井 (名古屋大) 機械学習による適応的実験計画 39 / 151

Slide 60

Slide 60 text

二乗指数カーネル kSE(x, x′) = λ exp − ∥x − x′∥2 2ℓ2 ▶ λ, ℓ は超パラメータ ▶ このカーネル関数で定義したガウス過程からのサンプルは 滑らかな関数となる 松井 (名古屋大) 機械学習による適応的実験計画 40 / 151

Slide 61

Slide 61 text

Matérn カーネル kMat´ ern(x, x′) = 21−ν Γ(ν) √ 2νr ℓ ν Kν √ 2νr ℓ ▶ r = (x − x′)⊤Λ(x − x′) ▶ ν, ℓ は超パラメータで, Kν は修正ベッセル関数 ▶ 特に ν = 3/2 及び ν = 5/2 の場合がよく用いられる • ν = 3/2 のとき k3/2 (r) = 1 + √ 3r ℓ exp − √ 3r ℓ • ν = 5/2 のとき k5/2 (r) = 1 + √ 5r ℓ + 5r2 3ℓ2 exp − √ 5r ℓ 松井 (名古屋大) 機械学習による適応的実験計画 41 / 151

Slide 62

Slide 62 text

カーネル関数の比較 ▶ 2 乗指数カーネルを用いたガウス過程からのサンプル関数 は滑らか ▶ Matérn カーネルを用いたガウス過程からのサンプル関数 は, カーネルパラメータによって滑らかさが変化 松井 (名古屋大) 機械学習による適応的実験計画 42 / 151

Slide 63

Slide 63 text

カーネル関数の超パラメータの影響 i カーネル関数の超パラメータを適切に調整する必要がある e.g. 二乗指数カーネル kSE(x, x′) = λ exp −∥x−x′∥2 2ℓ2 ▶ 左: 小さい値スケール (λ = 0.2) の場合のサンプルパス ▶ 右: 大きい値スケール (λ = 2.0) の場合のサンプルパス 松井 (名古屋大) 機械学習による適応的実験計画 43 / 151

Slide 64

Slide 64 text

カーネル関数の超パラメータの影響 ii カーネル関数の超パラメータを適切に調整する必要がある e.g. 二乗指数カーネル kSE(x, x′) = λ exp −∥x−x′∥2 2ℓ2 ▶ 左: 小さい長さスケール (ℓ = 0.2) の場合のサンプルパス ▶ 右: 大きい長さスケール (ℓ = 2.0) の場合のサンプルパス 松井 (名古屋大) 機械学習による適応的実験計画 44 / 151

Slide 65

Slide 65 text

カーネル関数の超パラメータの最適化 ▶ 値スケールや長さスケールを最適化したい ▶ 周辺尤度 (モデルエビデンス) 最大化基準がよく用いられ る 5: θ∗ = arg max θ p(y | X, θ) = arg max θ p(y, f | X, θ)p(f)df • θ はハイパーパラメータ, y = (y1 , ..., yn ), X = (x⊤ 1 , ..., x⊤ n ) は観測データを表す • 尤度をハイパーパラメータのみに依存する関数にしたもの • 直感的にはブラックボックス関数 f を確率モデルから積分 消去 (周辺化) したものと解釈する 5GPy や GPyTorch などのガウス過程用ライブラリでは周辺尤度の勾配法 (e.g. L-BFGS) での最適化をデフォルトで採用している 松井 (名古屋大) 機械学習による適応的実験計画 45 / 151

Slide 66

Slide 66 text

カーネル関数の超パラメータの最適化 実際の最適化は対数周辺尤度最大化で行われることが多い ガウス過程モデルにおける対数周辺尤度: log p(y | X, θ) = − 1 2 (y − mθ)⊤(Kθ + σ2I)−1(y − mθ) − 1 2 log |Kθ + σ2I| − n 2 log 2π ▶ mθ , Kθ はハイパーパラメータ θ の下での平均ベクトルと カーネル行列を表す ▶ |Kθ + σ2I|: Kθ + σ2I の行列式 ▶ log p(y | X, θ) を最大化して θ を決定する • ∂ ∂θ log p(y | X, θ) を計算して勾配法を使う (L-BFGS 法など) • MCMC 法 (局所解にはまりにくい) 松井 (名古屋大) 機械学習による適応的実験計画 46 / 151

Slide 67

Slide 67 text

事前分布の平均関数をどう取るか ▶ 平均関数は真の関数に対する事前知識を表現 ▶ 実応用の際には, 定数 µ(x) ≡ µ0 とすることが多い (特に µ0 = 0) • 観測データを変換して µ = 0 とみなせることが多い ▶ 専門家による事前知識などによって平均関数 µ が適切に設 計できる場合, それを用いた方が学習が効率化できる可能 性はある 松井 (名古屋大) 機械学習による適応的実験計画 47 / 151

Slide 68

Slide 68 text

ガウス過程回帰に基づく能動学習 (関数推定) (Recall) 関数推定問題 f∗ = arg min ˆ f∈F n i=1 (f(xi) − ˆ f(xi))2 ▶ 真の関数 f を全域で精度良く推定したい ▶ 自然な探索方針: 予測モデルの不確実性が大きい入力点を観測点に選ぶ → ガウス過程回帰モデルの予測分散が最大となる点で観 測を行う (不確実性サンプリング) : xnext = arg max x σ2 n (x) 松井 (名古屋大) 機械学習による適応的実験計画 48 / 151

Slide 69

Slide 69 text

ガウス過程回帰に基づく能動学習 (関数推定) の実行例 不確実性サンプリングによる能動学習 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 1 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 2 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 3 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 4 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 5 µ(x) f(x) µ(x) ± 1.96σ(x) next observed 0 1 2 3 4 5 x −2 0 2 4 6 8 10 12 f(x) iteration 6 µ(x) f(x) µ(x) ± 1.96σ(x) next observed ▶ ガウス過程回帰によって推定された関数の不確実性が最も 大きい点 (図の黄色の点) が常に選ばれるような探索方針 松井 (名古屋大) 機械学習による適応的実験計画 49 / 151

Slide 70

Slide 70 text

ガウス過程回帰モデルの評価: 予測誤差と不確実性 $" $!# $" $" $ $" $! 松井 (名古屋大) 機械学習による適応的実験計画 50 / 151

Slide 71

Slide 71 text

正規分布しない出力を持つ問題への拡張 i 観測 y が連続値でなくカテゴリ変数や順序変数の場合 (分類問 題など), その確率モデルとして正規分布を仮定するのは不適切 £ 一般化線形モデル リンク関数 (非線形変換) g : Rd → R を導入し, ブラックボック ス関数のモデルとして f(x) = g−1(w⊤x) を考える. 松井 (名古屋大) 機械学習による適応的実験計画 51 / 151

Slide 72

Slide 72 text

正規分布しない出力を持つ問題への拡張 ii Example 1 (ロジスティック回帰) 観測が 2 値 (y = 0 or 1) のとき, y = 1 となる確率 p = P(y = 1) をモデリングしたい. いま, 観測のオッズ p 1−p に 対して log p 1 − p = w⊤x なるモデルを考える (対数オッズに線形モデルを仮定). このとき, データ x を観測した下での y = 1 となる事後確率は p(y = 1 | x) = 1 1 + exp{−w⊤x} と書ける. 右辺はロジット変換 g−1 = 1/1 + e−z をリンク関数 として採用していることに相当する. 松井 (名古屋大) 機械学習による適応的実験計画 52 / 151

Slide 73

Slide 73 text

パラメトリックモデリング i 特に y ∈ {+1, −1} の場合 (2 値判別) を考える. ▶ リンク関数 g : R → (0, 1) によって P(y | x, w) = g(yw⊤x) と書けると仮定 (パラメータ w の一般化線形モデル).   ▶ g は単調増加かつ g(x) + g(−x) = 1 を満たす (e.g. シグモイド関数, 標準正規分布の累積分布関 数) ▶ このとき, y =    +1 w⊤x ≥ 0 ⇔ P(y | x, w) ≥ 1 2 −1 w⊤x < 0 ⇔ P(y | x, w) < 1 2 松井 (名古屋大) 機械学習による適応的実験計画 53 / 151

Slide 74

Slide 74 text

パラメトリックモデリング ii データ D = {(xi, yi)}n i=1 ⊂ Rd × {±1} を観測した下で, ▶ w の事後分布: p(w | D) ∝ p(w) n i=1 g(yiw⊤ i x) ▶ x におけるラベルの予測分布: P(y | x, D) = g(yw⊤x)p(w | D)dw 以降, f(x) に対してノンパラメトリックな事後分布の計算や予 測分布の計算を考える 松井 (名古屋大) 機械学習による適応的実験計画 54 / 151

Slide 75

Slide 75 text

事後分布の近似 i ▶ 事後分布が厳密に計算できた回帰の場合と異なり, 判別の 場合は何らかの近似によって事後分布を求める必要がある (共役事前分布を設定できないため) ▶ 以下ではラプラス近似による事後分布の近似方法を紹介 松井 (名古屋大) 機械学習による適応的実験計画 55 / 151

Slide 76

Slide 76 text

事後分布の近似 ii ▶ x におけるラベル y の事後確率: P(y | x, f) = g(yf(x)) ▶ 関数値 f = (f(x1), ..., f(xn))⊤ に対する事前分布: f ∼ Nn(0, K) ▶ ラベルの事後分布: p(y | f) = n i=1 g(yif(xi)) − − − − − − − − − − → Bayes’ theorem p(f | D) ∝ p(f)p(y | f) p(f | D) をラプラス近似を用いて正規分布で近似する 松井 (名古屋大) 機械学習による適応的実験計画 56 / 151

Slide 77

Slide 77 text

事後分布の近似 iii ラプラス近似 密度関数を極大にする点を中心とする正規分布で近似 log p(f | D) = log p(f) + log p(y | f) = − 1 2 f⊤K−1f + log p(y | f) + log 1 (2π)n |Σ| −∇2 log p(f | D) = K−1 − ∇2 log p(y | f) diagonal =: A より, Taylor 展開の 2 次の項に注目すると log p(f | D) ≈ log p(f0 | D) − 1 2 (f − f0)⊤A(f − f0), f0 = arg max f log p(f | D) 松井 (名古屋大) 機械学習による適応的実験計画 57 / 151

Slide 78

Slide 78 text

事後分布の近似 iv Taylor 展開による 2 次近似 log p(f | D) ≈ log p(f0 | D) − 1 2 (f − f0)⊤A(f − f0) 以上の下で, p(f | D) ≈ N(f0, A−1) と近似する (ラプラス近似). 松井 (名古屋大) 機械学習による適応的実験計画 58 / 151

Slide 79

Slide 79 text

予測分布の近似 i £ x における関数値 f(x) の予測分布を近似 ▶ (f(x), f(x1), ..., f(xn)) の事前分布を以下のように設定: N(0, ˜ K), ˜ K = k(x, x) k(x)⊤ k(x) ¯ K ここで ¯ K は既に観測した点 x1, ..., xn から定まるカーネル 行列. ▶ f(x) の予測分布は観測値 f = (f(x1), ..., f(xn)) の条件 の下で f(x) ∼ N(µx, σ2 x ), µx = k(x)⊤ ¯ K−1 ¯ f, σ2 x = k(x, x) − k(x)⊤ ¯ K−1k(x)⊤. 松井 (名古屋大) 機械学習による適応的実験計画 59 / 151

Slide 80

Slide 80 text

予測分布の近似 ii ▶ データ D = {(xi, yi)}n i=1 が与えられたときの f の (近似) 事後分布は N(f0, A−1). ここで, f0 = arg max f − 1 2 f⊤ ¯ K−1f + log p(y | f) ▶ 結局, f(x) の予測分布は µx と σ2 x において f に関する平 均を取ったもの: µf(x) = Ef [µx] = k(x)⊤ ¯ K−1f0 σ2 f(x) = Ef [σ2 x ] = k(x, x) − k(x)⊤A−1k(x) 松井 (名古屋大) 機械学習による適応的実験計画 60 / 151

Slide 81

Slide 81 text

予測分布の近似 iii £ 観測値 y の予測分布を近似 リンク関数 g として標準正規分布の分布関数をとる ▶ シグモイド関数を取った場合でも scaling によってほぼ同 様な結果が得られる このとき, y の予測分布は以下のように書ける: P(y | x, D) = Ef∼N(µf(x) ,σ2 f(x) ) [g(yf)] = g   yµf(x) 1 + σ2 f(x)   . 松井 (名古屋大) 機械学習による適応的実験計画 61 / 151

Slide 82

Slide 82 text

ガウス過程モデルで判別問題を解く? ガウス過程による判別は ▶ ラプラス近似などによる正規近似を入れなければならない (近似誤差が伴う) ▶ 正規近似を経由した事後分布の推定の計算が煩雑となる 以上の理由からガウス過程を純粋な判別の方法として用いるの は推奨されない 松井 (名古屋大) 機械学習による適応的実験計画 62 / 151

Slide 83

Slide 83 text

ベイズ最適化

Slide 84

Slide 84 text

ベイズ最適化 次のような最適化問題を考えたい f は未知で入出力のペア {(x, y = f(x) + ε)} のみが観測可能 のとき, f の最適解を求めよ → f に対して何らかの仮定 が必要 (凸性? 微分可能性?...) ベイズ最適化 f がある確率分布からのサンプルであると仮定し, ▶ f の推定 ▶ f の最適解の探索 を同時に実行する逐次最適化手法 松井 (名古屋大) 機械学習による適応的実験計画 63 / 151

Slide 85

Slide 85 text

ベイズ最適化アルゴリズムの基本形 Algorithm : ベイズ最適化 入力: 目的関数 f の事前分布P for t = 1, 2, ... do Step1: 次の評価点 xn+1 を獲得関数最大化を解いて決定: xn+1 = arg max x∈X α(x; Dn, P). Step2: xn+1 における関数値 yn+1 = f(xn+1) + ε を評価 Step3: Dn+1 = Dn ∪ {(xn+1, yn+1)} とし P を更新 end for 出力 f の最適解 ˆ x. ▶ 未知関数 f の事前分布 P の設定と更新をどうするか? ▶ 獲得関数 α の設計と最適化をどうするか? 松井 (名古屋大) 機械学習による適応的実験計画 64 / 151

Slide 86

Slide 86 text

f の事前分布 P の設定と更新 ▶ f の事前分布 P としてガウス過程を用いる 6 f(x) ∼ GP(µ(x), k(x, x′)) ▶ データ Dn = {(xi, yi)}n i=1 を観測したという条件の下で, 以 下のように更新できる: f(x) ∼ GP(ˆ µ(x), ˆ k(x, x′)) ここで, ˆ µ(x) = µ(x) + k(x)⊤(K + σ2I)−1(y − m) ˆ k(x, x′) = k(x, x′) − k(x)⊤(K + σ2I)−1k(x′) 6ガウス過程以外の統計モデルを用いる場合もある: e.g. Optuna の Tree-structured Parzen Estimator (TPE) 松井 (名古屋大) 機械学習による適応的実験計画 65 / 151

Slide 87

Slide 87 text

獲得関数の α の設計, 最適化 ▶ ベイズ最適化の性能は, 獲得関数 α の設計に大きく依存 ▶ 獲得関数は, 目的関数と比べて最適化が容易であり, かつ探 索方針を反映するように設計 ▶ 獲得関数は一般に非凸関数であり, その大域的最適解を得 ることは難しい. 以下のようなアプローチが良く採用 される • 多点スタート勾配法 • 進化計算による大域最適化 詳細は次章 松井 (名古屋大) 機械学習による適応的実験計画 66 / 151

Slide 88

Slide 88 text

ベイズ最適化の収束判定 ベイズ最適化も他の最適化手法と同様の方法で収束判定できる 残差基準に基づく判定 (最適値が既知の場合) 最適値 f∗ = minx f(x) と十分小さい ε > 0 に対して |µ(xt) − f∗| < ε または |µ(xt) − f∗| ∥xt∥ < ε ならば反復は収束したと “見なして” 計算を打ち切る 誤差基準に基づく判定 十分小さい ε > 0 に対して ∥xt − xt−1∥ < ε または ∥xt − xt−1∥ ∥xt−1∥ < ε ならば反復は収束したと “見なして” 計算を打ち切る 松井 (名古屋大) 機械学習による適応的実験計画 67 / 151

Slide 89

Slide 89 text

ベイズ最適化の収束判定 Remarks ▶ 上記の収束判定基準は数値計算上の停止基準であり, 真の 最適解 x∗ = arg min x f(x) への収束 ∥xt − x∗∥ < ε を意味していないことに注意 ▶ ベイズ最適化の実応用では関数値 f(x) の評価回数に上限 があること (バジェット制約) も多く, 判定条件を満たすよ りも先にこの上限に達して停止する場合もある 松井 (名古屋大) 機械学習による適応的実験計画 68 / 151

Slide 90

Slide 90 text

ベイズ最適化の性能評価 ベイズ最適化の性能はリグレットによって評価される 単純リグレット (最適解にのみ興味がある場合) 各時点 T における単純リグレット rT は以下で定まる rT = min t≤T yt − min x f(x) 累積リグレット (途中解にも興味がある場合) 各時点 T における累積リグレット RT は以下で定まる RT = t≤T yt − min x f(x) T → ∞ のとき rT → 0 または 1 T RT → 0 となる速さで性能 を評価 松井 (名古屋大) 機械学習による適応的実験計画 69 / 151

Slide 91

Slide 91 text

獲得関数の設計

Slide 92

Slide 92 text

探索と活用のトレードオフ 探索: 事前知識のない (これまでよりも良くなるかもしれない) パラ メータに対する実験を行う 活用: 実験済みの (性能の良かった) パラメータ値に近いパラメータ に対して実験を行う 実験計画における探索と活用のトレードオフ 探索のみを行っていると過去の実験結果が活かせず, 活用ば かり行っているとまだ見ぬ良いパラメータを発見できない ベイズ最適化では, 両者のバランスを取りながら最適なパラメ ータを探すことが重要 松井 (名古屋大) 機械学習による適応的実験計画 70 / 151

Slide 93

Slide 93 text

獲得関数 アイデア : ガウス過程の事後モデルを利用し, 探索と活用のバランスを取 りながら候補点を選択する 1. 改善度に基づく方策 • probability of improvement • expected improvement 2. 楽観的な方策 • GP-LCB (lower confidence bound) 3. その他の方策 • トンプソン抽出 • Entropy search (情報獲得量に基づく方策) 以降では特に最小値探索を考える: min x∈X f(x) 松井 (名古屋大) 機械学習による適応的実験計画 71 / 151

Slide 94

Slide 94 text

改善確率 (Probability of Improvement, PI) x が現在の最良関数値 τ = min i=1,...,n f(xi) を改善する確率が最大 となる点を提案: xnext = arg max x∈X αPI(x; Dn) := Pr[f(x) < τ] f ∼ GP(µn(x), kn(x, x′)) のとき, Pr[f(x) < τ] = Φ τ − µn(x) σn(x) と表せる. ここで ▶ Φ : 標準正規分布の累積分布関数 ▶ σn(x) : f(x) の予測標準偏差 松井 (名古屋大) 機械学習による適応的実験計画 72 / 151

Slide 95

Slide 95 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 96

Slide 96 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 97

Slide 97 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 98

Slide 98 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 99

Slide 99 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 100

Slide 100 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 101

Slide 101 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 102

Slide 102 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 103

Slide 103 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 104

Slide 104 text

ベイズ最適化の実行例: PI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 73 / 151

Slide 105

Slide 105 text

期待改善度 (Expected Improvement, EI) 現在の最良関数値 τ に対する期待値改善度を最大にする点を 提案: xnext = arg max x∈X αEI(x; Dn) := E[I(x, τ)] ここで, I(x, τ) = max{τ − f(x), 0} は改善度関数. f ∼ GP(µn(x), kn(x, x′)) のとき, αEI(x; Dn) = (τ − µn(x) − ξ)Φ τ − µn(x) − ξ σn(x) + σn(x)ϕ τ − µn(x) − ξ σn(x) と表せる. ここで, ▶ Φ, ϕ : 標準正規分布の累積分布関数と確率密度関数 ▶ ξ : 探索と活用のトレードオフパラメータ (ξ が大 → 探索 寄りの提案を行う) 松井 (名古屋大) 機械学習による適応的実験計画 74 / 151

Slide 106

Slide 106 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 107

Slide 107 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 108

Slide 108 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 109

Slide 109 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 110

Slide 110 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 111

Slide 111 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 112

Slide 112 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 113

Slide 113 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 114

Slide 114 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 115

Slide 115 text

ベイズ最適化の実行例: EI を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 75 / 151

Slide 116

Slide 116 text

参考: EI の導出 i 改善度関数は, 以下のように書き換えられる: I(x) = max{τ − v, 0} ここで, v = µ(x) + σ(x)ε, ε ∼ N(0, 1). このとき, αEI(x) = ∞ −∞ I(x)ϕ(ε)dε = (τ−µ(x))/σ(x) −∞ (τ − µ(x) − σ(x)ε)ϕ(ε)dε = (τ − µ(x)) (τ−µ(x))/σ(x) −∞ ϕ(ε)dε − σ(x) (τ−µ(x))/σ(x) −∞ εϕ(ε)dε 松井 (名古屋大) 機械学習による適応的実験計画 76 / 151

Slide 117

Slide 117 text

参考: EI の導出 ii = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) √ 2π (τ−µ(x))/σ(x) −∞ −εe−ε2/2dε = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) √ 2π e−ε2/2 (τ−µ(x))σ(x) −∞ = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x) ϕ τ − µn(x) σn(x) − 0 = (τ − µ(x))Φ τ − µn(x) σn(x) + σ(x)ϕ τ − µn(x) σn(x) 松井 (名古屋大) 機械学習による適応的実験計画 77 / 151

Slide 118

Slide 118 text

Remarks ▶ 実応用では, n 時点での最良点を τ = mini=1,...,n yi とする が, PI を用いる場合には, これは過度に貪欲的に最適化を実 行してしまう可能性がある. ▶ 一方で, EI を用いる場合には上記の設定でもリーズナブル に挙動する. 松井 (名古屋大) 機械学習による適応的実験計画 78 / 151

Slide 119

Slide 119 text

下側信頼限界 (Lower Confidence Bound, GP-LCB) ガウス過程の予測平均 µn(x) (現在のブラックボックス関数の 推定) と予測標準偏差 σn(x) (その推定の不確実性) の重み付 き和: arg max x∈X αLCB(x; Dn) := −µn(x) + βnσn(x) ▶ 探索と活用のトレードオフを βn でコントロールする • βn のスケジューリングにかなり敏感 (調整が難しい) • リグレット解析の結果から理論的に良いとされるパラメー タ値の設定はあるが, 実用上うまくいかないことも多い ▶ リグレットの理論上界が示されている 松井 (名古屋大) 機械学習による適応的実験計画 79 / 151

Slide 120

Slide 120 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 121

Slide 121 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 122

Slide 122 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 123

Slide 123 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 124

Slide 124 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 125

Slide 125 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 126

Slide 126 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 127

Slide 127 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 128

Slide 128 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 129

Slide 129 text

ベイズ最適化の実行例: LCB を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 80 / 151

Slide 130

Slide 130 text

トンプソン抽出 (Thompson Sampling, TS) αTS(x; D) = E[y | x, θ], θ ∼ P(θ | D) ▶ 本当は観測系の事後分布 p(y | x, D) に関する期待値 Ep(y|x,D) [y] を計算したいが, この事後分布 p(y | x, D) = p(y | x, θ)p(θ | D)dθ の積分計算が難しい場合がある ▶ αTS はパラメータの事後分布 p(θ | D) からサンプリングし たモデルパラメータ θ によって上の積分を 1 点モンテカル ロ近似したもの 松井 (名古屋大) 機械学習による適応的実験計画 81 / 151

Slide 131

Slide 131 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 132

Slide 132 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 133

Slide 133 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 134

Slide 134 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 135

Slide 135 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 136

Slide 136 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 137

Slide 137 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 138

Slide 138 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 139

Slide 139 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 140

Slide 140 text

ベイズ最適化の実行例: トンプソン抽出を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 82 / 151

Slide 141

Slide 141 text

情報獲得量に基づく方策:基本的なアイデア ▶ 未知の最適解 x∗ に関する事後分布 p∗(x | Dn) を考える ▶ 評価候補点 x が, x∗ に関してどの程度情報を持っているか を評価する 松井 (名古屋大) 機械学習による適応的実験計画 83 / 151

Slide 142

Slide 142 text

(Predictive) Entropy Search [Hernández-Lobato+ (NIPS’14)] アイデア Black box 関数 f の大域最大値を達成するパラメータ x∗ = arg min x∈X f(x) に関する情報が最大となるような点を次の 探索点とする Acquisition function in ES, PES これまで評価したデータ Dn の下で候補点 {x, y} と最適解 x∗ との相互情報量 (MI) を評価する: αn(x) = I({x, y}; x∗ | Dn) = H(p(x∗ | Dn)) − Ep(y|Dn,x) [H(p(x∗ | Dn ∪ {x, y}))] (ES) = H(p(y | Dn, x)) − Ep(x∗|Dn) [H(p(y | Dn, x, x∗))] (PES) ▶ PES はオリジナルの ES に対して MI の対称性を使って等価 な変換をしたもの 松井 (名古屋大) 機械学習による適応的実験計画 84 / 151

Slide 143

Slide 143 text

Predictive Entropy Search i 次の評価点の決定 xn+1 = arg max x∈X αn(x) = H[p(y | Dn, x)] − Ep(x∗|Dn) [H[p(y | Dn, x, x∗)]] 第 1 項について ▶ 予測分布 p(y | Dn, x) が正規分布のとき, 第 1 項は解析的に 書ける: H[p(y | Dn, x)] = 1 2 log(2πe(σn(x) + σ2)) 松井 (名古屋大) 機械学習による適応的実験計画 85 / 151

Slide 144

Slide 144 text

Predictive Entropy Search ii 第 2 項の予測分布は以下のように近似 ▶ f ∼ Posterior をベイズ線形回帰 fi(x) = ϕi(x)⊤θi で解析 的に近似し最適解の推定量 ˆ x∗ を大量にサンプリング → 期待値の計算を ˆ x∗ に関する標本平均で実現 ▶ “最適解で条件付け” を次の 3 制約で表現 1. x∗ は局所解 i.e. ∇f(x∗ ) = 0 & ∇2f(x∗ ) が負定値 2. f(x∗ ) は現在までの観測データより大きい i.e. f(x∗ ) ≥ f(xi ), i = 1, ..., n 3. 候補点 x で, f(x) < f(x∗ ) ▶ p(f(x) | Dn, 1, 2, 3) を expectation propagation (EP) で正 規近似 第 2 項の予測分布: p(f(x) | Dn, x∗) ∝ 1f1

Slide 145

Slide 145 text

Predictive Entropy Search iii Acquisition Function (Empirical Version) αn(x) = 1 M M i=1 [0.5 log(v(i) n (x) + σ2) − 0.5 log(v(i) n (x | x(i) ∗ ) + σ2)] ▶ v(i) n (x), v(i) n (x | x(i) ∗ ) はそれぞれデータ Dn (と最適解 x∗ ) で の条件付きの f の予測分散, σ2 は誤差分散 ▶ それぞれ先に導出した予測分布から計算する (正規分布の ときエントロピー ≈ 予測分散) Figure 1: [Hernández-Lobato+ NIPS’14] Figure 1 より抜粋 松井 (名古屋大) 機械学習による適応的実験計画 87 / 151

Slide 146

Slide 146 text

Max-Value Entropy Search (MES) [Wang+ ICML’17] i ▶ ES, PES : 最適解 x∗ に関する情報量を測る ▶ MES : 最適値 y∗ = f(x∗) に関する情報量を測る Acquisition function in MES これまで評価したデータ Dn の下で候補点 {x, y} と最適値 y∗ との相互情報量 (MI) を評価する: αt(x) = I({x, y}; y∗ | Dt) = H(p(y | Dt, x)) − Ep(y∗|Dn) [H(p(y | Dn, x, y∗))] ≈ 1 K y∗∈Y∗ γy∗ (x)ψ(γy∗ (x)) 2Ψ(γy∗ (x)) − log(Ψ(γy∗ (x))) ▶ ψ, Ψ : 正規分布の密度関数 & 分布関数 ▶ γy∗ (x) = (y∗ − µt(x))/σt(x) 松井 (名古屋大) 機械学習による適応的実験計画 88 / 151

Slide 147

Slide 147 text

Max-Value Entropy Search (MES) [Wang+ (ICML’17)] ii H(p(y | Dt, x)) − Ep(y∗|Dn) [H(p(y | Dn, x, y∗))] ▶ 期待値は K 回 f の最大値をサンプリングすることで MC 推定 ▶ p(y | Dt, x) = N(µt(x), σt(x)) ▶ p(y | Dt, x, y∗) = T N(µt(x), σt(x); y∗) • y < y∗ を満たすような切断正規分布 Remark : avoiding the curse of dimensionality ▶ ES, PES : d 次元の分布に依っている ▶ MES : 1-次元の分布に依っている → MES の方がサンプリング効率が高く計算コストが 小さい 松井 (名古屋大) 機械学習による適応的実験計画 89 / 151

Slide 148

Slide 148 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 149

Slide 149 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 150

Slide 150 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 151

Slide 151 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 152

Slide 152 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 153

Slide 153 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 154

Slide 154 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 155

Slide 155 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 156

Slide 156 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 157

Slide 157 text

ベイズ最適化の実行例: MES を利用した場合 松井 (名古屋大) 機械学習による適応的実験計画 90 / 151

Slide 158

Slide 158 text

レベル集合推定のための能動学習

Slide 159

Slide 159 text

レベル集合推定 i レベル集合推定 (level set estimation, LSE) [Gotovos+ (2013)] ブラックボックス関数 f と入力候補点 {xi}N i=1 が与えられた とき, 関数値 f(xi) が所望のしきい値 h ∈ R よりも大きい xi ∈ Xup = {x | f(x) > h} か, 小さい xi ∈ Xlow = {x | f(x) ≤ h} かを判定する問題 松井 (名古屋大) 機械学習による適応的実験計画 91 / 151

Slide 160

Slide 160 text

レベル集合推定 ii Xup Xlow f(x) x 松井 (名古屋大) 機械学習による適応的実験計画 92 / 151

Slide 161

Slide 161 text

レベル集合の判定方法 ガウス過程回帰による予測分布 N(µn(x), σ2 n (x)) を用いて f(x) の信頼区間を考える ▶ µn(x) − βσn(x) > h ⇒ xi ∈ Xup (左) ▶ µn(x) + βσn(x) < h ⇒ xi ∈ Xlow (右) ▶ µn(x) − βσn(x) ≤ h ≤ µn(x) + βσn(x) ⇒ 保留 (中央) 松井 (名古屋大) 機械学習による適応的実験計画 93 / 151

Slide 162

Slide 162 text

レベル集合推定のための獲得関数 Straddle 関数 αStraddle (x) = min{µn(x) + βσn(x) − h, A h − (µn(x) − βσn(x)) B } µn (x) x h = µn (x) + 1.96σn (x) − h = h − (µn (x) − 1.96σn (x)) ▶ 予測分散が大きく, かつしきい値付近の点が選ばれやすい 獲得関数 松井 (名古屋大) 機械学習による適応的実験計画 94 / 151

Slide 163

Slide 163 text

未分類点の扱い ▶ レベル集合推定が停止した時点で未分類のままの点はあり 得る ▶ 実践的には停止した時点で得られている GP の予測平均 µn(x) を用いて µn(x) > h or µn(x) ≤ h で全ての未分類点を上位か下位かに分類する 松井 (名古屋大) 機械学習による適応的実験計画 95 / 151

Slide 164

Slide 164 text

レベル集合推定の評価指標 LSE による分類 LSE(xi) > h 未分類 LSE(xi) < h 正解ラベル f(xi) > h TP UP FN f(xi) < h FP UN TN ▶ 分類済みの点は通常の分類問題と同様にラベルの一致で評 価する ▶ 未分類点の扱いをどうするか? • 誤分類の仕方によって重大性が違う場合を考慮したい • 例:材料開発において 低品質な箇所を高品質と分類する重大性 (false positive) >> 高品質な箇所を低品質と分類する重大性 (false negative) 松井 (名古屋大) 機械学習による適応的実験計画 96 / 151

Slide 165

Slide 165 text

レベル集合推定の評価指標 [Hozumi+ 2023] LSE による分類 LSE(xi) > h 未分類 LSE(xi) < h 正解ラベル f(xi) > h TP UP FN f(xi) < h FP UN TN ▶ 未分類点を全て下位集合として評価する sensitivity risk-sensitive = TP TP + UP + FN , specificity risk-sensitive = TN + UN TN + FP + UN ▶ 未分類点を全て上位集合として評価する sensitivity cost-sensitive = TP + UP TP + UP + FN , specificity cost-sensitive = TN TN + FP + UN 松井 (名古屋大) 機械学習による適応的実験計画 97 / 151

Slide 166

Slide 166 text

レベル集合推定の実行例 ▶ 赤帯が上位集合を表す 松井 (名古屋大) 機械学習による適応的実験計画 98 / 151

Slide 167

Slide 167 text

より複雑な問題に対するベイズ最適 化

Slide 168

Slide 168 text

制約付き最適化 i ブラックボックス関数 f の最適化問題 min x∈X f(x) で探索空間 X に制約がある場合 ▶ 制約条件が事前に判明しているケース → 獲得関数の最適化の際に制約条件を加えれば OK ▶ どのような制約条件があるか不明なケース → 獲得関数に改良を加えて対処  (以下で紹介) 松井 (名古屋大) 機械学習による適応的実験計画 99 / 151

Slide 169

Slide 169 text

制約付き最適化 ii [Gramacy&Lee (2011)] integrated expected conditional improvement αIECI(x) := x′ αEI(x′, Dn) − αEI(x′, Dn ∪ x | x) h(x′)dx ▶ 密度関数 h の下で x を観測することによる EI の変化をモ デル化 (h はユーザーが指定) ▶ 制約条件を満たす確率を表現するような h を選択すると, IECI は制約が有効である確率が高い領域を優先的に探 索する 松井 (名古屋大) 機械学習による適応的実験計画 100 / 151

Slide 170

Slide 170 text

制約付き最適化 iii [Snoek, PhD thesis; Gardner+ (2014)] weighted expected improvement EI に制約条件を満たす確率をかける αwEI(x) := αEI(x, Dn)h(x, Dn) ▶ h(x, Dn) の例 (ガウス過程でモデリング) h(x, Dn) =    1 x が制約を満たす 0 x が制約を満たさない h(x, Dn) = Pr(f(x) < λ | Dn) ▶ 制約が満たされなさそうな領域では wEI は (h の影響で)   ほとんど 0 になる 松井 (名古屋大) 機械学習による適応的実験計画 101 / 151

Slide 171

Slide 171 text

制約付き最適化 iv その他の制約付きベイズ最適化 ▶ [Hernández-Lobato+ (2015)] • predictive entropy search (PES) のバリアント • 目的関数と制約条件を独立に評価する ▶ [Gramacy+ (2016)] • 拡張ラグランジュ法 + BO min x,y f(x) + y⊤g(x) Lagrangian + λ 2 ∥g(x)∥2 penalty • 通常のラグランジュ関数 + 制約を破ることに対する罰則  • λ をスケジューリングしながら制約なし最適化 (BO) を繰り 返し解く 松井 (名古屋大) 機械学習による適応的実験計画 102 / 151

Slide 172

Slide 172 text

コスト考慮型最適化 ▶ 探索空間のある領域は他の領域に比べて目的関数の評価に よりコストがかかる ▶ 探索回数に上限がある場合, 探索リソースは低コストな領 域に重点的に割くべき (biased search) ▶ EI per second [Snoek+ (2012)] : αEI(x, Dn) c(x) → “良いパラメータ” の周辺を重点的に探索 • c(x) は x で目的関数を評価するコストを表す 松井 (名古屋大) 機械学習による適応的実験計画 103 / 151

Slide 173

Slide 173 text

多目的最適化 i ▶ M 個の目的関数 F (x) = (f1(x), ..., fM (x))⊤ の同時最適化を考える問題 ▶ パレート解の探索が目的 パレート解 ▶ fx = (f1(x), ..., fM (x)) と書き, x, x′ に対して fx ≻ fx′ :⇔ fi(x) ≥ fi(x′), i = 1, ..., M が成り立つとき, fx は fx′ を優越するという ▶ fx が任意の x′ に対して fx′ に優越されないとき, fx をパ レート解と呼ぶ 松井 (名古屋大) 機械学習による適応的実験計画 104 / 151

Slide 174

Slide 174 text

多目的最適化 ii Pareto frontier f(P) V (P) $)+2 *%$ (! # (& $)+- ' )" .70%1!6,8 5*70 *'4:%1 /70 9" 3(#& %1 .70 %1 松井 (名古屋大) 機械学習による適応的実験計画 105 / 151

Slide 175

Slide 175 text

ベイズ最適化によるパレートフロントの推定 i [Zuluaga+ (2013)] ⼊⼒ の不確実性領域 ⼊⼒ の不確実性 with the largest wt (x) is chosen as the next sample xt to be evaluated. We refer to wt (xt ) as wt . Intuitively, this rule biases the sampling towards ex- ploring, and thus improving the model for, the points most likely to be Pareto-optimal. f1(x) f2(x) d (max(Rt(x)) + d (min(Rt(x)) + d wT + 2 2 d d Rt(x) of a point classified as Pareto-optimal Rt(x) of a point classified as not-Pareto optimal Rt(x) of an unclassified point Sampled points classified as not-Pareto optimal Next sample Figure 2. Classification and sampling example for n = 2 and ‘ = 0. Stopping criteria. The training process stops after, say, T iterations when all points in E are classified, i.e., when UT = ÿ. The prediction returned is ˆ P = PT . The selection of the parameter ‘ used in the classifica- tion rule impacts both the accuracy and the sampling cost T of the algorithm. Theorem 1. Let ” œ (0, 1 —t = 2 log(n|E|fi2 t2 /(6”)), t probability 1 ≠ ”. To achieve a maximum hyper su cient to choose ‘ = ÷(n ≠ 2nan where a = maxxœE,1ÆiÆn {  — In this case, the algorithm ter iterations, where T is the sma Û T C1—T “T Ø ÷ Here, C1 = 8/ log(1 ≠ ‡≠2 ), type of kernel used. This means that by specifying ume error ÷, PAL can be con rameter ‘ to stop when the tar confidence 1≠”. Additionally, number of iterations T requir Later, in Corollary 2, we will 判別ルール: となる が存在しない となる が存在する → はパレート解(⻘領域) → はパレート解でない(灰領域) M個の⽬的関数をM個の独⽴な GPでモデル化して計算する 獲得関数 松井 (名古屋大) 機械学習による適応的実験計画 106 / 151

Slide 176

Slide 176 text

ベイズ最適化によるパレートフロントの推定 ii [Suzuki+ (2020)] %0.1 #/- '* ("%01 ) . ' , !$ %0.1 &+1 松井 (名古屋大) 機械学習による適応的実験計画 107 / 151

Slide 177

Slide 177 text

バッチベイズ最適化 ▶ 複数の候補点で同時に目的関数を評価できる状況 (並列計 算システムなど) もある ▶ 一度に複数の学習データ点を選択するタイプのベイズ最適 化をバッチベイズ最適化と呼ぶ ▶ 問題設定としては並列分散ベイズ最適化 (parallel distributed Bayesian optimization)の特別なケースとみな すことができる (用いる手法もこの設定に準じる) 松井 (名古屋大) 機械学習による適応的実験計画 108 / 151

Slide 178

Slide 178 text

バッチベイズ最適化の方法 i 並列 EI [Snoek+ (2012), Hernández-Lobato+ (2017)] 獲得関数: αPEI(x | D, C) = Ep({yc}c∈C|{xc}c∈C,D) [αEI(x | D ∪ {(xc, yc)}c∈C)] → ある点の評価中に別の点を選ぶため, EI の候補点に関する期 待値を新たな獲得関数とする 松井 (名古屋大) 機械学習による適応的実験計画 109 / 151

Slide 179

Slide 179 text

バッチベイズ最適化の方法 ii 並列分散トンプソン抽出 [Hernández-Lobato+ (2017)] # " $ !% 松井 (名古屋大) 機械学習による適応的実験計画 110 / 151

Slide 180

Slide 180 text

高次元のベイズ最適化 目的関数が高次元 (多数のパラメータを含んでいる) 場合 ▶ 目的関数の推定に必要な関数値の観測回数 (実験回数) が 膨大になる ▶ 獲得関数がほとんどの領域で平坦になり, 探索が困難にな る場合がある (上図) 松井 (名古屋大) 機械学習による適応的実験計画 111 / 151

Slide 181

Slide 181 text

高次元のベイズ最適化の方法 大きく分けて 3 つのアプローチがある 1. 目的関数の事前分布モデルを工夫する • 加法的ガウス過程に基づく BO [Kandasamy+ (2015)] 2. 次元削減を行い低次元空間で BO を行う • REMBO [Wang+ (2013)], LineBO [Kirschner+ (2019)]... 3. 局所的なモデリングで精度を担保する • TuRBO [Eriksson+ (2019)] 松井 (名古屋大) 機械学習による適応的実験計画 112 / 151

Slide 182

Slide 182 text

加法的ガウス過程 (additive Gaussian processes) モデル ▶ 目的関数 f(x) がより低次元な関数の和で書けるとする: f(x) = f(1)(x(1)) + f(2)(x(2)) + · · · + f(M)(x(M)) ここで, 各 x(j) の次元 dj は元の x の次元 d よりも小さい ▶ 各 f(j) に独立なガウス過程モデルを仮定 f(j)(x) ∼ GP(µ(j)(x(j)), k(j)(x(j), x(j)′ )) ▶ このとき, f は平均関数 µ, カーネル関数 k がそれぞれ µ(x) = µ(1)(x(1)) + · · · + µ(M)(x(M)), k(x, x′) = k(1)(x(1), x(1)′ ) + · · · + k(M)(x(M), x(M)′ ) であるようなガウス過程 GP(µ(x), k(x, x′)) に従う 松井 (名古屋大) 機械学習による適応的実験計画 113 / 151

Slide 183

Slide 183 text

加法的ガウス過程モデルの推論 X = {x1, ..., xn}, Y = {y1, ..., yn} : 観測済みの点 ▶ 独立性から, 各 f(j) の予測分布を個別に計算すれば良い ▶ 候補点 x(j) ∗ における観測値 y(j) ∗ = f(j)(x(j) ∗ ) + ε の予測分 布 p(y(j) ∗ | x∗, X, Y ) は予測平均と予測分散がそれぞれ µ(j)(x(j) ∗ ) = k(j)(x(j) ∗ )∆−1Y (j), σ(j)(x(j) ∗ ) = k(j)(x(j) ∗ , x(j) ∗ ) − k(j)(x(j) ∗ )∆−1k(j)(x(j) ∗ ) の正規分布 N(µ(x(j) ∗ ), σ(x(j) ∗ )) となる. ここで, • k(j)(x(j) ∗ ) = (k(j)(x(j) ∗ , x(j) 1 ), ..., k(j)(x(j) ∗ , x(j) n )) ∈ Rn • ∆ = k(X, X) + σ2I ∈ Rn×n 松井 (名古屋大) 機械学習による適応的実験計画 114 / 151

Slide 184

Slide 184 text

加法的ガウス過程に基づくベイズ最適化 Additive GP-UCB [Kandasamy+ (2015)]: α(x) = µt−1(x) + βt M j=1 σ(j) t−1 (x(j)) ▶ α は各 j に対する GP-UCB α(j)(x(j)) = µ(j) t−1 (x(j)) + βtσ(j) t−1 (x(j)) の和になっている ▶ 各 α(j) を独立に最大化して得られた解を concat すれば α の最適解が得られる 松井 (名古屋大) 機械学習による適応的実験計画 115 / 151

Slide 185

Slide 185 text

次元削減に基づくベイズ最適化 i Definition 3 (有効次元 (effective dimensionality)) 関数 f : Rd → R が有効次元 de(< d) を持つ :⇔ de 次元の線型部分空間 T が存在して, 任意の x⊤ ∈ T と任 意の直交補空間の元 x⊥ ∈ T ⊥ に対して f(x) = f(x⊤ + x⊥) = f(x⊤) が成り立つ Theorem 4 (Wang+ (2013) Theorem 2) ▶ f : Rd → R : 有効次元が de の関数 ▶ A ∈ Rd×d′ : 各要素が独立に N(0, 1) に従うランダム行列 このとき, 任意の x ∈ Rd に対して f(x) = f(Az) を満たすよ うな z ∈ Rd′ が確率 1 で存在する (ここで, d′ ≥ de ) 松井 (名古屋大) 機械学習による適応的実験計画 116 / 151

Slide 186

Slide 186 text

次元削減に基づくベイズ最適化 ii A A A x=Ay Convex projection of Ay to x y Embedding D=2 d=1 y x ▶ 目的関数 f には関数値の挙動を支配する方向と関数値に影 響を与えない方向がある ▶ 低次元空間で獲得関数の最適化を行い, ランダム行列 A で 元の次元に埋め込む (ランダム埋め込み) ことで探索のコ ストを削減する 松井 (名古屋大) 機械学習による適応的実験計画 117 / 151

Slide 187

Slide 187 text

次元削減に基づくベイズ最適化 iii ランダム埋め込みによるベイズ最適化 (REMBO) [Wang+ (2013)] Theorem 5 (Wang+ (2013) Theorem 3) 関数 f の, 中心 0 の box constraint 上の最適解を x∗ とし, x∗ ⊤ をその部分空間 T への射影とする. このとき, f(Az∗) = f(x∗ ⊤ ) を満たすような z∗ ∈ Rd′ が存在する. 松井 (名古屋大) 機械学習による適応的実験計画 118 / 151

Slide 188

Slide 188 text

信頼領域法: 目的関数の局所モデルの利用 信頼領域法 (trust region method) の手順 1. 各反復において, 現在の解 xt の近傍で目的関数 f(x) を最 適化しやすい関数 m(z) で近似 • よく用いられるのは二次近似モデル mt (z) = f(xt ) + ∇f(xt )⊤z + 1 2 z⊤∇2f(xt )z 2. m(z) による近似が良く成り立つ信頼領域 (trust region) ∥z∥ ≤ ∆t を設定 • ∆t を信頼領域半径とよぶ 3. 信頼領域上で m(z) を最小化 min z mt(z) s.t. ∥z∥ ≤ ∆t 松井 (名古屋大) 機械学習による適応的実験計画 119 / 151

Slide 189

Slide 189 text

信頼領域法によるベイズ最適化 i 決定論的な信頼領域法を使うのが難しい点 ▶ 観測ノイズの影響を考慮できない → 不確実性のモデリングが必要 ▶ 二次モデルなどのよく使われる近似モデルでは, 信頼領域 半径が極めて小さくなってしまう → より柔軟なモデルが必要 TuRBO (Trust Region Bayesian Optimization) [Eriksson+ (2019)]: ▶ 信頼領域上の近似モデルとしてガウス過程を採用 ▶ サイズの異なる複数の信頼領域上で並列に BO を実行する ことで, 全体としてはバッチベイズ最適化としてアルゴリ ズムを構築 松井 (名古屋大) 機械学習による適応的実験計画 120 / 151

Slide 190

Slide 190 text

信頼領域法によるベイズ最適化 ii TuRBO のアルゴリズム % .9:- 3* 8; +( .9:'1 5, "2 !0 $6!0- "2 .9: &/ #04 7 ) 松井 (名古屋大) 機械学習による適応的実験計画 121 / 151

Slide 191

Slide 191 text

ガウス過程に基づく転移学習の方法 「実験」の大きな特徴 ▶ 設定の異なる実験群を通じて対象に関する知識が時間の経 過と共に蓄積される → よく似た実験のデータが利用できる可能性がある ▶ 過去の実験データ (source data) を用いて現在取り組んで いる実験 (target task) のパフォーマンスを向上させたい → 転移学習 target task のデータ {(xi, yi)}n i=1 , yi = f(xi) + ε に加えて source task のデータ {(x′ j , y′ j )}m j=1 , y′ j = f′(x′ j ) + ε′ が利用できる状況を想定 松井 (名古屋大) 機械学習による適応的実験計画 122 / 151

Slide 192

Slide 192 text

ガウス過程に基づく転移学習の方法: Diff-GP モデル ▶ source 関数 f′ と target 関数 f の差を GP でモデル 化 [Shilton+, AISTATS2017] ∆f = f − f′ ∼ GP(µ(x), k(x, x′)) ▶ source task の出力を GP モデルを使って変換 ˆ yj = y′ j + µ(x′ j ), 1 ≤ j ≤ m ▶ 変換した source task のデータを target task のデータにマ ージして f を GP モデリング DT = {(xi, yi)}n i=1 ∪ {(xj, ˆ yj)}m j=1 ▶ ガウス過程に用いるデータの変換なので,ベイズ最適化に 限らずレベル集合推定など他の実験計画の方法とも組み合 わせられる 松井 (名古屋大) 機械学習による適応的実験計画 123 / 151

Slide 193

Slide 193 text

ガウス過程に基づく転移学習の方法: Diff-GP モデル f(x) − f (x) predict mean credible interval f(x) predict mean credible interval f(x) and f (x) f(x) f (x) x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2 f(x) predict mean credible interval f(x) and f (x) f(x) f (x) f(x) − f (x) predict mean credible interval x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2 f(x) and f (x) f(x) f (x) f(x) − f (x) predict mean credible interval f(x) predict mean credible interval x(s) 2 x(s) 1 x(s) 3 x(s) 4 x(t) 1 x(t) 2 松井 (名古屋大) 機械学習による適応的実験計画 124 / 151

Slide 194

Slide 194 text

事例紹介

Slide 195

Slide 195 text

事例 i : 機械学習における超パラメータ調整 ▶ 機械学習モデルには多数の超パラメータが含まれておりそ の設定は汎化性能に直結 Ex (深層学習の超パラメータ) • 層数, チャンネル数, 学習アルゴリズム, ... ▶ 従来は検証誤差を監視しながら人力で調整 (深層学習が職 人芸と言われる所以) ▶ 最近は超パラメータ自動最適化用のフレームワークが充実 しつつある 超パラメータ調整のための方法 : £ グリッドサーチ, ランダムサーチ (クロスバリデーション) £ 進化計算 (遺伝アルゴリズムなど) £ ベイズ最適化 松井 (名古屋大) 機械学習による適応的実験計画 125 / 151

Slide 196

Slide 196 text

事例 i : 深層学習における超パラメータ調整 例: Optuna ▶ Preferred Networks 社が開発した超パラメータ最適化フレ ームワーク ▶ 過去の超パラメータによる学習の履歴に基づいて次に試行 するべき超パラメータを適応的に指定 ▶ Tree-structured Parzen Estimator (TPE) [Bergstra+ (2011)] と呼ばれる GP とは別の統計モデルを利用 ▶ TPE の他の手法との性能比 較 (畳み込みニューラルネ ットの超パラメータ調整タ スク) ▶ 同じ探索回数では TPE が 最も誤差を小さくしている 松井 (名古屋大) 機械学習による適応的実験計画 126 / 151

Slide 197

Slide 197 text

事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] £ 電池材料などのイオン電動性物質の伝導度を知りたい ▶ ポテンシャルエネルギー (PE) 曲面内のイオン伝導経路を 同定できれば,その経路内の最安定点(エネルギー最小の 点)とボトルネック点(エネルギー最大の点)を知ること ができ,イオン伝導度を求めることができる ▶ 第一原理計算などの物理シミュレーションを用いれば各点 における PE を高精度に求められる → PE 関数全体を網羅的な第一原理計算で求めようとすると膨 大な計算コスト 提案法 ガウス過程モデルとベイズ最適化の考え方を拡張し,イオン 伝導経路を特徴づける部分に対して選択的に第一原理計算を 行うアプローチ 松井 (名古屋大) 機械学習による適応的実験計画 127 / 151

Slide 198

Slide 198 text

事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] 以下の 3 ステップの繰り返しアルゴリズムとして実現 Step 1 ガウス過程モデルから PE 関数のランダムサンプ ルを多数生成 Step 2 Step 1 の各 PE 関数に対して動的計画法で最適な イオン伝導路を同定 → 最安定点とボトルネック点のランダムサンプル を得る Step 3 Step 2 で得た最安定点とボトルネック点に基づい た獲得関数を設計し, 次に第一原理計算を適用す るべきコンフィギュレーション点を選択 松井 (名古屋大) 機械学習による適応的実験計画 128 / 151

Slide 199

Slide 199 text

事例 ii : イオン電動性物質の伝導度推定 [Kanamori+ (2018)] ▶ 左図: 2 次元空間のポテンシャルエネルギー (PE) 曲面をガ ウス過程でモデル化して得られた予測平均と予測分散 ▶ 右図: ガウス過程モデルからランダムサンプリングで PE 曲面の候補を多数作成. 各候補に動的計画法を適用してイ オン伝導経路を求めることで,イオン伝導経路の予測分布 を推定し, ベイズ最適化で第一原理計算すべき点を決定 松井 (名古屋大) 機械学習による適応的実験計画 129 / 151

Slide 200

Slide 200 text

事例 iii : レベル集合推定による適応的マッピング 角 角 NV>R9=@Y,0&IKAO S10"$(/"C3 &+ 0"$ (/" & -#) 0"$IKEO;Q7:X?WT NV>RD9 0"$GB+'!*4U ;QH+'!*ML ."% 0 ;Q 28:D9 J<5PF6 ▶ 製造業では, 材料の物性が所望の品質を満たしていない低 品質領域の特定が重要 ▶ 従来は等間隔マッピングで網羅的に物性値を測定して判断 → 無駄な測定が多く, 効率が悪い 松井 (名古屋大) 機械学習による適応的実験計画 130 / 151

Slide 201

Slide 201 text

事例 iii : レベル集合推定による適応的マッピング レベル集合推定としての定式化 物性値にしきい値を設定し, ▶ 測定点の物性値がしきい値以上 → 低品質領域ではない ▶ 測定点の物性値がしきい値以下 → 低品質領域である と定義して 2 つの領域を分離する レベル集合推定のための能動学習により効率的な適応的マッピ ングを実現する 松井 (名古屋大) 機械学習による適応的実験計画 131 / 151

Slide 202

Slide 202 text

事例 iii : レベル集合推定による適応的マッピング [穂積 + JSAI2019, Hozumi+ 2023] ▶ 2 次元入力 (測定点の座標), 1 次元出力 (物性値) 関数を GP でモデリングし LSE を適用 ▶ 従来法 (6586 点測定) よりも少ない測定点数で低品質領域 を同定 松井 (名古屋大) 機械学習による適応的実験計画 132 / 151

Slide 203

Slide 203 text

事例 iii : レベル集合推定による適応的マッピング [Hozumi+ 2023] risk-sensitive AUC cost-sensitive AUC risk-sensitive F-value cost-sensitive F-value 通常のLSE 転移LSE ▶ 通常の LSE, 転移学習 +LSE, ランダム探索を比較 ▶ うまく転移が成功すれば通常の LSE をさらに上回る効率化 が実現可能 松井 (名古屋大) 機械学習による適応的実験計画 133 / 151

Slide 204

Slide 204 text

事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] 4 , ,* $0 .#/+)"' 2) 1&( % !3 % '% / -. '! '$ % -!3 !3 " % +& )#, (+ *% 目的 成長速度を最大にしつつ, その他の 5 つの評価項目を基準値 以下にするプロセス条件の組合せを見つける 松井 (名古屋大) 機械学習による適応的実験計画 134 / 151

Slide 205

Slide 205 text

事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] Thickness uniformity Less than a threshold Low Available High Uniformity of resistivity High Low Large LPD (> 0.30 μm) Low Low Small LPD (> 0.136 μm) Low Low Accumulation of slip length High High Error A No error Zero Unavailable High Error B *No error Zero High meter is less than a threshold. t of BO process in this study. SQCBO: single quality constraint Bayesian optimization; MQCBO: multiple quality constraint Bayesian optimization. 制約付きベイズ最適化 + バッチベイズ最適化 成⻑速度以外の5つの項⽬が 基準値以下であることを要請 異なる条件での複数の実験を 連続して⾏い, 複数の試料を ⼀度に評価 Procedure 1: 単⼀のパラメータのみを更新するBO (短時間で実⾏可能) ⽤いたベイズ最適化のフレームワーク Procedure 2: 全パラメータを更新するBO (実⾏に時間を要する) Procedure 3 : プロセスエンジニアによる条件の 絞り込み → BOによって挙げられた候補条件を 基にPEの知識を⽣かして特定のパラ メータに対して条件探索を⾏う 提案法のフローチャート 松井 (名古屋大) 機械学習による適応的実験計画 135 / 151

Slide 206

Slide 206 text

事例 iv : Si エピタキシャル成長プロセス最適化 [Osada+ (2020)] #!& ',& '. $ 5=9<=4 3=681-/0" :27" 3;> +.#! ? ( -*0. -*0#!. . )%( IEP[V^HjY852 YWd 0Ee?:/O7J852 Y-1 iR '"C\2NAcF=;3 ]BL._d9_ &+#!, %Mkh 松井 (名古屋大) 機械学習による適応的実験計画 136 / 151

Slide 207

Slide 207 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 抗がん剤第 1 相試験 ▶ 新規抗がん剤を初めて人体(がん患者)に投与する試験 ▶ 安全性と薬物動態を確認することで後続の薬効評価試験 (第2相試験)の実施 · 計画の検討に資する ▶ 安全性評価では許容される最大用量である最大耐用量 (maximum tolerated dose; MTD) の同定が試みられる 松井 (名古屋大) 機械学習による適応的実験計画 137 / 151

Slide 208

Slide 208 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 代表的な用量探索デザイン:3+3デザイン ▶ 最低用量から開始 ▶ 3例に対して同一用量を投与 ▶ 重篤な有害事象(DLT)の発現数に応じて増量または減量 短所 : ▶ 増量・減量の判定は直近 3 例または 6 例のデータしか 用いない(試験内の全患者 のデータを用いてない) ▶ 結果として MTD の推定精 度が低い 松井 (名古屋大) 機械学習による適応的実験計画 138 / 151

Slide 209

Slide 209 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 Continual Reassessment Method (CRM) [O’Quigley+ 1990] ▶ 用量反応関係のモデルを仮定し全患者データを用いたモデ ル推定 · 更新により用量の増減を行う ▶ 特定の用量反応曲線モデル(e.g.: ロジスティックモデル) を仮定 ▶ モデルパラメータをベイズ推定 CRM の手順: 1. 用量反応モデル · 事前分布の設定 2. N 例目に用量割付 3. DLT の有無を観測 4. 事後分布の推定 5. 次症例の用量決定 (N ← N + 1) 松井 (名古屋大) 機械学習による適応的実験計画 139 / 151

Slide 210

Slide 210 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 ベイズ最適化デザイン [Takahashi&Suzuki 2021] ⽤量反応モデル ガウス過程事前分布 • 平均関数は各反応の想定初期確率 から設定 • ⼆乗指数カーネルを使⽤ 観測値の分布 ある⽤量 における反応の発現例数の分布 ⽬的⽤量の探索 ① MTDの探索 と⽬標値との絶対誤差を最⼩化 ② オーバードーズ (OD) の最⼩化 ⽤量選択時に制約条件を課す • 推定確率に対する条件 • ⽤量レベルの漸増に制限 • DLT発⽣時に探索範囲を狭める条件 ⽤量選択(EI獲得関数) 反応の発現確率のベイズ推定 次の⽤量の決定 松井 (名古屋大) 機械学習による適応的実験計画 140 / 151

Slide 211

Slide 211 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 ベイズ最適化デザイン [Takahashi&Suzuki 2021] 様々な反応確率のシナリオで安定した性能 Contemporary Clinical Trials Communications 21 (2021) 100753 A. Takahashi and T. Suzuki Table 2 Operating characteristics under a typical target toxicity rate (✓ = 0.3) by each method and scenario (Selection probabilities of MTD determination (correct and overdose selections), average percentages of dose allocations at the MTD and overdoses, and average percentages of observed patients with DLT). Method Scenario MTD determination Dose allocation (%) Toxicity Scenario MTD determination Dose allocation (%) Toxicity Correct Overdose MTD Overdose (%) Correct Overdose MTD Overdose (%) CRM-p 1 0.519 0.163 27.6 10.5 21.7 6 0.886 0.114 78.5 21.5 41.3 CRM-l 0.535 0.173 28.3 11.2 22.0 0.884 0.116 78.2 21.9 41.3 PBP 0.512 0.212 29.5 17.2 24.1 0.887 0.113 81.5 18.6 41.6 WTW 0.614 0.173 36.5 13.5 24.1 0.545 0.455 32.8 67.2 47.0 BO 0.520 0.189 24.8 8.9 20.2 0.940 0.060 89.2 10.8 40.5 CRM-p 2 0.590 0.082 30.1 7.8 22.2 7 0.300 0.072 11.0 2.9 16.0 CRM-l 0.603 0.092 31.1 8.2 22.6 0.332 0.082 12.1 3.4 16.3 PBP 0.638 0.073 34.1 11.5 24.4 0.331 0.226 14.7 9.4 18.3 WTW 0.701 0.063 41.7 8.6 24.6 0.385 0.000 13.1 0.0 16.0 BO 0.595 0.097 26.4 6.7 20.6 0.329 0.147 11.3 4.2 15.8 CRM-p 3 0.120 0.000 3.9 0.0 15.7 8 0.609 0.334 44.2 33.6 29.8 CRM-l 0.138 0.000 4.5 0.0 15.9 0.608 0.335 43.8 33.9 29.8 PBP 0.376 0.000 11.8 0.0 17.2 0.627 0.290 43.6 33.1 29.5 WTW 0.000 0.000 0.0 0.0 16.1 0.572 0.387 37.8 43.2 32.0 BO 0.237 0.000 5.8 0.0 15.2 0.695 0.285 48.0 23.2 26.3 CRM-p 4 0.181 0.000 5.6 0.0 14.5 9 0.631 0.258 47.8 29.9 31.3 CRM-l 0.208 0.000 6.3 0.0 14.7 0.628 0.261 47.6 30.3 31.5 PBP 0.487 0.000 14.3 0.0 15.8 0.568 0.260 40.5 33.3 31.3 WTW 0.000 0.000 0.0 0.0 14.9 0.522 0.411 36.4 51.8 37.5 BO 0.312 0.000 7.6 0.0 14.2 0.658 0.232 46.8 19.1 27.4 CRM-p 5 0.662 0.338 59.6 40.4 35.1 10 0.570 0.296 36.3 21.2 24.8 CRM-l 0.660 0.340 59.0 41.0 35.2 0.553 0.319 36.0 22.3 25.0 PBP 0.679 0.321 61.1 38.9 35.1 0.479 0.352 32.7 28.1 26.1 WTW 0.315 0.685 21.9 78.1 42.2 0.537 0.368 37.0 30.5 27.6 BO 0.759 0.241 76.2 23.8 33.4 0.592 0.279 32.5 16.0 22.4 in scenarios 2, 3, and 4, but better or comparable results in the other scenarios. While the correct MTD selection under scenario 7 is compa- levels up to j*1, it would be reasonable to be able to estimate a toxicity probability at the lowest dose more accurately than the other doses. 松井 (名古屋大) 機械学習による適応的実験計画 141 / 151

Slide 212

Slide 212 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] アイデア 用量と毒性発現確率に単調な関係があるので,MTD における 毒性発現確率をしきい値として用量空間を 2 分割すれば境界 が MTD と推定できる 松井 (名古屋大) 機械学習による適応的実験計画 142 / 151

Slide 213

Slide 213 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] 試験デザイン: " k(d, d ) = σ2 f exp − |d − d |2 2ρ2 + ξ1(d = d ) ! 松井 (名古屋大) 機械学習による適応的実験計画 143 / 151

Slide 214

Slide 214 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] 獲得関数: 松井 (名古屋大) 機械学習による適応的実験計画 144 / 151

Slide 215

Slide 215 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] シミュレーションシナリオ: 松井 (名古屋大) 機械学習による適応的実験計画 145 / 151

Slide 216

Slide 216 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] シミュレーション結果 1: 正しく MTD を推定できた試験の割合 松井 (名古屋大) 機械学習による適応的実験計画 146 / 151

Slide 217

Slide 217 text

事例 v: 抗がん剤第 1 相試験における MTD の同定 能動的レベル集合推定デザイン [瀬野 + 2022] シミュレーション結果 2: 真の MTD より高用量を割付けた患者 の割合 松井 (名古屋大) 機械学習による適応的実験計画 147 / 151

Slide 218

Slide 218 text

まとめ ▶ 統計的実験計画の考え方 ▶ ブラックボックス関数のベイズモデリング • ベイズ線形回帰 • ガウス過程回帰 ▶ ベイズ最適化の基本概念 • ベイズ最適化の基本アルゴリズム • 獲得関数 ▶ レベル集合推定のための能動学習 ▶ 制約付き, コスト考慮型, 多目的問題に対するベイズ最適 化, ベイズ最適化のための転移学習 ▶ 応用事例紹介 松井 (名古屋大) 機械学習による適応的実験計画 148 / 151

Slide 219

Slide 219 text

References [1] James S Bergstra, Rémi Bardenet, Yoshua Bengio, and Balázs Kégl. Algorithms for hyper-parameter optimization. NeurIPS, 2011. [2] J Bernardo, MJ Bayarri, JO Berger, AP Dawid, D Heckerman, AFM Smith, and M West. Optimization under unknown constraints. Bayesian Statistics, 9(9):229, 2011. [3] David Eriksson, Michael Pearce, Jacob Gardner, Ryan D Turner, and Matthias Poloczek. Scalable global optimization via local bayesian optimization. NeurIPS, 2019. [4] Alexander IJ Forrester, András Sóbester, and Andy J Keane. Multi-fidelity optimization via surrogate modelling. Proceedings of the royal society a: mathematical, physical and engineering sciences, 463(2088):3251–3269, 2007. [5] Jacob R Gardner, Matt J Kusner, Zhixiang Eddie Xu, Kilian Q Weinberger, and John P Cunningham. Bayesian optimization with inequality constraints. ICML, 2014. [6] Roman Garnett. Bayesian Optimization. Cambridge University Press, 2022. in preparation. [7] Alkis Gotovos, Nathalie Casati, Gregory Hitz, and Andreas Krause. Active learning for level set estimation. In IJCAI, pages 1344–1350, 2013. [8] Robert B Gramacy, Genetha A Gray, Sébastien Le Digabel, Herbert KH Lee, Pritam Ranjan, Garth Wells, and Stefan M Wild. Modeling an augmented lagrangian for blackbox constrained optimization. Technometrics, 58(1):1–11, 2016. [9] Daniel Hernández-Lobato, Jose Hernandez-Lobato, Amar Shah, and Ryan Adams. Predictive entropy search for multi-objective bayesian optimization. 2016. [10] José Miguel Hernández-Lobato, Michael Gelbart, Matthew Hoffman, Ryan Adams, and Zoubin Ghahramani. Predictive entropy search for bayesian optimization with unknown constraints. ICML, 2015. 松井 (名古屋大) 機械学習による適応的実験計画 149 / 151

Slide 220

Slide 220 text

[11] José Miguel Hernández-Lobato, Michael A Gelbart, Ryan P Adams, Matthew W Hoffman, and Zoubin Ghahramani. A general framework for constrained bayesian optimization using information-based search. The Journal of Machine Learning Research, 17(1):5549–5601, 2016. [12] José Miguel Hernández-Lobato, Matthew W Hoffman, and Zoubin Ghahramani. Predictive entropy search for efficient global optimization of black-box functions. NeurIPS, 2014. [13] José Miguel Hernández-Lobato, James Requeima, Edward O Pyzer-Knapp, and Alán Aspuru-Guzik. Parallel and distributed thompson sampling for large-scale accelerated exploration of chemical space. ICML, 2020. [14] Shota Hozumi, Kentaro Kutsukake, Kota Matsui, Syunya Kusakawa, Toru Ujihara, and Ichiro Takeuchi. Adaptive defective area identification in material surface using active transfer learning-based level set estimation. arXiv preprint arXiv:2304.01404, 2023. [15] Kenta Kanamori, Kazuaki Toyoura, Junya Honda, Kazuki Hattori, Atsuto Seko, Masayuki Karasuyama, Kazuki Shitara, Motoki Shiga, Akihide Kuwabara, and Ichiro Takeuchi. Exploring a potential energy surface by machine learning for characterizing atomic transport. Physical Review B, 97(12):125124, 2018. [16] Kirthevasan Kandasamy, Jeff Schneider, and Barnabás Póczos. High dimensional bayesian optimisation and bandits via additive models. ICML, 2015. [17] Johannes Kirschner, Mojmir Mutny, Nicole Hiller, Rasmus Ischebeck, and Andreas Krause. Adaptive and safe bayesian optimization in high dimensions via one-dimensional subspaces. ICML, 2019. [18] Loic Le Gratiet and Josselin Garnier. Recursive co-kriging model for design of computer experiments with multiple levels of fidelity. International Journal for Uncertainty Quantification, 4(5), 2014. [19] Alonso Marco, Felix Berkenkamp, Philipp Hennig, Angela P Schoellig, Andreas Krause, Stefan Schaal, and Sebastian Trimpe. Virtual vs. real: Trading off simulations and physical experiments in reinforcement learning with bayesian optimization. In 2017 IEEE International Conference on Robotics and Automation (ICRA), pages 1557–1563. IEEE, 2017. [20] Kota Matsui, Shunya Kusakawa, Keisuke Ando, Kentaro Kutsukake, Toru Ujihara, and Ichiro Takeuchi. Bayesian active learning for structured output design. arXiv preprint arXiv:1911.03671, 2019. 松井 (名古屋大) 機械学習による適応的実験計画 150 / 151

Slide 221

Slide 221 text

[21] Keiichi Osada, Kentaro Kutsukake, Jun Yamamoto, Shigeo Yamashita, Takashi Kodera, Yuta Nagai, Tomoyuki Horikawa, Kota Matsui, Ichiro Takeuchi, and Toru Ujihara. Adaptive bayesian optimization for epitaxial growth of si thin films under various constraints. Materials Today Communications, 25:101538, 2020. [22] Carl Edward Rasmussen and Christopher KI Williams. Gaussian process for machine learning. MIT press, 2006. [23] Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P Adams, and Nando De Freitas. Taking the human out of the loop: A review of bayesian optimization. Proceedings of the IEEE, 104(1):148–175, 2016. [24] Jasper Snoek. Bayesian optimization and semiparametric models with applications to assistive technology. PhD thesis, Citeseer, 2013. [25] Jasper Snoek, Hugo Larochelle, and Ryan P Adams. Practical bayesian optimization of machine learning algorithms. NeurIPS, 2012. [26] Shinya Suzuki, Shion Takeno, Tomoyuki Tamura, Kazuki Shitara, and Masayuki Karasuyama. Multi-objective bayesian optimization using pareto-frontier entropy. ICML, 2020. [27] Ami Takahashi and Taiji Suzuki. Bayesian optimization for estimating the maximum tolerated dose in phase i clinical trials. Contemporary clinical trials communications, 21:100753, 2021. [28] Kazuaki Toyoura, Daisuke Hirano, Atsuto Seko, Motoki Shiga, Akihide Kuwabara, Masayuki Karasuyama, Kazuki Shitara, and Ichiro Takeuchi. Machine-learning-based selective sampling procedure for identifying the low-energy region in a potential energy surface: A case study on proton conduction in oxides. Physical Review B, 93(5):054112, 2016. [29] Zi Wang and Stefanie Jegelka. Max-value entropy search for efficient bayesian optimization. ICML, 2017. [30] Ziyu Wang, Masrour Zoghi, Frank Hutter, David Matheson, and Nando De Freitas. Bayesian optimization in high dimensions via random embeddings. IJCAI, 2013. [31] Marcela Zuluaga, Guillaume Sergent, Andreas Krause, and Markus Püschel. Active learning for multi-objective optimization. International Conference on Machine Learning, 2013. [32] 持橋大地, 大羽成征. ガウス過程と機械学習. 講談社, 2019. [33] 須山敦志. ベイズ推論による機械学習入門. 講談社, 2017. [34] 福水健次. カーネル法入門. 朝倉書店, 2010. [35] 穂積祥太, 松井孝太, 沓掛健太朗, 宇治原徹, 竹内一郎. Level set estimation を用いた太陽電池用シリコンのレッ ドゾーンの効率的推定. In 第 33 回人工知能学会 (JSAI) 全国大会, 2019. 松井 (名古屋大) 機械学習による適応的実験計画 151 / 151