Slide 1

Slide 1 text

⽂献紹介 J. Snoek, H. Larochelle, and R. P. Adams Practical Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 ⻫藤 翔汰 2016年6⽉15⽇ 1

Slide 2

Slide 2 text

◆ • J. Snoek, H. Larochelle, and R. P. Adams Practical Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 • 機械学習のハイパーパラメータ最適化における 先⾏研究の⼀つであるため • 数ある最適化⼿法の中でBayesian optimization がよいとされる理由が気になったため 2 ⽂献情報・この論⽂を選んだ理由

Slide 3

Slide 3 text

◆ • 機械学習のハイパーパラメータは、専⾨家が経 験的に得た値を⽤いるか、全数探索を⾏うこと によって決定 • Gaussian Process(GP)によるサンプリングを⽤ いたBayesian optimizationを使い、ハイパーパ ラメータを⾃動的に決定することを提案 • いくつかのタスクで実験を⾏うことでBayesian optimizationによって得たハイパーパラメータ の有効性を⽰す 3 概要

Slide 4

Slide 4 text

◆ 4 問題点とアプローチ • ハイパーパラメータの設定は⾯倒 • 従来のハイパーパラメータ最適化は事前に定め た値の組み合わせ(Grid Search)であり、柔軟 さに⽋いている • Black Box Optimizationで⾼い性能を⽰してい たBayesian Optimizationを使⽤ • unknown functionはGPを⽤いて推定 • GPによるunknown functionの評価基準として Excepted Improvement(EI)や Upper Confidence Bound(UCB)などを使⽤ 従来研究における問題点 アプローチ

Slide 5

Slide 5 text

◆ 5 Bayesian Optimization with Gaussian Process Priors (Sect. 2) ⼊⼒ 出⼒ = () Black-Box • ∈ (:パラメータの組の集合) • ∈ ℝ* (:パラメータの数) • : → ℝ • ⼊⼒に対する出⼒を観測し、を推定する • しかし、観測の回数は出来る限り少なくしたい • 次回の観測に効果的な⼊⼒を⽰す基準として Acquisition functionを⽤いる

Slide 6

Slide 6 text

◆ • n番⽬の⼊⼒/ , 出⼒/ = (/ ) • {/ ∈ }/45 6 はN次元の多次元正規分布に従う • GPで推定されたの平均関数: → ℝ • GPで推定されたの共分散関数: × → ℝ 6 Gaussian Processes(Sect. 2.1)

Slide 7

Slide 7 text

◆ • ⼊⼒と出⼒の組{/ , / }/45 6 • / ~( / , ) (は測定誤差) • Acquisition function : → ℝ> • 次の⼊⼒は?@AB = argmax で決定 • Acquisition functionは様々 7 Acquisition Functions for Bayesian Optimization (Sect. 2.2)

Slide 8

Slide 8 text

◆ • 共分散関数について、よく使⽤されるのは Automatic Relevance Determination(ARD) squared exponential kernel • しかし、実⽤的な最適化問題ではARD Matérn 5/2 kernelのほうが適している 8 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 9

Slide 9 text

◆ • GPのハイパーパラメータはD+3個 o スケールパラメータ ( ∈ ℝ*) o Covariance amplitude I o 測定誤差 o Constant mean • 機械学習のハイパーパラメータのAcquisition functionの期待値を求める • 期待値âが最⼤になる⼊⼒が, パラメータすべ てを最適化する確率が⾼い 9 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 10

Slide 10 text

◆ 10 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 11

Slide 11 text

◆ • パラメータによって、探索空間の⼤きさは異な ることから評価にかかる時間も異なる • 最適化にかかる時間も評価基準として加えるた め、expected improvement per secondを新 たに提案 • この評価基準により、評価にかかる時間は全体 で短くなる 11 Modeling Cost(Sect. 3.2)

Slide 12

Slide 12 text

◆ • モンテカルロ法を使うことでBayesian Optimizationは並列化することができる • N回の観測を終えたあと、J回の観測を並列に ⾏ったときのAcquisition function • モンテカルロ法による並列化は、実⽤の上で⾼ い効果を⽰す 12 Monte Carlo Acquisition for Parallelizing Bayesian Optimization (Sect. 3.3)

Slide 13

Slide 13 text

◆ 13 Monte Carlo Acquisition for Parallelizing Bayesian Optimization (Sect. 3.3)

Slide 14

Slide 14 text

◆ • 様々な機械学習のタスクにおいて、提案⼿法を ⽤いたハイパーパラメータ最適化を⾏う • minL / を⾏い、以下を計測 o 関数の最⼩値 vs. 関数の評価値 o 関数の最⼩値 vs. 経過時間 • GP EI MCMC (marginalize) • GP EI Opt • GP EI per Second • Nx GP EI MCMC(marginalize+parallelized) 14 Empirical Analyses(Sect. 4)

Slide 15

Slide 15 text

◆ • GP EI MCMC vs. GP EI Opt o MCMCのほうが少ない評価回数で最⼩化できている o 最⼩化にかかる時間もMCMCのほうが短い • GP EI MCMC vs. Nx GP EI MCMC o 評価回数は並列化しないほうが少なくて済む o かかる時間は並列化したほうが短い • GP EI Opt vs. GP EI Opt per Second o Opt per Secondのほうが少ない評価回数で最⼩化で きている o 最⼩化にかかる時間もOpt per Secondのほうが短い 15 実験(Sect. 4.1~4.4)

Slide 16

Slide 16 text

◆ • 機械学習のハイパーパラメータ選択にBayesian Optimizationを使うことを提案 • さらに、EIのためのベイズ的な取り扱いと並列 化するためのアルゴリズムを導⼊ • 機械学習の各タスクにおいて、提案⼿法が効果 的であることを⽰した • CIFAR-10データセットにおいて、⼈間の専⾨家 設定したものよりも3%以上優れた結果を得た 16 Conclusion