論文紹介：Practical Bayesian optimization of machine learning algorithms

Slide 1

Slide 1 text

⽂献紹介 J. Snoek, H. Larochelle, and R. P. Adams Practical Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 ⻫藤翔汰 2016年6⽉15⽇ 1

Slide 2

Slide 2 text

◆ • J. Snoek, H. Larochelle, and R. P. Adams Practical Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 • 機械学習のハイパーパラメータ最適化における先⾏研究の⼀つであるため • 数ある最適化⼿法の中でBayesian optimization がよいとされる理由が気になったため 2 ⽂献情報・この論⽂を選んだ理由

Slide 3

Slide 3 text

◆ • 機械学習のハイパーパラメータは、専⾨家が経験的に得た値を⽤いるか、全数探索を⾏うことによって決定 • Gaussian Process(GP)によるサンプリングを⽤いたBayesian optimizationを使い、ハイパーパラメータを⾃動的に決定することを提案 • いくつかのタスクで実験を⾏うことでBayesian optimizationによって得たハイパーパラメータの有効性を⽰す 3 概要

Slide 4

Slide 4 text

◆ 4 問題点とアプローチ • ハイパーパラメータの設定は⾯倒 • 従来のハイパーパラメータ最適化は事前に定めた値の組み合わせ(Grid Search)であり、柔軟さに⽋いている • Black Box Optimizationで⾼い性能を⽰していたBayesian Optimizationを使⽤ • unknown functionはGPを⽤いて推定 • GPによるunknown functionの評価基準として Excepted Improvement(EI)や Upper Confidence Bound(UCB)などを使⽤従来研究における問題点アプローチ

Slide 5

Slide 5 text

◆ 5 Bayesian Optimization with Gaussian Process Priors (Sect. 2) ⼊⼒出⼒ = () Black-Box • ∈ (：パラメータの組の集合) • ∈ ℝ* (：パラメータの数) • : → ℝ • ⼊⼒に対する出⼒を観測し、を推定する • しかし、観測の回数は出来る限り少なくしたい • 次回の観測に効果的な⼊⼒を⽰す基準として Acquisition functionを⽤いる

Slide 6

Slide 6 text

◆ • n番⽬の⼊⼒/ , 出⼒/ = (/ ) • {/ ∈ }/45 6 はN次元の多次元正規分布に従う • GPで推定されたの平均関数: → ℝ • GPで推定されたの共分散関数: × → ℝ 6 Gaussian Processes(Sect. 2.1)

Slide 7

Slide 7 text

◆ • ⼊⼒と出⼒の組{/ , / }/45 6 • / ~( / , ) (は測定誤差） • Acquisition function : → ℝ> • 次の⼊⼒は?@AB = argmax で決定 • Acquisition functionは様々 7 Acquisition Functions for Bayesian Optimization (Sect. 2.2)

Slide 8

Slide 8 text

◆ • 共分散関数について、よく使⽤されるのは Automatic Relevance Determination(ARD) squared exponential kernel • しかし、実⽤的な最適化問題ではARD Matérn 5/2 kernelのほうが適している 8 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 9

Slide 9 text

◆ • GPのハイパーパラメータはD+3個 o スケールパラメータ ( ∈ ℝ*) o Covariance amplitude I o 測定誤差 o Constant mean • 機械学習のハイパーパラメータのAcquisition functionの期待値を求める • 期待値âが最⼤になる⼊⼒が, パラメータすべてを最適化する確率が⾼い 9 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 10

Slide 10 text

◆ 10 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)

Slide 11

Slide 11 text

◆ • パラメータによって、探索空間の⼤きさは異なることから評価にかかる時間も異なる • 最適化にかかる時間も評価基準として加えるため、expected improvement per secondを新たに提案 • この評価基準により、評価にかかる時間は全体で短くなる 11 Modeling Cost(Sect. 3.2)

Slide 12

Slide 12 text

◆ • モンテカルロ法を使うことでBayesian Optimizationは並列化することができる • N回の観測を終えたあと、J回の観測を並列に⾏ったときのAcquisition function • モンテカルロ法による並列化は、実⽤の上で⾼い効果を⽰す 12 Monte Carlo Acquisition for Parallelizing Bayesian Optimization (Sect. 3.3)

Slide 13

Slide 13 text

◆ 13 Monte Carlo Acquisition for Parallelizing Bayesian Optimization (Sect. 3.3)

Slide 14

Slide 14 text

◆ • 様々な機械学習のタスクにおいて、提案⼿法を⽤いたハイパーパラメータ最適化を⾏う • minL / を⾏い、以下を計測 o 関数の最⼩値 vs. 関数の評価値 o 関数の最⼩値 vs. 経過時間 • GP EI MCMC (marginalize) • GP EI Opt • GP EI per Second • Nx GP EI MCMC(marginalize+parallelized) 14 Empirical Analyses(Sect. 4)

Slide 15

Slide 15 text

◆ • GP EI MCMC vs. GP EI Opt o MCMCのほうが少ない評価回数で最⼩化できている o 最⼩化にかかる時間もMCMCのほうが短い • GP EI MCMC vs. Nx GP EI MCMC o 評価回数は並列化しないほうが少なくて済む o かかる時間は並列化したほうが短い • GP EI Opt vs. GP EI Opt per Second o Opt per Secondのほうが少ない評価回数で最⼩化できている o 最⼩化にかかる時間もOpt per Secondのほうが短い 15 実験(Sect. 4.1~4.4)

Slide 16

Slide 16 text

◆ • 機械学習のハイパーパラメータ選択にBayesian Optimizationを使うことを提案 • さらに、EIのためのベイズ的な取り扱いと並列化するためのアルゴリズムを導⼊ • 機械学習の各タスクにおいて、提案⼿法が効果的であることを⽰した • CIFAR-10データセットにおいて、⼈間の専⾨家設定したものよりも3%以上優れた結果を得た 16 Conclusion