Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Practical Bayesian optimization of machine learning algorithms

S.Shota
June 15, 2016

論文紹介:Practical Bayesian optimization of machine learning algorithms

2016/06/15の論文紹介ゼミで使用した資料です.
論文:J. Snoek, H. Larochelle, and R. P. Adams, "Practical Bayesian optimization of machine learning algorithms.", Proceedings of Advances in Neural Information Processing Systems 25 (NIPS 2012), pp. 2960–2968 (2012)

https://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf

S.Shota

June 15, 2016
Tweet

More Decks by S.Shota

Other Decks in Technology

Transcript

  1. ⽂献紹介 J. Snoek, H. Larochelle, and R. P. Adams Practical

    Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 ⻫藤 翔汰 2016年6⽉15⽇ 1
  2. ◆ • J. Snoek, H. Larochelle, and R. P. Adams

    Practical Bayesian optimization of machine learning algorithms. In Proc. of NIPSʼ12, pp. 2960–2968 • 機械学習のハイパーパラメータ最適化における 先⾏研究の⼀つであるため • 数ある最適化⼿法の中でBayesian optimization がよいとされる理由が気になったため 2 ⽂献情報・この論⽂を選んだ理由
  3. ◆ • 機械学習のハイパーパラメータは、専⾨家が経 験的に得た値を⽤いるか、全数探索を⾏うこと によって決定 • Gaussian Process(GP)によるサンプリングを⽤ いたBayesian optimizationを使い、ハイパーパ

    ラメータを⾃動的に決定することを提案 • いくつかのタスクで実験を⾏うことでBayesian optimizationによって得たハイパーパラメータ の有効性を⽰す 3 概要
  4. ◆ 4 問題点とアプローチ • ハイパーパラメータの設定は⾯倒 • 従来のハイパーパラメータ最適化は事前に定め た値の組み合わせ(Grid Search)であり、柔軟 さに⽋いている

    • Black Box Optimizationで⾼い性能を⽰してい たBayesian Optimizationを使⽤ • unknown functionはGPを⽤いて推定 • GPによるunknown functionの評価基準として Excepted Improvement(EI)や Upper Confidence Bound(UCB)などを使⽤ 従来研究における問題点 アプローチ
  5. ◆ 5 Bayesian Optimization with Gaussian Process Priors (Sect. 2)

    ⼊⼒ 出⼒ = () Black-Box • ∈ (:パラメータの組の集合) • ∈ ℝ* (:パラメータの数) • : → ℝ • ⼊⼒に対する出⼒を観測し、を推定する • しかし、観測の回数は出来る限り少なくしたい • 次回の観測に効果的な⼊⼒を⽰す基準として Acquisition functionを⽤いる
  6. ◆ • n番⽬の⼊⼒/ , 出⼒/ = (/ ) • {/

    ∈ }/45 6 はN次元の多次元正規分布に従う • GPで推定されたの平均関数: → ℝ • GPで推定されたの共分散関数: × → ℝ 6 Gaussian Processes(Sect. 2.1)
  7. ◆ • ⼊⼒と出⼒の組{/ , / }/45 6 • / ~(

    / , ) (は測定誤差) • Acquisition function : → ℝ> • 次の⼊⼒は?@AB = argmax で決定 • Acquisition functionは様々 7 Acquisition Functions for Bayesian Optimization (Sect. 2.2)
  8. ◆ • 共分散関数について、よく使⽤されるのは Automatic Relevance Determination(ARD) squared exponential kernel •

    しかし、実⽤的な最適化問題ではARD Matérn 5/2 kernelのほうが適している 8 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)
  9. ◆ • GPのハイパーパラメータはD+3個 o スケールパラメータ ( ∈ ℝ*) o Covariance

    amplitude I o 測定誤差 o Constant mean • 機械学習のハイパーパラメータのAcquisition functionの期待値を求める • 期待値âが最⼤になる⼊⼒が, パラメータすべ てを最適化する確率が⾼い 9 Covariance Functions and Treatment of Covariance Hyperparameters (Sect. 3.1)
  10. ◆ • 様々な機械学習のタスクにおいて、提案⼿法を ⽤いたハイパーパラメータ最適化を⾏う • minL / を⾏い、以下を計測 o 関数の最⼩値

    vs. 関数の評価値 o 関数の最⼩値 vs. 経過時間 • GP EI MCMC (marginalize) • GP EI Opt • GP EI per Second • Nx GP EI MCMC(marginalize+parallelized) 14 Empirical Analyses(Sect. 4)
  11. ◆ • GP EI MCMC vs. GP EI Opt o

    MCMCのほうが少ない評価回数で最⼩化できている o 最⼩化にかかる時間もMCMCのほうが短い • GP EI MCMC vs. Nx GP EI MCMC o 評価回数は並列化しないほうが少なくて済む o かかる時間は並列化したほうが短い • GP EI Opt vs. GP EI Opt per Second o Opt per Secondのほうが少ない評価回数で最⼩化で きている o 最⼩化にかかる時間もOpt per Secondのほうが短い 15 実験(Sect. 4.1~4.4)