Optunaの紹介 - 2023/07/05 W&B Launch-Optuna Webinar

1 2023/07/05 W&B Launch-Optuna Webinar Yunzhuo Wang Optunaの紹介

2 自己紹介 YUNZHUO WANG Preferred Networks, Inc. Engineer GitHub: @contramundum53
Twitter: @contramundum2 Optuna 開発者

3 ハイパーパラメータ最適化はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了!
Accuracy: 0.6 Trial 1 小さくしたらどうかな ? learning_rate: 0.01 num_units: 20 … 完了! Accuracy: 0.5 Trial 2 うーん、次は少し大きくして... learning_rate: 0.05 num_units: 50 … 完了! Accuracy: 0.8 Trial 3

4 はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了! Accuracy:
0.6 Trial 1 小さくしたらどうかな ? learning_rate: 0.01 num_units: 20 … 完了! Accuracy: 0.5 Trial 2 うーん、次は少し大きくして... learning_rate: 0.05 num_units: 50 … 完了! Accuracy: 0.8 Trial 3 オペレーションのコスト１回に数時間〜数日ハイパーパラメータ最適化

5 ハイパーパラメータ最適化の自動化はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了!
Accuracy: 0.6 Trial 1 小さくしたらどうかな ? learning_rate: 0.01 num_units: 20 … 完了! Accuracy: 0.5 Trial 2 うーん、次は少し大きくして... learning_rate: 0.05 num_units: 50 … 完了! Accuracy: 0.8 Trial 3

6 ハイパーパラメータ最適化とは Trial iではこの値で試そう learning_rate: 0.1 num_units: 30 …
完了! Accuracy: 0.6 Trial i 定式化：ブラックボックス関数 y = f(x) の最適化精度などハイパーパラメータの組特徴： • 目的関数y = f(x) の値の計算は高コスト • 目的関数値の観測にはノイズが乗る • 目的関数の微分は計算できない

7 ハイパーパラメータ最適化のアルゴリズム考えられるアプローチ: • 最適化履歴を利用しないもの ◦ グリッドサーチ ◦ ランダムサーチ •
最適化履歴を利用するもの ◦ ベイズ最適化 (Optunaのデフォルト) ◦ 進化計算 Trial iではこの値で試そう learning_rate: 0.1 num_units: 30 … 完了! Accuracy: 0.6 Trial i

8 ハイパーパラメータ最適化のアルゴリズムランダムサーチベイズ最適化

9 例: ランダムサーチ v.s. ベイズ最適化 Gradient Boosting のデフォルト値 Better

10 例: ランダムサーチ v.s. ベイズ最適化ランダムサーチ Better Gradient Boosting のデフォルト値

11 例: ランダムサーチ v.s. ベイズ最適化ベイズ最適化 Better Gradient Boosting のデフォルト値
ランダムサーチ

12 ベイズ最適化とは各ステップにおいて、 • 目的関数の確率モデルの更新 • 獲得関数が高い点を次に試すを繰り返す。詳細は[Shahriari+ 2016]を参照
[Shahriari+ 2016] Taking the Human Out of the Loop: A Review of bayesian Optimization, B. Shahriari and et al. Proceedings of the IEEE, 104(1):148-175, 2016 画像: https://en.wikipedia.org/wiki/Bayesian_optimization#/media/File:GpParBayesAnimationSmall.gif ※ Optunaのデフォルトアルゴリズムとは違う

13 Optunaのデフォルト: Tree-structured Parzen Estimator (TPESampler) 参考: Bergstra, J., Bardenet,
R., Bengio, Y., & Kégl, B. (2011). Algorithms for hyper-parameter optimization. Advances in neural information processing systems, 24. 1. 過去に観測した点を上位γ%(low)とそれ以外(high)に分ける 2. lowとhighについてそれぞれカーネル密度推定(Parzen estimator)で確率分布を推定する 3. lowに入る条件付き確率を計算し、それが最も高いハイパラを試す 👍 点の順位しか見ず、安定して動く 👎 局所解、次元が高すぎると厳しい

14 参考: https://bayesoptbook.com/ 画像: https://en.wikipedia.org/wiki/Bayesian_optimization#/media/File:GpParBayesAnimationSmall.gif 👍 (ガウス過程のカーネルが適切なら) 少ない観測で効率よく最適化できる 👎 ガウス過程自身のハイパラに敏感
計算量が大きい、次元が高いと厳しい Optunaにある他のベイズ最適化: ガウス過程 (BoTorchSampler) 1. ガウス過程でモデル化、観測点を回帰 2. 期待改善量(Expected Improvement) を計算し、最も高いハイパラを試す

15 参考: https://arxiv.org/abs/1604.00772 👍 次元が高い or 評価回数が多く取れる時に強い点の順位しか見てなくて安定する 👎
局所解にはまる Optunaにある進化計算: CMA-ES (CmaEsSampler) 1. 正規分布に従って1世代分のハイパラの集合を生成 2. その世代での目的関数の順位に応じて、正規分布を更新

16 基本的な使い方: f(x) = x**2 を最小化したいなら... import optuna def objective(trial):
x = trial.suggest_float("x", -100, 100) return x ** 2 study = optuna.create_study() study.optimize(objective, n_trials=100)

17 基本的な使い方: f(x) = x**2 を最小化したいなら... import optuna def objective(trial):
x = trial.suggest_float("x", -100, 100) return x ** 2 study = optuna.create_study() study.optimize(objective, n_trials=100) Trial: 1回の評価 Study: 一連の最適化

18 実数値 [a, b] → Trial.suggest_float(“x”, a, b) • 対数変換した空間からサンプル:
Trial.suggest_float(“x”, a, b, log=True) • q間隔で離散的にサンプル: Trial.suggest_float(“x”, a, b, step=q) 整数値 a, a+1, …, b → Trial.suggest_int(“x”, a, b) • 対数変換した空間からサンプル: Trial.suggest_int(“x”, a, b, log=True) • q間隔でサンプル: Trial.suggest_int(“x”, a, b, step=q) カテゴリカルな値 {a, b, c, d} → Trial.suggest_categorical(“x”, (a, b, c, d)) 基本的なTrialの使い方

19 一歩進んだ使い方 Visualization 分散並列最適化枝刈り (早期終了)

21 分散並列最適化 Trial 1 Trial 2 Trial 3 Trial 4
Trial 5 Trial 6 並行して実行

22 分散並列最適化の方法ファイルとStudy名を指定各ワーカーでスクリプトを実行 study = create_study( storage=JournalStorage( JournalFileStorage( "./example.optuna"
)), study_name="example_study", load_if_exists=True, ) study.optimize(objective, n_trials=100) $ python optimize.py & $ python optimize.py & ... Studyの実体をファイルに置く Studyに名前をつける

24 枝刈り (早期終了) • 見込みの薄いTrialの訓練を途中で打ち切る • 同じepoch消費量で、試せるパラメータの数が飛躍的に増大

25 枝刈り (早期終了) の効果詳細は OptunaのベンチマークWiki 1budget=100step 同じstep消費量で、より速くより良いハイパーパラメータを発見
Better 枝刈りなし枝刈りあり

27 Visualization Optunaには豊富な可視化関数が用意されている最適化後のstudyを利用するだけで、簡単に分析が可能

28 Optuna Dashboard Webインターフェイスから簡単に可視化

29 Optunaの解説本が出ました！ https://www.amazon.co.jp/Optunaによるブラックボックス最適化-佐野-正太郎 /dp/4274230104 アルゴリズムの詳細などについても解説しているので、興味あればぜひ！

30 日本語チュートリアル: bit.ly/optuna-mnist-tutorial $ pip install optuna

Optunaの紹介 - 2023/07/05 W&B Launch-Optuna Webinar

Optunaの紹介 - 2023/07/05 W&B Launch-Optuna Webinar

Preferred Networks PRO

More Decks by Preferred Networks

Other Decks in Technology

Featured

Transcript

1 2023/07/05 W&B Launch-Optuna Webinar Yunzhuo Wang Optunaの紹介

2 自己紹介 YUNZHUO WANG Preferred Networks, Inc. Engineer GitHub: @contramundum53

3 ハイパーパラメータ最適化はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了!

4 はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了! Accuracy:

5 ハイパーパラメータ最適化の自動化はじめにこの値で試そう learning_rate: 0.1 num_units: 30 … 完了!

6 ハイパーパラメータ最適化とは Trial iではこの値で試そう learning_rate: 0.1 num_units: 30 …

7 ハイパーパラメータ最適化のアルゴリズム考えられるアプローチ: • 最適化履歴を利用しないもの ◦ グリッドサーチ ◦ ランダムサーチ •

8 ハイパーパラメータ最適化のアルゴリズムランダムサーチベイズ最適化

9 例: ランダムサーチ v.s. ベイズ最適化 Gradient Boosting のデフォルト値 Better

10 例: ランダムサーチ v.s. ベイズ最適化ランダムサーチ Better Gradient Boosting のデフォルト値

11 例: ランダムサーチ v.s. ベイズ最適化ベイズ最適化 Better Gradient Boosting のデフォルト値

12 ベイズ最適化とは各ステップにおいて、 • 目的関数の確率モデルの更新 • 獲得関数が高い点を次に試すを繰り返す。詳細は[Shahriari+ 2016]を参照

13 Optunaのデフォルト: Tree-structured Parzen Estimator (TPESampler) 参考: Bergstra, J., Bardenet,

14 参考: https://bayesoptbook.com/ 画像: https://en.wikipedia.org/wiki/Bayesian_optimization#/media/File:GpParBayesAnimationSmall.gif 👍 (ガウス過程のカーネルが適切なら) 少ない観測で効率よく最適化できる 👎 ガウス過程自身のハイパラに敏感

15 参考: https://arxiv.org/abs/1604.00772 👍 次元が高い or 評価回数が多く取れる時に強い点の順位しか見てなくて安定する 👎

16 基本的な使い方: f(x) = x**2 を最小化したいなら... import optuna def objective(trial):

17 基本的な使い方: f(x) = x**2 を最小化したいなら... import optuna def objective(trial):

18 実数値 [a, b] → Trial.suggest_ﬂoat(“x”, a, b) • 対数変換した空間からサンプル:

19 一歩進んだ使い方 Visualization 分散並列最適化枝刈り (早期終了)

20 一歩進んだ使い方 Visualization 分散並列最適化枝刈り (早期終了)

21 分散並列最適化 Trial 1 Trial 2 Trial 3 Trial 4

22 分散並列最適化の方法ファイルとStudy名を指定各ワーカーでスクリプトを実行 study = create_study( storage=JournalStorage( JournalFileStorage( "./example.optuna"

23 一歩進んだ使い方 Visualization 分散並列最適化枝刈り (早期終了)

24 枝刈り (早期終了) • 見込みの薄いTrialの訓練を途中で打ち切る • 同じepoch消費量で、試せるパラメータの数が飛躍的に増大

25 枝刈り (早期終了) の効果詳細は OptunaのベンチマークWiki 1budget=100step 同じstep消費量で、より速くより良いハイパーパラメータを発見

26 一歩進んだ使い方 Visualization 分散並列最適化枝刈り (早期終了)

27 Visualization Optunaには豊富な可視化関数が用意されている最適化後のstudyを利用するだけで、簡単に分析が可能

28 Optuna Dashboard Webインターフェイスから簡単に可視化

29 Optunaの解説本が出ました！ https://www.amazon.co.jp/Optunaによるブラックボックス最適化-佐野-正太郎 /dp/4274230104 アルゴリズムの詳細などについても解説しているので、興味あればぜひ！

30 日本語チュートリアル: bit.ly/optuna-mnist-tutorial $ pip install optuna

31