Slide 1

Slide 1 text

NGBoost: Natural Gradient Boosting for Probabilistic Prediction 1 SOK@LiberalArtsCommunity Copyright @ Liberal Arts Community. All Rights Reserved.

Slide 2

Slide 2 text

Copyright @ Liberal Arts Community. All Rights Reserved. 目次 • 自己紹介 • 論文概観 • 論文詳細 • Introduction • Proper Scoring Rules • The Generalized Natural Gradient • Gradient Boosting • NGBoost • まとめ • 参考文献 • 宣伝 2

Slide 3

Slide 3 text

自己紹介 3 Copyright @ Liberal Arts Community. All Rights Reserved.

Slide 4

Slide 4 text

Copyright @ Liberal Arts Community. All Rights Reserved. 自己紹介 twitter: @sokei14 東京大学大学院数理科学研究科修士課程修了。専門は複素幾何学。 その後、メガバンクでクオンツとして市場リスク管理業務に従事。 現在はベンチャーでAI融資審査モデルの開発に携わる。AIで金融サービスの 変革を夢見る機械学習エンジニア。 4

Slide 5

Slide 5 text

論文概観 5 Copyright @ Liberal Arts Community. All Rights Reserved.

Slide 6

Slide 6 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文概観 Abstract 6 • 不確実性の予測は重要だが,これまでの勾配ブースティングで はこれに対応できていない. • そのため,不確実性の予測に対応した勾配ブースティングアル ゴリズムNGBoostを提案する. • NGBoostは3つで構成される. • base learner • probability distribution • scoring rule

Slide 7

Slide 7 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文概観 構成は次の通りです. 1. Introduction 2. Natural Gradient Boosting 3. Experiments 4. Related Work 5. Conclusions 2を中心に解説します. 7

Slide 8

Slide 8 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文概観 2.1 Proper Scoring Rules ➢スコア関数の基本事項について解説 ➢スコア関数は予測した確率分布の精度として,コスト関数に使われる 2.2 The Generalized Natural Gradient ➢自然勾配法について解説 ➢自然勾配法をKLダイバージェンス以外に拡張した一般自然勾配法についての解説 2.3 Gradient Boosting ➢勾配Boostingについての解説 ➢これまでの勾配Boostingでの問題点等についてもまとめられている 2.4 NGBoost: Natural Gradient Boosting ➢メイン部分.NGBoostのアルゴリズムについて解説 2.5 Qualitative Analysis and Discussion ➢従来の勾配BoostingとNGBoostの比較まとめ 8

Slide 9

Slide 9 text

論文詳細 9 Copyright @ Liberal Arts Community. All Rights Reserved.

Slide 10

Slide 10 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Inroduction NGBoostの3つの構成要素 1. Base learner 基礎となるアルゴリズム.決定木など. 2. Parametric probability distribution 出力する確率分布.正規分布、ラプラス分布など. 3. Scoring rule スコア関数.MLE、CRPSなど. 10

Slide 11

Slide 11 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Inroduction NGBoostの3つの構成要素とパラメータ更新の様子 11

Slide 12

Slide 12 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules ここではscoring ruleの基本事項について述べる. をインプットデータ,を予測したい特徴量とする. 我々が興味があるのはスカラー関数 [|] の近似. 12

Slide 13

Slide 13 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 定義(Proper Scoring Rules) ある実数値関数がproper scoring ruleであるとは ∼ , ≤ ∼ , ∀ が成り立つときにいう. ここで,はの真の確率分布で,はその他の確率分布(例えば,モデル が予測した の確率分布) このセミナーではproper scoring ruleをスコア関数と呼ぶことにする. 13

Slide 14

Slide 14 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 定義(Divergence) スコア関数の下での確率分布, のDivergenceは次で定義される. || ≔ ∼ , − ∼ , 14

Slide 15

Slide 15 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 例1: log score (MLE) スコア関数で最もよく使われるのはlog score ℒで ℒ ≔ − log ここで,は確率分布のパラメータ(以下も同様). 15

Slide 16

Slide 16 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 例1: log score (MLE) MLEのdivergenceはKullback-Leibler divergence(以下、KL)となる. 実際 ℒ || = ∼ ℒ , − ∼ ℒ , = ∼ − log − ∼ − log = ∼ log = ׬ ⋅ log =: || 16

Slide 17

Slide 17 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 例2: CRPS(Continuous Ranked Probability Score) CRPSはMLEに比べロバストと考えられているスコア関数.但し,実の場合 しか適用できない. CRPS は次のように定義される. , = න −∞ 2 + න ∞ 1 − 2 ここで, は の累積分布関数. 17

Slide 18

Slide 18 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~Proper Scoring Rules 例2: CRPS(Continuous Ranked Probability Score) CRPSのdivergenceは2 divergenceとなる.実際 || = ∼ , − ∼ , = ∼ ׬ −∞ 2 + ׬ ∞ 1 − 2 −∼ ׬ −∞ 2 + ׬ ∞ 1 − 2 = ׬ −∞ ∞ ׬ −∞ 2 + ׬ ∞ 1 − 2 − ׬ −∞ ∞ ׬ −∞ 2 + ׬ ∞ 1 − 2 = ⋯ = ׬ −∞ ∞ − 2 =:ℒ2 || 18

Slide 19

Slide 19 text

Copyright @ Liberal Arts Community. All Rights Reserved. 論文詳細 ~The Generalized Natural Gradient 自然勾配法・一般化自然勾配法について説明する. まず,一般の勾配法から説明する. スコア関数を各パラメータで偏微分して与えられる勾配(ordinary gradient)を∇ , とかく. ∇ , はスコア関数の値を最も大きく上昇させる方向ベクトルになる.つまり ∇ , ∝ lim →0 argmax: = + , (∗) これが一般の勾配法. (*)上の式が成り立つためにはlimが存在しないとダメで,論文の定義だと存在するかは非自明に思えるが,その辺 は今回は気にしないでおく. 19