統計的学習の基礎読書会「８章：Model Inference and Averaging (8.4まで)」

統計的学習の基礎読書会第8回８章：Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部高柳慎一

（C）Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルのフィッティングを行ってきた •
この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1

（C）Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための？)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2

（C）Recruit Communications Co., Ltd. データ・Bスプライン基底関数（使用例） 3 データ点数N=50 の適当なデータ

（C）Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 条件設定など – データ全体： – 各データ： – 3次スプライン基底関数での展開： – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法でβを計算してやると（単回帰と同様） 4

（C）Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –
考え方は単回帰分析のときと同じ 5

（C）Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値： •
係数のばらつきによる予測値のばらつき 6

（C）Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •
重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定値とする 7

（C）Recruit Communications Co., Ltd. 8 推定誤差範囲ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化ブートストラップ
で計算した 95%信頼区間

（C）Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9

（C）Recruit Communications Co., Ltd. ノンパラメトリック＆パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –
モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10

（C）Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラップの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる
11

（C）Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗
法と一致するのを見た、が、ガウシアンエラーの仮定をおいていた • 一般には最小二乗ではなく、最尤推定と一致することをここで見る 12

（C）Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •
例：ガウシアンの場合： 13

（C）Recruit Communications Co., Ltd. 尤度関数 • 尤度関数（θの関数だと読む） • そのlogを取ったもの •
この関数を最大にするようなθが最尤推定値 14

（C）Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –
コレが最尤推定で０になると仮定する • 情報量行列 15

（C）Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め
る 16

（C）Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけないので、最尤推定値でエイヤ！と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし
て、以下のように区間ステイをおこなう 17

（C）Recruit Communications Co., Ltd. 例：Bスプラインのスムージング • 対数尤度関数： • 尤度関数のパラメータでの微分が０になる
条件をおくと下記のようになる 18

（C）Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •
ブートストラップは定式化なしに使用することができるのが利点 • Bスプラインにおけるノットの位置は所与としていたが、実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19

（C）Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •
予測分布 – ベイズ推定： – 最尤推定： 20

（C）Recruit Communications Co., Ltd. 例：Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布を考える： – パラメータτ・Σの選び方はよしなに
– (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21

（C）Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が事前分布からのサンプリングに対応

（C）Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23

（C）Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン

（C）Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートストラップに近くなる（後述）緑線：事後分布か
らの１サンプリング紫線：事後平均

（C）Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •
設定 – 標準正規分布からのデータ： – 事前分布： – 事後分布： • τ→∞： – これはパラメトリックブートストラップに同じ 26

（C）Recruit Communications Co., Ltd. 何故こうなったのか？ • 理由 1. 事前分布が無情報となる極限でθを選択 2.
データZの尤度に対する影響は最尤推定量を通してのみ（十分統計量の考え方に近い）。このことからと書ける 3. かつ、尤度関数間に対称性がある 27

（C）Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・
ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28

（C）Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布： ∝ • 事後分布：
• ブートストラップ計算： • 関数系としては非常に似ている – （※ a → 0 の極限） – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29

統計的学習の基礎読書会「８章：Model Inference and Averaging (8...

統計的学習の基礎読書会「８章：Model Inference and Averaging (8.4まで)」

Shinichi Takayanagi

More Decks by Shinichi Takayanagi

Other Decks in Technology

Featured

Transcript

統計的学習の基礎読書会第8回８章：Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部高柳慎一

（C）Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルのフィッティングを行ってきた •

（C）Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood

（C）Recruit Communications Co., Ltd. データ・Bスプライン基底関数（使用例） 3 データ点数N=50 の適当なデータ

（C）Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood

（C）Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –

（C）Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値： •

（C）Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •

（C）Recruit Communications Co., Ltd. 8 推定誤差範囲ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化ブートストラップ

（C）Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9

（C）Recruit Communications Co., Ltd. ノンパラメトリック＆パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –

（C）Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗

（C）Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •

（C）Recruit Communications Co., Ltd. 尤度関数 • 尤度関数（θの関数だと読む） • そのlogを取ったもの •

（C）Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –

（C）Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め

（C）Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけないので、最尤推定値でエイヤ！と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし

（C）Recruit Communications Co., Ltd. 例：Bスプラインのスムージング • 対数尤度関数： • 尤度関数のパラメータでの微分が０になる

（C）Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •

（C）Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •

（C）Recruit Communications Co., Ltd. 例：Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布を考える： – パラメータτ・Σの選び方はよしなに

（C）Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が事前分布からのサンプリングに対応

（C）Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23

（C）Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン

（C）Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートストラップに近くなる（後述）緑線：事後分布か

（C）Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •

（C）Recruit Communications Co., Ltd. 何故こうなったのか？ • 理由 1. 事前分布が無情報となる極限でθを選択 2.

（C）Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・

（C）Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布： ∝ • 事後分布：