統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」

統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」

8a7e83d2e447783ab6d824f553429a09?s=128

Shinichi Takayanagi

October 14, 2016
Tweet

Transcript

  1. 統計的学習の基礎読書会 第8回 8章:Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳慎一

  2. (C)Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルの フィッティングを行ってきた •

    この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推 定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1
  3. (C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood

    Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための?)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2
  4. (C)Recruit Communications Co., Ltd. データ・Bスプライン基底関数(使用例) 3 データ点数N=50 の適当なデータ

  5. (C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood

    Methods • 条件設定など – データ全体: – 各データ: – 3次スプライン基底関数での展開: – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法 でβを計算してやると(単回帰と同様) 4
  6. (C)Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –

    考え方は単回帰分析のときと同じ 5
  7. (C)Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値: •

    係数のばらつきによる予測値のばらつき 6
  8. (C)Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •

    重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定 値とする 7
  9. (C)Recruit Communications Co., Ltd. 8 推定誤差範囲 ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化 ブートストラップ

    で計算した 95%信頼区間
  10. (C)Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9

  11. (C)Recruit Communications Co., Ltd. ノンパラメトリック&パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –

    モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10
  12. (C)Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラッ プの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる

    11
  13. (C)Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗

    法と一致するのを見た、が、ガウシアンエラーの仮 定をおいていた • 一般には最小二乗ではなく、最尤推定と一致するこ とをここで見る 12
  14. (C)Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •

    例:ガウシアンの場合: 13
  15. (C)Recruit Communications Co., Ltd. 尤度関数 • 尤度関数(θの関数だと読む) • そのlogを取ったもの •

    この関数を最大にするようなθが最尤推定値 14
  16. (C)Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –

    コレが最尤推定で0になると仮定する • 情報量行列 15
  17. (C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め

    る 16
  18. (C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけな いので、最尤推定値でエイヤ!と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし

    て、以下のように区間ステイをおこなう 17
  19. (C)Recruit Communications Co., Ltd. 例:Bスプラインのスムージング • 対数尤度関数: • 尤度関数のパラメータ での微分が0になる

    条件 をおくと下記のようになる 18
  20. (C)Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •

    ブートストラップは定式化なしに使用することができ るのが利点 • Bスプラインにおけるノットの位置は所与としていたが、 実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19
  21. (C)Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •

    予測分布 – ベイズ推定: – 最尤推定 : 20
  22. (C)Recruit Communications Co., Ltd. 例:Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布 を考える: – パラメータτ・Σの選び方はよしなに

    – (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21
  23. (C)Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が 事前分布からの サンプリングに 対応

  24. (C)Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23

  25. (C)Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン

  26. (C)Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートスト ラップに近くなる (後述) 緑線:事後分布か

    らの1サンプリング 紫線:事後平均
  27. (C)Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •

    設定 – 標準正規分布からのデータ: – 事前分布: – 事後分布: • τ→∞: – これはパラメトリックブートストラップに同じ 26
  28. (C)Recruit Communications Co., Ltd. 何故こうなったのか? • 理由 1. 事前分布が無情報となる極限でθを選択 2.

    データZの尤度 に対する影響は最尤推定量 を通してのみ(十分統計量の考え方に近い)。このこと から と書ける 3. かつ、尤度関数間に対称性がある 27
  29. (C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分 布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・

    ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28
  30. (C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布: ∝ • 事後分布:

    • ブートストラップ計算: • 関数系としては非常に似ている – (※ a → 0 の極限) – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29