Slide 1

Slide 1 text

統計的学習の基礎読書会 第8回 8章:Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳慎一

Slide 2

Slide 2 text

(C)Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルの フィッティングを行ってきた • この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推 定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1

Slide 3

Slide 3 text

(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための?)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2

Slide 4

Slide 4 text

(C)Recruit Communications Co., Ltd. データ・Bスプライン基底関数(使用例) 3 データ点数N=50 の適当なデータ

Slide 5

Slide 5 text

(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood Methods • 条件設定など – データ全体: – 各データ: – 3次スプライン基底関数での展開: – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法 でβを計算してやると(単回帰と同様) 4

Slide 6

Slide 6 text

(C)Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される – 考え方は単回帰分析のときと同じ 5

Slide 7

Slide 7 text

(C)Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値: • 係数のばらつきによる予測値のばらつき 6

Slide 8

Slide 8 text

(C)Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す • 重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定 値とする 7

Slide 9

Slide 9 text

(C)Recruit Communications Co., Ltd. 8 推定誤差範囲 ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化 ブートストラップ で計算した 95%信頼区間

Slide 10

Slide 10 text

(C)Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9

Slide 11

Slide 11 text

(C)Recruit Communications Co., Ltd. ノンパラメトリック&パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 – モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10

Slide 12

Slide 12 text

(C)Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラッ プの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる 11

Slide 13

Slide 13 text

(C)Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗 法と一致するのを見た、が、ガウシアンエラーの仮 定をおいていた • 一般には最小二乗ではなく、最尤推定と一致するこ とをここで見る 12

Slide 14

Slide 14 text

(C)Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ • 例:ガウシアンの場合: 13

Slide 15

Slide 15 text

(C)Recruit Communications Co., Ltd. 尤度関数 • 尤度関数(θの関数だと読む) • そのlogを取ったもの • この関数を最大にするようなθが最尤推定値 14

Slide 16

Slide 16 text

(C)Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す – コレが最尤推定で0になると仮定する • 情報量行列 15

Slide 17

Slide 17 text

(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め る 16

Slide 18

Slide 18 text

(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけな いので、最尤推定値でエイヤ!と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし て、以下のように区間ステイをおこなう 17

Slide 19

Slide 19 text

(C)Recruit Communications Co., Ltd. 例:Bスプラインのスムージング • 対数尤度関数: • 尤度関数のパラメータ での微分が0になる 条件 をおくと下記のようになる 18

Slide 20

Slide 20 text

(C)Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood • ブートストラップは定式化なしに使用することができ るのが利点 • Bスプラインにおけるノットの位置は所与としていたが、 実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19

Slide 21

Slide 21 text

(C)Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 • 予測分布 – ベイズ推定: – 最尤推定 : 20

Slide 22

Slide 22 text

(C)Recruit Communications Co., Ltd. 例:Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布 を考える: – パラメータτ・Σの選び方はよしなに – (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21

Slide 23

Slide 23 text

(C)Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が 事前分布からの サンプリングに 対応

Slide 24

Slide 24 text

(C)Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23

Slide 25

Slide 25 text

(C)Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン

Slide 26

Slide 26 text

(C)Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートスト ラップに近くなる (後述) 緑線:事後分布か らの1サンプリング 紫線:事後平均

Slide 27

Slide 27 text

(C)Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap • 設定 – 標準正規分布からのデータ: – 事前分布: – 事後分布: • τ→∞: – これはパラメトリックブートストラップに同じ 26

Slide 28

Slide 28 text

(C)Recruit Communications Co., Ltd. 何故こうなったのか? • 理由 1. 事前分布が無情報となる極限でθを選択 2. データZの尤度 に対する影響は最尤推定量 を通してのみ(十分統計量の考え方に近い)。このこと から と書ける 3. かつ、尤度関数間に対称性がある 27

Slide 29

Slide 29 text

(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分 布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・ ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28

Slide 30

Slide 30 text

(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布: ∝ • 事後分布: • ブートストラップ計算: • 関数系としては非常に似ている – (※ a → 0 の極限) – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29