Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的学習の基礎読書会「8章:Model Inference and Averaging (8...
Search
Shinichi Takayanagi
October 14, 2016
Technology
0
1.2k
統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」
Shinichi Takayanagi
October 14, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
480
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
570
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.1k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
300
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4.3k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
4.6k
Other Decks in Technology
See All in Technology
30→150人のエンジニア組織拡大に伴うアジャイル文化を醸成する役割と取り組みの変化
nagata03
0
220
Охота на косуль у древних
ashapiro
0
120
【詳説】コンテンツ配信 システムの複数機能 基盤への拡張
hatena
0
280
Qiita Organizationを導入したら、アウトプッターが爆増して会社がちょっと有名になった件
minorun365
PRO
1
250
"TEAM"を導入したら最高のエンジニア"Team"を実現できた / Deploying "TEAM" and Building the Best Engineering "Team"
yuj1osm
1
230
Two Blades, One Journey: Engineering While Managing
ohbarye
4
2.4k
目標と時間軸 〜ベイビーステップでケイパビリティを高めよう〜
kakehashi
PRO
8
890
AI Agent時代なのでAWSのLLMs.txtが欲しい!
watany
3
350
入門 PEAK Threat Hunting @SECCON
odorusatoshi
0
170
Cracking the Coding Interview 6th Edition
gdplabs
14
28k
AWSではじめる Web APIテスト実践ガイド / A practical guide to testing Web APIs on AWS
yokawasa
8
750
OPENLOGI Company Profile
hr01
0
60k
Featured
See All Featured
Building Applications with DynamoDB
mza
93
6.2k
Building a Modern Day E-commerce SEO Strategy
aleyda
38
7.1k
GitHub's CSS Performance
jonrohan
1030
460k
jQuery: Nuts, Bolts and Bling
dougneiner
63
7.7k
Agile that works and the tools we love
rasmusluckow
328
21k
Build The Right Thing And Hit Your Dates
maggiecrowley
34
2.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
46
2.4k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
227
22k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
Large-scale JavaScript Application Architecture
addyosmani
511
110k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
The Cult of Friendly URLs
andyhume
78
6.2k
Transcript
統計的学習の基礎読書会 第8回 8章:Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳慎一
(C)Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルの フィッティングを行ってきた •
この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推 定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための?)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2
(C)Recruit Communications Co., Ltd. データ・Bスプライン基底関数(使用例) 3 データ点数N=50 の適当なデータ
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 条件設定など – データ全体: – 各データ: – 3次スプライン基底関数での展開: – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法 でβを計算してやると(単回帰と同様) 4
(C)Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –
考え方は単回帰分析のときと同じ 5
(C)Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値: •
係数のばらつきによる予測値のばらつき 6
(C)Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •
重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定 値とする 7
(C)Recruit Communications Co., Ltd. 8 推定誤差範囲 ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化 ブートストラップ
で計算した 95%信頼区間
(C)Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9
(C)Recruit Communications Co., Ltd. ノンパラメトリック&パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –
モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10
(C)Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラッ プの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる
11
(C)Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗
法と一致するのを見た、が、ガウシアンエラーの仮 定をおいていた • 一般には最小二乗ではなく、最尤推定と一致するこ とをここで見る 12
(C)Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •
例:ガウシアンの場合: 13
(C)Recruit Communications Co., Ltd. 尤度関数 • 尤度関数(θの関数だと読む) • そのlogを取ったもの •
この関数を最大にするようなθが最尤推定値 14
(C)Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –
コレが最尤推定で0になると仮定する • 情報量行列 15
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め
る 16
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけな いので、最尤推定値でエイヤ!と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし
て、以下のように区間ステイをおこなう 17
(C)Recruit Communications Co., Ltd. 例:Bスプラインのスムージング • 対数尤度関数: • 尤度関数のパラメータ での微分が0になる
条件 をおくと下記のようになる 18
(C)Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •
ブートストラップは定式化なしに使用することができ るのが利点 • Bスプラインにおけるノットの位置は所与としていたが、 実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19
(C)Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •
予測分布 – ベイズ推定: – 最尤推定 : 20
(C)Recruit Communications Co., Ltd. 例:Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布 を考える: – パラメータτ・Σの選び方はよしなに
– (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21
(C)Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が 事前分布からの サンプリングに 対応
(C)Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23
(C)Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン
(C)Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートスト ラップに近くなる (後述) 緑線:事後分布か
らの1サンプリング 紫線:事後平均
(C)Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •
設定 – 標準正規分布からのデータ: – 事前分布: – 事後分布: • τ→∞: – これはパラメトリックブートストラップに同じ 26
(C)Recruit Communications Co., Ltd. 何故こうなったのか? • 理由 1. 事前分布が無情報となる極限でθを選択 2.
データZの尤度 に対する影響は最尤推定量 を通してのみ(十分統計量の考え方に近い)。このこと から と書ける 3. かつ、尤度関数間に対称性がある 27
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分 布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・
ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布: ∝ • 事後分布:
• ブートストラップ計算: • 関数系としては非常に似ている – (※ a → 0 の極限) – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29