Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」
Search
Shinichi Takayanagi
October 14, 2016
Technology
0
1.1k
統計的学習の基礎読書会「8章:Model Inference and Averaging (8.4まで)」
Shinichi Takayanagi
October 14, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
360
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.8k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
1.9k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
500
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
20k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
910
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
250
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
4.4k
Other Decks in Technology
See All in Technology
OpenID Foundation updates
fujie
0
270
動画配信サービスのフロントエンド実装に学ぶ設計原則
yud0uhu
1
140
Deno Queue を使って OGP画像の遅延作成をやってみる
toranoana
1
100
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
5
38k
Taking Flight with Tailwind CSS
opdavies
0
4.3k
生成AIがもたらす変革 / GitHubGalaxy_CyberAgent
cyberagentdevelopers
PRO
2
260
片手間でも効率的にデータ分析基盤を運用するカギは体制改善にあった!? / 20240514_cloudsign-DataManagement
bengo4com
0
830
データベース04: SQL (1/3) 単純質問 & 集約演算
trycycle
0
180
Security Hubのセキュリティスコアはどうやって計算されるか
toru_kubota
0
110
回り回って効いてくる副次的効果としての技術広報/techpr
nishiuma
2
210
TiDBにおけるテーブル設計と最適化の事例
cygames
0
820
スクラムに出会って「できた」を実感できるようになってきた話 / Scrum makes me feel like I can do it
yayoi_dd
2
120
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
43
12k
Embracing the Ebb and Flow
colly
80
4.2k
The World Runs on Bad Software
bkeepers
PRO
61
6.8k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
22
1.4k
Gamification - CAS2011
davidbonilla
77
4.6k
Become a Pro
speakerdeck
PRO
13
4.6k
Learning to Love Humans: Emotional Interface Design
aarron
268
39k
Clear Off the Table
cherdarchuk
86
310k
Building an army of robots
kneath
300
42k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
323
20k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
12
1.1k
Facilitating Awesome Meetings
lara
43
5.6k
Transcript
統計的学習の基礎読書会 第8回 8章:Model Inference and Averaging 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳慎一
(C)Recruit Communications Co., Ltd. 8.1 Introduction • 最小二乗やクロスエントロピーを用いてモデルの フィッティングを行ってきた •
この裏には“最尤推定”の考え方がある • (7章でやった)ブートストラップを最尤推定・ベイズ推 定の枠組みで見ていく • 最後に、モデルアベレージング系の技法(bagging, stacking, bumping)を見ていく 1
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 8.2.1 A Smoothing Example • ブートストラップ法 – データのデータによる(データのための?)不確実性評価 • 一次元でのスムージングを例に紹介 • また、最尤推定との関連も紹介 2
(C)Recruit Communications Co., Ltd. データ・Bスプライン基底関数(使用例) 3 データ点数N=50 の適当なデータ
(C)Recruit Communications Co., Ltd. 8.2 The Bootstrap and Maximum Likelihood
Methods • 条件設定など – データ全体: – 各データ: – 3次スプライン基底関数での展開: – Hをij成分にh_{j}(x_{i})のある行列だとして、最小二乗法 でβを計算してやると(単回帰と同様) 4
(C)Recruit Communications Co., Ltd. 回帰係数の推定値のばらつき • 推定した回帰係数βは確率変数なので、推定誤差有 • 誤差は以下のように計算される –
考え方は単回帰分析のときと同じ 5
(C)Recruit Communications Co., Ltd. それに伴う予測値のばらつき • Bスプライン基底関数ベクトル • 予測値: •
係数のばらつきによる予測値のばらつき 6
(C)Recruit Communications Co., Ltd. …の話をブートストラップでもやる • 手順 – 以下をB=200回繰り返す •
重複ありで50個データを(一様に)リサンプリングする • そのデータで予測値μ(x)を出す – 予測値の上下2.5%番目にあるデータを95%信頼幅の推定 値とする 7
(C)Recruit Communications Co., Ltd. 8 推定誤差範囲 ブートストラップで計算した Bスプライン平滑化(10個) Bスプライン平滑化 ブートストラップ
で計算した 95%信頼区間
(C)Recruit Communications Co., Ltd. 最小二乗とブートストラップと最尤推定の関係 • モデルのエラーがガウシアンになると仮定する – 意味は…よしなに理解 9
(C)Recruit Communications Co., Ltd. ノンパラメトリック&パラメトリック・ブートストラップ • ノンパラメトリック・ブートストラップ – 上述のやり方 –
モデルに対し、何も仮定などしていない(mode-free) • パラメトリック・ブートストラップ – モデルを仮定するの必要有 – B回以下の操作を繰り返す • 要するに予測結果に直接ノイズを加える 10
(C)Recruit Communications Co., Ltd. パラメトリック・ブートストラップと最小二乗法の関係 • B→∞の極限で、パラメトリック・ブートストラッ プの結果と最小二乗法の結果が一致 • すなわち、予測値の分布が下記のように与えられる
11
(C)Recruit Communications Co., Ltd. 8.2.2 Maximum Likelihood Inference • ノンパラメトリック・ブートストラップが最小二乗
法と一致するのを見た、が、ガウシアンエラーの仮 定をおいていた • 一般には最小二乗ではなく、最尤推定と一致するこ とをここで見る 12
(C)Recruit Communications Co., Ltd. 準備 • 確率変数Zの従う確率分布を定義 • 確率変数Zのパラメトリック・モデルと呼ぶ •
例:ガウシアンの場合: 13
(C)Recruit Communications Co., Ltd. 尤度関数 • 尤度関数(θの関数だと読む) • そのlogを取ったもの •
この関数を最大にするようなθが最尤推定値 14
(C)Recruit Communications Co., Ltd. スコア関数・情報量行列 • スコア関数 – ドットはθ微分を表す –
コレが最尤推定で0になると仮定する • 情報量行列 15
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量(or 期待情報量) • N→∞での推定量の真の値θ0への収束度合いを決め
る 16
(C)Recruit Communications Co., Ltd. フィッシャー情報量 • フィッシャー情報量だと期待値計算しないといけな いので、最尤推定値でエイヤ!と近似して評価 • 標準正規分布の1-αパーセンタイル点をz^(1-α)とし
て、以下のように区間ステイをおこなう 17
(C)Recruit Communications Co., Ltd. 例:Bスプラインのスムージング • 対数尤度関数: • 尤度関数のパラメータ での微分が0になる
条件 をおくと下記のようになる 18
(C)Recruit Communications Co., Ltd. 8.2.3 Bootstrap versus Maximum Likelihood •
ブートストラップは定式化なしに使用することができ るのが利点 • Bスプラインにおけるノットの位置は所与としていたが、 実際にはなんらかの方法で決める必要がある – 標準誤差などの解析解は、ここまで加味した解析計算は無理 – ブートストラップなら定式化がいらないので実行できる 19
(C)Recruit Communications Co., Ltd. 8.3 Bayesian Methods • パラメータの事後分布 •
予測分布 – ベイズ推定: – 最尤推定 : 20
(C)Recruit Communications Co., Ltd. 例:Bスプラインに対するベイズ推定 • 予測値自体の事前分布ではなく、係数βの事前分布 を考える: – パラメータτ・Σの選び方はよしなに
– (ココに対象に対する事前知識を入れる) • 予測値の分散共分散行列は 21
(C)Recruit Communications Co., Ltd. Βの事前分布から生成されるµの事前分布 22 個々の緑線が 事前分布からの サンプリングに 対応
(C)Recruit Communications Co., Ltd. βの事後確率分布 • 以下の平均・分散を持つガウシアン 23
(C)Recruit Communications Co., Ltd. 予測値µの(事後)確率分布 24 • 以下の平均・分散を持つガウシアン
(C)Recruit Communications Co., Ltd. 事後分布からのサンプリング結果 25 こちらがブートスト ラップに近くなる (後述) 緑線:事後分布か
らの1サンプリング 紫線:事後平均
(C)Recruit Communications Co., Ltd. 8.4 Relationship Between the Bootstrap •
設定 – 標準正規分布からのデータ: – 事前分布: – 事後分布: • τ→∞: – これはパラメトリックブートストラップに同じ 26
(C)Recruit Communications Co., Ltd. 何故こうなったのか? • 理由 1. 事前分布が無情報となる極限でθを選択 2.
データZの尤度 に対する影響は最尤推定量 を通してのみ(十分統計量の考え方に近い)。このこと から と書ける 3. かつ、尤度関数間に対称性がある 27
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 前述の考察はガウシアンについて成立するが、多項分 布についても近似的に成立 • これがベイズ推定の枠組みとノンパラメトリック・
ブートストラップの関係を示す • Lカテゴリからなる離散確率空間を考える • 各カテゴリの出る真の確率: • 各カテゴリの出る経験確率: 28
(C)Recruit Communications Co., Ltd. 多項分布に対する前述の考え方の適用 • 事全分布: ∝ • 事後分布:
• ブートストラップ計算: • 関数系としては非常に似ている – (※ a → 0 の極限) – 平均が同じで分散も係数だけが違う • ブートストラップは無事前情報分布に対応していると考えられる 29