Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Model_Choice_and_Decision_Theory.pdf
Search
ディップ株式会社
PRO
October 29, 2025
Technology
0
2
Model_Choice_and_Decision_Theory.pdf
ディップ株式会社
PRO
October 29, 2025
Tweet
Share
More Decks by ディップ株式会社
See All by ディップ株式会社
Unit-Level_Models_and_Discrete_Demand.pdf
dip_tech
PRO
0
2
Gaussian_Process_Models.pdf
dip_tech
PRO
0
2
Dirichlet_Process_Models.pdf
dip_tech
PRO
0
4
HIERARCHICAL MODELS for HETEROGENOUS UNITS(前編)
dip_tech
PRO
0
1
HIERARCHICAL MODELS for HETEROGENOUS UNITS(後編)
dip_tech
PRO
0
3
AI-DLC
dip_tech
PRO
0
14
dipAIを支えるLLM・検索技術
dip_tech
PRO
0
65
ホールインワン開発の夢と現実〜AIコーディングの生産性最大化への道〜
dip_tech
PRO
0
11
うさぎとかめ問題に学ぶ構造化思考のすすめ
dip_tech
PRO
0
24
Other Decks in Technology
See All in Technology
Open Table Format (OTF) が必要になった背景とその機能 (2025.10.28)
simosako
2
290
IoTLT@ストラタシスジャパン_20251021
norioikedo
0
140
スタートアップの現場で実践しているテストマネジメント #jasst_kyushu
makky_tyuyan
0
130
Biz職でもDifyでできる! 「触らないAIワークフロー」を実現する方法
igarashikana
7
3.4k
AI機能プロジェクト炎上の 3つのしくじりと学び
nakawai
0
120
Okta Identity Governanceで実現する最小権限の原則 / Implementing the Principle of Least Privilege with Okta Identity Governance
tatsumin39
0
170
.NET 10のBlazorの期待の新機能
htkym
0
110
ソフトウェアエンジニアの生成AI活用と、これから
lycorptech_jp
PRO
0
910
OCIjp_Oracle AI World_Recap
shinpy
1
180
20251027_マルチエージェントとは
almondo_event
1
440
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
260
会社を支える Pythonという言語戦略 ~なぜPythonを主要言語にしているのか?~
curekoshimizu
3
760
Featured
See All Featured
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Statistics for Hackers
jakevdp
799
220k
Music & Morning Musume
bryan
46
6.9k
How to Think Like a Performance Engineer
csswizardry
27
2.1k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.2k
Leading Effective Engineering Teams in the AI Era
addyosmani
7
640
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
34
2.3k
Navigating Team Friction
lara
190
15k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
116
20k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Transcript
Bayesian Statistics and Marketing §6 Model Choice and Decision Theory
久保知生 事業計画統括部/データドリブン経営推進課 2025-07-18
これまでのおさらい • Within-Unitな分析 – 階層性を仮定しない。 – つまり、パラメータはユニット間で均一。 • Across-Unitな分析 –
階層性を仮定する。 – 上位の階層のパラメータに対する下位のパラメータがあり、ユニット間の異質 性を認める。
このスライドの内容 • 統計的決定理論の紹介 – 統計的決定理論 – ベイズ決定理論 • ベイズ決定理論のある形態としてのモデル選択 –
ベイズファクターの紹介 – ベイズファクターの求め方 • Appendix:AICとBIC
統計的決定理論 • わたしの所感「めっちゃ抽象的」 • 竹村数理統計「かなり抽象的な 理論」
統計的決定理論:用語と定義 • 𝑋:大きさ𝑛の標本 • 𝔛:標本空間 – 𝑋の実現値の属する集合。𝑛次元の確率変数𝑋 = 𝑋1 ,
⋯ , 𝑋𝑛 の 場合は𝑛次元ユークリッド空間を考えていることになる。
統計的決定理論:用語と定義 • 𝜃:分布族の母数(パラメータ) • 𝛩:母数空間 – 𝜃のとりうる値の集合。 – e.g.正規分布の場合 •
𝜃 = 𝜇, 𝜎2 • 𝛩 = { 𝜇, 𝜎2 | − ∞ < 𝜇 < ∞, 0 < 𝜎2 < ∞} – 簡便のため、母数を既知or所与と考える場合もある。 • e.g. 正規分布の母分散𝜎2を既知とすると、𝛩 = {𝜇| − ∞ < 𝜇 < ∞}
統計的決定理論:用語と定義 • 𝑑:決定 – データに基づいて分析者が行う判断や行動のこと。 • 𝐷:決定空間 – 決定𝑑の集合。 –
e.g. 点推定 • 𝐷 = 𝛩 • 𝑑 ∈ 𝛩 – e.g. 検定 • 𝐷 = {0,1} • 0は受容、1は棄却を表す。
損失関数 • 𝐿 𝜃, 𝑑 :損失関数 – 真のパラメータが𝜃のとき、分析者が𝑑という決定をしたとき の損失の大きさ。 –
e.g. 点推定 • 𝐿 𝜃, 𝑑 = 𝜃 − 𝑑 2, where 𝑑 ∈ 𝛩 • 損失を距離の二乗誤差で評価するのは、あくまで計算上の取り扱い が簡単になるため。
0-1の損失関数 • e.g. 検定問題 – 母数空間𝛩が互いに背反なふたつの部分集合の和で表現され るとする。 • 𝛩 =
𝛩0 ∩ 𝛩1 – 決定空間𝐷は𝐷 = {0,1} • 真のパラメータが𝛩0 に属するとき、正しい決定は𝑑 = 0. • 真のパラメータが𝛩1 に属するとき、正しい決定は𝑑 = 1.
0-1の損失関数 • 以上のような設定の下で、正しい決定をした場合は0の 損失を、誤った決定をした場合は1の損失を被る。 • 𝐿 𝜃, 0 = ቊ
0 𝜃 ∈ 𝛩0 のとき 1 𝜃 ∈ 𝛩1 のとき • 𝐿 𝜃, 1 = 1 − 𝐿 𝜃, 0 = ቊ 1 𝜃 ∈ 𝛩0 のとき 0 𝜃 ∈ 𝛩1 のとき
決定関数 • 分析者は観測値𝑋を見て決定𝑑を選ぶ。 – つまり、𝑑は𝑋の関数(𝑑 = 𝛿 𝑋 ) –
関数𝛿を決定関数という。 • 𝑋は確率変数なので、𝛿 𝑋 の値も確率変数であり、𝐿 𝜃, 𝛿 𝑋 の値もまた確率 変数。 • したがって、損失関数の値は𝑋に依存して確率的に変動する。 • よって、損失関数の期待値(リスク関数)をとって平均的な損失を考える。 – 𝑅 𝜃, 𝛿 = 𝐸 𝐿 𝜃, 𝛿 𝑋
決定関数 • e.g. 検定問題 – 真のパラメータが𝛩0 に属するとき、正しい決定は𝑑 = 0. –
真のパラメータが𝛩1 に属するとき、正しい決定は𝑑 = 1. – よって𝐸 𝐿 = 0 × 𝑃 𝐿 = 0 + 1 × 𝑃 𝐿 = 1 – 𝜃 ∈ 𝛩0 と𝜃 ∈ 𝛩1 のときをそれぞれ考えると • 𝑅 𝜃, 𝛿 = ቊ 𝑃 𝛿 𝑋 = 1 𝜃 ∈ 𝛩0 のとき 𝑃 𝛿 𝑋 = 0 ) 𝜃 ∈ 𝛩1 のとき
決定関数 • リスクの小さい決定関数が望ましい決定関数。 • リスクを最小にする決定関数を求めることが統計的決定 理論の目的。
ベイズ決定理論 • ベイズ決定理論は2つの要素からなる。 – 損失関数 𝐿 𝜃, 𝑑 • 𝜃:パラメータ
• 𝑑:決定 – 事後分布 𝑝 𝜃|𝐷𝑎𝑡𝑎 • 期待損失は以下で定義される。 – ∫ 𝐿 𝜃, 𝑑 𝑝 𝜃|𝐷𝑎𝑡𝑎 𝑑𝜃 – これを最小化するような𝑑を選ぶ。
(準備)期待値 • 期待値計算 – 確率分布𝑝 𝑥 を持って、ある関数𝑓 𝑥 の加重平均を計算する 操作のこと
• 𝐸{𝑓 𝑥 } = ∫ ∞ ∞ 𝑝 𝑥 ⋅ 𝑓 𝑥 𝑑𝑥 – 𝑝 𝑥 に従うデータ{𝑥1 , ⋯ , 𝑥𝑛 }を用いて近似できる。 • 𝐸{𝑓 𝑥 } ≈ 1 𝑁 𝛴𝑛=1 𝑁 𝑓 𝑥𝑛
(準備)ベイズの定理 • ベイズの定理 – パラメータ𝜃主観的な事前分布に観測値を与えることで、客観 的な事後分布をえること – 𝑝 𝜃|𝑦 ∝
𝑝 𝑦|𝜃 𝑝 𝜃 • 𝑝 𝜃|𝑦 :事後分布 • 𝑝 𝑦|𝜃 :尤度 • 𝑝 𝜃 :事前分布
モデル選択:事後確率 • ベイズ決定理論において、行動は複数のモデルから最良のモ デルを選ぶこと。 • 𝑘個のモデルを𝑀1 , ⋯ , 𝑀𝑘
で定義する。 • 以下、観察されるデータは𝑦で表す。 • モデル𝑀𝑖 について – 事前分布:𝑝 𝜃𝑖 |𝑀𝑖 – 尤度:𝑝 𝑦|𝜃𝑖 , 𝑀𝑖
モデル選択:ベイズファクター • モデル𝑖とモデル𝑗(𝑖 ≠ 𝑗)の事後オッズ比を以下で定義する。 – 𝑝 𝑀𝑖|𝑦 𝑝 𝑀𝑗|𝑦
= 𝑝 𝑦|𝑀𝑖 𝑝 𝑦|𝑀𝑗 ⋅ 𝑝 𝑀𝑖 𝑝 𝑀𝑗 • 𝑝 𝑦|𝑀𝑖 𝑝 𝑦|𝑀𝑗 :ベイズファクター ⋚ 1 • 𝑝 𝑀𝑖 𝑝 𝑀𝑗 :事前オッズ • 事後オッズ比は事前分布の影響を多分に受ける。 – ベイズファクターを使えば、事前分布の影響を受けずにモデル選択 できるのでは?
モデル選択:ベイズファクター • 周辺尤度は以下で定義される。 – 𝑝 𝑦|𝑀𝑖 = ∫ 𝑝 𝑦|𝜃𝑖
, 𝑀𝑖 ⋅ 𝑝 𝜃𝑖 |𝑀𝑖 𝑑𝜃 • 𝑝 𝑦|𝜃𝑖 , 𝑀𝑖 :モデル𝑀𝑖 のもとでデータがどれくらいもっともらしい か • 𝑝 𝜃𝑖 |𝑀𝑖 :重み • よって、ベイズファクター(=周辺尤度の比率)は以下 のように再定義できる。 – 𝑝 𝑦|𝑀𝑖 𝑝 𝑦|𝑀𝑗 = ∫ 𝑝 𝑦|𝜃𝑖,𝑀𝑖 ⋅𝑝 𝜃𝑖|𝑀𝑖 𝑑𝜃 ∫ 𝑝 𝑦|𝜃𝑗,𝑀𝑗 ⋅𝑝 𝜃𝑗|𝑀𝑗 𝑑𝜃
モデル選択:ベイズファクター • 前スライドの再定義より、3つのことがわかる。 – ベイズファクターは(事前にデータを観察することなく)それぞれ のモデルがデータをどれだけうまく予測できたかを測る指標 • AICやBICは事後的にデータを観察して、いかにモデルがデータにフィッ トしているかを測る指標。 –
周辺尤度の積分が入るので、計算が大変そう。 – 情報の少ない事前分布を設定すると周辺尤度が小さくなるというペナ ルティが発生する。
ベイズファクターの計算法 • MCMC(マルコフ連鎖モンテカルロ)を用いた計算法 • 重点サンプリングを用いた計算法 • ブリッジサンプリングを用いた計算法
MCMCを用いた計算法 • パラメータが4~5個のシンプルなモデルでは、モンテカルロ法を用 いてベイズファクターを近似できる。 • ∫ 𝑝 𝑦|𝜃𝑖 , 𝑀𝑖
⋅ 𝑝 𝜃𝑖 |𝑀𝑖 𝑑𝜃 ≈ 1 𝑁 Σ𝑗=1 𝑁 𝑝 𝑦| ෨ 𝜃𝑗 , 𝑀𝑖 – 𝜃 の事前分布から抽出したN個のサンプル( ෩ 𝜃𝑖 ∼ 𝑝(𝜃) )で置き換えている。 • ただし、この方法が使えるのは事前分布と事後分布の形が似てい てオーバーラップがあるときのみ。
重点サンプリングを用いた計算法 • MCMCでは事後分布と似ていない事前分布を使っている可能性がある。 • そこで、密度の高い𝜃(=重点密度𝑔𝑖𝑠 𝜃 )を重点的にサンプリングする • ∫ 𝑝
𝑦|𝜃𝑖 ⋅ 𝑝 𝜃𝑖 𝑑𝜃 = ∫ 𝑝 𝑦|𝜃𝑖 ⋅𝑝 𝜃𝑖 𝑔𝑖𝑠 𝜃 𝑔𝑖𝑠 𝜃 𝑑𝜃 = 𝐸 𝑝 𝑦|𝜃𝑖 ⋅𝑝 𝜃𝑖 𝑔𝑖𝑠 𝜃 ≈ 1 𝑁 𝛴𝑖=1 𝑁 𝑝 𝑦|෩ 𝜃𝑖 ⋅𝑝 ෩ 𝜃𝑖 𝑔𝑖𝑠 ෩ 𝜃 , ෩ 𝜃𝑖 ∼ 𝑔𝑖𝑠 (𝜃)
(補足)重点サンプリング • 分布𝑝(𝑥)による関数𝑓(𝑥)の期待値を計算したいとき、提案分布𝑞(𝑥)を用 いることで計算効率を上げる。 • ∫ 𝑓 𝑥 ⋅ 𝑝
𝑥 𝑑𝑥 = ∫ 𝑓 𝑥 ⋅𝑝 𝑥 𝑞 𝑥 𝑞 𝑥 𝑑𝜃 = 𝐸 𝑓 𝑥 ⋅𝑝 𝑥 𝑞 𝑥 ≈ 1 𝑁 𝛴 𝑥∼𝑞 𝑥 𝑓 𝑥 ⋅𝑝 𝑥 𝑞 𝑥 https://speakerdeck.com/takahashihiroshi/generative- models-2025?slide=40より引用。
重点サンプリングを用いた計算法 • ただし、重点密度は以下を満たす必要がある。 – 事後分布と同一の定義域をもつ。 – 事後分布とよく似ている。 – 事後分布を裾が厚いこと。
ブリッジサンプリングを用いた計算法 • ブリッジ関数ℎ 𝜃 と提案分布(重点密度)𝑔 𝜃 について、以下が成 立。 – 1
= ∫ 𝑝 𝑦|𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦|𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 – 両辺に𝑝 𝑦 をかけると • 𝑝 𝑦 = ∫ 𝑝 𝑦|𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦|𝜃 𝑝 𝜃 𝑝 𝑦 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
ブリッジサンプリングを用いた計算法 • 𝑝 𝑦 = ∫ {𝑝 𝑦|𝜃 𝑝 𝜃
ℎ 𝜃 }𝑔 𝜃 𝑑𝜃 ∫ {ℎ 𝜃 𝑔 𝜃 }𝑝 𝜃|𝑦 𝑑𝜃 = 𝐸 𝑝 𝑦|𝜃 𝑝 𝜃 ℎ 𝜃 𝐸 ℎ 𝜃 𝑔 𝜃 ≈ 1 𝑁1 𝛴 𝑖=1 N1 𝑝 𝑦|෩ 𝜃𝑖 𝑝 ෩ 𝜃𝑖 ℎ ෩ 𝜃𝑖 1 𝑁2 𝛴 𝑖=1 N2 ℎ 𝜃𝑗 ∗ 𝑔 𝜃𝑗 ∗ – ෨ 𝜃𝑖 ∼ 𝑔 𝜃 :提案分布からのサンプル – 𝜃𝑗 ∗ ∼ 𝑝 𝜃|𝑦 :事後分布からのサンプル
ブリッジサンプリングを用いた計算法 • ブリッジサンプリングを使うことにより、重点密度に課せられ るような分布の裾に対する厳しい条件を外せる。 • 最適なブリッジ関数ℎ 𝜃 を求めるアルゴリズムもあるが、ここ では省略。 •
詳細はMeng and Wong, 1996を参照。
APPENDIX
AICとBIC(※) • 以下のモデルMを考える。 – 𝑌 = 𝑋𝑀 𝛽𝑀 + 𝑢𝑀
, 𝑢𝑚 |𝑋𝑚 ∼ 𝑁 0, 𝜎𝑚 2 𝐼 • このとき、モデルMの対数尤度𝑙𝑛 𝜃𝑀 は𝜃𝑀 = 𝛽𝑀 ′ , 𝜎𝑀 2 と すると、以下で与えられる。 – 𝑙𝑛 𝜃𝑀 = − 𝑛 2 log 2𝜋𝜎𝑚 2 − 1 2𝜎𝑀 2 ∥ 𝑌 − 𝑋𝑀 𝛽𝑀 ∥2 ※以下の議論は末石(2024), 『データ駆動型回帰分析 計量経済学と機械学習の融合』, 日本評論社に基づく。
AICとBIC • AIC(赤池情報量基準) – 𝐴𝐼𝐶 = −2𝑙𝑛 𝜃 +
2𝑑𝑖𝑚 𝜃 • 第1項が対数尤度 • 第2項が罰則項(𝑑𝑖𝑚 𝜃 はパラメータ𝜃の次元数) • AICはデータを発生させた真の分布と最尤法で推定された分布 を比較し、分布間のKLダイバージェンスを最小にするモデル の選択を意図している。 • よって、最も良い予測をもたらすモデルが選ばれる。
AICとBIC • BIC(ベイズ情報量基準) – 𝐵𝐼𝐶 = −2𝑙𝑛 𝜃 +
𝑙𝑜𝑔 𝑛 𝑑𝑖𝑚 𝜃 • 第1項が対数尤度 • 第2項が罰則項(𝑑𝑖𝑚 𝜃 はパラメータ𝜃の次元数) • BICはモデルの事後確率を最大化するようなモデルの選択を意 図している。 • よって、最も簡潔なモデルが選ばれる。 – 簡潔とは、係数を0にすれば真の回帰関数を表現できるような冗長 な変数を含まない、ということ。