Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよい...
Search
takehikoihayashi
July 10, 2024
Science
2
930
はじめてのバックドア基準:あるいは、重回帰分析の偏回帰係数を因果効果の推定値として解釈してよいのか問題
2024年7月2日に国立環境研究所で行ったセミナーのスライドの増補改訂版です。統計的因果推論における最重要概念の1つであるバックドア基準についての解説スライドです。
takehikoihayashi
July 10, 2024
Tweet
Share
More Decks by takehikoihayashi
See All by takehikoihayashi
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
17
7k
まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰分断デザイン、操作変数法を中心に
takehikoihayashi
2
2k
「学術的に理解する」ってどういうこと? :統計的因果推論のフレームワークから見た 「量的×質的」に関する眺望の (いささかとっちらかった)スケッチを共有する
takehikoihayashi
17
16k
“エビデンス”と”政策形成”を巡って: 「政策/社会のためのエビデンス評価」へ向けた 5x3の検討枠組み
takehikoihayashi
2
1.5k
“エビデンス”の適切な政策利用に向けて: 学術的に議論するなら最低限このくらいのレベルを出発点としたい5X3のperspectives
takehikoihayashi
1
12k
統計的因果推論、構造から見るか? 差分から見るか?:非巡回有向グラフ(DAG)、潜在反応モデル、そして構造的 (関数)因果モデルによる両者の統合的理解
takehikoihayashi
8
15k
“因果推論駅”の奥の方を探訪しながら考える:われわれの諸研究は内的に/外的にどのような繋がりを持っているのか
takehikoihayashi
9
3.5k
EBPM, “E”から見るか? “PM”から見るか?
takehikoihayashi
2
960
“規範的リスク分析”の確立に向けて:リスク評価に求められる価値のフレームとはなにか
takehikoihayashi
0
750
Other Decks in Science
See All in Science
大規模言語モデルの開発
chokkan
PRO
84
35k
インフラだけではない MLOps の話 @事例でわかるMLOps 機械学習の成果をスケールさせる処方箋 発売記念
icoxfog417
PRO
2
620
Iniciativas independentes de divulgação científica: o caso do Movimento #CiteMulheresNegras
taisso
0
400
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
250
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
200
(論文読み)贈り物の交換による地位の競争と社会構造の変化 - 文化人類学への統計物理学的アプローチ -
__ymgc__
1
130
トラブルがあったコンペに学ぶデータ分析
tereka114
2
1.2k
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
270
Introduction to Graph Neural Networks
joisino
PRO
4
2.1k
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
1.4k
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_ポスター版
hayataka88
0
150
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Fireside Chat
paigeccino
34
3.1k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Fontdeck: Realign not Redesign
paulrobertlloyd
82
5.3k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
GraphQLとの向き合い方2022年版
quramy
44
13k
Automating Front-end Workflow
addyosmani
1366
200k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Bash Introduction
62gerente
608
210k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Scaling GitHub
holman
458
140k
Transcript
はじめてのバックドア基準 (80min ver.) 林岳彦 国立環境研究所 社会システム領域 2024/7/2@国立環境研の所内セミナーの内容をまあまあ増補改訂した版 あるいは、重回帰分析での偏回帰係数を因果効果の 推定値として解釈してよいのか問題 *このスライドの内容だと本編全体でだいたい80分くらいの所要時間になるはずです*
(表紙イラスト:渡辺ペコ) 5/31発売 『現代疫学』の第40章「環境疫学」の翻訳担当 *5kgの猫と2kgの本 2/29発売 『はじめての統計的因果推論』 @岩波書店 電車内でのスキマ時間や、 夜中のお風呂上がりに ビール片手に読めるような本を
目指しました 自己紹介 (近刊の紹介)
自己紹介 (バックグラウンド) 専門:環境データ分析、因果推論、Science-Policy Interface 国立環境研究所/社会システム領域/経済・政策研究室 現在の主な研究内容 • 化学物質や水銀などに対する管理政策の政策効果の分析 • 農薬が生態系に与えている影響の因果効果の分析
• エビデンスの政策利用を考慮する際の検討枠組みの開発 • 環境問題に対する対話・コミュニケーション活動 本日は、統計的因果推論における最重要概念の1つである 「バックドア基準」についてお話します
そもそもの補足:統計的因果推論というジャンル(?)があります ここ十年でかなり普及が進んだため、研究者の間でも認識ギャップ (査読で揉める原因となるなど)が生じがちな状況だったりします
本日(はじめてのバックドア基準)の目次 1. 前置きパート1:相関と因果はなぜズレるのか 2. 前置きパート2:「介入」の観点からの相関と因果の違い 3. バックドアパスをざっくりとイメージしよう 4. まずは2変量(X,Y)から考える 4.
3変量(X,Y,Z)その1:分岐点とバックドアパス 5. 3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
相関と因果のズレ|「10個のリンゴ」とは何か? 初心に戻って、「10個のリンゴがあります」を考える 一般の統計の教科書が想定してる「ありよう」は Exchangeable!
相関と因果のズレ|「10個のリンゴ」とは何か? 初心に戻って、「10個のリンゴがあります」を考える しばしば、現実のありようは「多様な“リンゴ”」である Exchangeable? ある意味で、統計的因果推論とはこのような 概念の内実に常に/既にある多様性に対応するための体系である という話をこれからします
相関と因果のズレ|具体例で考えてみる 仮想例として「肥料X→リンゴの糖度Y」の因果効果を 考えてみる (まずは均一品種バージョン) 肥料Xを与えると糖度Yは単純に+2される もともとのリンゴの糖度Yの平均は16、分散は1.0 「肥料X=あり」で育てたリンゴは50個 「肥料X=なし」で育てたリンゴは50個 つまり「真の因果効果」は +2.0
肥料X=あり/なしの糖度Yをプロットすると
相関と因果のズレ|具体例で考えてみる 「肥料X→リンゴの糖度Y」の散布図(1品種ver) 各処理グループ平均の差(+1.9) ≒ 散布図上での差を 因果効果として そのまま解釈可能 =バイアスなし ここでのバイアスの定義 =
「真の因果効果」と「観測された処理グループ平均の差」 の系統的な(非偶然的な)ズレ 「真の因果効果(+2)」 +1.9 肥料X 糖度Y なし あり
相関と因果のズレ|具体例で考えてみる ひきつづき「肥料X→リンゴの糖度Y」の因果効果を 考えてみる (2品種への拡張バージョン) 「ぺこ」と「すまいる」の2つのリンゴ品種がサンプル 内に混在している 肥料X=あり/なしの糖度Yをプロットすると 元々の「ぺこ」の糖度Yの平均は16 元々の「すまいる」の糖度Yの平均は12 その他の設定・仮定は先程の例と同一
相関と因果のズレ|具体例で考えてみる 「肥料X→リンゴの糖度Y」の散布図(1品種ver) 各処理グループ平均の差(+4.6) ≒ 他の条件は同じでも 2種類の品種が混在する だけでバイアスが生じうる 「真の因果効果(+2)」 +4.6 肥料X
糖度Y なし あり なぜズレるのか? ぺこ すまいる
相関と因果のズレ|品種の混在の影響を見る 2品種が混在すると必ずバイアスが生じる? 「品種の比率」が処理グループ間で同じときにはバイアスが生じない! 肥料X 糖 度 Y なし あり 糖
度 Y 糖 度 Y -0.5 +4.6 +2.1 肥料X なし あり 肥料X なし あり ぺこ 40個 すまいる 10個 ぺこ 10個 すまいる 40個 ぺこ 25個 すまいる 25個 ぺこ 25個 すまいる 25個 ぺこ 10個 すまいる 40個 ぺこ 40個 すまいる 10個
相関と因果のズレ|要点を探る 「品種の比率」が処置グループ間で同じときには バイアスが生じない! より一般的に言うと 処置グループ間で「特性のありよう」が揃っていると バイアスが生じない! 統計的因果推論の目的は、この状況を実験計画や解析の 工夫により達成すること ↑この意味で、統計的因果推論とは 対象集団における「特性の多様性(の存在と偏在)」に対処するための体系
と言える
相関と因果のズレ|対処法の例 層別解析により処理グループ間で特性を揃える 層別化→特性が揃う→バイアスが消える 「 すまいる」だけで 層別解析 「 ぺこ」だけで 層別解析 肥料X
糖 度 Y なし あり 肥料X 糖 度 Y なし あり 肥料X 糖 度 Y なし あり +4.6 +2.3 +2.0 ぺこ 10個 すまいる 40個 ぺこ 40個 すまいる 10個
相関と因果のズレ|本日の課題 「特性のありようを揃えればOK」とは言っても、 無数の「特性」がありうるわけで… その全ての特性(全ての共変量)を 比較グループ間で揃えなければならないの? 「揃えるべき特性」と「揃えなくてもよい特性」を判別する 理論的基準はあるのか? *たとえばリンゴの「特性」を考えても、品種、産地、農法、農家、流通形態、収穫時期、価格、などなど いくらでもありうる… 細かく考えていくと明らかにきりがない!
答えは「バックドア基準」にあり!…なんですがもう少し前置きが続きます 前置き長くてすみません
本日(はじめてのバックドア基準)の目次 1. 前置きパート1:相関と因果はなぜズレるのか 2. 前置きパート2:「介入」の観点からの相関と因果の違い 3. バックドアパスをざっくりとイメージしよう 4. まずは2変量(X,Y)から考える 4.
3変量(X,Y,Z)その1:分岐点とバックドアパス 5. 3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
介入の観点から|相関と因果の違い 散布図上の相関関係からの素朴な予測や期待と因果効果 (介入効果)がズレることがある 『X→Yの介入効果』 = Xを1単位量分だけ介入により変化させたときの Yの平均的な変化量 【*本日のセミナー内での定義】
介入の観点から|相関と因果の違い 散布図上の相関関係からの素朴な予測や期待と因果効果 (介入効果)がズレることがある ڥԚછ࣭ͷՏதೱ9 ఈ ੜ ࠛ ͷ छ
: p < 0.001
介入の観点から|相関と因果の違い 散布図上の相関関係からの素朴な予測や期待と因果効果 (介入効果)がズレることがある ڥԚછ࣭ͷՏதೱ9 ఈ ੜ ࠛ ͷ छ
: p < 0.001 「Xが小さいとき、Yは大きい」 (=相関関係がある)とほぼ確実に言える 「Xを小さくすると、Yは大きくなる」 (=因果関係がある)と言えるか?
介入の観点から|相関と因果の違い もしXとYの相関が「Xと関係ない要因」で生じているならば、 Xを減少させてもYは回復しない 環境汚染物質の河川中濃度 X 底 生 昆 虫 の
種 数 Y 下流域 上流域
介入の観点から|相関と因果の違い もしYの状態がXにより生じているならば、Xを減少させれば Yは回復する 環境汚染物質の河川中濃度 X 底 生 昆 虫 の
種 数 Y 下流域 上流域
介入の観点から|相関と因果の違い もしYの状態がXにより部分的に生じているならば、Xを減少 させればYは部分的に回復する 環境汚染物質の河川中濃度 X 底 生 昆 虫 の
種 数 Y 下流域 上流域
介入の観点から|相関と因果の違い もしYの状態がXにより部分的に生じているならば、Xを減少 させればYは部分的に回復する 環境汚染物質の河川中濃度 X 底 生 昆 虫 の
種 数 Y 下流域 上流域 「Xを小さくすると、Yは大きくなる」かは Yの状態が何によって生じているかに依存する
介入の観点から|相関と因果の違い 「Xが小さいとき、Yは大きい」か? ∈「相関関係(association)」についての問い p(Y|X=小さい) やるべきこと:Xが小さいときのYの計算 ←所与のデータのみから計算できる ڥԚછ࣭ͷՏதೱ 9 ఈ ੜ
ࠛ ͷ छ : p < 0.001
介入の観点から|相関と因果の違い 「Xを小さくすると、Yは大きくなる」か? ∈「因果的影響(causal effect)」についての問い p(Y|X=do(小さい)) やるべきこと:Xを小さくしたときのYの計算 ←計算に因果的情報が必要 ڥԚછ࣭ͷՏதೱ 9 ఈ
ੜ ࠛ ͷ छ : ԼྲྀҬ ্ྲྀҬ
介入の観点から|相関と因果の違い p(Y|X=小さい) Xが小さいときのYの計算 p(Y|X=do(小さい)) Xを小さくしたときのYの計算 現状、統計解析を扱う人(プロの研究者を含む)の間でもこの違いが 十分に理解されていないことが多い その結果、問題や目的に応じて異なる方法論をとるべきなのに 目的と合っていない解析法や基準を用いがち 因果の問題
相関の問題 いうなればp(Y|see(X=小さい))
目的の 分類 やりたいことの内容 事例のイメージ (大学の留年の例で) 理念的な理想を なす解析法のイ メージ モデル選択の 理論的基準の例
しばしば 現実的な 解析法 予測 現在得られている情報から、 将来/未知の値/状況を予測 したい 多数の変数の情報から、留年リスク の高い学生を見つけたい (→その後の支援につなげるなど) 機械学習 AICなど予測能力 の指標 重回帰分析! 説明・記述 要素間の関連性を説明したい なぜ学生が留年するかを説明したい (→要因を探索し理解/対策に繋げたい) フルスタックの 構造方程式 (含む因子分析等) Bayes Factorな どの適合性の指標 重回帰分析! 因果・介入 の効果推定 (制御) ある要因Xに介入したときの、 要因Yに及ぼす効果を知りた い 特定のプログラムの導入が留年を防 止する効果を知りたい (→制御法の効果を知りたい) ランダム化比較 試験 バックドア基準・無 視可能性などの 識別可能性の指標 重回帰分析! 異なる分野で(表面上同じ手法が)違う目的や基準で運用されていることも 推定の再現性やコミュニケーション上の混乱の原因の1つ そもそも論:データ分析の異なる目的 3つの目的(*排反ではない)と対応する解析法・基準のイメージ 今日はここの話をします
介入の観点から|相関と因果の違い p(Y|X=小さい) Xが小さいときのYの計算 p(Y|X=do(小さい)) Xを小さくしたときのYの計算 因果の問題 相関の問題 いうなればp(Y|see(X=小さい)) なぜズレるの? 交絡のせい!
内生性のせい! 一歩込み入った議論をする際に判断に迷うことがある 今日の 目標 「バックドアパスが開いているせい」 「バックドア基準が満たされていないせい」 という説明の仕方・概念を理解する
補足|バックドア基準は「何について」の話? 統計的因果推論に関する議論のレイヤー (1) そもそもの解析の目的についての議論 (2)因果効果の統計的推定の際に満たされるべき理論的条件に ついての議論 (3) 因果効果の統計的推定の際に適用可能な解析手法に ついての議論 e.g.,
条件付き交換可能性・無視可能性 e.g., 傾向スコアマッチング、差の差分析 異なるレイヤーの議論を混ぜると混乱のもと e.g., 説明/予測/因果効果推定のどれがしたいのか? バックドア基準は(2)の「理論的条件」の話
補足|バックドア基準は「何について」の話? 具体的には、バックドア基準が分かると、ズレのない因 果効果の推定のために を理論的に区別できるようになる (つまり、因果推論の観点からの適切な統計手法が判別できる) バックドア基準は統計的な因果効果推定におけるモデル変数 の選択における基準を与える (1) 揃えるべき背景因子 (2)
揃えてはいけない背景因子 (3) 別にどっちでもいい背景因子
補足|バックドア基準は「何について」の話? 具体的には、バックドア基準を満たすとき... 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバックドア基準を 満たすとき、重回帰分析から得られたXの偏回帰係数をそのまま「X→Y の因果効果」のバイアスのない推定量とみなせる 例えば、「シンプソンのパラドックス」(ここでは、どの変数で層別化するかに よって推定結果が変るケースの意味で用いる)が生じている場合 興味の対象となる「処理X→結果Y」についてバックドア基準を満たす変数 で層別化して解析すれば「X→Yの因果効果」をバイアスなく推定できる
あくまで測定とモデルは適切であるという前提の話です *
(*補足|非初学者向けの説明ver.) バックドア基準は上式が成り立つ際に含まれるべき共変量Zの セット(上式の成立条件)を示す 処置Xについて以下の無視可能性/交換可能性が成立しているとき バイアスなく因果効果の推定が可能 𝑌! 𝑋| 𝑍 ⊥ for
all X=x 理論的条件としてのバックドア基準の意義 つまり、因果効果の識別のための変数選択の基準として使える 共変量 結果変数の 潜在結果 処置 ⊥ 共変量Zのセットで条件付けたとき、処置と潜在結果が独立
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
ざっくりとした説明|バックドア基準とは? “バックドア基準が満たされている” “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない ≒
“ブロック”って何?
ざっくりとした説明|バックドアパスとは? 因果構造を丘にある「人工池」でイメージする 迂遠かもしれませんが、因果の「流れ」のアナロジーとして 有効だと思うので少々お付き合いいただければ・・ X Y *降雨の影響などは考えない 本講演を通して X: 処理
Y: 結果 Z: 共変量 で表記します * Y=βX+γ+ε 人工池 人工池 水路
*用語説明|DAGとは? 非巡回有向グラフ DAG自体は非常に広いクラスのモデルを表現しうる。たとえば、原理的には、時系 列的なsequentialな数値シミュレーションを書ける系はDAGの形で描ける X Y “親” “子” “祖先” “子孫”
(Directed Acyclic Graph; DAG) 𝑎!"# 𝑎! 𝑎!$# 𝑌!"# 𝑌! 𝑌!$# 状態空間モデルの例 関数の入出力関係を表す 構造方程式の 視覚的表現方法の1つ 単なるお絵かきというよりも これ自体が「数理モデリング」の一種である と捉えていただくとよいかも
ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス 上流側にある「Z1」に
インクをぶちまけると XにもYにも到達する (=両者に影響を与える)
ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ではない!
上流側にある「Z1」に インクをぶちまけても Yにしか到達しない (=両者には影響を与えない)
ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ではない!
上流側にある「Z1」に インクをぶちまけても Xにしか到達しない (=両者には影響を与えない)
ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ではない!
Xそのものを通してYへ繋がる流れはノーカウント あくまで”裏口ドア”からのパスを考える 上流側にある「Z1」に インクをぶちまけても Xにしか到達しない (=両者には影響を与えない)
ざっくりとした説明|バックドアパスとは? 「バックドアパス」=『処理Xと結果Yの上流側にある 両者に影響を与える流れ』 X Y Z1 Z2 (X→Yの) バックドアパス ステップ4でもう少し丁寧に説明していきます
上流側にある「Z1」に インクをぶちまけると XにもYにも到達する (=両者に影響を与える)
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
まずは2変量から考える|因果構造と"向き" 説明の単純化のため線形方程式の例で考える X Y X Y Y=βX+γ+ε このβは介入によりXを1単位量増やしたときの Yの増分(=X→Yの介入効果)に相当するだろうか? XがYの上流のとき,
β=「X→Yの介入効果」
まずは2変量から考える|因果構造と"向き" 説明の単純化のため線形方程式の例で考える X Y Y=βX+γ+ε Y X YがXの上流のとき, β≠「X→Yの介入効果」 たとえ同一のデータであっても,
背景にある因果構造(生成メカニズム) によって因果効果は異なる 警官の数 犯罪数 → 因果効果の話をする上では、ドメイン知識が本質的に重要
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X Y
Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
3変量その1 | 3変量で学ぶ重要パターン 3変量での分岐点はバックドアパスを形成する 上流側にある「Z」に インクをぶちまけると XにもYにも到達する X Y Z
X→Y
3変量その1 |バックドアパスの何が問題? Zの変動がXとYの両方に影響を与えてしまう X Y Z X Y Zの変動によりX-Y間に "シンクロ"が生じる
Zが大 Zが小 (X→Yの) バックドアパス Zの変動によるシンクロが”疑似相関”(交絡)を生み X→Yの介入効果の推定にバイアスをもたらす 非因果的 連関
3変量その1 |バックドアパスの何が問題? 広島県のあるおじいさん(Yさん)と林の夜の機嫌の仮想例 林の夜の機嫌 Y さ ん の 夜 の
機 嫌 過去も未来もお互いのことを全く知らない Yさんと林のあいだで機嫌に相関が!? 林の夜の機嫌 Yさんの 夜の機嫌 広島カープの その日の勝敗 勝った日 負けた日 ドメイン知識がないときに、こうした交絡(疑似相関)による影響を 見抜くのはなかなか難しい → 因果効果の話をする上では、ドメイン知識が本質的に重要(再)
3変量その1 |バックドアパスの何が問題? 参考:バックドアパスがない場合の例 X Y Z X Y Zが大 Zが小
Zの変動でX-Y間に “シンクロ”は生じない
3変量その1 |バックドアパスの何が問題? 参考:バックドアパスがない場合の例 X Y Z X Y Zの変動でX-Y間に “シンクロ”は生じない
Zが大 Zが小 バックドアパスがないとき、Zの変動はバイアス・擬似相関の 原因とならない
(再掲) 3変量その1 |バックドアパスの何が問題? Zの変動がXとYの両方に影響を与えてしまう X Y Z X Y Zの変動によりX-Y間に
"シンクロ"が生じる Zが大 Zが小 (X→Yの) バックドアパス Zの変動によるシンクロが”疑似相関”(交絡)を生み X→Yの介入効果の推定にバイアスをもたらす 非因果的 連関
3変量その1 |バックドアパスが”閉じる”とは? バックドアパスが”閉じる”=バックドアパス上の変数を ”固定”する X Y Z Zを“固定”する バックドアパスが”閉じ” 交絡の影響が消える
シンクロを生む流れが “ブロック”される Zで層別化して解析 重回帰分析の共変量としてZをモデルに追加 “固定”= 条件付けconditioning の手法の例 ・ ・
3変量その1 |バックドアパスが”閉じる”とは? 補足:層別化による“固定”の例 ঁࢠ உࢠ 「男子」「女子」別々に X→Yの効果を計算して 集計する ゲーム時間 身
長 の 伸 び Z:性別 X:ゲーム 時間 Y:身長 Zで層別化して解析することにより"シンクロ"の影響を消せる
3変量その1 |バックドアパスが”閉じる”とは? 補足:重回帰による“固定”の例 55 Z:性別 X:ゲーム 時間 Y:身長 *今後、切片と誤差項は表記の単純化のため省略します 身長
= β ゲーム時間+γ性別 "性別"がモデルに 追加されているとき "ゲーム時間"の偏回帰係数は, 「"性別"を固定したときの "ゲーム時間"が1単位変化したときの "身長"の変化量」を意味する Zが分岐点のとき、Zを加えた重回帰モデルにおける Xの偏回帰係数の値は「X→Yの因果効果」として素直に解釈してよい! 一般化すると、すなわち X, Y, Zの3変量のケースにおいて: "シンクロ" を遮断
3変量その1 |バックドアパスが”閉じる”とは? X Y Z X Y
Z " 分岐点Zをモデルに 加えない場合 分岐点Zをモデルに 加えた場合 シンクロの 原因となる "水の流れ"が 遮断される バックドアパスが “開いている” バックドアパスが “閉まっている”
3変量その1 |バックドアパスが”閉じる”とは? X Y Z X Y
Z " 分岐点Zをモデルに 加えない場合 分岐点Zをモデルに 加えた場合 シンクロの 原因となる "水の流れ"が 遮断される 3変量における小まとめ(その1): 「Zが分岐点のときはモデルに加えるべし」
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
(再掲) 3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X
Y Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
3変量その2 |合流点と「合流点バイアス」 X Y Z X Y Zをモデルに含まなくとも、Xの回帰係数をX→Yの 因果効果として素直に解釈してよい 合流点は固定しなければ、何も問題はない
3変量その2 |合流点と「合流点バイアス」 もし合流点を固定すると、“親”の間に双方向パスが開く X Y Z (X→Yの) バックドアパス 子 親
親 バックドアパスの ない状態 X Y Z Zを“固定 バックドアパスが “開いた”状態
3変量その2 |合流点と「合流点バイアス」 具体例:合流点となる「合否」を”固定” 実 技 試 験 Z:合否 Y:実技 試験
美大の入学試験における仮想例 X:学力 試験 100 100 学力試験
3変量その2 |合流点と「合流点バイアス」 具体例:合流点となる「合否」を”固定” Z:合否 Y:実技 試験 美大の入学試験における仮想例 X:学力 試験 100
100 合格者 Z=1 不合格者 Z=0 実 技 試 験 学力試験
3変量その2 |合流点と「合流点バイアス」 具体例:合流点となる「合否」を”固定” Z:合否 Y:実技 試験 美大の入学試験における仮想例 X:学力 試験 100
100 合格者 Z=1 実 技 試 験 学力試験
3変量その2 |合流点と「合流点バイアス」 具体例:合流点となる「合否」を”固定” Z:合否 Y:実技 試験 美大の入学試験における仮想例 X:学力 試験 合否Zで層別化すると,
XとYの間に非因果的な連関(交絡) が生じ、因果効果の推定に合流点バイアスが生じる 実 技 試 験 100 100 合格者 Z=1 実 技 試 験 学力試験
3変量その2 |合流点と「合流点バイアス」 余談:選抜されたデータから「ランダムサンプリング」しても “疑似相関”は消えません 実 技 試 験 100 100
学⼒試験 合 格 ラ イ ン 実 技 試 験 100 100 学⼒試験 合 格 ラ イ ン 特殊な選抜を経たデータ(含ウェブモニター等)のバイアスには注意! ランダムサンプリング
(再掲) 3変量その1 | 3変量で学ぶ重要パターン 共変量Zの重要3パターン X Y Z Zが分岐点 X
Y Z Zが合流点 X Z Y Zが中間点 『分岐経路』 『合流経路』 『連鎖経路』 Zをモデルに追加することの意義がそれぞれ異なる
(再掲) ざっくりとした説明|バックドア基準とは? “バックドア基準が満たされている” “バックドアパス”って何? “開く/閉じる”ってどういうこと? + (2) 処理X→結果Yの道がブロックされていない (1) 開きっぱなしのバックドアパスがない
≒ “ブロック”って何?
3変量その2 |中間点と"表口"パス Zが中間点の場合は”固定”してはいけない Z Y X X Y Zを"固定"しなければ、何の問題も生じない
3変量その2 |中間点と"表口"パス 中間点を固定すると, Xの「介入効果」自体の流れを伝える "表口パス"自体がブロックされてしまう 在来種Aを護るための 外来種Bの駆除の効果(仮想例) Z:外来種B の根絶 Y:在来種A
の個体数 X:外来種B の駆除努力 外来種Bの駆除努力 在 来 種 A の 個 体 数 種Bの根絶に成功 (Z=1) 種Bの根絶に失敗 (Z=0) ("overconditioning") Zが中間点の場合は”固定”してはいけない
3変量その2 |中間点と"表口"パス 3変量で見る”バックドア基準”のまとめ *3変量の場合では、巷の”rule-of-thumb”的な変数選択ルール 以上のご利益はあまり感じられないかも Zが分岐点 Zが合流点 Zが中間点 Zを固定せよ Zを固定してはいけない
X Y Z X Y Z X Z Y
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
4変量以上の場合|本質は”道”にあり 4変量以上だと”道”を考える必要がある X Y Z1 Z2 もし処理Xと結果Yの「両者の共通原因」を ”交絡変数”と呼ぶ場合 Z2は”交絡変数”かつ分岐点 Z1は”交絡変数”と呼ばれない
必ずモデルに追加すべき? モデルに追加しなくてよい? common cause Z2は観測不可能、Z1は観測済みのとき どうする? *
4変量以上の場合|本質は”道”にあり 変数ベースではなく”道“の開閉がキモ このどの場合もバックドアパスは閉じられている *どのケースもXとYの"シンクロ"の原因となりうる上流側の流れが遮断されている X Y Z2 Z1 X Y
X Y Z1 Z2 Z2 Z1
4変量以上の場合|本質は”道”にあり X Y Z2 Z3 Z1 Z3は合流点 絶対にモデルに追加したら ダメ? 4変量以上の”道”:合流点の例
4変量以上の場合|本質は”道”にあり 4変量以上の”道”:合流点の例 Z1 X Z2 Y Z3 Z1 X Y
Z3 X Z2 Y Z3 X→Y Z1 Z2 X Y Z3 Z1 Z2 バックドアパスが "開いている" バックドアパスは"閉まっている" バックドアパスの”道”がブロックされて いることが肝要
4変量以上の場合|本質は”道”にあり 4変量以上の合流点についての細かい追記 合流点の子孫を固定しても合流点の親に双方向パスがつく X Y Z1 子 親 親 Z2
孫 X Y Z1 子 親 親 Z2 孫 X Y Z1 親 親 Z2 孫 子 実技 学力 合否 制服の 購入
4変量以上の場合|本質は”道”にあり 4変量以上の”道”:中間点の場合 X Y Z2 Z1 Z1, Z2は中間点 絶対にモデルに追加したら ダメ?
中間点を入れるとXからの 因果効果自体が ブロックされてしまうのでダメ! (これは3変量の場合と同様)
4変量以上の場合|本質は”道”にあり 4変量以上の”道”:中間点の場合 X Y Z1 Z2 全体としてX→Yの因果の"道"がブロックされないことが肝要 X Y X
Y Z2 Z1 Z1 Z2
4変量以上の場合|まとめ X Y Z2 Z1 X Y X Y Z1
Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:事例と補遺
"まとめ"としてのバックドア基準 黒木学(2017) 『構造的因果モデルの基礎』 p99より引用 ガチ教科書内の「バックドア基準」を解読してみよう ガチ勢の人はこの本を直接読んでいただければと思います!
"まとめ"としてのバックドア基準 ガチ教科書内の「バックドア基準」を解読してみよう 1. XからZの任意の要素に有向道がない 2. GよりXから出る⽮線(X→)を除いたグラフにおいて、 ZがXとYを有向分離する 定義 3-5 バックドア基準(back
door criterion) “逆”のケース(XがYの下流)ではない ⾮巡回的有向グラフGにおいてXはYの⾮⼦孫である。このとき、次 の2条件を満たす頂点集合Zは、(X, Y)についてバックドア基準を 満たすという 例:中間変数や下流の合流点 Xの下流の共変量をモデルに加えてはいけない バックドアパスがブロックされている
(再掲) 4変量以上の場合|まとめ X Y Z2 Z1 X Y X Y
Z1 Z2 Z2 Z1 X Y Z1 Z2 X Y X Y Z2 Z1 Z1 Z2 バックドアパスを ブロックしろ X→Yの道を ブロックするな もうほとんどバックドア基準 細かい論点をのぞけば 畢竟, 以下2つのメッセージに集約される 条件(1)に対応 条件(2)に対応
"まとめ"としてのバックドア基準 ガチ教科書内の「バックドア基準」を解読してみよう 1. XからZの任意の要素に有向道がない 2. GよりXから出る⽮線(X→)を除いたグラフにおいて、 ZがXとYを有向分離する 定義 3-5 バックドア基準(back
door criterion) “逆”のケース(XがYの下流)ではない ⾮巡回的有向グラフGにおいてXはYの⾮⼦孫である。このとき、次 の2条件を満たす頂点集合Zは、(X, Y)についてバックドア基準を 満たすという 例:中間変数や下流の合流点 Xの下流の共変量をモデルに加えてはいけない バックドアパスがブロックされている
本日(はじめてのバックドア基準)の目次 1. 導入:介入から見た相関と因果の違い 2. バックドアパスをざっくりとイメージしよう 3. まずは2変量(X,Y)から考える 4. 3変量(X,Y,Z)その1:分岐点とバックドアパス 5.
3変量(X,Y,Z)その2:合流点と中間点 6. 4変量以上(X,Y,Z1,Z2...)では「道」に着目 7. "まとめ"としてのバックドア基準 8. フォローアップ:例題と補遺
例題その1 |どの変数を加えれば良い? X Y Z1 Z2 Z3 バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう!
例題その1 |どの変数を加えれば良い? バックドアパスの見極めに迷ったら、もし「その人工池にインクを ぶちまけたらどうなるか」を考えてみよう! X Y Z1 Z2 Z3 全部で4つの
バックドアパス がある
例題その1 |どの変数を加えれば良い? X Y Z3 Z2 Z1 Z1, Z2をブロックすると3つの バックドアパスが全て遮断される
バックドア基準を満たす最小の変数セットは「Z1, Z2」 *「Z1, Z2, Z3」もバックドア基準を満たします →推定精度の向上の観点からはZ3も入れた方が良好な場合が多い(サンプルサイズ次第)
例題その2 |どの変数を加えれば良い? X Y Z1 Z4 Z3 Z2 Z5 Z6
例題その2 |どの変数を加えれば良い? X Y Z1 Z4 Z3 Z2 Z5 Z6
バックドア基準 を満たす最小の 変数セットは 「Z1」 *ここでZ5, Z6を入れると 新たなバックドアパスが 開いてしまう *Z4はそもそも 中間点なので入れてはダメ Z1をブロックすると2つの バックドアパスが全て遮断される
例題その3|どの変数を加えれば良いのか? X Y Z1 Z2 この部分の 因果構造は不明
例題その3|どの変数を加えれば良いのか? X Y Z1 Z2 この部分の 因果構造は不明 バックドアパスが ある場合、必ず Z1,
Z2のどちらかを通る 「Z1, Z2」を加えればバックドア基準を満たす ポイントとなる部分の適切な粒度の背景知識があればよい
例題その3|どの変数を加えれば良いのか? 調整すべき変数の数は「処置Xを生じさせるシステム」と「結果Yを 生じさせるシステム」のデカップリングの程度に依存する (一般論として) X Y Z2 Z6 Z5 Z7
Z1 Z3 Z4 Z10 Z11 Z9 Z8 バックドアパスの成因となる変数=4 Xを生じさせる システム Yを生じさせる システム
例題その3|どの変数を加えれば良いのか? 調整すべき変数の数は「処置Xを生じさせるシステム」と「結果Yを 生じさせるシステム」のデカップリングの程度に依存する (一般論として) X Y Z2 Z6 Z5 Z7
Z1 Z3 Z4 Z10 Z11 Z9 Z8 バックドアパスの成因となる変数=11 Xを生じさせる システム Yを生じさせる システム
例題その3|どの変数を加えれば良いのか? 調整すべき変数の数は「処置Xを生じさせるシステム」と「結果Yを 生じさせるシステム」のデカップリングの程度に依存する (一般論として) X Y Z2 Z6 Z5 Z7
Z1 Z3 Z4 Z10 Z11 Z9 Z8 バックドアパスの成因となる変数=0 いわゆる”自然実験”のケース Xを生じさせる システム Yを生じさせる システム つまり、調整すべき変数の数はかなり対象と文脈に依存する
補足1|実験における無作為化との関係 X Y Z1 Z3 Z2 Z5 Z6 Z4 コイントス
実験とはシステムを“デカップリング”するための方法である コイントスで決めることにより 「Xのシステム」と「Yのシステム」が 完全にデカップリングする
補足2|傾向スコアとの関係 傾向スコアはバックドアパスをブロックする"合成変数" X Y Z1 Z3 Z2 Z5 Z6 Z4
e 傾向スコアで まとめてブロック うまく適用できれば超強力な手法! ブロックにより デカップリングが 成立する
補足3|差の差分析との関係 差の差分析は差分データ化してバックドアパスを消す X Y Z1 Z3 Z2 ΔX ΔY t
t t t t X Y Z1 Z3 Z2 t' t' t' t' t' 時点t 時点t’ 全要因の 時点間差分 をとる Z1, Z2, Z3が時間不変ならば ΔZ1, ΔZ2, ΔZ3はゼロ (項がキャンセルアウトされる) バックドアパスは消失
まとめ|バックドア基準とは “バックドア基準が満たされている” + (2) 処理Xの下流の変数が追加されていない (1) 開きっぱなしのバックドアパスがない 変数ベースではなく”道”の開閉がキモ 傾向スコアもバックドアパスを閉じるための強力な手法 (バックドア基準は満たすべき理論的条件)
介入効果がバイアスなく推定できる *データが適切に測定されており、かつ適切なモデルが適用されているという大前提での話です たとえ森羅万象が因果関係で繋がっていても、因果効果を バイアス無く推定するために考えるべき局所的な因果構造と 変数の範囲を理論的に限定できる
(再掲) 導入|バックドア基準は「何について」の話? 具体的には、バックドア基準を満たすとき... 例えば、重回帰モデルの場合 モデルに追加された説明変数の組が「X→Y」についてバックドア基準を 満たすとき、重回帰分析から得られたXの偏回帰係数をそのまま「X→Y の介入効果」のバイアスのない推定量とみなせる
議論|重回帰分析の偏回帰係数の意味を考える(1/3) 交絡が調整されていない(e.g., バックドアパスが閉じていない)とき、Xの偏回 帰係数をX→Yの因果効果の推定値として解釈するのは妥当ですか? 妥当ではありません (解釈の理論的根拠を欠きます) 例えば、バックドア基準的な考慮を欠く重回帰分析による「規定要因分析」の 「規定」に因果的解釈を持ち込むのは妥当ではありません *この辺りの感覚は統計的因果推論以前/以後でかなり変化しているので注意!! (査読における認識ギャップが生まれがち)
議論|重回帰分析の偏回帰係数の意味を考える(2/3) では、交絡が調整されていない場合の偏回帰係数は何を意味しているのですか? 「XとYの統計的関連の強さ」の指標とはいえるでしょう 本当に、何を意味しているのでしょうね? (これは意外と難しい問題です) ただしそれはあくまで「統計的」関連であって、「実質的」関連とは言えません この場合のXは、「”X”というラベルが付いてはいるが、X以外の特性の影響も潜 在的に混入したある種の合成変数」として捉えることができるでしょう つまり、「『 ”X”というラベルが付いてはいるが、X以外の特性の影響も潜在的に
混入したある種の合成変数としてのX』とYの統計的関連の強さ」とはいえるで しょう これは本当に、何を意味しているのでしょうね? *冒頭の例で言うと、「品種Z」で調整しないときの「肥料X」の回帰係数には品種Zの影響も混入する → ここからややポジティブな議論へと展開するのも 吝かではないのですが余白が足りないので今回は割愛
議論|重回帰分析の偏回帰係数の意味を考える(3/3) P値が低くてもだめ? P値が低いことと因果効果としての解釈可能性は全く別の話です というか、交絡が調整されていない場合には仮説検定の枠組みの大前提が そもそも満たされていないので、仮説検定に基づくストーリー自体が解釈 不能です Xが二値変数(処置なし/あり)のとき、 仮説検定では「もし処置あり群において処置効果がゼロの場合のYの分布は、処置なし群のY と同じ分布となる」という想定が大前提にあるが、交絡があると処置なし/あり群で背景要因 が揃っていないので、「処置あり群において処置効果がゼロ」でも同じ分布とならない
議論|重回帰分析のそもそもの目的を考えよう AICで変数選択しちゃだめなの? 目的の 分類 やりたいことの内容 事例のイメージ (大学の留年の例で) 理念的な理想を なす解析法のイ メージ
モデル選択の 理論的基準の例 しばしば 現実的な 解析法 予測 現在得られている情報から、 将来/未知の値/状況を予測 したい 多数の変数の情報から、留年リスク の高い学生を見つけたい (→その後の支援につなげるなど) 機械学習 AICなど予測能力 の指標 重回帰分析! 説明・記述 要素間の関連性を説明したい なぜ学生が留年するかを説明したい (→要因を探索し理解/対策に繋げたい) フルスタックの 構造方程式 (含む因子分析等) Bayes Factorな どの適合性の指標 重回帰分析! 因果・介入 の効果推定 (制御) ある要因Xに介入したときの、 要因Yに及ぼす効果を知りた い 特定のプログラムの導入が留年を防 止する効果を知りたい (→制御法の効果を知りたい) ランダム化比較 試験 バックドア基準・無 視可能性などの 識別可能性の指標 重回帰分析! 今日はここの話 (基本的には)まずは目的に応じた基準を使ってください *基本を踏まえた上で言うと、「交絡によるバイアス除去」と「推定精度」とのバランスなども考慮に入ってきます
議論|バックドア基準なんて使えないじゃん(1/3) そもそも対象が複雑すぎてDAGなんて描けません! 完全なDAGは描けなくても、因果対象の総合的理解を目指す上でのよい エクササイズ&コミュニケーションツールとなる場合も多いです やや逆説的ですが、DAGの価値の本質の1つは、「私たちは思ったよりDAG を描けない」という体験の中にこそあります 完全なDAGは描けなくても、わかる範囲の因果構造から言えることもあります 解析において「理想の知識状態」との隔たりを体感することは解析の相場観を養う上で非常に重要 気持ちはよく分かります e.g.,
先ほどの「路線図の例」など いずれにしろ、DAGからの御利益が得られるかはケースバイケースの部分が 大きいです 役に立たないときには役に立ちませんが、役に立つときは役に立ちます 解析者が解析対象(解析ドメイン)それ自体にどれくらい本来的な興味があるかにもよるでしょう
議論|バックドア基準なんて使えないじゃん(2/3) バックドア基準を満たす全ての変数データなんて得られません! 気持ちはよく分かります 実務的には、バックドアパスの開閉はゼロイチの話ではありません 実務的には「細いバックドアパス」と「太いバックドアパス」があって、手持ちの変数で「太い バックドアパス」さえ閉められれば、実用上のバイアス補正としては十分な場合もありえます 感度分析によりバイアスの影響を吟味する方法もあります 全ての変数は分からなくても、手持ちの範囲の変数から言えることもあります 全てのバイアスの経路をブロックできなくても、実用上もしくは理論上で重要な変数の 影響についての部分的な議論などはできるかもしれません
自前で調査を設計・実施するという方法もあります 統計的因果推論の実施に必要なのはしばしば、分析知識よりも自前調査用の「金とコネ」です
議論|バックドア基準なんて使えないじゃん(3/3) DAGは描けないし、全ての変数も観測できないし、バックドア基準なんて使えない! 気持ちはよく分かります そもそも論を言うと、「バックドア基準」は“北極星”のようなものであり、実際には 手は届きません しかし“北極星”が「基準となる方角」を示しているからこそ、交絡の闇夜の中でも、 私たちはそこ(バイアスの無い因果効果の推定)を目指すことができるのです 畢竟、「正しいDAG/モデル」とは形而上の存在です 実際問題として、バックドア基準を知ることで「進むべき道の誤まり(e.g., AICで選んだモデル
の偏回帰係数を何も考えずに因果効果の推定値として解釈していた)」に気づく、みたいなこと がバックドア基準のもっともポピュラーな“役に立ち方”かもしれません 最終的な論文の中では登場しなくても、事前検討や事後(ロバストネス)検討など の際にバックドア基準系の知識を使ってることはけっこうあるかもしれません 論文の中では言及されないので、そうした実践は外からは見えないものです
議論|バックドア基準の潜在的な御利益 • バイアスのない推定の成立条件を検証するための視覚化 • 調整すべき変数についての論理が得られる • 調整すべき変数を絞り込むことができる • 調整すべき変数の抜け漏れを防げる •
結果・処理・共変量の変数の概念的妥当性の吟味に役立つ • 感度分析・媒介効果分析への橋渡しとなりうる • 外的妥当性についての議論も深まりやすくなる • 因果の図解自体が関係者とのやりとりに役立つ • 量的(統計的)研究と質的研究の橋渡しとなりうる “Assumptions visualization tool” “分析対象の総合的理解”への見通しが開きやすい 詳しくは本書参照!→
ご清聴いただき大変ありがとうございました!
以下、補遺ノート
バックドア基準と 多重共線性の関係の説明
補遺:バックドア基準と多重線形性の関係の説明 • ステップ1:まず2変量(X, Y)の場合を考える 𝑦 = 𝛽𝑥 + 𝛾 𝛽
= 𝑆!" 𝑆!! 𝛽 = 𝑟!" 𝑟!! 𝛽 = 𝑟!" 単回帰モデルの回帰係数βは 単純化のためデータが標準化 されている場合を考える 単回帰係数は 相関係数に等しい
補遺:バックドア基準と多重線形性の関係の説明 • ステップ2:3変量(X, Y, Z)の場合を考える 𝑦 = 𝛽! 𝑥 +
𝛽" 𝑧 + γ 𝛽! 𝛽" = 𝑆!! 𝑆!" 𝑆!" 𝑆"" #$ 𝑆!% 𝑆%" 重回帰モデルの回帰係数βxは 単純化のためデータが標準化 されている場合を考えると 𝛽! 𝛽" = 1 𝐷 𝑆"" 𝑆!% − 𝑆!" 𝑆"% −𝑆!"𝑆"% + 𝑆""𝑆!% 𝛽! 𝛽" = 1 𝐷 𝑟"" 𝑟!% − 𝑟!" 𝑟"% −𝑟!"𝑟"% + 𝑟""𝑟!% 𝛽! = 𝑟"" 𝑟!% − 𝑟!" 𝑟"% 𝑟"" 𝑟!! − 𝑟!" 𝑟!" 𝛽! = 𝑟!# − 𝑟!" 𝑟"# 1 − 𝑟!" $ 分⺟に⾏列式が 出て来るのがポイント
補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"
1 − 𝑟!# $ 同じデータをxで単回帰すると 本来はZを含まねばならぬときには ↓の式が正解
補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"
1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" 本来はZを含まねばならぬときには ↓の式が正解
補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"
1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" ずれる 本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が ⽋落
補遺:バックドア基準と多重線形性の関係の説明 • ステップ3:3変量の偏回帰係数βxとβの⽐較 重回帰モデルの回帰係数βxは 𝛽! = 𝑟!" − 𝑟!# 𝑟#"
1 − 𝑟!# $ 同じデータをxで単回帰すると 𝛽 = 𝑟!" ずれる xとzの相関が1に近いときに 誤差により⺟数の推定が不安定になる 本来はZを含まねばならぬときには ↓の式が正解 いわゆる"交絡"に よるバイアス この項が ⽋落 いわゆる "多重共線性"
補遺:バックドア基準と多重線形性の関係の説明 119 • ステップ4:バックドア基準で振り返る(その1) Zを追加しなくともバックドア基準が満たされている場合 には偏回帰係数βxと単回帰係数βは等しいはずである X Y Z
補遺:バックドア基準と多重線形性の関係の説明 • ステップ4:バックドア基準で振り返る(その1) Zを追加しなくともバックドア基準が満たされている場合 には偏回帰係数βxと単回帰係数βは等しいはずである X Y Z 𝛽! =
𝑟!" − 𝑟!# 𝑟#" 1 − 𝑟!# $ 𝛽! = 𝑟!" = 𝛽 ゼロ ゼロ この場合、交絡も多重共線性も⽣じない
補遺:バックドア基準と多重線形性の関係の説明 • ステップ4:バックドア基準で振り返る(その2) X Y Z Zを追加しなくともバックド ア基準が満たされている
補遺:バックドア基準と多重線形性の関係の説明 122 • ステップ4:バックドア基準で振り返る(その2) X Y Z 𝛽! = 𝑟!"
− 𝑟!# 𝑟#" 1 − 𝑟!# $ この場合、交絡は⽣じないが、因果構造の知識を利⽤せずにZを含めて 計算すると多重共線性の問題は⽣じうる 𝛽, = 𝑟!" = 𝛽 𝛽! = 𝑟!# − 𝑟!" 𝑟!" 𝑟!# 1 − 𝑟!" $ 𝛽! = 𝑟!# (1 − 𝑟!" $) 1 − 𝑟!" $ Zを追加しなくともバックド ア基準が満たされている "多重共線性" の可能性 因果構造の 知識から
補遺:バックドア基準と多重線形性の関係の説明 • まとめ:変数の追加で偏回帰係数が揺れる理由 𝛽! = 𝑟!" − 𝑟!# 𝑟#" 1
− 𝑟!# $ 𝛽 = 𝑟!" (2) xとzの相関が1に近い (⾏列式が0に近い) (1) x, z, yの相関によるバイアスの⽣滅 バックドア基準の守備範囲 いわゆる「多重共線性」の守備範囲 (3) サンプルサイズの有限性による誤差 「多重共線性」 という現象 サンプルサイズ無限⼤でも⽣じる (相関が1でない限り) サンプルサイズ無限⼤ では⽣じない これ⾃体は符号 の向きを変えない!
補遺:バックドア基準と多重線形性の関係の説明 • まとめ:変数の追加で偏回帰係数が揺れる理由 𝛽! = 𝑟!" − 𝑟!# 𝑟#" 1
− 𝑟!# $ 交絡によるバイアスと多重共線性はどちらも𝑟!" の項が キーとなるので現象⾯からは⾒分けがつきにくい ただしここで⾒てきたように両者はメカニズム的には 別物であり、対処法も別物である 実務的には「銀の弾丸」は無いが、作業仮説的な因果構造の図を幾つか描いてみつつ、 共変量の出し⼊れによって偏回帰係数や信頼区間がとう変化するのかを検討すると 「何が起きているのか/何が起きていないのか」が分かってくることが多い 交絡 多重共線性
その他FAQ
補⾜その2 |バックドア基準が考えていないもの (基本的に)巡回的な因果構造の場合は考えていない サンプルによる偶然誤差は考えていない ただし推定におけるバイアスと精度の関係を理解する上でも ⼀致推定量となる条件(バックドア基準)の理解⾃体は重要 例:交絡によるバイアスと多重共線性の関係 場合によっては推定の精度(バリアンス)を重視 する場合もあることを別に否定するものではない (あくまで⼀般論としては、バイアスの⽅が御しがたいケースが多い)
信頼区間がめちゃくちゃ⼤きいときに⼩さなバイアスを苦⼼して除去 したところであまり意味はない ⼤きなバイアスがあると分かっているときに信頼区間を苦⼼して狭め たところであまり意味はない 普通に、要はバランスである ・ ・ (興味の中⼼は⼀致推定=サンプルサイズ無限⼤のときのバイアスの有無)
補⾜その3 |バックドア基準と”モデル選択” 介⼊効果の推定が⽬的のとき、どの変数を選択する べきかは「データ⽣成メカニズム」における要因間 の因果の繋がり⽅によって規定される ⾔うまでもなく,「データ⽣成メカニズム」はサンプル サイズに依存して変化するようなものではない! AICやBICのような、ベストモデルがサンプルサイズ に依存して変化するようなモデル選択のロジックとは 本質的に論理の筋道の異なる話である
介⼊効果の推定が⽬的のはずなのに、AICによるモデル選択で話が 終始している解析を⾒かけることがあるが、その理論的根拠は乏しい (AICそのものが悪いわけではなく、適⽤のTPOの問題) しかるに ・
補⾜その3 |バックドア基準を満たすときだけ? バックドア基準を満たさなくともバイアスなく推定 できる場合ももちろんある X Y Z1 その他、バックドア基準を満たさなくとも「フロ ントドア基準」などが満たされている場合には他の ⽅法での推定が可能
モデルへの「Z1」の追加はバック ドア基準を満たさないが、バイア スの原因にもならないので⼀致推 定に関しては問題ない (まあでも追加することの積極的な意味もおそらくない) 単純な例 (詳しくは後述の参考⽂献をご参照ください) ・ ・
環境経済連携Gセミナー2024年7月2(火) 14:00〜1時間程度@国立環境研+Zoom *開始までもうしばらくお待ちください* *元講演時の予備スライド1*
環境経済連携Gセミナー 『はじめてのバックドア基準』 2024年7月2(火) 14:00〜1時間程度@国立環境研+Zoom *開始までもうしばらくお待ちください* *元講演時の予備スライド2*