Slide 1

Slide 1 text

宮川雅巳. 統計的因果推論―回帰分析の新しい枠組み (シリーズ・ 予測と発見の科学). 朝倉書店. 2004. Chihiro Mihara 「統計的因果推論」勉強会 「1. 古典的問題意識」 テキスト ※ 上のテキストの内容の勉強会の資料ですが、勝手な説明を加えている箇所もあり ます。テキストの解釈の誤りや勝手な説明の変なところは私に帰属します。

Slide 2

Slide 2 text

なぜ因果推論を導入するのか 2 A君はたくさんの日本人の身長と体重のデータを集めた。体重 と身長には正の相関があった。このことからA君は未知の日本 人の体重だけ観測したとき身長をある程度予測できると考えた。 1. 問題がない例 1. は変数間の因果関係を抽出・利用しようとしていない。 2. は変数間の因果関係を抽出・利用しようとしている。 純粋な統計的手法では因果関係を取り扱うことはできない。 変数を勝手に選んで 2. のような判断をすることはできない。 A君はたくさんの日本人の身長と体重のデータを集めた。体重 と身長には正の相関があった。このことからA君は体重を増や すことによって身長を伸ばそうと考えた。 2. 問題がある例

Slide 3

Slide 3 text

なぜ因果推論を導入するのか 3 いくら何でもそんな間違いはしないのでは? 体重を増やしても身長が伸びないのは定性的 に明らかでは? 定性的に因果があることがわかっている変数 間の相関を利用すればよいのでは? 通常の統計的手法でじゅうぶんなのでは? 肥料を2倍にするとキャベツの収穫量が何倍になるか知りたい。 じゃあ定性的には因果がある例 収穫量に対する肥料の量の回帰係数が肥料の効果とは限らない。 現実的にはむしろこのような定量的問題のため、因果をきちんと 取り扱う必要がある。

Slide 4

Slide 4 text

なぜ変数を自由に選べないのか 4 男性 女性 生存 死亡 生存 死亡 処理無 4 3 2 3 処理有 8 5 12 15 生存 死亡 処理無 6 6 処理有 20 20 何かの処理をされた患者が生存したか死亡したか観測したとする。 処理無も処理有も オッズ 1.0 。 処理の有無で差はなし。 男性のオッズは 1.333 < 1.6 。 女性のオッズは 0.666 < 0.8 。 どちらも処理有のオッズが高い。 同じ データ ※ 処理無のオッズ = 処理無の生存者数 / 処理無の死亡者数 ※ 処理有のオッズ = 処理有の生存者数 / 処理有の死亡者数 男女で層別するかしないかで「処理は有効か」が変わってしまう。 その変数で層別すべきかどうかは変数間の因果関係に依存する。

Slide 5

Slide 5 text

補足 5 一般化すると、 n 有,生,男 n 有,死,男 n 無,生,男 n 無,死,男 n 有,生,女 n 有,死,女 n 無,生,女 n 無,死,女 ≧ 1 ≧ 1 n 有,生,+ n 有,死,+ n 無,生,+ n 無,死,+ ≦ 1 , であるのに、 となる現象をユール・シンプソンのパラドクスという。 ≧ と ≦ は逆向きでもいいがどちらかの不等号は成り立つとする。 先の例では、処理の有無に関わらず女性の死亡率が元々大きいのに女性 の方が処理有に割り付けられた割合が大きいために、処理の効果が打ち 消されてしまっていると考えられる。 処理有のオッズ(処理有群での生存しやすさ) 処理無のオッズ(処理無群での生存しやすさ) オッズ比(両群での生存しやすさの比)

Slide 6

Slide 6 text

じゃあ何を変数に含めるべきなのか 6 交絡因子 ― 層別すべき変数。層別しないと擬似相関が生じる。 出身県 うどん が好き ① に影響する。 ② と関連する。 ③ から影響されない。 交絡因子の要件 ① ② ③ × 成績が よい 例. もしうどんが好きな人は成績 がよい傾向があったとしても、 香川県の人が成績がよいだけ かもしれない。ので、出身県 別に傾向を調べた方がよい。 or

Slide 7

Slide 7 text

変数を含めたらどうすればいいのか 7 例.マンテル・ヘンツェル検定 北海道 青森県 … 全国 合格 不合格 合格 不合格 … 合格 不合格 うどんが好き 1,1,1 1,2,1 1,1,2 1,2,2 … 1,1,+ 1,1,+ うどんが嫌い 2,1,1 2,2,1 2,1,2 2,2,2 … 1,1,+ 1,1,+ もしうどんが好きかどうかが合格/不合格に影響しないならば、 ある県の「うどんが好きな人の数」と「合格した人の数」が所与の下 での「うどんが好きでかつ合格した人の数」は超幾何分布にしたがう。 1,1, = 1,+, C1,1, ∙ 2,+, C2,1, +,+, C+,1, 1,1, = 1,+, +,1, +,+, 1,1, = 1,+, 2,+, +,1, +,2, +,+, 2 (+,+, − 1)

Slide 8

Slide 8 text

変数を含めたらどうすればいいのか 8 任意の県でうどんが好きかどうかが合格/不合格に影響しないならば、 全国で「うどんが好きでかつ合格した人の数」の期待値と分散は、 1,1,+ = ෍ =1 1,+, +,1, +,+, 1,1,+ = ෍ =1 1,+, 2,+, +,1, +,2, +,+, 2 (+,+, − 1) このとき以下の検定統計量が近似的に自由度1のカイ2乗分布にしたがう。 = 1,1,+ − 1,1,+ 2 1,1,+ • 0 : 母オッズ比が全ての県で1である。 • 1 : 母オッズ比が全ての県で共通であるが1ではない。 0 が棄却されたときの母オッズ比の推定量はMH推定量で与えられる。

Slide 9

Slide 9 text

補足 9 ちなみに、通常のピアソン適合度検定をすると以下の 2 が自由度 のカイ2乗分布にしたがう。 • 0 : 母オッズ比が全ての県で1である。 • 1 : 母オッズ比が少なくともある県で1ではない。 ,, = ,+, +,, +,+, 2 = ෍ =1 ෍ =1 2 ෍ =1 2 ,, − ,, 2 ,, しかし、上の 0 が棄却されても「うどんが好きかどうか」の「合格 するかどうか」への効果が支持されたわけではない。 まとめ • 「うどん好きか」の「合格するか」への効果は県別にみないと駄目。 • どの県でもうどんの効果がないと駄目なのでそれ用の検定をする。

Slide 10

Slide 10 text

まとめ 10 データから変数間の因果関係を評価したいときには、 • 勝手に選んだ変数で回帰してはいけない。 • 因果関係がある変数であっても偏回帰係数の大きさをそのまま 効果の大きさと考えることはできない。 • 必要な変数(交絡因子)を特定した上で、効果の有意性を判定 し、効果の大きさを測る必要がある。 → 詳細は次章以降! ‐ 2 × 2 × 分割表に対する分析の例がマンテル・ヘンツェル検定。