Observational studies (Causal inference: What if, Chapter 3)

Causal inference : What If Chapter 3 Observational studies 1

目次 2 3.1 Identifiability conditions 3.3 Positivity 3.2 Exchangeability 3.4
Consistency: First, define the counterfactual outcome 3.5 Consistency: Second, link counterfactuals to the observed data 3.6 Target trial 今までの内容の復習 Chapter3 OBSERVATIONAL STUDIES

Causal inferenceが目指すもの研究のデータから原因と結果の因果効果を推定することを因果推論(=causal inference)という 4 原因(A) 結果(Y) 原因と結果の因果効果(=causal
effect)を知りたい

理想的な因果推論の方法 5 Xさん Xさん原因あり A＝１原因なし A＝０結果 Y
Xさん Xさん結果を比較したい同一人物で２つの相反する状況を発生することはできないため不可能結果 Y

個人ではなく集団で比較すればいいじゃない 6 結果を比較 2群の集団の人の背景因子(L,共変量、交絡因子)に差があると結果の違いを原因の有無だけで説明できない原因あり A＝１原因なし A＝０結果 E[Y┃A＝１]
Pr[Y┃A=1] 結果 E[Y┃A＝0] Pr[Y┃A＝0]

無作為化（ randomised experiment)すればいい 7 無作為に割り付けることで対象集団の背景因子(L,共変量)にばらつきが出なくなる（はず）どちらの群にするかランダムに決める原因あり A＝１
原因なし A＝０結果 E[Y┃A＝１] Pr[Y┃A=1] 結果 E[Y┃A＝0] Pr[Y┃A＝0] 結果を比較

無作為化(randomised experiment)すればよいけど・・・？介入できない研究、倫理的問題、手間暇かかるので無作為化が難しい 8 観察研究(＝介入を行わない研究)から因果推論したい観察研究でも因果効果Causal effectを算出したい（近似したい）・・・Chpter 3で扱う内容

Causal inferenceに重要な概念反事実(counterfactual) 9

事実と反事実│個人レベル 10 Xさん Xさん結果 Y Xさん Xさん結果 Ya=0
事実（Xさんは心臓移植を受けた、A＝１）反事実（もしXさんが心臓移植を受けなかったら）

事実と反事実│集団レベル 11 ※この場合はA＝１の人たちもA＝０の人たちも、どちらも事実原因あり A＝１原因なし A＝０結果 E[Y┃A＝１] Pr[Y┃A=1]
結果 E[Y┃A＝0] Pr[Y┃A＝0]

事実と反事実│集団レベル 12 ※この場合はA＝１の人たちもA＝０の人たちも、どちらも事実原因あり A＝１原因なし A＝０結果 E[Y┃A＝１] Pr[Y┃A=1]
結果 E[Y┃A＝0] Pr[Y┃A＝0] A=1の集団について考える

事実と反事実│集団レベル 13 [Ya=0┃A=1]：心臓移植を受けた(A＝１)集団がもし心臓移植を受けていなかった(a=0) 時の結果Y 原因あり A＝１原因なし A＝０結果 E[Y┃A=1]
Pr[Y┃A=1] 事実（心臓移植を受けた、A＝１）反事実（もしA=1の集団が心臓移植を受けなかったら）結果 E[Ya=0┃A=1] Pr[Ya=0┃A=1]

因果効果Causal effectと反事実アウトカムcounterfactual outcome ┰ 本来ならば同一人物についての2つの相反する介入(A=1、A=0)の結果(Y)の違いを比較したい ┰ つまり、事実のアウトカム(実際に観察されたアウトカム)と反事実アウトカムを比較して因果効果Causal effectを推定したい
＝E[Ya=1]とE[Ya=0]を比較したい ┰ でも現実には反事実アウトカムYaは算出できないから、非介入群（A=0)の集団の結果(Y)を代用することで因果効果Causal effectを推定する ┰ 非介入群(A=0)の集団の結果(Y)を代用できるかがとても大事 14

Causal inferenceに重要な概念共変量(covariates) 15

集団同士で比較するときに問題になる背景の差 16 結果を比較 2群の集団の人の背景因子に差があると結果の差異を原因の有無だけで説明できない→この背景因子のことを共変量（covariates,L)と呼ぶ原因あり A＝１原因なし A＝０結果
E[Y┃A＝１] Pr[Y┃A=1] 結果 E[Y┃A＝0] Pr[Y┃A＝0]

共変量（Covariates、L）とは ┰交絡因子とほぼ同義 ┰原因（A）とも関係があり、かつ結果（Y）とも関連がある因子・変数のこと ┰原因（A）→結果(Y)の因果効果Causal effectを推定するには共変量Lを調整して解析する必要がある 17

共変量（Covariates、L）とは ┰ コーヒーを飲む人ほど心筋梗塞を発症しやすくなるという因果効果Causal effectがあったとする ┰ ただ喫煙も心筋梗塞の発症に因果がある(=喫煙する人ほど心筋梗塞を発症しやすくなる） ┰ 喫煙する人はコーヒーの消費量が上がる場合、喫煙は共変量にあたる ┰ 喫煙を調整(=喫煙の有無が心筋梗塞の発症率に影響しないようにする）した上で解析しないと
コーヒーの摂取が心筋梗塞の発症に及ぼす純粋な効果(因果効果Causal effect)が分からなくなる 18 原因（A）例：コーヒーの摂取結果(Y) 例：心筋梗塞の発症共変量(L) 例：喫煙

共変量の調整方法 ┬ このチャプターの中では、共変量Lについて、共変量が2値変数だった場合、因子がある（L=1）群とそうでない群(L=0)に分けたうえで原因(A)→結果(Y)の因果効果Causal effectを算出する方法が紹介されている ┬ 式にするとE[Y│A=a,L=l]をそれぞれすべてのa,lについて算出してから比較する ┬ 例：E[Y│A=1,L=1]･･･L＝１という条件（例えば喫煙者)の中でA=1(コーヒーを飲む)人
の結果(Y､例えば心筋梗塞の発症)の期待値 ┬ 具体的な計算はのちほど 19

因果推論causal inferenceにおける共変量の重要性 ┰ 現実には反事実アウトカムYaは算出できないから、非介入群（A=0)の集団の結果を代用することで因果効果Causal effectを推定する(再掲) ┰ 非介入群(A=0)の集団の結果を代用できるかがとても大事(再掲) ┰ 共変量Lの分布が介入群(A=1の人)と非介入群(A=0)で違っている
（＝どちらかに偏っている）と非介入群の(A=0)の人の結果を介入群(A=1)の人の反事実アウトカムCounterfactual outcomeに代用できなくなる ┰ そうすると因果効果Causal effectは推定できない 20

無作為化(randomised experiment)すればよいけど・・・？無作為化により介入群と非介入群に分けていれば因果推論できる(再掲) 22 介入しない研究、倫理的問題、手間暇かかるなどの理由で無作為化が難しいことも観察研究でも因果関係Causal effectを算出したい（近似したい）

因果推論をするために必要な３条件 23 介入の内容が明確になっている介入の結果が反事実アウトカムと一致する Consistency 一貫性 Exchangeability
交換可能性 positivity 正値性介入を受ける・受けないの傾向は共変量Lにのみ依存する（＝影響を受ける）共変量Lを条件づけたときに介入群・非介入群のどちらも 0人でないことちなみにこの３つをすべて合わせて識別可能性identifiabilityとよぶ

どうしてもIdentifiabilityを満たさないときは？ 24 Instrumental variableという予測因子を用いて因果効果Causal effectを求めることができます詳細は16章で！！識別可能性Identifiabilityの条件厳しくない？そう、そうなんです。こういうときには成り立つはずだ、という「仮定」のもと因果推論していく形になります。
「仮定」についてはFine Point3.1で！！

Fine point 3.1 identifiability of causal effects 因果効果の識別可能性 25

Identifiableとは把握している共変量Lを調整（条件付け）すれば原因(A)→結果(Y)の因果効果を推定できると仮定するとき、因果効果Causal effectは識別可能identifiableであるという。仮定は背景知識などにより判断する（このくらい調整してればまあいいでしょ）みたいな 26 原因（A）例：コーヒーの摂取結果(Y) 例：心筋梗塞の発症
共変量(L) 例：喫煙

例 Table3.1で考える 27 ┬ 共変量Lを条件付け（調整）して原因(A)→結果(Y)の因果効果Causal effectを推定する ┬ L＝０の人とL＝１の人に分けて
リスク比を算出してみよう

例 Table3.1で考える（Ｌ＝０の人だけで考える） 28 ｎ[Y=1│A=1]=1 ｎ[Y=0│A=1]=3 ｎ[Y=1│A=0]=1 ｎ[Y=0│A=0]=3 結果(Y) １ (あり)
0 (なし) 計原因 ( Ａ ) ( あり ) １１ 3 ４ ( なし ) ０１３４リスク比Risk ratio＝ 1 4 ÷ 1 4 = 1

例 Table3.1で考える（Ｌ＝１の人だけで考える） 29 ｎ[Y=1│A=1]=6 ｎ[Y=0│A=1]=3 ｎ[Y=1│A=0]=2 ｎ[Y=0│A=0]=1 結果(Y) １ (あり)
0 (なし) 計原因 ( Ａ ) ( あり ) １ 6 3 9 ( なし ) ０ 2 1 3 リスク比Risk ratio＝ 6 9 ÷ 2 3 = 1

つまり ┰ 共変量Ｌ以外には交絡因子は介在しないという仮定のもとならリスク比＝１となる ┰ もしＬ以外にも共変量が存在するとしたら・・・？そしてその共変量が介入群(Ａ=1)と非介入群(Ａ=0)で違うとしたら・・・？ ┰ ↑の場合の真のリスク比（因果リスク比）がどのようになるか考察する ┰ 例として、介入(Ａ)に心臓移植、結果(Y)に死亡率を考えてみる
30

もしＬ以外の交絡因子が介入群に多かったら・・・ (交絡因子を持っている人の方が死にやすい) 介入群の方が死にやすい人が多い 31 ということはその交絡因子が介入群の死亡率を押し上げているはず押し上げてもリスク比＝１なのであればその交絡因子がなければ（ちゃんと調整していれば）リスク比は１より小さいはず

もしＬ以外の共変量があっても ┰ Ｌ以外の共変量があってもそれが介入群と非介入群で均等に分布している場合はリスク比は１のまま変わらないことになる ┰ もしくは、 (・・・Ｌを条件付けすれば介入(Ａ)の有無は反事実アウトカムＹaには影響しない)が成り立つ状況でもリスク比は１のまま ┰ ↑はExchangeabilityの定義
32

無作為化しているとき（再掲） 34 無作為に割り付けることで対象集団の背景因子(L,共変量)にばらつきが出なくなる（はず）どちらの群にするかランダムに決める原因あり A＝１原因なし A＝０
結果 E[Y┃A＝１] Pr[Y┃A=1] 結果 E[Y┃A＝0] Pr[Y┃A＝0] 結果を比較

ということは 35 A＝１のメンバーとA＝０のメンバーを入れ替えたところで結果(Y)は変わらないはず →この入れ替えられる状況のことをExchangeability(交換可能性)というどちらの群にするかランダムに決める原因あり A＝１原因なし
A＝０結果 E[Y┃A＝１] Pr[Y┃A=1] 結果 E[Y┃A＝0] Pr[Y┃A＝0] 結果を比較

じゃあ共変量Lを条件付けして解析すればよいのでは？ 36 そうです♪ 条件付け交換可能性conditional Exchangeability といいます無作為化すれば交換可能性Exchangeabilityは必ず成り立つんですね？交換可能性Exchangeabilityが成り立つのは介入群と
非介入群で共変量Lの分布に違いがないからです。だからたとえ無作為化していても偶然などの理由で共変量Lの分布に偏りが出た場合には交換可能性 Exchangeabilityは成立しません

交換可能性Exchangeabilityが成り立つかどうか考える上で気をつけることは？ 37 結果(Y)に影響する共変量Lを出来る限り把握していること。そのためには研究したいテーマ（因果効果Causal effectを調べたいテーマ）にどんな交絡因子が介在することが知られているか、よく知っておくことが大事です。つまり下調べをちゃんとしておく、ということです。観察研究はどうあがいても共変量Lが偏るから
交換可能性Exchangeabilityは成り立たないのでは？結果(Y)に影響する共変量Lをすべて条件付けして解析するなら条件付き交換可能性conditional Exchangeabilityが成り立ちます

38 とはいえ未知の交絡因子（まだ知られていない交絡因子）があったら交換可能性Exchangeabilityは成り立たないのでは？そうです♪ まあそこに関しては「未知の交絡因子は想定しない」という「仮定」のもと因果推論するしかないと思います。

Fine point 3.1 Crossover randomized experiments 無作為化クロスオーバー試験 39

クロスオーバー試験における因果推論 40 ┰ クロスオーバー試験については(考慮すべき) アウトカムが(事実・反事実含めて) 4種類存在する ┰ 本当なら同じ時間tにおける介入の有無で比較したいが反事実アウトカムは測定できないためt=0の時点のアウトカムを代用する
┰ この4種類のアウトカムを比較し因果効果 Causal effectを推定するが、そのためには満たしておくべき条件が３つある (Chapter 2内Fine Point2.1より) 介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝０事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合 =1 0 , 1

クロスオーバー試験で因果推論するための条件その１ 41 ⅰ）キャリーオーバー効果がない ┰ つまり、介入を最初に受けても後に受けても介入によって得られるアウトカムは同じ値になる、という仮定 ┰ キャリーオーバー効果があると、最初(t=0)に介入を受けた場合に次(t=1)
で介入なしになっていてもt=0で受けた介入の効果が影響してt=1のアウトカムが変わってしまう、純粋な非介入Ａ＝０の結果(Y)にはならない ┰ で表される介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝０事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合 =1 0 , 1 = =1 1

クロスオーバー試験で因果推論するための条件その２ 42 ⅱ）因果効果Causal effectが時間経過の影響を受けない ┰ 因果効果Causal effectは左図の例だと－で表されるが、これが時間がt=0だろうとt=1だろうと変わらないよね、
定数(これをαi とおいている)になるという条件 ┰ ちなみにクロスオーバー試験における因果効果は一般化すると下の式になる ┰ 観察データから何とかして↑のαi を求めるのがクロスオーバー試験における因果推論介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝０事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合

クロスオーバー試験で因果推論するための条件その３ 43 ⅲ)反事実アウトカムが時間経過の影響を受けない ┰ もしA=1の時に介入を受けていなかったら・・・という反事実アウトカムCounterfactual outcomeを考えたときに、この反事実アウトカムが時間経過に左右されないこと（＝左右されないと仮定できること） ┰
左の例だととをさす ┰ これが成立していないと左図でいうが一定(定数βi とおく)でなくなり因果推論自体ができない（なぜなら因果推論は同じ時点(左の例だとt=1)における－で求められるから） ┰ 式で一般化すると介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝０事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合

クロスオーバー試験で因果推論するときの基本的な考え方 44 ┬ 観察できるのは＝－ ↑一貫性Consistencyを式にしただけ ┬ でも因果効果Causal effect(さっきのαi
)を求めるのに必要なのはと ┬ なのでを加え、ⅱの仮定などを使うとαi を求めることができる ⅲ）より＝＝βi だから介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝０事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合

クロスオーバー試験で因果推論するときの基本的な考え方 45 ┬ 観察できるのは＝－ ↑一貫性Consistencyを式にしただけ ┬ でも因果効果Causal effect(さっきのαi
)を求めるのに必要なのはと ┬ なのでを加え、ⅱの仮定などを使うとαi を求めることができる ⅲ）より＝＝βi だから介入あり A＝１介入なし A＝０介入あり A＝１介入なし A＝0 事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合もしⅲ）の仮定が成り立たなかったら・・・！！┳

ⅲが成り立たないときの因果推論の方法 46 ┰ まず、－＝とおく（ちなみにⅲが成り立つなら＝０） ┰
左の例より、介入あり A＝1 介入なし A＝0 介入あり A＝1 介入なし A＝0 事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入なし、次(t=1)で介入ありの場合

ⅲが成り立たないときの因果推論の方法 47 ┰ まず、－＝とおく（ちなみにⅲが成り立つなら＝０） ┰
左の例より、同様にして＝－介入あり A＝0 介入なし A＝1 介入あり A＝0 介入なし A＝1 事実 ( 観察できる ) 反事実 ( 観察できない ) ｔ t=０ t=1 最初(t=0)に介入あり、次(t=1)で介入なしの場合 Y1 0 =0 Y0 0 =0 Y0 1 =1 Y0 1 =1 Y1 0 =0 Y0 0 =0 Y0 1 =1 Y0 0 =0 Y1 0 =0 Y1 0 =0 Y0 0 =0 ＝ー＋ー＝－ ( ー ) Y1 0 =0 Y0 0 =0

まとめると最初(t=0)の時に介入なし(a=0)、次(t=1)の時は介入あり(a=1)であったときは観察データによるになり、逆のパターンだとになるただは未知数なので求められない 48 ↑の２つの式を足せばが消えるなあ～とひらめく
しかしこの２つのパターンは全く違う状況なので2つの式を足すということはできない（なぜなら人生は一度きりだから）

ここで使うのが無作為化Randomised experiment ┏ 先ほどまでは個人の話だったが、集団でクロスオーバー試験をやることを考える ┏ 交換可能性Exchangeabilityの定義より、無作為化により介入群A＝１と非介入群A=0に割り付けて交絡因子の介在を排除していればそれぞれ２つの群のメンバーを入れ替えたところで測定されるアウトカムは入れ替える前と変わらないはずということを思い出す ┏ つまり集団だからA=1、A=0の２つ状況を一緒に発生させることも可能だし、交換可能性が成り
立っていれば同一人物に2つの状況を発生させたと考えてもよい ┏ これで足せる・・・足せるぞ・・・・！ ┏ 2群のアウトカムの平均値を使えばE[α i ]が求められる！これで因果効果Causal effectを推定できる！ 49

ここまでの参考文献 ┏ Causal inference: What if https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/ ┏ 構造方程式モデルによる因果推論：因果構造探索に関する最近の発展 http://www.ar.sanken.osaka-
u.ac.jp/~sshimizu/papers/BSJ2012_Tutorial_final_web.pdf ┏ UNBOUNDEDLY 健康に関する研究の読み解き方・データ分析について更新 https://www.krsk-phs.com/ ┏ Take a Risk : 林岳彦の研究メモ http://takehiko-i-hayashi.hatenablog.com/ 50

Positivity(正値性) ”どのAの値をとる確率も0でない”という条件 0でない＝正の値(Positive) このような場合はどちらかの確率が0になってしまう･･･因果推論が成り立たない！困った！しかしながら観察研究はPositivity(正値性)が成立しない可能性がある 52 A=0 A=1 A=0
A=1

Positivity (正値性)が成立しない!? ➢ 観察研究はPositivityが成立しない可能性がある Conditional Exchangeabilityを考えてみる (すべてのaに対して E[Ya│A=0, L] =E[Ya
│A=1, L] ） ➢ この時、Positivityは共変量Lの組み合わせごとに成立している必要がある＝Lに含まれる要因の数が増えると、Lの組み合わせのパターンも増える 53 疾患有無０１性別０１･･･０１･･･０１･･･０１･･･０１･･･０１･･･０１･･･０１･･･０１ Lに2値変数が10個含まれていたとすると、210=1024通り。N=3000程度のデータだと、平均して各組に約3人しか含まれない。 ⇒全員がA=0 or A=1という状況も生じうるため、その場合はPositivityは不成立

Positivityが成立しない例 ❶ 以下のような例を考えてみる研究内容│ 乳がんの術後患者がホルモン剤を内服すると再発率が減るか (サンプル数=4900とする) • 年齢（40歳未満=0, 40歳以上=1） •
リンパ節転移の有無（男性=0, 女性=1） • ステージ（StageI=0, StageII orStageIII=1） • 閉経状況（閉経前=0, 閉経後=1）このように層別解析を行う場合、24=16の層にわかれる。サンプル数が4900と多いから、 16層に分類しても問題ないのでは? 54

Positivityが成立しない例 ❷ 年齢リンパ節転移ステージ閉経投与群非投与群 1 0
0 0 476 479 1 0 0 1 594 714 1 0 1 0 48 63 1 0 1 1 59 86 1 1 0 0 399 213 1 1 0 1 443 262 1 1 1 0 94 65 1 1 1 1 101 77 55

年齢リンパ節転移ステージ閉経投与群非投与群 0 0 0 0
137 225 0 0 0 1 1 1 0 0 1 0 17 24 0 0 1 1 0 0 0 1 0 0 139 109 0 1 0 1 2 1 0 1 1 0 38 32 0 1 1 1 0 1 Positivityが成立しない例 ❸ 56

Consistency (一貫性) 集団レベル 58 個人レベル A=aのとき Ya ＝Y E [Ya┃A=a]
= E [Y┃ A=a] 定義： A=a だった人が、仮に A=a とする介入をうけたときに取りうる反事実上のアウトカムYa は、その人たちが実際にとった値 Y と等しい。

肥満の病気リスクへの影響からConsistencyを考えてみる❶ 59 実際に肥満であった集団（A=1) について考えてみると E [Y|A=1] 肥満の人たちの健康リスク平均 E[Ya =1|A=1] 「肥満になるような介入」の健康リスク平均

肥満の病気リスクへの影響からConsistencyを考えてみる❷ 60 遺伝子的な太りやすさ？運動不足？内分泌性？食べすぎ？運動不足・食べ過ぎなどによる肥満で健康に与える影響が異なる場合、実際に肥満になった理由と介入によって肥満を引き起こすときの方法が違うときは E[Ya=1|A=1]とE[Y|A=1]が一致するとは限らない。

２ 1 Consistency の（一貫性）主要な構成要素 61 反事実上の結果"
Ya "と観測された結果“Y”との関連性 (3.5 Consistency) 介入"a"の詳細な指定による反事実上の結果"Ya"の正確な定義 (3.4 Consistency)

ある集団において、心臓移植(A) が 5 年死亡率 (Y) に及ぼす因果関係を定量化したいと考えているとする。 ➢ 研究に患者を登録する前に、心臓移植(A=1)と内科的治療(A=0)の2つの介入内容を詳細に記述したプロトコルを作成
(例)心臓移植(A=1)に割り付けられた患者は、特定の術前処置／麻酔／手術手技／術後のケア／免疫抑制療法を受けることが明記されていた。 ➢ もし介入内容が明記されていなかったら･･･？それぞれの医師が好みの手術手技や免疫抑制療法を用いて、異なる「心臓移植」治療を行っていた可能性心臓移植(A)と死亡率(Y) 62 異なる治療法が実施されていて、因果関係が異なる場合に問題が生じる！

肥満(A)と死亡率(Y) ❶ ある集団において、40歳時の肥満(A)が50歳までに死亡するリスク(Y)に及ぼす因果関係を定量化したいと考えているとする。(非肥満A=0､肥満A=1とおく) 63 肥満肥満非肥満 20歳 40歳
肥満非肥満肥満 BMI30 BMI40 ”40歳の時に肥満”と一言でいっても期間や再発性、肥満の程度などにより結果が変わりうる

ゼウスは40歳で肥満（A = 1）であり、49歳で致命的な心筋梗塞を起こした（Y = 1）肥満(A=1) 肥満(A)と死亡率(Y) ❷ 64 太りやすい遺伝子を
持っていた運動習慣あり健康的な食生活腸内細菌叢も良好死亡他の因子は健全であったのに、遺伝子が原因で亡くなった

ゼウスは40歳で肥満（A = 1）であったが、50歳で生存していた（Y = 0）肥満(A=1) 肥満(A)と死亡率(Y) ❸ 65 太りやすい遺伝子を
持っていない運動習慣なし不健康な食生活腸内細菌の乱れ生存生活習慣は不健全であるが、遺伝子を持っていないので生存していた

肥満(A)と死亡率(Y) ❹ ➢ ここで考えてみる “肥満(A=1)の下でのゼウスの反事実上の結果Ya=1とは何だろう??” ➢ ゼウスは肥満(A=1)につながる1つの状況下（遺伝子の有無）で死んだが、肥満(A=1)につながる別の状況下（生活習慣）では死んでいなかっただろうこの時、 A=1の下での反事実上の結果
Ya=1 は明確でない（ill-defined intervention問題） 66

介入"a"の詳細な指定による反事実上の結果"Ya"の正確な定義 ➢ 関心のある介入(状態) aを詳細に指定する必要があるもし介入(状態) aが十分に定義されていなければ、反事実上の結果Yaが十分に定義されていないことになり、因果効果Pr[Ya=1 = 1] ｰ
Pr[Ya=0 = 1]が定義できない ➢ 理想的には、Randomized Experimentにて各個人に割り当てられた介入(状態) aを詳細に指定し、その反事実上の結果Yaが正確に定義されるようにする。観察研究では、研究者は研究対象となる値aを可能な限り詳細に指定する必要がある。この作業は心臓移植のような介入では比較的簡単だが、現実世界での実際の介入に対応していない治療でははるかに難しい。 ➢ aに複数の種類が考えられる場合をMultiple versions of treatmentという。このとき反事実アウトカムYa=1が一意に定義されないことが問題視される。 67

介入"a"の詳細な指定による反事実上の結果"Ya"の正確な定義 68 Q. ある介入が十分に定義されているということをどのように確認するのか？ “How do we know that a
treatment is sufficiently well-defined?” A. 我々にはわからない。The answer is “We don’t.” 最大限曖昧さを排除しようと試みる必要はあるが、全ての因果関係の問題には、ある程度の曖昧さが内在する。曖昧さは軽減することは可能であるが、完全に排除することはできない。因果関係の問いを精緻化することは、因果推論の基本的な要素

２ 1 Consistency の（一貫性）主要な構成要素 70 反事実上の結果"
Ya "と観測された結果“Y”に関連があるか介入"a"の詳細な指定による反事実上の結果" Ya "の正確な定義

毎日体重測定 (体重がベースより上回った時) 食事制限改│肥満(A)と死亡率(Y) ❶ 71 介入群 a=1 18歳から40歳の間、対象者全員に強制的な食事制限を課す。対照群
a=0 介入しない今回はa = 1とa = 0が十分に定義されており、反事実上の結果Ya=1とYa =0に曖昧さが残らないと専門家が同意したとする。その上で肥満と死亡率の関係を考えてみる

改│肥満(A)と死亡率(Y) ❷ (例)介入を受けていない(a = 0)にもかかわらず、18歳から40歳までほぼ一定の体重を維持していたアレスを想定してみる 72 介入なし A＝0 介入あり
A＝1 結果 Y 結果 Ya=1 事実（アレスは介入を受けていないが体重維持）反事実上の結果（もしアレスが介入を受けていたら）アレスアレスアレスアレス ≠ 必ずしも一致しない

反事実上の結果“Ya”と観測された結果“Y”に関連があるか ❶ ➢ 介入を受けた対象者(a=0)のみが、分析において介入を受けた個人（A = 1）とみなされることを保証しなければならない。同様に介入を受けていない対象者(a=1)のみが介入を受けていない個人（A = 0）とみ
なされなければならない。 ➢ 観察データを用いて因果効果を定量化したいのであれば、手に入れた各個人のデータがA = 1およびA = 0とそれぞれ一致するものが存在することが必要である。（Positivityが保たれている必要がある） ➢ 先の例のように、介入ａがよく定義されていても、介入が観察されたデータとリンクできない場合(Consistencyの定義である等式Ya = Y が保持されていることを仮定できない場合) には役に立たない 73

Positivity(正値性) [再掲] ”どのAの値をとる確率も0でない”という条件 0でない＝正の値(Positive) このような場合はどちらかの確率が0になってしまう･･･因果推論が成り立たない！困った！しかしながら観察研究はPositivity(正値性)が成立しない可能性がある 74 A=0 A=1
A=0 A=1

Consistency (一貫性) [再掲] 集団レベル 75 個人レベル A=aのとき Ya ＝Y E
[Ya┃A=a] = E [Y ┃A=a] 定義： A=a だった人が仮に A=a になるような介入をうけたとすると、その時に取りうる反事実上のアウトカムYa は、その人たちが実際にとった値 Y と等しい。

反事実上の結果“Ya”と観測された結果“Y”に関連があるか ❷ ➢ すべての治療法の効果が同一であると仮定してしまうという手もある (例)血圧の値と脳卒中の因果関係に関心がある場合血圧の下げ方に様々な方法があるが、どの方法を用いても同様の結果が得られることが経験的に示唆されている。その場合は介入の正確な定義づけは、潜在アウトカムと観察されたアウトカムを結びつけるためには不要であると考えられる。 ➢ 「肥満」のような不明確な定義は因果推論を複雑にするし（3.4の内容）、十分によく定義された介
入だが対応するデータがない場合も同様（3.5の内容）。興味のある介入と手元のデータとの間のミスマッチを検出できるように、介入を注意深く特徴づける必要がある。このような特徴付けはRandomized Experimentsでは簡単で、いくつかの観察研究においても（治療の効果を研究するもの）比較的容易だが、生物学的および社会的要因の効果を研究する多くの観察研究では困難または不可能といえる。 76

The target trial 観察データからの因果推論は、関心のあるResearch Questionに答えるRandomized Experiment （標的実験または標的試験）をemulate(代替)しようとする試み。 ⇒観察データの因果推論は特定の標的試験をどの程度emulateしているかという点で評価する必要がある。
78

The target trial 適格基準、治療戦略、アウトカム、追跡調査の開始と終了時期など研究プロトコールをできるだけ近づけて、両研究が同じ因果関係を対象とするようにする 79 ❶ Harmonization of the
study protocols 因果関係を推定するためのデータ分析方法をできるだけThe target trialに近づける ❷ Harmonization of the data analysis to estimate the causal effect ❶❷を揃えても説明できない結果の不一致が生じた際に、その影響を調査するための感度分析を実施する ❸ Sensitivity analyses

Technical Point 3.1 Positivity for standardization and IP weighting. •
aにおける標準化平均の定義： σ E [Y|A=a,L=l] Pr[L=l] if [Y|A=a,L=l] >0 for all l with Pr[L=l]≠0（Positiveであるとき） • IP荷重平均 E[I(A=a)Y f[A┃L] ] ≠ E[I(A=a)Y f[a┃L] ] (Positivityが保持されない時) under exchangeabilityにおいて、 E[I(A=a)Y f[A┃L] ] = E[Ya|L∈Q(a)] Pr[L∈Q(a)] AがbinaryでありPositivityが保持されていない場合、Q(a)の定義からQ(0)はQ(1)と等しくなり得ない。この場合、 E[I(A=1)Y f[A┃L] ] - E[I(A=0)Y f[A┃L] ]は、under exchangeabilityでも、2つの異なるグループ間の比較であるため、因果解釈を持たない。しかしunder exchangeability で値がPositiveであればQ(1) = Q(0)が成り立つため、平均的な因果効果として扱える 80 Slackの質問も参照してください

Technical Point 3.2 Cheating consistency • Multiple versions of treatmentな介入Rがある。この時反事実アウトカムYa=1が一意に定義され
ないことが問題視されると過去スライドで述べたが、Multiple versions of treatment下でも Consistencyが保持される条件がある • 非肥満（肥満）の集団における体重の決定因子の分布を反映させるために、体重の決定要因を変化させることによって全員を非肥満（肥満）に割り当てるという方法がある • このTrickは、Pr[Y = 1|A = 1]とPr[Y = 1|A = 0]を比較する多くの観察研究の分析で暗黙の了解として使用されている（多くの場合は、他変数の条件付き）。 • 問題点：現実的な介入とは一致しない可能性（外的妥当性の担保の問題）「調整された体重の決定要因」に介入すると、死亡率が30％減少すると示唆されたとしても、現実的な介入（カロリー摂取量や運動レベルの変更etc）が実際に死亡率を30％減少させることを意味するわけではない。 81

Fine Point 3.3 Possible worlds(可能世界論). （Wikipediaより引用） ➢ 可能世界論とは、論理学や哲学において、可能性・必然/偶然性等様相命題を論理的に扱うための理論。現実に創造された世界が「全ての可能世界の中で最善のものである」と論じたもの。Stalnaker
(1968) とLewis (1973)が可能世界論を利用し、反事実的条件文を分析。「もし～だったら、～だっただろう」と論じる時、主張の真偽は前文を満たすような最も現実世界に近い世界において、後文が真かどうかによって決定される。 (例)「トランプが大統領にならなかったら、クリントンが大統領になっていただろう」という文は「トランプが大統領にならなかった可能世界のうち、我々の現実世界に最も近い全ての世界においてクリントンが大統領になっている」。トランプが大統領にならなかった現実世界に最も近い世界のうち、クリントンも大統領になっていないような世界があるとすれば、この反事実条件文によって表現された主張は「偽」である、ということになる。 ➢ 科学哲学者の中には、“可能世界 ”という概念を使い因果関係の対比を定義する人もいる。結果の平均は、1番目に近い世界ではE[Ya]、2番目の世界ではE[Ya‘] 。彼らは、E[Ya]≠E[Ya']であり、aとa‘を行う現実世界に最も近い2つの世界がそれぞれaとa'であれば、平均的な因果関係があるとしている。 82

Fine Point 3.4 Attributable fraction（寄与分画）一定の集団において、ある因子への曝露の結果として疾病が発生したとする。寄与分画＝曝露群で疾病を生じた人で、曝露が疾病発生の原因に占める割合を示すもの。 Pr[Y=1] − Pr[Ya=1]
Pr[Y=1] (一般的な式は RD / R 1 = R 1 – R 0 / R 1 ) Q. ｱﾝﾌﾞﾛｼｱ(A=1)、ﾈｸﾀｰ(A=0)のいずれかが出された夕食会の翌日ｱﾝﾌﾞﾛｼｱを食べた7/10人、ﾈｸﾀｰを食べた1/10人が病気になった。後にｱﾝﾌﾞﾛｼｱが鳩によって汚染されていたことが判明。ｱﾝﾌﾞﾛｼｱを摂取したことが原因となった症例の割合はどの程度か？ A. Pr[Y=1]=8/20=0.4。全員がA = 0の場合に観察されたリスクは、Pr[Ya=0 =1]=0.1。RDは0.4- 0.1=0.3より、全員がﾈｸﾀｰをたべていたら、病気にならなかったであろう人が30%以上いることになる。 0.3/0.4 = 0.75より、症例の75%はA = 1に起因していると言える。もし全員がA = 0だったら2症例だけ発生していたと考えられる。 83

Take home message✉ • Exchangeability、Consistency、Positivityという3つの前提が成立すれば、観察データから因果効果を推定できる • 実際のデータ分析ではさらに仮定を置く必要がある • 仮定が完璧に成立することはありえない
どのような仮定を置いているのか、それがどの程度成立していると考えうるのかを検討することが大切 • Target Trialを定め、その結果を観察データを用いてemulateできるような研究デザインを！ 84

参考・引用文献 • “データから因果関係をどう導く？：統計的因果推論の基本、「反事実モデル」をゼロから”,KRSK さんブログ, https://www.krsk-phs.com/entry/counterfactual_assumptions (2020.5.14最終閲覧) • Miguel A.
Hernán, James M. Robins, Using Big Data to Emulate a Target Trial When a Randomized Trial Is Not Available, American Journal of Epidemiology, Vol183, Issue 8, 15 April 2016, 758–764. • Sara Lodi et al.Effect Estimates in Randomized Trials and Observational Studies: Comparing Apples With Apples, American Journal of Epidemiology, Vol188, Issue 8, August 2019, 1569–1577. 85

Observational studies (Causal inference: What i...

Observational studies (Causal inference: What if, Chapter 3)

More Decks by Shuntaro Sato

Other Decks in Science

Featured

Transcript