Random variability (Causal inference: What if, Chapter 10)

2020/07/19 @butano_hito Chapter10 Random Variability What if ษڧձ 1

これまでの章では，バイアスについて勉強してきた Confounding Selection Measurement この章では，今まで（十分なサンプルサイズが確保されていると言う）仮定によりその影響を排除していたサンプルサイズの影響，識別問題（Identification problems）について扱う。母集団からサンプリングしたデータを用いて分析を行うことによる確率的な変動（Random
variability）に関する話概要 2

前提 3

不偏性(Unbiasness) 推定値の期待値が真の値と同じになるサンプルサイズに依存しない不偏性が担保されないと，サンプルをいくら増やしても真値（母集団のパラメータ）が推定できない一致性(Consistency) :第3章とかで出てくる一貫性とは別推定値がある値に確率収束するサンプルサイズの大きさが重要サンプルサイズｎが大きくなるに従って、推定量が、母集団の真の値に近づいていく
前提：（多分ここで扱っている話） 4

Consistencyはサンプルサイズが大きくなると推定値（Estimator）が真値（Estimand）に漸近的に近づく性質。母数をの推定量をとする。任意のに対してが成立するとき，推定量を一致推定量(consisent estimator)という。これは推定量の期待値が
に確率収束すること( ) 分散がに確率収束すること( ) とも言い換えられる。 An estimator is only unbiased if it is uniformly asymptotic normal and unbiased (UANU), as only UANU estimators can center valid standard Wald intervals for under the model M . θ ̂ θ ϵ > lim n→∞ Pr{| ̂ θn − θ| > ϵ} = 0 ̂ θ ̂ θ θ lim n→∞ E[ ̂ θn ] = θ 0 lim n→∞ V[ ̂ θn ] = 0 θ(P) T10.1: Bias and Consistency in Statistical Inference 5

Super population: 母集団 Population (Sample): 標本超母集団モデルという確率論の議論があるようですが，Popuationと Sampleを互換的に使用している？この章の記述を見る限り，Super populationは，母集団と標本の関係における母集団を意味しているように思います。
用語 6

1. Identification versus estimation (識別と測定) 2. Estimation of causal effects
(因果効果の推定) 3. The myth of the super-population (超母集団の神話) 4. The conditionality “principle” (条件付きの原則) 5. The curse of dimensionality (層別分化の呪い？) 目次 7

10.1 Identiﬁcation Versus Estimation (識別と測定) 8

Exchangeability Positivity Consistency 処置あり処置なしこれまでの話 9 measurement selection confounding

Super population Population (Sample) Estimand 知りたい値真値 Sampling Estimator 計算するルール
推定量 Estimate 計算して出てきた数値推定値この章で問題にするのは… 10

一致性が満たされていたら，サンプルサイズの増加に伴い分散が0に。ある1つの数値に収束するただし，サンプルサイズは無限大ではないので，推定値は確率変数。推定値がある確率で特定の範囲に収まる，その範囲を信頼区間という。狭ければ狭いほどある一定の点に近づくので嬉しい。サンプルサイズ(The size of the study
population)が大きい（小さい）ほど，信頼区間は狭く（広く）。信頼区間(Confidence Interval: CI) 11

サンプルが母集団からの無作為抽出であるという前提のもと，標準誤差（se）を計算する ± se × 1.96 で計算する。テキストの事例では，信頼区間は0.27から0.81 詳しくは次のページ信頼区間の計算
12

二値変数（二項分布）の例母集団のパラメータ，推定値。 nがある程度大きい時，二項分布は正規分布に近似できることが知られている。ここから，Yを標準化したら標準正規分布に従う。推定値から，これが標準正規分布に従う。標準正規分布のの95%信頼区間は±1.96だからから，
nが十分に大きい時であることを使って計算テキストの事例では，なので，信頼区間は，0.27から0.81 = Pr[ = | = ] ̂ = ̂ Pr[ = | = ] () = , () = ( − ) = − ( − ) ̂ p = Y/n = − ( − ) = / / × − ( − ) = / − ( − )/ = ̂ − ( − )/ − . ≤ ̂ − ( − )/ ≤ . ̂ − . × ( − )/ ≤ ≤ ̂ + . × ( − )/ ̂ ( − ̂ )/ ⟶ ( − )/ ̂ = / 13

母集団からのサンプリングを繰り返し行った場合，95％はこの範囲の中に入る。 95％真のパラメータがこの範囲の中に入っている。特定の研究における95%信頼区間は，「95％の確率でestimand（母集団のパラメータ）がこの範囲の中に入る」ということを意味しているわけではない。 estimandは固定された値（確率変数ではない）だから。信頼区間は，頻度論的な解釈しか与えない。信頼区間の数値(95%)は，複数の研究（もしくは仮想上の研究の繰り返し）において，未知の母集団の数値が入る頻度を表している。三重大学奥村先生の説明が丁寧信頼区間の意味
14

Small-sample confidence intervalは，Exact confidence intervalとも言われる。漸近理論を使わない。テキストの例では，サンプルサイズが大きい時に二項分布が正規分布に近似できるということを使って信頼区間を計算した。サンプルが小さい時にはこの近似が成り立たないので，別の方法で計算する。
フィッシャーの正確検定テキストでは，Large-sampleの場合を基本とする。 Small SampleとLarge Sample 15

大標本で有効な95%の信頼区間が，少なくとも95%の頻度で真のパラメータ値をカバーすることが保証されているサンプルサイズが存在する場合、その区間はuniformであるか、またはhonestである，という。どれぐらいのサンプルサイズがあると，これが達成できるのかは，決めるのが難しい。 ຊͷதͰ͸honestを想定して議論している。 F10.1: Honest Conﬁdence Intervals.
16

信頼区間は，Random Variabilityを表す標準誤差の関数サンプルサイズを大きくすると，Random Variabilityは小さくなる。（バイアスの大きさはわからないけど）標準誤差が小さくなったらuncertaintyが小さいと錯覚する？ Uncertaintyを定量的に評価するquantitative bias analysisという分野も。 F10.2:
Uncertainty From Systematic Biases 17 Uncertainty Bias Random Variability

推定量が信頼区間の真ん中にある時，推定量にバイアスがないと考える。逆に何らかのsystematic biasesがある時，推定量は信頼区間の真ん中に位置しない。バイアスと信頼区間 18 0
.1 .2 .3 .4 y -4 -2 0 2 4 x ਅͷ෼෍ όΠΞεͷ͋Δ෼෍

10.2 Estimation of Causal Effects (因果効果の推定) 19

無限のsuper-populationからの20名の無作為抽出 A = 1(Ҡ২͢Δ)もしくはA = 0(Ҡ২͠ͳ͍)に無作為に割り当てられる。 Y = 1(死ぬ)もしくはY =
0(死なない) 事例（心臓移植） 20

Super-populationにおけるExchangeabilityは満たされている = ここから，super-populationにおける Causal risk difference = Associational risk difference
= ランダムサンプルなので，は，super-populationの確率であるの不偏推定量(unbiased estimator) = これらから本来比較したい母集団の介入効果の検証（という帰無仮説の検定）は，サンプルにおける介入の有無の比較（）によって可能に Pr[ = ] Pr[ = | = ] Pr[= = ] − Pr[= = ] Pr[ = | = ] − Pr[ = | = ] ̂ Pr[ = | = ] Pr[ = | = ] ( ̂ Pr[ = | = ] − ̂ Pr[ = | = ]) Pr[ = | = ] − Pr[ = | = ] Pr[= = ] = Pr[= = ] ̂ Pr[ = | = ] = ̂ Pr[ = | = ] 21

20名の個人が，心臓移植もしくはその他に割り振られる。それぞれの個人は，ランダム化する際に良いもしくは悪いという経過の予測がなされている。もし，経過予測が「悪い」とされた人の比率が，とで同じなら，exchangeabilityが成り立つと言える。「悪い」人が
に2/13，に3/7になることもあり得る。 (もし，サンプルがもっともっと大きくなると，この割合の違いは減っていくことが期待される。) = = = = = = 22

こんな時どうする？（super-populationではなく）ランダム化されたサンプルのみに当てはまる知見として推論する super-populationの推論を試みる実際知りたいのは，サンプル内の効果ではなく，一般化されたsuper- populationに関する知識。 23

10.3 The Myth of the Super-Population (超母集団の神話) 24

設定 pの信頼区間は，以下のように求めるただし，これが適切なのは，が二項分布(binomial sampling distribution)に従う時だけ。 ̂ Pr[ = |
= ] = ̂ = / Pr[ = | = ] = ̂ ± . ̂ ( − ̂ ) = / ± . /(/) ̂

サンプルとして二項分布？母集団から13のサンプルサイズのサンプリングを繰り返した時の結果の分布個人に確率があり，個々人がpの確率を持つ？個々人は同じpを持つ。二項分布に従うとは？ 26 7/13
6/13 8/13 … 7 13 7 13 7 13 7 13 7 13

౷ܭతʹγϯϓϧͳํ๏ͰਪఆͰ͖Δ ҰൠԽʹͭͳ͕Δ(֎తଥ౰ੑ) 母集団からのサンプリングを想定する理由 27

10.4 The Conditionality “Principle” (条件付きの原則) 28

TABLE 10.1 Y = 1 Y = 0 A =
1 24 96 A = 0 42 78 Y: Ξ΢τΧϜɻ1೥Ͱࢮ͵(Y=1)͔Ͳ͏͔ A:ॲஔɻ͢Δ(A = 1)͔Ͳ͏͔ 29 (exchangeable)だから，このサンプルから，super-population における効果を推定できる。ここから，推定値-0.15，信頼区間 [-0.26,-0.04]を計算して，論文として発表したとする ⊥ ⊥

TABLE 10.2 L = 1 Y = 1 Y =
0 A = 1 4 76 A = 0 2 38 L = 0 Y = 1 Y = 0 A = 1 20 20 A = 0 40 40 Y: Ξ΢τΧϜɻ1೥Ͱࢮ͵(Y=1)͔Ͳ͏͔ A:ॲஔɻ͢Δ(A = 1)͔Ͳ͏͔ L: ͦͷଞͷ৚݅ɻλόίٵ͏(L = 1)͔Ͳ͏͔ 30 後になって喫煙するかどうかについての情報を手に入れた。喫煙の有無で場合わけすると，喫煙者と非喫煙者は同数喫煙者と非喫煙者で，処置を受ける割合に大きな違い喫煙の調整をした結果，喫煙者における効果は0 非喫煙者における効果も0 Pr[ = | = , = ] − Pr[ = | = , = ] = Pr[ = | = , = ] − Pr[ = | = , = ] =

0 .1 .2 .3 .4 .5 Fitted values 0 .2
.4 .6 .8 1 a Full L=0 L=1 31

ランダム割付は，完全なexchangeabilityを保証しているわけではない Exhangeabilityからの乖離がシステマティックなバイアスではなく，ランダムなばらつきによるっていうことを保証するだけ。ランダム割付=Exchangeability? 32

じゃあどうする？ 33 測定されていない他の要因(U)も喫煙と同様個々ではバランスが取れてないかもしれなくて，その他の要因のインバランスが喫煙(L)の効果をキャンセルアウトするのでは？ LとAの強い関係性が交絡をもたらす。喫煙(L)のレベル内で，小さいランダム化がなされていると想定したら，U-Aの関係は，Lの条件内で成立するのでは？ A B

変数の欠落 →バイアスをもたらす。過少定式化，Omitted variable bias 不偏性も一致性も無くなる変数の過剰投入 →効率性は落ちるがバイアスはかからない。過剰定式化不偏性は無くならないが，有効性が落ちる（信頼区間が広くなる）
Bさんが正解 34

10.5 The Curse of Dimensionality (૚ผ෼Խͷढ͍) 35

コントロールする要因が多すぎたら？ 36 A B 性別 60歳 2通り 2×2＝4通り 2×2×2＝8通り

Chapter 18で出てくるそうです。メモ自由度をあまり減少させずに，個別効果を取り除きたい？パネルデータの形式になっているならランダム効果使う？ HLM？どうするかは難しい問題 37

その他

Consistencyはサンプルサイズが大きくなると推定値（Estimator）が真値（Estimand）に漸近的に近づく性質。母数をの推定量をとする。任意のに対してが成立するとき，推定量を一致推定量(consisent estimator)という。これは推定量の期待値が
に確率収束すること( ) 分散がに確率収束すること( ) とも言い換えられる。 An estimator is only unbiased if it is uniformly asymptotic normal and unbiased (UANU), as only UANU estimators can center valid standard Wald intervals for under the model M . θ ̂ θ ϵ > lim n→∞ Pr{| ̂ θn − θ| > ϵ} = 0 ̂ θ ̂ θ θ lim n→∞ E[ ̂ θn ] = θ 0 lim n→∞ V[ ̂ θn ] = 0 θ(P) T10.1: Bias and Consistency in Statistical Inference 39

補助統計量となるいかなる統計量も条件づけて推定するのが良い！ Y,A,L ，は，にかかわらず一定。推定したいのは，層別のリスクの差，，，は，それぞれ誤差分散のようなもの。
AとLはに個々に関係あるけど，結合密度はに影響を与えないような時，A とLは補助統計量（exactly ancillary for the parameter of interest）となる。 L = {0,1} Ya ⊥ ⊥ A|L sRD = Pr(Y = 1|L = l, A = 1) − Pr(Y = 1|L = l, A = 0) L n ∏ i=1 f(Yi |Li , Ai ; sRD, p0 ) × f(Ai |Li ; α) × f(Li ; ρ) p0 = (p01 , p02 ) p0l = Pr(Y = 1|L = l, A = 0) α ρ sRD f(Yi |Li , Ai ; sRD, p0 ) T10.2: A Formal Statement of the Conditionality Principle 40 Pr(Y ∩ A ∩ L) = Pr(Y ∩ (A ∩ L)) = Pr(Y|(A ∩ L)) × Pr((A ∩ L) = Pr(Y|(A ∩ L)) × Pr(A|L) × Pr(L)

は，によって異なることが知られている。この時，リスクの差はとに依存条件なくランダム化した実験ではは母集団のA-Lのオッズ比はサンプルからの推定値標準偏差で割ったは，大きなサンプルの時標準正規分布に従う。
→偏差値 sRDi L RDstd = ∑ l [Pr(Y = 1|L = l, A = 1; v) − Pr(Y = 1|L = l, A = 0; v)]f(l; ρ) v = sRDl, po,l ; l = 0,1 ρ RDstd = RD = Pr(Y = 1|A = 1) − Pr(Y = 1|A = 0) ˜ S = ̂ ORAL − ORAL ORAL ̂ ORAL ̂ se ( ˜ S) ̂ S = ˜ S/ ̂ se ( ˜ S) 41 T10.3: Approximate Ancillary

が既知の時，は漸近的補助統計量(approximate ancillary statistic). データから計算可能で真値(Estimand)とは関係のないαの関数で，はαにのみ依存するのに対して，はαに依存しないで条件づけるとは不偏(unbiased)になる
連続性の原則(continuity principle)と，条件づけ(conditionality)の原則を前提とすると，漸近的補助統計量によって調整がなされるべき ̂ ORAL ̂ S f(Ai |Li ; α) f(Yi |Li , Ai ; sRD, p0 )f(Li ; ρ) ̂ S RDstd

は，サンプルを使って最尤法で推定した値（）だとする。調整なしの推定値は本文の中で，は，unconditionally inefficient で，conditionally biased であるとした。なぜ？
RDstd = ∑ l [Pr(Y = 1|L = l, A = 1; v) − Pr(Y = 1|L = l, A = 0; v)]f(l; ρ) ̂ RDMLE ̂ RDUN = ̂ Pr(Y = 1|A = 1) − ̂ Pr(Y = 1|A = 0) ̂ RDUN T10.4: Comparison Between Adjusted and Unadjusted Estimators 43

Robins and Morgenstern (1987)はを示した。未調整の推定値は，の時，常にinefficient. さらに，を示した。未調整の推定値は，inefficientの時，biased
aVar( ̂ RDMLE ) = aVar( ̂ RDUN ) − [aCov( ̂ S, ̂ RDUN )]2 aCov( ̂ S, ̂ RDUN ) ≠ 0 aE[ ̂ RDUN | ̂ S] − RDstd = aCov( ̂ S, ̂ RDUN ) ̂ S となるのは，の時のみ. そうでない場合，はより好ましい aCov( ̂ S, ̂ RDUN ) = 0 L ⊥ ⊥ Y|A ̂ RDMLE ̂ RDUN

Table 10.2のL=1における分散を計算する時，とならば，普通前者を選ぶ。これは，暗黙的にconditionality principleに従っている，ということと同じ。 ̂ Vobs
1 = 4 80 76 80 80 + 2 40 38 40 40 = 1.78 × 10−3 ̂ Vexp 1 = 4 80 76 80 60 + 2 40 38 40 60 = 1.58 × 10−3 T10.5: Most Researchers Intuitively Follow the Extended Conditionality Principle 45 L = 1 Y = 1 Y = 0 A = 1 4 76 A = 0 2 38

階層Lが多すぎると，良い推定ができなくなる。各条件のサンプルサイズが小さくなる。標準誤差が上がる。ランダム化比較実験なら，沢山のLがあっても，調整なしでバイアスのない推定が可能。無条件にバイアスがなく、かつ調整なしの推定値よりもEfficientな推定値を構築できないか？ 18章（18 Variable selection
for causal inference）でやるそうです。 T10.6: Can the Curse of Dimensionality Be Reversed? 46

TECHNICAL POINT について

テクニカルポイント2-5で言いたいこと 48 LがY，Aと相関している時，Lを調整しないとよろしくない推定結果にバイアスがかかる LがY, Aと相関していない時，Lを調整したら推定値の効率性が落ちるバイアスはかからない真のモデルがわからない場合，入れる方がまし

に対するの効果を知りたい。最小二乗法*を使って推定する。 Y A Yi = β0 + β1
Ai + ui ̂ β1 = ∑ (Ai − ¯ A)Yi (Ai − ¯ A)2 = SAY SAA ̂ β0 = ¯ Y − ̂ β1 ¯ A 前提条件 49 uに関する仮定因果関係があると解釈できるのは， (Yと関係するA以外の要因が，Aと関係ない) 時 ¯ A = 1 n ∑ Ai E[ui ] = 0 V(ui ) = σ2 E[u|A] = 0 *テキストでは最尤法を使ってますが，右の条件に従うと同値になるはずです。

本当は必要なLを入れなかったら？ 50

真のモデル推定するモデル推定するモデルの推定値に真のモデルを代入すると… 期待値をとるとの部分がLを入れなかったことによって生じる推定値のズレ（バイアス）でない限り不偏性が保たれないので，間違った推定値が計算される。一致性もない。
Yi = β0 + β1 Ai + β2 Li + ui Yi = α0 + α1 Ai + vi ̂ α1 = SAY SAA = ∑ (Ai − ¯ A)(Yi − ¯ Y) ∑ (Ai − ¯ A)2 = ∑ wAi Yi = ∑ wAi (β0 + β1 Ai + β2 Li + ui ) = β1 + β2 SAL SAA + ∑ w2i ui E(α1 ) = β1 + β2 SAL SAA β2 SAL SAA SAL = 0 51 SAY = ∑ (Ai − ¯ A)(Yi − ¯ Y) SAA = ∑ (Ai − ¯ A)2 wAi = Ai − ¯ A ∑ (Ai − ¯ A)

本当はいらないLを入れたら？ 52

真のモデルが推定したのが推定値に真のモデルを代入期待をとると期待値は変わらない。不偏性は保たれる。 Yi = βo
+ β1 Ai + ϵi Yi = αo + α1 Ai + α2 L + vi ̂ α1 ̂ α1 = SLL SAY − SAL SLY SAA SLL − S2 AL = ∑ hi Yi = ∑ hi (β0 + β1 Ai + ϵi ) = β0 ∑ hi + β1 ∑ hi Ai + ∑ hi ϵi = β1 + ∑ hi ϵi E( ̂ α1 ) = β1 + ∑ hi E(ϵi ) = β1 53

でも，分散は大きくなる間違えたモデルの分散は真のモデルではここでから変数の入れすぎは，分散が大きくなる（効率性が落ちる）。 V( ̂ α1
) = ∑ h2 i E(ϵ2 i ) = σ2 SLL SAA SLL − S2 AL V( ̂ β1 ) = ∑ w2 Ai V(Yi ) = σ2 1 SAA SLL SAA SLL − S2 AL = 1 SAA − S2 AL SLL SAA > SAA − S2 AL SLL 54

組織コミットメントパフォーマンス Allen and Meyer（1996）の尺度個人の月間売上抽象的 (概念) 具体的
(データ) 操作化操作化理論的関係統計的検証構成概念妥当性独立変数従属変数外的妥当性内的妥当性経験・年齢統計的結論妥当性コントロール変数 Libby et al. (2002)を参考に作成しました。 Libby, R., R. Bloomfield, and M. W. Nelson. 2002. Experimental research in financial accounting. Accounting, Organizations and Society 27 (8): 775–810. 55 参考：会計学でよく使われる研究デザインと妥当性の整理方法

木村俊一・古澄英男・鈴川晶夫. 2003. 『確率と統計 : 基礎と応用』. 朝倉書店. 東京大学教養学部統計学教室. 1991. 『基礎統計学』. 東京大学出版会. Libby,
R., R. Bloomfield, and M. W. Nelson. 2002. Experimental research in financial accounting. Accounting, Organizations and Society 27 (8): 775–810. 富山大学計量経済学講義資料唐渡広志先生 http://www3.u-toyama.ac.jp/ kkarato/2017/econometrics/handout/Econometrics-2017-23-1219.pdf [2020/07/10アクセス] 参考文献 56

Random variability (Causal inference: What if, ...

Random variability (Causal inference: What if, Chapter 10)

More Decks by Shuntaro Sato

Other Decks in Science

Featured

Transcript