Upgrade to Pro — share decks privately, control downloads, hide ads and more …

まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰分断デザイン、操作変数法を中心に

 まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰分断デザイン、操作変数法を中心に

以下のセミナーでの発表内容のアーカイブです。
---
第 21 回 つくばE3セミナー 
「それってあなたの感想ですよね?」にならないための因果推論フェス in 生態学
日時:2022年2月22日(火) 14:00-17:30 オンライン開催(Zoom)

演題
まだ生態学に本格導入されていない統計的因果推論手法の紹介:傾向スコア、回帰分断デザイン、操作変数法を中心に

要旨
他分野で広く用いられてきている統計的因果推論手法の中には、未だ生態学分野にはあまり導入されていないものが幾つかある。それらの手法を無理矢理に生態学に導入する必要はないが、例えば傾向スコア法などは生態学においても有用な局面は多いと思われる。また、従来の生態学でも(暗黙のうちに)傾向スコア法に質的に類似したアプローチが採られている場合があり、そうしたアプローチの可能性とその限界を反省的に捉える上でも、傾向スコア法を理解する意義はあるだろう。本講演では、生態学分野に本格導入されていない手法のうちの代表的なものとして、傾向スコア法、回帰分断デザイン、操作変数法について簡単な解説を行う。

関連論文
1. Ramsey et al. (2018) Using propensity scores for causal inference in ecology: Options, considerations, and a case study. Methods Ecol Evol. 2019;10:320–331. DOI: 10.1111/2041-210X.13111
→Ramseyらによる生態学分野における傾向スコア法の解説

takehikoihayashi

March 03, 2022
Tweet

More Decks by takehikoihayashi

Other Decks in Research

Transcript

  1. 「相関」と「因果」がズレるとき 作物A 作物B メイン作物 獣害対策T 被害数Y 適⽤なし 適⽤あり 各調査地点における獣害施策Tと個体数Yの関係 獣害の

    被害数 獣害対策T ⽐較対象間で背景要因が揃っていない(“バランシングしていない”) 例:柵の設置とか
  2. シンプルな解決策:層別化により”背景”を揃える “背景が揃った”層へと 層別化して解析できれば 交絡の影響なく 因果効果が推定可能 適⽤なし 適⽤あり 獣害の 被害数 獣害対策T

    適⽤なし 適⽤あり 獣害の 被害数 獣害対策T 適⽤なし 適⽤あり 獣害の 被害数 獣害対策T ? ! ! 作物Aのみ 作物Bのみ ⽐較したい(=異なる処置を受けている)集団間 の”背景条件を揃える”ことが、統計的因果推論 の基本的なアプローチ
  3. 何が困るか:”背景”が単純ならいいけれど・・・ 2値の背景要因がm個あるとき、2 個の層を考える必要がある m 調整すべき要因が 多数あると、各層が 細切れになりすぎて 層別化の際にサンプルサ イズが追いつかない 施⽤あり

    種Aの 個体数Y 農薬T 施⽤なし 施⽤あり 種Aの 個体数Y 農薬T 施⽤なし 施⽤あり 種Aの 個体数Y 農薬T 施⽤なし ・・・ C1=0, C2=0, C3=0, C4=0, C5=0, C6=0 C1=1, C2=0, C3=0, C4=0, C5=0, C6=0 C1=1, C2=1, C3=1, C4=1, C5=1, C6=1 また、そもそも 背景要因が連続量の 場合にはそのままでは 層別化できない 全64層 ・・・ 適⽤なし 適⽤あり 獣害の 被害数 獣害対策T ? いわゆる”次元の呪い” 例えば2値の背景要因が6個あると ”背景が揃った”層の 組み合わせは2 =64個 6
  4. 傾向スコア法の考え⽅:”背景”を⼀次元に縮約する C1 処置T 結果Y C2 Cm … C1 処置T 結果Y

    C2 Cm … 傾向スコアe これら全部いちいち個別に 調整するの⾯倒アンド困難 「処置Tの予測」の 観点から エイヤっと ⼀次元に縮約 しちゃおう! *傾向スコア法では基本的に 処置Tは⼆値(少なくとも離散) 変数であることが前提 ここで傾向スコアeiは、共変量C1,…,Cmからモデルをもとに計算 される処置Tの予測スコア(個体i がT=1となる確率) 傾向スコアeの計算には 多くの場合ロジスティック 回帰モデルが⽤いられる ⽣態学分野だと連続量の原因を扱うケース も多く、ここがネックの⼀つとなりがち logit(𝑇) = 𝛼 + 𝛽!𝐶! + ⋯ + 𝛽"𝐶" ⽣態学者はみんな⼤好きGLM ⽬的変数は処置Tであることに注意 logit(𝑒#) = 0 𝛼 + 1 𝛽!𝐶!,# + ⋯ + 1 𝛽"𝐶",# Propensity Score 「T=1となる確率」の予測値を計算
  5. 傾向スコア法の何が嬉しいのか 似たような傾向スコアeの値を持つ個体同⼠は 諸背景要因が似ている(背景要因が揃っている)と期待できる 傾向スコアを利⽤した マッチング 傾向スコアを利⽤した 層別解析 傾向スコアを利⽤した 逆確率重み付け(IPW) 多様な背景要因をまとめてエイヤっと揃えた上で

    処置Tの因果効果を推定できる *実際に揃っているかはpost-hoc的に確認できる←なにげにこれが傾向スコア法の⼀番嬉しい点かも * 他にも回帰分析の説明変数として ⽤いる⽅法や⼆重ロバスト法 (IPW+回帰)などもあり
  6. ケーススタディ (Ramsey et al. 2018 in Methods. Ecol. Evol.) ニュージーランドにおける⽣物多様性保全のためのBiodiversity

    Monitoring and Reporting Systemsデータ(公共保護地での8kmグリッドデータ) フクロギツネのブラウジングによる在来樹⽊の減少が問題視されている ニュージーランドの公共保護地における、移⼊種であるフクロギツネ への管理施策(毒⼊りベイト剤の空中散布)の因果効果の推定 各保護対象樹⽊種に対する管理施策導⼊グリットと⾮導⼊グリットの数 樹⽊種 施策ありサイト 施策なしサイト Melicytus ramiflorus 32 145 Metrosideros umbellata 38 81 Raukaua simplex 45 106 Weinmannia racemosa 101 221
  7. ケーススタディ (Ramsey et al. 2018 in Methods. Ecol. Evol.) 結果変数は「各保護樹⽊の林冠被覆度」、処置変数は「ベイト散布の有無」

    結果変数と処置変数の両者に影響を与えうる共変量(背景要因)である 13変数を⽤いて傾向スコアを推定 ベイト散布T 被覆度Y Total basal area of stems Total number of stems Total number of possum-preferred food plant species Elevation of plot above sea level Slope Plot distance from improved pasture Rainfall Potential evapotranspiration Soil acid soluble phosphorus Calcium Psize MAS Temp *⼀部、ベイト散布の下流となりうる変数が含まれており 変数選択が不適切だと思うがひとまずスルーします これらの背景要因を 処置群間で揃えたい 傾向スコアe 傾向スコアで ⼀括調整 フクロギツネ⾃体の個体数等をアウトカムにしているわけではない
  8. ケーススタディ (Ramsey et al. 2018 in Methods. Ecol. Evol.) *SUTVAが満たされていなそうな気もするので推定値の解釈は正直やや微妙なところはある

    *Ramseyら提供のRコードを利⽤して作図 傾向スコアを⽤いた調整なし/ありでの因果効果の推定結果 調整 なし IPW IPW+ 回帰 調整 なし IPW IPW+ 回帰 調整 なし IPW IPW+ 回帰 調整すると有意! 傾向スコアを⽤いた交絡の調整法 あまり変わらず 効果量がよりNULL https://commons.wikimedia.org/wiki/File:Rat a-tree.jpg#filelinks https://commons.wikimedia.org/wiki/File: Botany_of_Antarctica-PL012-0029.jpg https://commons.wikimedia.org/wiki/File:KamahiFoliage.jpg 被度への 因果効果 の推定値
  9. ケーススタディ (Ramsey et al. 2018 in Methods. Ecol. Evol.) 背景要因が調整によりどれくらい揃ったかを確認する(ラブプロット)

    処置あり群-処置なし群間でのMean Standardised Difference 群間での偏り⼤ 群間での偏り⼤ 群間で 良バランス PS調整前 PS調整後 *Ramseyら提供のRコードを利⽤して作図 傾向スコアによる調整後 に全体的にバランスが 改善している https://commons .wikimedia.org/wi ki/File:Rata- tree.jpg#filelinks
  10. 回帰分断デザインの基本的なイメージ 連続量のどこかで施策が切り替わるときの「切り替わり際」に着⽬する 仮想例:クーラー導⼊の労働⽣産性への効果 「午前10時の外気温25℃以上の⽇だけクーラー使⽤可」というルールが あるとする 午前10時の外気温 労 働 ⽣ 産

    性 25℃ 15℃ 30℃ 切り替わり近傍でのクーラーの有 無以外の条件はほぼ”揃っている” と想定可能 もちろん諸々の前提の もとで成り⽴つ解析です * この差 =クーラーの因果効果
  11. 未観測交絡要因 操作変数法の基本的なイメージ 操作変数IV 処置T 結果Y C2 Cm … C1 交絡要因となる共変量群とは別のルートで処置Tの有無に影響を与える

    変数があると、それを利⽤して因果効果を推定できる場合がある 操作変数(IV)の条件 操作変数が以上の条件を満たすとき T→Yの因果効果 =IVとYの共分散/ IVとTの共分散 Instrumental Variable (1) 処置Tと相関がある (尚、⾼い相関でないと推定値は不安定になる) (2) 処置Tを通してのみ結果Yに影響を与える (唯⼀経路条件) (3) IVとYの間にバックドアパスが開いていない (IVは外⽣的である/誤差項と相関がない) 𝜌!"→$ 𝜌$→% 𝜌!"→% =𝜌!"→$×𝜌$→% 𝜌$→% =𝜌!"→% ∕ 𝜌!"→$ パス係数の積から
  12. ⽣態学でそんな都合のよい”操作変数” ってある? 環境団体の抗議でベイト剤による施策が中⽌になるとか? 台⾵のような外的要因で「柵」が倒れるとか? 台⾵IV 柵の設置T イノシシ⾷害Y C2 Cm …

    C1 環境団体に よる抗議IV ベイト剤T 被覆度Y C2 Cm … C1 施策Tが外部要因IVの関数となっていることが肝要 未観測交絡要因 未観測交絡要因