RDDに入門2_識別条件と検定 / Introduction to RDD(Regression Discontinuity Design) 2: Identification Conditions and Testing

RDDに入門2 ”識別条件と検定”の概要

RDD（回帰不連続デザイン）とは？施策対象となるかどうかが、ある一つの基準(強制変数: X)で決定される場合、その閾値前後で比較することで効果を推定する目的変数: Y 強制変数: X 統制群 (
t=0 ) 処置群 ( t=1 ) 境界付近の効果を推定 (局所的平均処置効果、LATE) • 境界付近においては効果推定が厳密にできるとみなされている • 過去の購買量に応じたメールマーケティングの効果 • 離反確率が高い人たちへの離反防止策の効果 • 降圧剤による血圧の低下の効果 • 境界から遠い対象については施策効果がわからない (バイアスが大きくなる) 分析ケースメリットデメリットカットオフ値

目次 • RDDにおける識別条件と検定 1. 識別条件と成立しないケース 2. 可視化での判断 3. 検定での判断 4.
共変量のバランステストでの判断

識別条件と成立しないケース 1. E[Yi |Xi=x](*)が閾値cにおいて連続である 2. 閾値周辺において、スコアの密度が正である *) ポテンシャルアウトカムの、スコアについての条件付き期待値閾値が知られており, 強制変数が正確に操作され、施策の
有無が意図的に変更されている状況（＝操作、manipulation） (例) ・夫婦共働きの世帯において、所得税の所得控除のために年間収入を抑える・試験において、採点者が受験者の点数を加点する・テストで不合格であったにもかかわらず、再テストにより合格し、点数が上書きされる • 識別条件: 効果推定が正当化されるために必要な仮定 • 成立しないケースそれぞれ片方は観測できないので極限がわからない検定で判断 1について

可視化での判断閾値付近で特異な状況になっていないこと満たしていることを示唆満たしていないおそれ

検定での判断① スコアの密度関数が連続であるかどうかを検定。可視化で判断していることを、統計的に判断しているイメージ。 McCraryの検定手順 1. 閾値前後でビンサイズを決める 2. 密度推定値を算出 3.
密度推定値の差を検定する → RDDを使用するためには、帰無仮説が棄却されないほうが良い密度推定値と標準誤差密度推定値の差標準誤差（K: 三角形関数でのカーネル関数、h: バンド幅）

検定での判断② スコアの密度関数が連続であるかどうかを検定。可視化で判断していることを、統計的に判断しているイメージ。局所多項式密度推定量に基づく検定帰無仮説(H 0 )と対立仮説(H 1 ) H
0 : lim 𝑥↑𝑐 𝑓(𝑥) = lim 𝑥↓𝑐 𝑓(𝑥) H1 : lim 𝑥↑𝑐 𝑓(𝑥) ≠ lim 𝑥↓𝑐 𝑓(𝑥) → RDDを使用するためには、帰無仮説が棄却されないほうが良い検定統計量 𝑇𝑝 (h) = 𝑛+ 𝑛 ෢ 𝑓+ 𝑐 − 𝑛− 𝑛 ෢ 𝑓− 𝑐 𝑛+ 𝑛2ℎ+ ෢ 𝑉+ 𝑐 − 𝑛− 𝑛2ℎ− ෢ 𝑉− 𝑐 p: 多項式の次数(自分で設定) h: バンド幅 n: 標本サイズ ෠ 𝑉 𝑥 : 分散推定値 መ 𝑓 𝑥 : 密度推定値 c: カットオフ値添え字: +は𝑥𝑖 ≧c, -は𝑥𝑖 <cのデータ（標準正規分布に近似できる）

共変量バランステストでの検定スコアが閾値の時の共変量の期待値の連続性を検定考え方判断していること共変量に対して、RDDの施策効果を推定して、推定値が0に近く有意では無いことを確認する → RDDを行うには、帰無仮説(平均処置効果=0)は棄却されないほうが良い Y : 今月の売上(結果変数),
X : 先月の売上(強制変数), Z1 : 年齢, Z2 : 性別 Y X Z1 Z2 推定したい効果 (先月の売上によってクーポンが配布される) 共変量バランステスト Z 1 X 閾値の前後での共変量の変動の有無を検定して、同質化が適切に行われているかを確認検定について: rdrobustでは3つの手順がある • Conventional: 標準的な方法 • Bias-Corrected: 推定効果と標準誤差をバイアス補正 • Robust: Bias-Correctedに対して、標準誤差を変更している → 信頼区間も変わる

RDDで使えるpythonライブラリ Python、Rで使えるRD Packagesというものがある rdrobust • Sharp RDDの推定(Fuzzy RDDもたいてい可能の様)。 • 推定効果の可視化。
• 共変量バランステストもこれでOK。 rddensity • McCrayの検定、局所多項式密度推定量に基づく検定ライブラリ名できること

補足: 単回帰分析の偏回帰係数の検定 • 偏回帰係数の標準誤差 • 偏回帰係数の有意差検定 ✓ 単回帰モデル: 𝑦𝑖 =
෢ β1 + ෢ β2 𝑥𝑖 + ෝ 𝑒𝑖 ✓ 推定誤差:ෞ 𝑒𝑖 = 𝑦𝑖 − ( ෢ β1 + ෢ β2 𝑥𝑖 ) => 推定値の標準誤差: s.e. = 𝑠2 = σ 𝑒𝑖 2 𝑛 −𝑘 −1 ( k: 説明変数の数 ) ෢ β2 の標準誤差(標準偏差の推定量) s.e.( ෢ 𝛽2 ) = 𝑠.𝑒. σ(𝑥𝑖 − ҧ 𝑥)2 帰無仮説 H0 : β2 = 𝑎 ( 𝑎は指定された定数。因果推論的には 0 。 ) 対立仮説 H1 : β2 > 𝑎 or β2 < 𝑎 ( 片側検定 )、 β2 ≠ 𝑎 ( 両側検定 ) 検定統計量: ( n – k - 1 )のt分布で検定 t 2 = ෢ 𝛽2 s.e.( ෢ 𝛽2 )

参考文献 • 高橋将宜(著). (2022). WonderFul R5 統計的因果推論の理論と実装潜在的結果変数と欠測データ. 共立出版. •
https://qiita.com/ishihara_nospare/items/e05c8b307de010a39392#%E8%AD%98%E5%88%A5% E6%9D%A1%E4%BB%B6%E3%81%AE%E3%83%86%E3%82%B9%E3%83%88 • 伊藤寛武・金子雄祐(著). (2024). Pythonで学ぶ効果検証入門. 株式会社オーム社.

RDDに入門2_識別条件と検定 / Introduction to RDD(Regressio...

RDDに入門2_識別条件と検定 / Introduction to RDD(Regression Discontinuity Design) 2: Identification Conditions and Testing

Ikuma_w

More Decks by Ikuma_w

Featured

Transcript

RDDに入門2 ”識別条件と検定”の概要

RDD（回帰不連続デザイン）とは？施策対象となるかどうかが、ある一つの基準(強制変数: X)で決定される場合、その閾値前後で比較することで効果を推定する目的変数: Y 強制変数: X 統制群 (

目次 • RDDにおける識別条件と検定 1. 識別条件と成立しないケース 2. 可視化での判断 3. 検定での判断 4.

可視化での判断閾値付近で特異な状況になっていないこと満たしていることを示唆満たしていないおそれ

検定での判断① スコアの密度関数が連続であるかどうかを検定。可視化で判断していることを、統計的に判断しているイメージ。 McCraryの検定手順 1. 閾値前後でビンサイズを決める 2. 密度推定値を算出 3.

検定での判断② スコアの密度関数が連続であるかどうかを検定。可視化で判断していることを、統計的に判断しているイメージ。局所多項式密度推定量に基づく検定帰無仮説(H 0 )と対立仮説(H 1 ) H

RDDで使えるpythonライブラリ Python、Rで使えるRD Packagesというものがある rdrobust • Sharp RDDの推定(Fuzzy RDDもたいてい可能の様)。 • 推定効果の可視化。

補足: 単回帰分析の偏回帰係数の検定 • 偏回帰係数の標準誤差 • 偏回帰係数の有意差検定 ✓ 単回帰モデル: 𝑦𝑖 =

参考文献 • 高橋将宜(著). (2022). WonderFul R5 統計的因果推論の理論と実装潜在的結果変数と欠測データ. 共立出版. •