Upgrade to Pro — share decks privately, control downloads, hide ads and more …

RDDに入門 / Introduction to RDD (Regression Discon...

Ikuma_w
January 09, 2025
6

RDDに入門 / Introduction to RDD (Regression Discontinuity Design)

Ikuma_w

January 09, 2025
Tweet

Transcript

  1. 目次 • RDDについて • 選定方法から見たRDD • RDD(回帰不連続デザイン)とは? • LATEとその他の処置効果 •

    パラメトリックとノンパラメトリック • 共分散分析によるATE推定の問題 • 局所的な効果推定(ノンパラメトリック分析) • バンド幅の最適化 • 連続性の仮定とは • シミュレーションデータで分析 https://www.kyoritsu- pub.co.jp/book/b10011781.html
  2. RDD(回帰不連続デザイン)とは? • 回帰分析を使って効果検証する方法 • 施策対象となるかどうかが、ある一つの基準(強制変数: X)で決定される場合、その閾値 前後で比較することで効果を推定する 目的変数: Y 強制変数:

    X 統制群 ( t=0 ) 処置群 ( t=1 ) 境界付近の効果を推定 (局所的平均処置効果、LATE) • 境界付近においては効果推定が厳密にできるとみなされてい る • 過去の購買量に応じたメールマーケティングの効果 • 離反確率が高い人たちへの離反防止策の効果 • 降圧剤による血圧の低下の効果 • 境界から遠い対象については施策効果がわからない(バイアス が大きくなる) 分析ケース メリット デメリット
  3. パラメトリックとノンパラメトリック 統制群 ( t=0 ) 処置群 ( t=1 ) パラメトリック分析

    • 回帰モデルで大域的に効果を推定。 • どんな関数形をとるのかデータから確認する手がかりがない。 ノンパラメトリック分析 • バンド幅内のデータでの回帰モデルで効果を推定。 • バンド幅の設定が重要。データ量と閾値からの距離のバラ ンスが偏りと分散のトレードオフとなる。 統制群 ( t=0 ) 処置群 ( t=1 ) • データ範囲の選択によって、効果推定の仕方は大きく2種類
  4. 共分散分析によるATE推定の問題 • 閾値前後(処置の有無)で出力がどう変わるかわからない(=関数形が異なる) 目的変数: Y 強制変数: X 統制群 ( t=0

    ) 処置群 ( t=1 ) 例えば、Xの定義域全体への効果推定は左図のように、 • 入力に対して出力の挙動が変わるかもしれない • それをデータから知る手掛かりは無い ため、大域的な効果であるATEの推定は諦める y = a 1 x + b 1 (?) y = a 2 x2 + b 2 (?)
  5. 局所的な効果推定(ノンパラメトリック分析) • 共分散分析での妥当な因果推論手法への拡張版といえる 目的変数: Y 強制変数: X 統制群 ( t=0

    ) 処置群 ( t=1 ) c h h 閾値付近の拡大図 狭い範囲では、各個体の違いは無作為なノイズで発生している (過去の購買量、離反確率、血圧の測定値、etc.) E[(Yi (1)-Yi (0)|Xi =c)] = E[Yi (1)|Xi =c] - E[Yi (0)|Xi =c] τLATE = lim E[Yi (1)|Xi =c] – lim E[Yi (0)|Xi =c] x↓c x↑c LATEの概念式 • 処置が無作為に割り付けられると考えられる • 強制変数Xi が唯一の交絡変数といえる(ただしモデリングに共変 量を加えることは可能であり、精度向上が見込める) メリット 考え方 ノンパラメトリックRDDについて
  6. バンド幅の最適化 • 偏りとばらつきの最適なバランスを探す(いろいろある様) バンド幅 データ量 ばらつき 偏り 狭 広 少

    多 大 小 小 大 局所的な効果推定におけるバンド幅の影響のイメージ • 平均ニ乗誤差(MSE)を小さくすることを考える [カーネル密度推定値(データへの重みづけとなる)] 指標として以下などがある MSE(θ) = E[(θ – θ)2]: 推定量θの分散に偏りの2乗を加えた式 ^ ^ MSE[p(x)] = E{[p(x) – p(x)]2} ^ ^ MISE[p(x)] = E[ [p(x) – p(x)]2dx ^ ^ p(x) = (1/nh) ΣK((x-xi)/h) K: カーネル関数(だいたい三角形関数), h: バンド幅 考え方 ^ 選び方 複数のバンド幅の解析結果から選ぶ: 信頼区間(頑健な標準誤差)、カバー率の誤差 求め方
  7. 連続性の仮定とは? 1. 閾値がどこにあるか知られている 2. 強制変数が正確に操作されている Ex) 夫婦共働きの世帯において、所得税の所得控除のために年間収入を抑える • RDDによる効果推定が正当化されるために必要な仮定 ①

    可視化での判断: 閾値付近で特異な状況になっていないこと ② 検定での判断: McCraryの検定、局所多項式密度推定量での検定 満たしていることを示唆 満たしていないおそれ • 以下の2条件が両方当てはまる場合は連続性の仮定が満たされない • 診断方法 H 0 : lim f(x) = lim f(x) x↓c x↑c H 1 : lim f(x) ≠ lim f(x) x↓c x↑c • 帰無仮説(H 0 )が棄却されなければ連続 局所多項式密度推定量での検定(Cattaneo, Jansson, and Ma, 2020) • 検定統計量 T p (h) 局所多項式回帰の回帰係数の確率密度関数、多項式の次数、標本サイ ズ、分散の推定値から求められ、標準正規分布で近似できる
  8. シミュレーションデータで分析 (分析するデータについて) • 強制変数 x1: 処置前の血圧 • カットオフ: 130 •

    処置 t1: 降圧剤を飲む • 処置無し潜在的結果変数 y0 t: y0 t = x1 + εi 、εi ~ N (0, 100) • 処置有り潜在的結果変数 y1 t: y1 t = 10×√x1 + εi 、εi ~ N (0, 100) • 結果変数 y3: 処置後の血圧 潜在的結果変数の散布図 実際に観測できるデータの散布図 • 血圧が130以上の人にだけ降圧剤(血圧 を下げる薬)を飲んで、また血圧を測る。 各種条件、変数説明 場面設定 データの分布
  9. シミュレーションデータで分析 (潜在結果変数での大域的な平均処置効果) 散布図 分析結果 統制群 ( t=0 ) 処置群は観測できない 処置群

    ( t=1 ) 統制群は観測できない • 計算式: (青プロットの平均値) – (橙プロットの平均値) • ただし現実では統制群側は橙プロットが、処置群側は青プ ロットが観測できない 潜在的変数結果変数を用いた平均処置効果: -29.0 • 未観測データも含めての計算
  10. シミュレーションデータで分析 (各種手法による大域的な効果推定) • どの手法でも-29.0と大きく差があり、うまく効果推定できていない 散布図 分析結果 • 計算式: (処置群の平均) –

    (統制群の平均) • バイアスの影響を受けている 集計による計算: 10.3 統制群 ( t=0 ) 処置群 ( t=1 ) • 分析モデル: y1 = β1 x1 +β2 t1 +β0 +εi • 処置により下がることはわかるが、真の効果とは大幅に異なる • 関数形が異なるため、外挿の影響が生じる 回帰分析による効果推定(パラメトリック分析): -9.4 • 条件付き正値性(オーバーラップ条件)が必須であるが、処置 の割り付けが確定的であるため交絡の調整が行えない(処置 の割り付けの確率が0か1である) 傾向スコア
  11. シミュレーションデータで分析 (局所的な効果推定: ノンパラメトリック分析) • 局所的な平均処置効果を推定対象とすることで、外挿を行う部分を抑えてより良く効果推定できた 局所的な平均処置効果(観測できない): -13.1 RDDでの推定効果: -15.1 •

    (処置群の平均) – (統制群の平均) 計算式、 分析モデル 散布図 • y1 = β1 x1 +β2 t1 +β0 +εi , 効果: β2 統制群 ( t=0 ) 処置群は観測できない 処置群 ( t=1 ) 統制群は観測できない (※ 生成過程から計算できるカットオフ上の平均処置効果: -16.0( = 10×√130 – 130 ))