Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

Meta Learnerによる因果推論

Avatar for akki- akki-
November 27, 2025
6

Meta Learnerによる因果推論

Avatar for akki-

akki-

November 27, 2025
Tweet

Transcript

  1. © GO Inc. 2 自己紹介 GO株式会社 AI技術開発部 / 秋月 達樹

    工場勤務から海外駐在を経験したのち、人材事業と広告事業においてデータ分 析や機械学習エンジニアリングを担当。 2021年4月にGO株式会社(旧・ Mobility Technologies)に中途入社しデータ分析を担当 ------------------------------------------ @akidukin
  2. © GO Inc. • 介入(𝑇)が結果(𝑌)に与える影響(因果効果)を定量的に推定する手法 • 相関関係だけを見ても介入(𝑇)が結果(𝑌)に与える影響は計測することはできない 因果推論とは 5 介入

    𝑇 結果 𝑌 相関関係 要素同士の関連のしやすさ 直接性や時間順序は考慮されていない 介入 𝑇 結果 𝑌 因果関係 原因から結果への影響を表している 直接性や時間順序が考慮されている
  3. © GO Inc. • 2群をそのまま比較すると共変量(𝑋)による交絡が発生しバイアスとなる場合がある • 交絡の影響を調整することによって擬似的に比較可能な集団を作る必要がある • 調整後の2群の結果(Y)の平均差を求めて「集団の平均的な因果効果」の推定値とする 統計的因果推論のアプローチ

    7 介入 𝑇 結果 𝑌 共変量 𝑋 介入群 : ・投薬 : 100名 介入群 : ・重症 : 80名 ・軽症 : 20名 介入群 : ・回復 : 40名 (内 重症20名) ・未回復 : 60名(内 重症60名) 非介入群 : ・回復 : 90名 (内 重症0名) ・未回復 : 10名 (内 重症10名) 共変量が介入の有無へ 交絡影響を与えている 非介入群 : ・重症 : 10名 ・軽症 : 90名 非介入群 : ・非投薬 : 100名 交絡の影響により正しい効果が推定できない ※…共変量の調整については本資料では説明しません
  4. © GO Inc. • 例として「ECサイトにおけるクーポン付与が与える売り上げへの影響」を推定したい • 2群を比較すると効果は見られるが、コストと比較して低い結果が得られたとする ◦ 共変量は調整済みだとする 実例紹介

    9 クーポン付与による売り上げへの影響計測 クーポン:1回のみ¥100値引き 売上 / 人 (平均) 推定介入 効果 クーポン 付与 ¥180/人 +¥80 / 人 クーポン 未付与 ¥100/人 売上効果(+80円) < コスト(100円) なので、施策としては赤字(ROI < 100%) ※…付与しても利用していない人が居るからその分を考えると、などは今回の説明からは省く
  5. © GO Inc. • 現実的な課題だと、因果効果には異質性がある可能性が高い • 全体的な因果効果ではなく、異質性を考慮した因果効果(CATE)を推定することでビジネ ス意思決定の価値を高めることができる 因果効果の異質性について 10

    累計利用 回数(𝑋) 𝑦 0 (非介入群) 𝑦(1) (介入群) 推定因果効果 y 1 − 𝑦(0) 0 ¥100/人 ¥220/人 +¥120/人 1~5 ¥80/人 ¥120/人 +¥40/人 6~10 ¥90/人 ¥140/人 +¥50/人 10~ ¥110/人 ¥220/人 +¥110/人 累計利用回数が特定の値の場合、 クーポンのコストを上回る効果を 持つセグメントが存在する 因果効果には異質性が見られる 結論 : 特定の条件を満たすユーザーへのクーポン付与は収益面で正の影響が見られる
  6. © GO Inc. • 「層別化推定」による因果効果の推定は利用する特徴量が多くなると難しい場合が多い • 特定の条件下におけるサンプルの介入効果を推定できなくなる場合がある 層別化による因果効果を推定する難しさ 11 特徴量が5種類あり全ての特徴量が2値の場合

    N=25 N=25 層1 N=15 N=7 層2 N=5 N=25 層3 N=25 N=5 層4 N=0 N=25 層5 N=25 N=0 層6 N=1 N=9 層7 N=0 N=1 層8 N=0 N=0 層32 ・・・ サンプル数や特徴量の偏りによっては特定の条件下において比較対象がなく 介入効果の推定ができない場合が考えられる 介入群 非介入群
  7. © GO Inc. • Meta Learnerは異質性がある因果効果を推定する枠組み • 層別化推定で推定不能な場合でもMeta Learnerは推定が可能 ◦

    ただし、全体のサンプル数が少ないと予測精度が不安定になる場合がある Meta Learnerによる因果推論 13 𝑌 ≈ መ 𝑓(𝑡, 𝑥) モデル学習 ෠ 𝑌 1 = መ 𝑓 𝑇 = 1, 𝑋 = 𝑥 ෠ 𝑌 0 = መ 𝑓(𝑇 = 0, 𝑋 = 𝑥) Ƹ 𝜏(𝑥) = ෠ 𝑌 1 − ෠ 𝑌 0 データの準備 予測値取得 CATEの推定 ※…一部の手法では若干手順が異なる場合がある (𝑥𝑐 , 𝑡𝑐 , 𝑦𝑐 ) (𝑥𝑡 , 𝑡𝑡 , 𝑦𝑡 ) 介入群 非介入群 Meta Learnerによる因果効果の推定手順
  8. © GO Inc. • 単一のモデルを利用して因果効果を推定する手法 • シンプルなため利便性が良いが因果効果が微小な場合、検出が難しい S-Learner : Single

    Learner モデル学習 データの準備 予測値取得 CATEの推定 (𝑥, 𝑡, 𝑦) 介入群 非介入群 𝑦 ≈ 𝑓(𝑡, 𝑥) ො 𝑦 1 = 𝑓(1, 𝑥) Ƹ 𝜏(𝑥) = ො 𝑦(1) − ො 𝑦(0) ො 𝑦 0 = 𝑓(0, 𝑥) 介入群と非介入群のデータ を準備する 共変量と介入の値から𝑦を 予測するモデルを学習する 全てのデータに対して介入 時と非介入時の予測値を取 得する 予測値の差分を計算し CATEを推定する 𝑡, 𝑥を特徴量として扱い𝑦を予測する モデルを学習する 𝑦に強い影響を持つ𝑥がある場合、因 果効果の検出が難しい
  9. © GO Inc. • 2群に対して別々の機械学習モデルを学習させて因果効果を推定する手法 • 直感的で扱いやすい反面サンプル数が少ないとモデルの精度が悪化しやすい T-Learner : Two

    Learner モデル学習 データの準備 予測値取得 CATEの推定 介入群と非介入群のデータ をそれぞれ準備する 介入群と非介入群毎に𝑦を 予測するモデルを学習する 全データの特徴量を利用し て介入時と非介入時の予測 値を取得する 予測値の差分を計算し CATEを推定する 𝑦𝑡 ≈ 𝜇𝑡 (𝑥𝑡 ) 𝑦 1 = 𝜇𝑡 (𝑥) Ƹ 𝜏(𝑥) = 𝑦(1) − 𝑦 (0) (𝑥𝑐 , 𝑡𝑐 , 𝑦𝑐 ) (𝑥𝑡 , 𝑡𝑡 , 𝑦𝑡 ) 𝑦𝑐 ≈ 𝜇𝑐 (𝑥𝑐 ) 𝑦 0 = 𝜇𝑐 (𝑥) 介入群 非介入群 介入と非介入を完全に分割し て、2つの独立したモデルを 別々に学習する
  10. © GO Inc. • 2群の交差学習を行うT-Learnerの発展系 • サンプル数が不均一な場合の推定に強い反面、構造が複雑になり計算コストが高い • 選択バイアスの影響の考慮や影響要因の評価ができない X-Learner

    : X Learner (𝑥𝑐 , 𝑡𝑐 , 𝑦𝑐 ) (𝑥𝑡 , 𝑡𝑡 , 𝑦𝑡 ) 介入群 非介入群 𝑡 ≈ 𝑒(𝑥) ෝ 𝑦𝑡 ≈ 𝜇1 (𝑥𝑡 ) ෝ 𝑦𝑐 ≈ 𝜇0 (𝑥𝑐 ) 𝐶1 = 𝑦𝑡 − 𝜇0 (𝑥𝑡 ) 𝐶0 = 𝜇1 (𝑥𝑐 ) − 𝑦𝑐 𝐶1 ≈ ෝ 𝜏1 (𝑥𝑡 ) 𝐶0 ≈ ෝ 𝜏0 (𝑥𝑐 ) データの準備 介入群と非介入群のデ ータをそれぞれ準備す る モデル学習 介入群と非介入群毎に𝑦 を予測するモデルと𝑡の 割当確率を予測するモ デルを学習する 擬似効果の推定 それぞれの擬似効果を 予測する 交差学習 特徴量から擬似効果を 予測するモデルを学習 する 介入効果の推定 擬似効果の予測値に対 して介入確率で重み付 けして介入効果を算出 する Ƹ 𝜏(𝑥) = 𝑒 𝑥 ∙ ෝ 𝜏0 𝑥 + (1 − 𝑒 𝑥 ) ∙ ෝ 𝜏1 (𝑥) 属する群とは別の群で学習したモデルを 利用し反事実を推定する。 交差することで群間の共変量シフトに対 応することができる 割当確率𝑡で重み付けすること で反事実の推定の正確さを補 足する ※…介入群は ෝ 𝜏1を、非介入群は ෝ 𝜏0 を重要視する
  11. © GO Inc. • モデルの学習過程で残差を利用し因果効果を推定する手法 ◦ 残差を使うことで介入とアウトカムが独立する • 効率的な学習で頑健な結果を出しやすいが、理論が複雑で計算コストが高い R-Learner

    : Robinson’s Learner モデル学習 データの準備 残差計算 CATEの推定 介入群と非介入群のデータ をそれぞれ準備する 共変量と介入の値から𝑦を 予測するモデルと𝑡の割当 確率を予測するモデルを学 習する 予測値と実績値の残差を計 算する 𝑌∗を特徴量とT∗から予測す るモデルを学習し、CATE を推定する 介入群 非介入群 Ƹ 𝑡 ≈ 𝑒(𝑥) ො 𝑦 ≈ 𝜇(𝑥) T∗ = 𝑇 − 𝑒(𝑥) 𝑌∗ = 𝑌 − 𝜇(𝑥) 𝑌∗ ≈ 𝜏(𝑥) ∙ T∗ (𝑥, 𝑡, 𝑦) 残差を計算することで𝑌, 𝑇の 両方から𝑋の影響を除外する 𝜏(𝑥)から得られる結果が推定 される因果効果となる
  12. © GO Inc. • 結果予測モデルと傾向スコアモデルの両方を利用して推定する手法 • 推定精度の影響を受けづらい反面、実装コストが高い DR-Learner : Doubly

    Robust Learner モデル学習 データの準備 擬似効果計算 CATEの推定 介入群と非介入群のデータ をそれぞれ準備する 介入群と非介入群毎に𝑦を 予測するモデルと𝑡の割当 確率を予測するモデルを学 習する 得られた予測値を元に擬似 的な効果を算出する 擬似効果を特徴量から予測 するモデルを学習して効果 量を推定する (𝑥𝑐 , 𝑡𝑐 , 𝑦𝑐 ) (𝑥𝑡 , 𝑡𝑡 , 𝑦𝑡 ) 介入群 非介入群 𝑡 ≈ 𝑒(𝑥) ෝ 𝑦𝑡 ≈ 𝜇1 (𝑥𝑡 ) ෝ 𝑦𝑐 ≈ 𝜇0 (𝑥𝑐 ) 𝑌∗ = 𝜇1 𝑥 − 𝜇0 𝑥 + ሶ 𝑒 ሶ 𝑒 = 𝑇(𝑌 − 𝜇1 𝑥 ) 𝑒(𝑥) − (1 − 𝑇)(𝑌 − 𝜇0 𝑥 ) 1 − 𝑒(𝑥) 𝑌∗ ≈ 𝜏(𝑥) 𝜇1 , 𝜇0 もしくは𝑒から得られる結果が 正しければ最終的なCATEの推定値は 理論上正しくなる性質を持つ 𝜏(𝑥)から得られる結果が推定 される因果効果となる
  13. © GO Inc. • 2群の特徴量の分布や分析者が仮定する介入効果や特徴量分布に基づいて使い分ける 使い分けや選択基準 19 種類 特徴 前提

    注意点 S-Learner 介入(T)も特徴量(X)も全部まとめて1つ のモデルで学習する 最もシンプルで実装が簡単 介入効果が小さいと検出ができな い T-Learner データを介入群と非介入群に分割して 別々のモデルで学習する 構造が直感的でわかりやすい どちらかの群のデータが少ないと モデルの精度が大きく悪化する X-Learner 2段階で学習を行う、データが多い群の 情報を少ない群の効果推定に利用する サンプルサイズの不均衝に強い 学習プロセスが複雑 R-Learner 介入(T)と結果(𝑌)から交絡の影響を除去 し、残差からCATEを推定する 頑健性が高い 直感的にわかりづらい DR-Learner 「結果予測モデル」と「介入確率予測 モデル」の両方を利用する 最も頑健であり、どちらかのモデ ルが合っていれば推定はずれない 学習プロセスが最も複雑 ※…他にもmeta learnerに分類される手法はありますが、本資料では説明を省きます
  14. © GO Inc. • Meta Learnerは因果推論の手法の一つであり因果推論の大前提が崩れていると得られる 推定値は間違った答えを出してしまう • 内部で利用する機械学習モデルの過学習によっても推定値が信頼できなくなる Meta

    Learnerを利用する上での注意点 21 前提条件 注意点 安定した介入効果の仮定 (SUTVA) 他人が介入を受けたかどうかはある個人の結果へ影響しない 一貫性 (Consistency) 実際に観測された結果は、その人が受けた介入における「もしも」の 結果と一致する 交換可能性 (Exchangeability) 介入群と非介入群の割り当てを交換したとしても、得られる結果が同 じである 正値性 (Positivity) どのような特徴を持つ人であっても介入を受ける可能性と受けない可 能性の両方が存在する 因果推論の大前提
  15. © GO Inc. • ビジネス課題においてATEだけではなくCATEを求める事で、分析結果の価値を高めるこ とができる • Meta Learnerは機械学習を利用してCATEを柔軟に推定する枠組みである •

    Meta Learnerはさまざまな種類がありデータの特性に応じて選択をする必要がある • 因果推論の大前提や過学習により得られる結果が間違ってしまう可能性がある まとめ 参考資料 : ・Heterogeneous treatment effect and Meta Learners https://towardsdatascience.com/heterogeneous-treatment-effect-and-meta-learners-38fbc3ecc9d3/ ・Meta-learners for Estimating Heterogeneous Treatment Effects using Machine Learning https://arxiv.org/pdf/1706.03461 ・なぜ無作為かなのか:『因果推論の根本問題』とその解法 https://takehiko-i-hayashi.hatenablog.com/entry/2013/11/21/221514 ・異質性治療効果を推定するための統計手法・機械学習手法の現況と医療分野への応用について https://waidai-csc.jp/updata/2023/08/seminar-kikai.pdf 23