Upgrade to Pro — share decks privately, control downloads, hide ads and more …

能動適応的実験計画

Avatar for MasaKat0 MasaKat0
July 23, 2025

 能動適応的実験計画

医療統計 × 機械学習勉強会

Avatar for MasaKat0

MasaKat0

July 23, 2025
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 2 自己紹介 ◼ 加藤真大(Masahiro Kato) • みずほ第一フィナンシャルテクノロジー • 大阪公立大学経営学研究科 中川慧研究室(客員研究員)

    ◼ 専門分野: 経済学・統計学・機械学習・金融工学 • 因果推論・実験計画・異常検知・動的意思決定問題 etc. ◼ 趣味:書道・柔道・バッティングセンター • たまに名古屋の高校や道場で柔道してます • 東京ドーム横のバッティングセンターにも行きます ◼ 今回の発表の経緯 → • 松井先生と坂巻先生に企画していただきました! ありがとうございます!
  2. 3 ランダム化比較実験 ◼ 因果推論の黄金律はランダム化比較実験(Randomized Controlled Trial). • 処置(介入)をランダムに被験者(ユニット)に割り当てる. ◼ RCTは黄金律だが...コストが大きかったり,非倫理的であったりする.

    • 被験者的には(ランダムな処置よりも)より効果の良い処置が望ましい. • 実験に参加する被験者を減らす方(もしくはより精度の高い実験)が良い. → 効率的な実験を計画することが望まれる. 効率的 = サンプルサイズを小さくする.検出力を大きくする.etc. 評価指標によって効率的の意味が変わりうる.
  3. 4 処置割り当て確率の最適化 ◼ 処置の効率的な割り当て方 • ランダムに処置を割り当てることは効率的か? • 評価指標次第では,より良い性能を得られる割り当て方がある? ◼ 理想的な処置割り当て確率

    • 評価指標を最適化する処置割り当て確率. • 処置割り当て確率 = 観察研究における傾向スコア • 後述するように評価指標の理論下限から導出可能.
  4. 6 目次 1. 因果推論の基礎 2. 能動適応的実験計画 • Kato, Oga, Komatsubara,

    and Inokuchi (2025) 3. 共変量シフト問題 4. 共変量シフト下の因果推論(オフ方策評価とオフ方策学習) • Uehara, Kato, and Yasui (2021) 5. 共変量シフトと能動学習 6. 傾向スコアの最適化による適応的実験計画 • Kato, Ishihara, Honda, Narita (2020) 7. まとめと実務への示唆
  5. 7 目次 i. 最初に主目的であるKato, Oga, Komatsubara, and Inokuchi (2024)を説明. (もともとXで注目していただいて,この発表のきっかけになったので)

    ii. その後にKato et al. (2024)の研究の背景について説明する. • 私たちの過去の研究を中心にしつつ, • Shimodaira (2000)やSugiyama (2006)などの関連研究も紹介する. iii. 最後に実務応用に向けた示唆. ◼ iとiiiは全て説明します. ◼ iとiiiを話しても余る時間でiiを可能な限り話します. ◼ 質問は随時受付します.
  6. 9 処置効果 ◼ 状況: 新しい薬は,以前の薬と比べて,どのぐらい効果があるか のように2種類の施策の効果の違いに関心がある. ◼ 目標: • 二つの処置のそれぞれによって得られる結果(アウトカム)の比較

    = 処置効果の推定. (例1)クーポン配信を行うことで,配信を行わない場合と比べて,どの程度 売り上げが増加するか. (例2(新しい薬とプラシーボ(偽薬)をそれぞれ投与した場合の治療効果 の差(発熱や血圧の減少).
  7. 11 個別的処置効果 ◼ アプローチ: 似たような人に異なる処置をそれぞれ施す. ◼ 問題点: • 似ている人を探すことが大変. •

    全く同じ人はいない. → たくさん人を集めて,その集団に処置を施す(平均的には似ているだろう). → 個人の処置効果は分からないが,集団上の平均的な処置効果は分かる. ≒ 処置1 研究費100億円 処置0 研究費100円
  8. 13 平均処置効果推定の評価指標 ◼ バイアスと分散(バリアンス) • 処置効果を正しく推定できない状況 バイアス(偏り)がある. • 処置効果の推定値のばらつきが大きい(精度が悪い)状況 分散が大きい.

    (評価指標や文脈によってバイアスと分散の意味は変わりうる) ◼ 漸近正規性 • サンプルサイズ𝑛が大きくなるにつれて,推定量のばらつきが正規分布に. (真の処置効果への高速な収束( 𝑛-一致性)と,統計的な推論ができることも示される) (注) 𝑛より遅い漸近正規性もありうるが,本発表では簡単化のために 𝑛-一致性=漸近正規性.
  9. 14 平均処置効果推定の評価指標 ◼ 理想的な平均処置効果の推定: • バイアスがなく,分散が小さくなるように,推定量を構築したい. • バイアスはサンプルサイズが大きくなるにつれて消えれば良い. ◼ 漸近正規性(と

    𝑛-一致性)を得るためには: • バイアスが1/ 𝑛よりも速いレートでゼロになる必要がある. 𝑛 ෠ 𝜃 − 𝜃0 →𝑝 Bias + 𝐺. (𝐺は平均0で分散𝑉の正規分布に従う変数)
  10. 15 平均処置効果推定の評価指標 ◼ 漸近正規性が証明される推定量間(バイアスが早く消える推定量)での良さ より漸近分散が小さい推定量が良い. • 漸近分散 = 推定量が漸近的に従う正規分布の分散. ◼

    分散の理論的最良値? • Carmer-Rao下限 • 不偏推定量の集合に対して分散の下限(理論的最良値)を与える. • 正則推定量に対する効率下限 • 正則推定量と呼ばれる望ましい性質を持つ推定量の集合に対して,漸 近分散の下限を与える. • セミパラメトリックモデルの下限をセミパラメトリック効率下限と呼ぶ.
  11. 17 能動適応的実験計画 Kato, Oga, Komatsubara, and Inokuchi (2024). “Active adaptive

    experimental design for treatment effect estimation with covariate choice” In ICML ◼ 共変量分布と処置の割り当て確率を最適化することにより実験を効率化. • 関連するトピック • 能動学習のための意図的な共変量シフトの発生. • Shimodaira (2000)の重要度重み付け共変量シフト適応. • Sugiyama (2006)などの共変量シフトを用いる能動学習. • 実験計画におけるより分散を小さくする処置の割り当て方. • Neyman (1932)によるNeyman配分. • 漸近的に効率な推定量の構築. • Chernozhukov et al. (2018)の二重機械学習.
  12. 18 研究の背景 ◼ みずほ銀行でマーケティングのデータ分析をしている方からの質問. • マーケティング施策の効果を調べるためにABテストなどで実験する. • 質問 • 実験を行う人々の集団と,実際に広告配信を行う人々の集団が異なる

    分布に従うとき,処置効果の推定量にはバイアスが発生するのか? • もしくは分散が大きくなったりするのか? (例)広告配信 • 東京都に住んでいる人全体に広告を配信したい. • 渋谷で実験を行った結果,実験用に集めた人々は, 東京都の人口構成と比較して若者が多くなった. • 異なる分布の集団に対して実験を行っても良い?
  13. 19 研究の背景 ◼ 回答 • バイアスは除去できる. • 分散は分布のシフトの方向によっては小さくできる. = 良性の分布シフト

    ◼ 直観的説明 • より効果の分散が大きい人を より多く集めてくれば,推定量の 分散が小さくなる. • 不確実性の高い被験者を より多く欲しい.
  14. 20 能動適応的実験計画 ◼ この議論を精緻化・拡張. 逆に意図的に分布シフトを作り出すことで実験を効率化しよう! ◼ 能動適応的実験計画: • 手法: 施策を行う集団に対し,異なる集団から被験者を集める

    例:施策を行う集団 = 東京都全体. 被験者の集団 = 渋谷区民. • 被験者の集め方は,過去の実験結果を観測しながら更新をする • その被験者に施策を行い,その結果を観測する.
  15. 22 定式化 ◼ 二つの処置𝑑 ∈ {1, 0}. • 例:ABテスト,新しい薬とプラシーボ. ◼

    潜在アウトカム𝑌 1 , 𝑌 0 ∈ ℝ. 処置𝑑 ∈ {1, 0}によって得られるアウトカム(報酬などとも呼ばれる). 例:売上,顧客の増加,治療効果. • 𝑌 1 と𝑌 0 が従う分布を 𝑌 1 , 𝑌 0 ∣ 𝑋 ∼ 𝜁(𝑦 1 , 𝑦 0 ∣ 𝑋)とする. • 処置𝑑が割り当てられると,私たちは対応するアウトカム 𝑌(𝑑)を観測. ◼ それぞれの個人は𝑋 ∈ 𝒳という共変量(特徴量)によって特徴づけられる. ある個人の身長・体重・年齢・住所etc. • 特徴量に応じて処置のアウトカムの期待値や分散が異なりうる.
  16. 23 定式化 ◼ 共変量𝑋が従う分布(人々の特徴の分布)に着目する. ◼ 関心のある共変量分布のもとでの密度関数を𝑞∗(𝑥)とする. 例:東京在住の人々の身長・体重・住所の分布. ◼ 共変量密度𝒒∗(𝒙) 上の平均処置効果を以下のように定義する:

    平均処置効果 𝜏0 ≔ ∫ 𝑦 1 − 𝑦 0 𝜁 𝑦 1 , 𝑦 0 𝑥 𝑞∗ 𝑥 𝑑𝑦 1 𝑑𝑦 0 𝑑𝑥. 平均処置効果 特徴𝑥を持つ個人に対して,広告を配信した場合(𝑑 = 1)のアウトカム(𝑦(1))と, 広告を配信しなかった場合(𝑑 = 0)のアウトカム(𝑦(0))の差分(𝑦 1 − 𝑦(0))を 計算し,東京都に住む人々の特徴の分布で重みづけて平均を計算する.
  17. 24 能動適応的実験計画 ◼ 平均処置効果を能動適応実験計画で効率的に推定する. ◼ 能動学習 • あるパラメータ・関数を学習するために被験者を集める手法. ◼ 適応的実験計画

    • 過去の実験結果に基づいて実験方法を更新する手法. → 能動学習を用いる適応的実験計画なので能動適応的実験計画.
  18. 25 能動適応的実験計画 ◼ 能動適応的実験計画(active adaptive experiment). • 𝑇人の被験者に対して処置を割り当てることができるとする. • 私たちは各時点𝑡

    = 1,2, … , 𝑇において, ① 最適化された共変量分布から被験者を一人ずつ集めて, ② その被験者に最適化された確率にもとづいて処置を与え, ③ その結果を観測し,共変量分布と処置割り当て確率を最適化. ②処置𝐷𝑡 ∼ 𝑤𝑡 𝑑 𝑋𝑡 を割り当て ③アウトカム𝑌𝑡 = 𝑌𝑡 𝐷𝑡 ∼ 𝜁(𝑦 𝐷𝑡 ∣ 𝑋𝑡 )
  19. 26 能動適応的実験計画 ◼ 能動適応的実験計画(active adaptive experiment). 各時点𝑡 ∈ 𝑇 ≔

    {1,2, … , 𝑇}において, ① 共変量分布(人々の特徴)の密度が𝒑𝒕 (𝒙)である集団から被験者をランダムに選ぶ:𝑿𝒕 ∼ 𝒑𝒕 (𝒙). ② 共変量𝑋𝑡 を持つ被験者に,処置𝐷𝑡 ∈ {1,0}を確率𝑤𝑡 (𝐷𝑡 ∣ 𝑋𝑡 ) (傾向スコア)に従って割り当てる. ③ 処置𝐷𝑡 によって得られるアウトカム𝑌𝑡 = σ 𝑑∈ 1,0 1 𝐷𝑡 = 𝑑 𝑌𝑡 𝑎 = 𝑌𝑡 (𝐷𝑡 )を観測する. 𝑇人に処置をしたあと,それまでに観測したデータ 𝑋𝑡 , 𝐷𝑡 , 𝑌𝑡 𝑡=1 𝑇 .を用いて平均処置効果𝜏0 を推定.
  20. 27 漸近分散 ◼ 平均処置効果𝜏0 ≔ ∫ 𝑦 1 − 𝑦

    0 𝜁 𝑦 1 , 𝑦 0 𝑥 𝑞∗ 𝑥 𝑑𝑦 1 𝑑𝑦 0 𝑑𝑥の推 定量の漸近分散. • サンプルサイズ𝑇人のデータから得られる推定量 Ƹ 𝜏𝑇 に対して,漸近分散は lim 𝑇→∞ 𝑇 𝔼 Ƹ 𝜏𝑇 − 𝜏0 2 に対応. • 推定性能として解釈できる.(漸近)期待二乗誤差. ◼ 問い: • どのような分布𝑝𝑡 (𝑥)から人を集めれば, • どのような傾向スコアで処置𝐷𝑡 を割り当てれば, 平均処置効果の推定量の漸近分散(推定精度)を小さくできるか?
  21. 29 セミパラメトリック効率下限 ◼ 平均処置効果𝜃0 に対するセミパラメトリック効率下限: 𝑉 𝑝, 𝑤 ≔ න

    Var 𝑌 1 𝑥 𝑤 1 𝑥 + Var 𝑌 0 𝑥 𝑤 0 𝑥 𝑞∗ 𝑥 𝑝 𝑥 𝑞∗ 𝑥 𝜁 𝑦 1 , 𝑦 0 𝑥 𝑑𝑦 1 𝑑𝑦 0 𝑑𝑥. ◼ セミパラメトリック効率下限の主張: • 正則な(regular)推定量の集合 ෠ 𝜃𝑇 において, 𝑉 𝑝∗, 𝑤∗ より小さい漸近分散 の推定量は存在しない. • 実際に 𝑉 𝑝∗, 𝑤∗ と一致する漸近分散を持つ推定量が存在するかは不明. • 𝑉 𝑝∗, 𝑤∗ より良い推定量が存在しないだけ. • そもそも𝑉 𝑝∗, 𝑤∗ と一致する推定量があるかは不明.
  22. 30 セミパラメトリック効率下限 ◼ セミパラメトリック効率下限 = 共変量密度𝑝(𝑥)と傾向スコア𝑤(𝑎 ∣ 𝑥)の(汎)関数. • 固定された𝑝と𝑤のもとでの漸近分散の理論的最良値.

    ◼ セミパラメトリック効率下限𝑉 𝑝, 𝜋 を𝑝と𝑤に関して最小化する. → 効率下限を最小化する𝑝と𝑤を理想的な共変量密度と傾向スコアと呼ぶ.
  23. 31 理想的な共変量密度と効率的な傾向スコア ◼ 理想的な共変量密度と効率的な傾向スコアを以下のように定義する: 𝑝∗, 𝜋∗ ≔ arg min 𝑤,𝑝

    𝑉 𝑝, 𝑤 . • 理想的な共変量密度𝑝∗と効率的な傾向スコア𝜋∗の解析解: 𝑝∗ 𝑥 = Var(𝑌(1)|𝑥) + Var(𝑌 0 |𝑥) ∫ Var 𝑌 1 𝑥 + Var 𝑌 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 . 𝑤∗ 𝑎 𝑥 = Var(𝑌(𝑎)|𝑥) Var(𝑌(1)|𝑥) + Var(𝑌 0 |𝑥) .
  24. 32 理想的な共変量密度と効率的な傾向スコア ◼ 理想的な傾向スコア 𝑤∗ 𝑑 𝑋 = Var(𝑌(𝑑)|𝑥) Var(𝑌(1)|𝑥)+

    Var(𝑌 0 |𝑥) . • Neyman配分と呼ばれる(Neyman, 1932). • 分散の大きい処置をより多く割り当てる. ◼ 理想的な共変量密度 𝑝∗ 𝑥 = Var(𝑌(1)|𝑥)+ Var(𝑌 0 |𝑥) ∫ Var 𝑌 1 𝑥 + Var 𝑌 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 . • アウトカムの分散が大きい人々をより多く集める. • 𝑞∗(𝑥) 上の処置効果に関心があっても 𝑝∗(𝑥) から被験者を集めることで分散を小さくできる.
  25. 33 適応的実験計画の必要性 ◼ 理想的な共変量密度と効率的な傾向スコア: 𝑤∗ 𝑥 = Var(𝑌(1)|𝑥) + Var(𝑌

    0 |𝑥) ∫ Var 𝑌 1 𝑥 + Var 𝑌 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 , 𝑤∗ 𝑑 𝑥 = Var(𝑌(𝑑)|𝑥) Var(𝑌(1)|𝑥) + Var(𝑌 0 |𝑥) . ◼ ここで, Var(𝑌(𝑑)|𝑥)が未知. → 理想的な共変量密度𝑝∗と傾向スコア𝑤∗も未知. → (能動)適応的実験計画で推定しながら実験しよう!
  26. 34 能動適応的実験計画 ◼ 条件つき分散Var(𝑌(𝑑)|𝑋)を推定し,それによって𝑝∗と𝑤∗を推定. ◼ 能動適応的実験計画: 各時点𝑡 ∈ [𝑇]において: •

    Var(𝑌(𝑑)|𝑋)を過去のサンプル 𝑌𝑠 , 𝐷𝑠 , 𝑋𝑠 𝑠=1 𝑡−1を用いて推定. • その推定量を ෢ Var𝑡 (𝑌(𝑑)|𝑋)とする. • 被験者を確率密度𝑝𝑡 𝑥 に基づいてサンプル: 𝑋𝑡 ∼ 𝑝𝑡 𝑥 = ෢ Var𝑡 𝑌 1 𝑥 + ෢ Var𝑡 𝑌 0 𝑥 ∫ ෢ Var𝑡 𝑌 1 𝑥′ + ෢ Var𝑡 𝑌 0 𝑥′ 𝑞∗ 𝑥′ 𝑑𝑥′ . • 処置を確率𝜋𝑡 で割り当てる: 𝐷𝑡 ∼ 𝑤𝑡 𝑑 𝑋𝑡 = ෢ Var𝑡 𝑌 𝑑 𝑋𝑡 ෢ Var𝑡 𝑌 1 𝑋𝑡 + ෢ Var𝑡 𝑌 0 𝑋𝑡 .
  27. 35 能動適応的実験計画 ◼ 観測データ 𝑋𝑡 , 𝐷𝑡 , 𝑌𝑡 𝑡=1

    𝑇 を用いて,以下の平均処置効果の推定量を得る: Ƹ 𝜏𝑇 = 1 𝑇 ෍ 𝑡∈[𝑇] 1 𝐷𝑡 = 1 𝑌𝑡 − Ƹ 𝜇𝑡 1 𝑋𝑡 𝑤𝑡 1 ∣ 𝑋𝑡 − 1 𝐷𝑡 = 0 𝑌𝑡 − Ƹ 𝜇𝑡 0 𝑋𝑡 𝑤𝑡 0 ∣ 𝑋𝑡 𝑞∗(𝑋𝑡 ) 𝑝𝑡 (𝑋𝑡 ) + න Ƹ 𝜇𝑡 1 𝑥 − Ƹ 𝜇𝑡 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 • Ƹ 𝜇𝑡 𝑎 𝑑 は𝔼[𝑌𝑡 𝑑 ∣ 𝑋𝑡 ]の推定量. • ある期tより前の過去の観測データ 𝑋𝑠 , 𝐷𝑠 , 𝑌𝑠 𝑠=1 𝑡−1を用いる. • ニューラルネットワークなどを用いて推定して良い. • 𝑞∗(𝑥)からは無限にデータを得られるとする, • 共変量だけ得られれば良い. • (例)人口統計.
  28. 36 能動適応的実験計画 ◼ 観測データ 𝑋𝑡 , 𝐷𝑡 , 𝑌𝑡 𝑡=1

    𝑇 を用いて,以下の平均処置効果の推定量を得る: Ƹ 𝜏𝑇 = 1 𝑇 ෍ 𝑡∈[𝑇] 1 𝐷𝑡 = 1 𝑌𝑡 − Ƹ 𝜇𝑡 1 𝑋𝑡 𝑤𝑡 1 ∣ 𝑋𝑡 − 1 𝐷𝑡 = 0 𝑌𝑡 − Ƹ 𝜇𝑡 0 𝑋𝑡 𝑤𝑡 0 ∣ 𝑋𝑡 𝑞∗(𝑋𝑡 ) 𝑝𝑡 (𝑋𝑡 ) + න Ƹ 𝜇𝑡 1 𝑥 − Ƹ 𝜇𝑡 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 ◼ このような推定量は拡張逆確率重み付け(Augmented Inverse Probability Weighting; AIPW)推定量と呼ばれている. • 二重に頑健な(doubly robust)推定量とも呼ばれる. • 二重機械学習と呼ばれるテクニックを用いてバイアスを削減(後述).
  29. 37 漸近正規性 ◼ AIPW推定量の漸近正規性を示す. • 全ての𝑥 ∈ 𝒳について,𝑡が十分に大きいとき,確率1で𝑤𝑡 𝑎 𝑥

    − 𝑤∗ 𝑎 𝑥 → 0, Ƹ 𝜇𝑡 𝑎 𝑥 → 𝜇(𝑎 ∣ 𝑥),𝑝𝑡 𝑥 → 𝑝∗(𝑥)が成り立つ. • このとき, 以下が成立する: 𝑇 Ƹ 𝜏𝑇 − 𝜏0 → 𝑑 𝒩 0, 𝑉 𝑝∗, 𝑤∗ 𝑇 → ∞ . • この結果は「十分にサンプルサイズ𝑇が大きいとき, ATEの推定量 መ 𝜃𝑇 はバラつきが正規分布 で近似できる」ことを意味している. ◼ 漸近分散𝑉 𝑝∗, 𝑤∗ が理論限界と一致. → 漸近的に効率な推定量. 定理:漸近正規性
  30. 40 ➢ 実際に効率下限と一致する漸近分をもつ平均処置効果の推定量の構築 • 漸近正規性. • 漸近正規分布の漸近分散が下限に一致すること(漸近効率性). の証明が必要. ◼ 漸近正規性:

    適当な条件のもとでバイアスが早くゼロに収束すれば良い. ◼ 漸近効率性: 漸近分散が小さい推定量を作る必要がある. (付録)二重機械学習
  31. 41 (付録)二重機械学習 ◼ (例) 逆確率重み付け(IPW)推定量: Ƹ 𝜏𝑇 = 1 𝑇

    ෍ 𝑡∈[𝑇] 1 𝐴𝑡 = 1 𝑌𝑡 𝑤𝑡 1 ∣ 𝑋𝑡 − 1 𝐴𝑡 = 0 𝑌𝑡 𝑤𝑡 0 ∣ 𝑋𝑡 𝑞∗(𝑋𝑡 ) 𝑝𝑡 (𝑋𝑡 ) • バイアスはない → 漸近正規性は有している. • 漸近分散が大きい.
  32. 42 (付録)二重機械学習 ◼ 分散を小さくするための工夫 → 𝑌𝑡 から平均を引く(AIPW推定量): Ƹ 𝜏𝑇 =

    1 𝑇 ෍ 𝑡∈[𝑇] 1 𝐴𝑡 = 1 𝑌𝑡 − 𝜇 1 𝑋𝑡 𝑤𝑡 1 ∣ 𝑋𝑡 − 1 𝐴𝑡 = 0 𝑌𝑡 − 𝜇 0 𝑋𝑡 𝑤𝑡 0 ∣ 𝑋𝑡 𝑞∗(𝑋𝑡 ) 𝑝𝑡 (𝑋𝑡 ) + න 𝜇 1 𝑥 − 𝜇 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 . ◼ 平均𝜇 𝑑 𝑋𝑡 = 𝔼[𝑌𝑡 𝑑 ∣ 𝑋𝑡 ]は未知なので推定量で置き換える. • 漸近正規性を示すには,収束レートが1/ 𝑇程度である必要 → 平均𝜇の推定誤差による影響は1/ 𝑇より小さい必要がある. • しかし,平均𝜇の推定量の収束レートは1/ 𝑇程度. • 適当な条件のもとで平均𝜇の推定に関するバイアスが高速に収束!
  33. 43 (付録)二重機械学習 ◼ セミパラメトリック効率な平均処置効果の推定量の構築 • バイアスの高速収束 • 漸近分散の最小化 ◼ 上記の問題を以下の二つの要素によって解決

    • Neyman直交スコアの利用 • 関数の複雑さの制御 • 二つのアプローチ • Donsker条件を仮定する. ニューラルネットワークなどを用いると満たされにくい. • 交差適合(サンプル分割)を利用する. 汎用的に使える. • 平均𝜇の推定量をそれ以外の要素と直交(無相関化)させる.
  34. 44 (付録)二重機械学習 ◼ 二重機械学習 • セミパラメトリック効率な平均処置効果の推定量の構築の議論を体系化. • Chernozhukov et al.

    (2018)らにより整備. • 実際にはvan der Vaartやvan der Laanが1990年代後半から使用. • 適応的実験における二重機械学習(Kato, McAlinn, and Yasuim 2021). ◼ 能動適応的実験における二重機械学習 • 二重に頑健な推定量の利用(Neyman直交スコア) • 過去のサンプルを用いて𝜇 𝑑 𝑋𝑡 = 𝔼[𝑌𝑡 𝑑 ∣ 𝑋𝑡 ]を推定(交差適合)
  35. 45 ◼ AIPW推定量: Ƹ 𝜏𝑇 = 1 𝑇 ෍ 𝑡∈[𝑇]

    1 𝐷𝑡 = 1 𝑌𝑡 − Ƹ 𝜇𝑡 1 𝑋𝑡 𝑤 1 ∣ 𝑋𝑡 − 1 𝐷𝑡 = 0 𝑌𝑡 − Ƹ 𝜇𝑡 0 𝑋𝑡 𝑤𝑡 0 ∣ 𝑋𝑡 𝑞∗(𝑋𝑡 ) 𝑝𝑡 (𝑋𝑡 ) + න Ƹ 𝜇𝑡 1 𝑥 − Ƹ 𝜇𝑡 0 𝑥 𝑞∗ 𝑥 𝑑𝑥 . ◼ 分母に𝑤 𝑑 ∣ 𝑋𝑡 が入っている → 不均衡データの問題 → 高い確率でどちらかの処置しかか選ばないと0に近い𝑤𝑡 𝑑 ∣ 𝑋𝑡 が現れる. → 分母に0に近い値が表れるので,全体として値が大きくなってしまう. ◼ 理論的に解決できない? • 理論的最良値(セミパラメトリック効率下限)にも分母に𝑤∗がある. • 𝑤∗が小さければ理論的最良値が大きくなる. (付録)不均衡データの問題
  36. 46 (付録)仮説検定とサンプルサイズの計算 ➢ 漸近正規性に基づき統計的仮説検定が可能に. → そのためのサンプルサイズの計算も可能. ◼ 帰無仮説と対立仮説をそれぞれ 𝐻0 :

    𝜏0 = 0 と 𝐻0 : 𝜏0 > Δ とする.ここで,Δ > 0は効果量. 第一種の過誤を犯す確率(有意水準)を𝛼 > 0で制御しつつ,検出力(対立仮説が成立してい るときに,帰無仮説を棄却する確率. 1-第二種の過誤を犯す確率)が𝛽 > 0であるようなサンプルサイズを計算.
  37. 47 (付録)仮説検定とサンプルサイズの計算 ◼ 漸近正規性 𝑇 Ƹ 𝜏𝑇 − 𝜏0 →

    𝑑 𝒩 0, 𝑉 𝑝∗, 𝑤∗ (𝑇 → ∞) • 𝑇十分𝑇が大きいときに, 𝑇 Ƹ 𝜏𝑇 − 𝜏0 > 𝑉 𝑝∗, 𝑤∗ 𝑧1−𝛼/2 で帰無仮説を棄却すれば,有意水準が𝛼になることを意味している(𝑡検定). • ここで,𝑧1−𝛼/2 は,標準正規分布の1 − 𝛼/2分位点. ◼ この結果から計算すると,最低限必要なサンプルサイズは以下の通り: 𝑇∗ = 𝑉 𝑝∗, 𝑤∗ Δ2 𝑧1−𝛼/2 − 𝑧𝛽 2 .
  38. 49 共変量シフト ◼ 機械学習の枠組み • 訓練データで予測器を学習し,その予測器をテストデータに用いる. ◼ 分布シフト問題 訓練データの分布 ≠

    テストデータの分布 ◼ 共変量シフト問題 • 分布シフト問題の一種. • 共変量分布だけがシフトしている状況.
  39. 50 定式化 ◼ ターゲット変数𝑌, ෨ 𝑌 ∈ ℝ. ◼ 特徴量𝑋,

    ෨ 𝑋 ∈ 𝒳 ⊆ ℝ𝑑. ◼ 訓練データ 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛 . • ラベル付きデータ ◼ テストデータ ෨ 𝑋𝑗 𝑗=1 𝑚 . • ラベルなしデータ.対応するラベル෨ 𝑌は未観測. ◼ 共変量シフト: 𝑝 𝑥 ≠ 𝑞(𝑥).
  40. 51 定式化 ◼ 共変量シフト問題 訓練データ 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛

    とテストデータ ෨ 𝑋𝑗 𝑗=1 𝑚 を用いて未観測の෨ 𝑌を予測する ◼ 仮定: • 𝑋, 𝑌 ∼ 𝑝 𝑥, 𝑦 = 𝑝 𝑥 𝑝 𝑦 ∣ 𝑥 . • 訓練データ 𝑋𝑖 , 𝑌𝑖 𝑖=1 𝑛 は 𝑋, 𝑌 と独立に同一分布に従う. • ෨ 𝑋, ෨ 𝑌 ∼ 𝑞 𝑥, 𝑦 = 𝑞 𝑥 𝑞(𝑦 ∣ 𝑥). • テストデータ ෨ 𝑋𝑗 𝑗=1 𝑚 は ෨ 𝑋と独立に同一分布に従う. • 共変量分布は異なる: 𝑝 𝑥 ≠ 𝑞(𝑥). • 条件付き確率は同じ: 𝑝 𝑦 ∣ 𝑥 = 𝑞(𝑦 ∣ 𝑥).
  41. 52 定式化 ◼ 目標 • テストデータの分布𝑄のもとでの期待リスクを最小化する予測器の学習. • 予測器: 𝑓: ℝ𝑑

    → ℝ. ◼ テストデータの分布𝑄のもとでの期待リスク: 𝑅 𝑓 = 𝔼𝑄 ℓ 𝑓( ෨ 𝑋𝑗 ), ෨ 𝑌 𝑗 . • ℓ(𝑓(𝑥), 𝑦)は損失関数. • 例: 二乗損失ℓ 𝑓(𝑥), 𝑦 = 𝑦 − 𝑓 𝑥 2
  42. 55 共変量シフトはいつ・どのように問題になるか ◼ モデル誤特定の例 • 真の回帰モデル: 𝑌 = 𝑋𝛽1 +

    𝑋2𝛽2 + 𝑢, 𝔼 𝑢 𝑋 = 0. • この回帰モデルのパラメータ𝛽1 を推定したいとする. • 以下の線形回帰モデルを仮定: 𝑌 = 𝑋𝛽1 + 𝜀. • この線形回帰の誤差項は𝔼 𝜀 𝑋 = 0を満たさない. なぜなら,𝜀 = 𝑋2𝛽2 + 𝑢. → 内生性. • 𝑌を𝑋だけで回帰して𝛽1 を推定すると,その推定量にはバイアスが生じる.
  43. 56 共変量シフトはいつ・どのように問題になるか ◼ モデル誤特定の一般論 • 可測関数全体ℱと仮説集合ℋ ⊂ ℱ. • 最適予測器𝑓0

    = arg min 𝑓∈ℱ 𝔼𝑃 ℓ 𝑓(𝑋𝑖 ), 𝑌𝑖 = arg min 𝑓∈ℱ 𝔼𝑄 ℓ 𝑓 ෨ 𝑋𝑗 , ෨ 𝑌 𝑗 . • もし𝑓0 ∉ ℋであれば,最適予測器が訓練・テストで異なる可能性: 𝑓∗ = arg min 𝑓∈ℋ 𝔼𝑃 ℓ 𝑓 𝑋𝑖 , 𝑌𝑖 ≠ ሚ 𝑓∗ = arg min 𝑓∈ℋ 𝔼𝑄 ℓ 𝑓 ෨ 𝑋𝑗 , ෨ 𝑌 𝑗
  44. 57 共変量シフトはいつ・どのように問題になるか ◼ 逆に共変量シフトが問題にならない例は? • 回帰モデルを特定できている場合. 𝑌 = 𝑓0 𝑋

    + 𝑢. • 𝑓0 𝑋 = 𝔼[𝑌 ∣ 𝑋],𝔼 𝑢 𝑋 = 0. • 最小二乗法 min 𝑓∈ℋ ∫ 𝔼 𝑌 − 𝑓 𝑋 2 ∣ 𝑋 = 𝑥 𝑣 𝑥 d𝑥 . • ℋは回帰モデル. • 𝑣(𝑥)は適当な共変量の密度関数. • もしℋが𝑓0 を含んでいるなら,任意の𝑣(𝑥)のもとで以下が成立: 𝑓0 = argmin 𝑓∈ℱ ∫ 𝔼 𝑌 − 𝑓 𝑋 2 ∣ 𝑋 = 𝑥 𝑣 𝑥 d𝑥 .
  45. 59 重要度重み付けによる共変量シフト適応 Shimodaira (2000). “Improving predictive inference under covariate shift

    by weighting the log-likelihood function.” Journal of Statistical Planning and Inference. ◼ 重要度重み付けによる共変量シフト適応 • 密度比𝑟0 𝑥 = 𝑝(𝑥) 𝑞(𝑥) . • 重要度重み付けのもとでの経験リスク: ෨ 𝑅 𝑓 = 1 𝑛 ෍ 𝑖=1 𝑛 ℓ 𝑓(𝑋𝑖 ), 𝑌𝑖 𝑟0 𝑋𝑖 . ◼ この経験リスクの訓練データ上の期待値はテストデータの期待リスクと一致: • 𝔼𝑃 ෨ 𝑅 𝑓 = 𝔼𝑃 1 𝑛 σ 𝑖=1 𝑛 ℓ 𝑓(𝑋𝑖 ), 𝑌𝑖 𝑟0 𝑋𝑖 = 𝔼𝑄 [ℓ 𝑓 ෨ 𝑋𝑗 , ෨ 𝑌 𝑗 ].
  46. 60 密度比推定 ◼ 密度比𝑟0 が未知の場合,密度比を観測値から推定する必要がある. ◼ さまざまな密度比推定方法が提案されている. • 設定 •

    二つの観測値: 𝑋𝑖 𝑖=1 𝑛 ∼ 𝑝(𝑥), ෨ 𝑋𝑗 𝑗=1 𝑚 ∼ 𝑞(𝑥). • 二段階法 • 𝑝(𝑥)と𝑞(𝑥)をそれぞれ推定.その推定量の比率で𝑟0 (𝑥)を推定. × あまり性能が良くない. × 理論保証も難しい. →密度比 𝑟0 𝑥 を直接推定する方法: LSIF・KLIEP・PU学習.
  47. 61 密度比推定のレートとバイアス ◼ 密度比の推定量を Ƹ 𝑟(𝑥)とする. ◼ 密度比推定の収束レート • パラメトリックなら𝑂𝑝

    (1/ min(𝑛, 𝑚)). • ノンパラメトリックなら𝑂𝑝 min(𝑛, 𝑚) 𝛾 2𝛾+𝑑 . • 𝛾は密度比関数𝑟0 の滑らかさを表す未知パラメータ.
  48. 62 密度比推定のレートとバイアス ◼ 密度比𝑟0 𝑋𝑖 が未知の場合;推定量 Ƹ 𝑟(𝑥)で置き換える. (推定量の構成方法はSugiyama et

    al, (2012)など) ◼ 推定された密度比を用いる重要度重み付けのもとでの経験リスク: ෠ 𝑅 𝑓 = 1 𝑛 ෍ 𝑖=1 𝑛 ℓ 𝑋𝑖 , ෨ 𝑌𝑖 Ƹ 𝑟 𝑋𝑖 .
  49. 63 密度比推定のレートとバイアス ◼ 推定された密度比を用いる重要度重み付けのもとでの経験リスク: ෠ 𝑅 𝑓 = 1 𝑛

    ෍ 𝑖=1 𝑛 ℓ 𝑋𝑖 , ෨ 𝑌𝑖 Ƹ 𝑟 𝑋𝑖 . ◼ リスクの近似誤差: 𝑅 𝑓 − ෠ 𝑅 𝑓 = 𝑅 𝑓 − ෨ 𝑅 𝑓 + ෨ 𝑅 𝑓 − ෠ 𝑅 𝑓 • オラクル近似誤差項𝑅 𝑓 − ෨ 𝑅 𝑓 : 通常の近似誤差解析(𝑟0 既知). • 密度比推定誤差項 ෨ 𝑅 𝑓 − ෠ 𝑅 𝑓 : 密度比の推定誤差.
  50. 65 二重機械学習 Kato, Matsui, and Inokuchi (2025) “Double Debiased Covariate

    Shift Adaptation Robust to Density-Ratio Estimation.” Preprint. ◼ 密度比を推定量で置き換える場合の共変量シフト適応の研究 • 密度比を推定していても,真の密度比を使っている場合と同程度の収束, • 二重機械学習のテクニックを利用.
  51. 66 二重機械学習 ◼ 簡単化のために線形モデルを仮定する:𝑓0 𝑥 = 𝑥⊤𝜃0 . • 真の密度比𝑟0

    を知っている場合の𝜃0 の推定量の漸近分布と, • 真の密度比𝑟0 を知らない場合の𝜃0 の推定量の漸近分布を調べる. ◼ 真の密度比のもとでの推定量: ෨ 𝜃 ≔ 1 𝑚 ෍ 𝑗=1 𝑚 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ⊤ −1 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 𝑌𝑖 𝑟0 𝑋𝑖 . • 漸近分布: 𝑛 ෨ 𝜃 − 𝜃0 →𝑑 𝒩 0, Ω . • Ω = 𝔼𝑄0 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ⊤ −1 𝔼𝑄0 𝜎2 ෨ 𝑋𝑗 𝑟0 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ⊤ 𝔼𝑄0 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ⊤ −1 • 𝜎2 ෨ 𝑋𝑗 = 𝔼 𝑌 − 𝑓0 𝑋 2 𝑋 .
  52. 67 二重機械学習 ◼ 素朴に ෨ 𝜃内の真の密度比𝑟0 を推定量 Ƹ 𝑟に置き換える. →

    誤差を無視できず,同じ漸近分布を得られない. ◼ 提案推定量:二重に頑健な推定量: ෠ 𝜃 ≔ 1 𝑚 ෍ 𝑗=1 𝑚 ෨ 𝑋𝑗 ෨ 𝑋𝑗 ⊤ −1 1 𝑛 ෍ 𝑖=1 𝑛 𝑋𝑖 𝑌𝑖 − መ 𝑓 𝑋𝑖 Ƹ 𝑟 𝑋𝑖 + 1 𝑚 ෍ 𝑗=1 𝑚 ෨ 𝑋𝑗 መ 𝑓 ෨ 𝑋𝑗 . • መ 𝑓は回帰関数𝑓0 の一致推定量. Ƹ 𝑟は密度比𝑟0 の一致推定量. ◼ この推定量は,密度比既知の場合の推定量と同じ漸近分布を持つ.
  53. 71 共変量シフト下の因果推論 Uehara, Kato, and Yasui (2021). “Off-Policy Evaluation and

    Learning for External Validity under a Covariate Shift.” In NeurIPS. ◼ 共変量シフトが生じている状況でのオフ方策評価とオフ方策学習. • オフ方策評価: 平均処置効果推定の一般化. • オフ方策学習: 施策アルゴリズムの学習. ◼ 実験計画ではなく,すでに収集された(観察された)データを用いる. ◼ 例: • アメリカの治療データに基づいて,日本での治療効果を推定. • 推定された治療効果に基づいて日本での治療方策を学習.
  54. 72 定式化(通常のオフ方策評価・学習) ◼ 𝐾種類の処置𝑑 ∈ 𝐾 ≔ {1, 2, …

    , 𝐾}. • 例:複数の薬・広告. ◼ 潜在アウトカム𝑌 1 , 𝑌 2 , … , 𝑌(𝐾) ∈ ℝ. • 処置𝑑が割り当てられると,私たちは対応するアウトカム 𝑌(𝑑)を観測. ◼ それぞれの個人は𝑋 ∈ 𝒳という共変量(特徴量)によって特徴づけられる. • ある個人の身長・体重・年齢・住所etc. ◼ 傾向スコア𝑤 1 𝑋 , … , 𝑤(𝐾 ∣ 𝑋). • 共変量𝑋をもつ個人に対して確率𝑤(𝑑 ∣ 𝑋)で処置𝑑を割り振る.
  55. 73 定式化(通常のオフ方策評価・学習) ◼ 観測値 𝑋𝑖 , 𝐷𝑖 , 𝑌𝑖 𝑖=1

    𝑛 • 共変量𝑋 • 確率密度関数𝑝(𝑥)に従う • 処置𝐷 • 傾向スコア𝑤 1 𝑋 , … , 𝑤(𝐾 ∣ 𝑋). • 共変量𝑋をもつ個人に対して確率𝑤(𝑑 ∣ 𝑋)で処置𝑑を割り振る. • 傾向スコアは未知とする. • 観測アウトカム𝑌 = σ 𝑑∈[𝐾] 𝑌(𝑑) • 潜在アウトカム𝑌(𝑑)は𝜁(𝑦 𝑑 ∣ 𝑋)に従う. • データ生成過程 𝑋, 𝐷, 𝑌 ∼ 𝑝 𝑥 ς 𝑑∈ 𝐾 𝑤 𝑑 𝑥 𝜁 𝑦 𝑑 𝑥 1 𝐷=𝑑 . 𝑋 ∼ 𝑝(𝑥) 𝐷 Y 𝑤
  56. 74 定式化(通常のオフ方策評価・学習) ◼ 方策𝜋 1 𝑋 , … , 𝜋(𝐾

    ∣ 𝑋) • 未知の母集団に処置𝑑を割り当てる確率 ◼ 方策価値 𝑄𝑝 𝜋 ≔ 𝔼𝑝 ෍ 𝑎∈ 𝐾 𝜋 𝑎 𝑋 𝑌 𝑎 • 方策𝜋に従って,共変量の密度関数が𝑝(𝑥)の母集団上のユニット𝑋に処置 を割り当てたときに得られる期待アウトカム. • 𝔼𝑝 σ 𝑎∈ 𝐾 𝜋 𝑎 𝑋 𝑌 𝑎 ≔ ∫ 𝔼 σ 𝑎∈ 𝐾 𝜋 𝑎 𝑋 𝑌 𝑎 ∣ 𝑋 = 𝑥 𝑝 𝑥 𝑑𝑥
  57. 75 定式化(通常のオフ方策評価・学習) ◼ 目標 • オフ方策評価 • 方策𝜋を所与として,方策価値𝑄𝑝 𝜋 を推定.

    • オフ方策学習 • 方策集合Πを所与として,最適方策𝜋∗ ≔ arg max 𝜋∈Π 𝑄𝑝 𝜋 を学習. 𝐷 𝑌 𝑋 ∼ 𝑝(𝑥 ) ෨ 𝑋 ∼ 𝑝(𝑧 ) 𝐷 𝑌 𝑤 𝜋
  58. 76 通常のオフ方策評価・学習 ◼ 方策価値の推定量の例 • 逆確率重みづけ推定量: ෠ 𝑄𝑛 𝐼𝑃𝑊(𝜋) =

    1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑑∈[𝐾] 𝜋 𝑑 𝑋𝑖 1[𝐷𝑖 = 𝑑]𝑌𝑖 ෝ 𝑤(𝑑 ∣ 𝑋𝑖 ) . • 二重に頑健な推定量(AIPW推定量): ෠ 𝑄𝑛 𝐷𝑅 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑑∈[𝐾] 𝜋 𝑑 𝑋𝑖 1 𝐷𝑖 = 𝑑 𝑌𝑖 − Ƹ 𝜇𝑛 𝑑 ∣ 𝑋𝑖 ෝ 𝑤 𝑑 𝑋𝑖 + Ƹ 𝜇𝑛 𝑑 ∣ 𝑋𝑖 .
  59. 77 定式化(共変量シフト) ◼ 観測値 • 訓練データ 𝑋𝑖 , 𝐷𝑖 ,

    𝑌𝑖 𝑖=1 𝑛 • テストデータ ෨ 𝑋𝑗 𝑗=1 𝑚 • 共変量𝑋が従う分布のみが異なる. • 訓練データ𝑋 ∼ 𝑝(𝑥). • テストデータ ෨ 𝑋 ∼ 𝑞(𝑥).
  60. 78 定式化(共変量シフト) ◼ 方策価値𝑄 𝜋 ≔ 𝔼𝑞(𝑥) σ 𝑎∈ 𝐾

    𝜋 𝑎 𝑋 𝑌 𝑎 • 方策𝜋に従って母集団に処置を割り当てたときに得られる期待アウトカム. • 𝔼𝑞(𝑥) σ 𝑎∈ 𝐾 𝜋 𝑎 𝑋 𝑌 𝑎 ≔ ∫ 𝔼 σ 𝑎∈ 𝐾 𝜋 𝑎 𝑋 𝑌 𝑎 ∣ 𝑋 = 𝑥 𝑞 𝑥 𝑑𝑥 • (例)訓練データの共変量: アメリカ人の年齢・BMIなど テストデータの共変量:日本人の年齢・BMIなど 𝐷 𝑌 𝑋 ∼ 𝑝(𝑥 ) ෨ 𝑋 ∼ 𝑞(𝑧 ) 𝐷 𝑌 𝑤 𝜋
  61. 79 オフ方策評価 ◼ 簡単化のために𝑤(𝑑 ∣ 𝑥),𝑝(𝑥),𝑞(𝑥)は全て既知とする. • 方策シフトの補正: 𝜋 𝑑

    𝑋𝑖 𝑤 𝑑 𝑋𝑖 . • 共変量シフトの補正: 𝑞 𝑋𝑖 𝑝(𝑋𝑖) . ◼ 素朴なIPW推定量は以下の通り: ෠ 𝑄𝑛 𝐼𝑃𝑊 𝜋 = 1 𝑛 ෍ 𝑖=1 𝑛 ෍ 𝑑∈ 𝐾 𝜋 𝑑 𝑋𝑖 𝑤 𝑑 𝑋𝑖 𝑞 𝑋𝑖 𝑝(𝑋𝑖 ) 1[𝐷𝑖 = 𝑑]𝑌𝑖 . ◼ この推定量の漸近分散はセミパラメトリック効率下限よりも大きい. • さらに, 𝑤(𝑑 ∣ 𝑥),𝑝(𝑥),𝑞(𝑥)を推定するとそのバイアスも加わる. (ただし, 𝜋 𝑑 𝑋𝑖 𝑤 𝑑 𝑋𝑖 については推定し直した方が分散が小さくなる可能性も)
  62. 80 オフ方策評価 ◼ 交差適合と二重に頑健な推定量の使用で分散を小さくする. ◼ 交差適合 • 訓練データ 𝑋𝑖 ,

    𝐷𝑖 , 𝑌𝑖 𝑖=1 𝑛 を部分集合𝒟1 と𝒟2 に分割. • テストデータ ෨ 𝑋𝑗 𝑗=1 𝑚 を部分集合𝒞1 と𝒞2 に分割.
  63. 81 オフ方策評価 ◼ 共変量シフト下の二重に頑健な推定量: ෠ 𝑄1,𝑛 𝜋 ≔ 1 |𝒟1

    | ෍ 𝑖∈𝒟1 ෍ 𝑑∈[𝐾] Ƹ 𝑟𝑛2,𝑚2 (𝑑 ∣ 𝑋𝑖 )1 𝐷𝑖 = 𝑑 𝑌𝑖 − መ 𝑓𝑛2 𝑑 ∣ 𝑋𝑖 + 1 |𝒞1 | ෍ 𝑗∈𝒞1 ෍ 𝑑∈[𝐾] መ 𝑓 𝑛2 𝑑 ∣ ෨ 𝑋𝑖 . • Ƹ 𝑟𝑛2,𝑚2 (𝑑 ∣ 𝑋𝑖 )と መ 𝑓𝑛2 𝑑 ∣ 𝑋𝑖 は𝑞 𝑋𝑖 𝑝(𝑋𝑖) 𝜋 𝑑 𝑋𝑖 𝑤(𝑑∣𝑋𝑖) と𝔼[𝑌(𝑑) ∣ 𝑋𝑖 ] の推定量 データセット𝒟2 と𝒞2 から構築される. • データセットの役割を入れ替えて ෠ 𝑄2,𝑛 𝜋 を構築. • ෠ 𝑄𝑛 ≔ ෠ 𝑄1,𝑛 𝜋 + ෠ 𝑄2,𝑛 𝜋 を最終的な推定量とする.
  64. 82 オフ方策評価 ◼ 理論的性質: • 漸近正規性 • 漸近有効性 • セミパラメトリック効率下限に一致.

    • セミパラメトリック効率下限はWooldridge (2001)らの層別サンプリングの もとでの最尤法の議論に基づいて導出. • 二重頑健性: • Ƹ 𝑟𝑛2,𝑚2 (𝑑 ∣ 𝑋𝑖 )と መ 𝑓𝑛2 𝑑 ∣ 𝑋𝑖 がどちらかが一致性を有していれば,二重に 頑健な推定量も一致性を有する. • 方策学習はその二重に頑健な推定量を用いれば良い.
  65. 85 線形回帰のための能動学習 Sugiyma (2006) “Active Learning in Approximately Linear Regression

    Based on Conditional Expectation of Generalization Error.” Journal of Machine Learning Research. ◼ モデル誤特定下の線形回帰のための能動学習(active learning) • 平均二乗誤差を最小化するようにデータを収集する. • モデル誤特定に対してロバストになるように密度比で補正.
  66. 86 線形回帰モデルによる近似 ◼ 真の回帰モデル: 𝑌 = 𝑓 𝑋 + 𝜀.

    • 𝔼 𝜀 𝑋 = 0. • Var 𝜀 𝑋 = 𝜎2. ◼ 回帰関数𝑓(𝑥)を線形モデル𝑋⊤𝛽で近似する. • 基底を入れてΦ(𝑋)⊤𝛽として良いが簡単化のために省略. ◼ モデル誤特定 𝑌 = 𝑋⊤𝛽 + 𝛿𝑟 𝑋 . • 𝑟 𝑋 = 𝑓 𝑋 − 𝑋⊤𝛽 + 𝜀.
  67. 87 平均二乗誤差 ◼ 𝑌を𝑋で回帰した結果得られる𝑓(𝑋)の推定量を以下のように表記する: መ 𝑓 𝑋 = 𝑋⊤ መ

    𝛽. • መ 𝛽はOLSで得る. ◼ 平均二乗誤差 • このとき, መ 𝑓 𝑋 の𝑓(𝑋)に対する平均二乗誤差は以下のようになる:
  68. 88 能動学習 ◼ 平均二乗誤差を評価したい共変量の分布を固定 • ෨ 𝑋 ∼ 𝑞(𝑥)とする. •

    関心のある平均二乗誤差: ∫ 𝔼 𝑌 − መ 𝑓 𝑋 2 𝑋 = 𝑥 𝑞 𝑥 d𝑥. ◼ 訓練データを𝑞(𝑥)とは異なる密度を分布からサンプルできるとする. • 𝑋 ∼ 𝑝(𝑥)とする. • 𝑝(𝑥)から得られた𝑋を用いる場合の平均二乗誤差: ∫ 𝔼 𝑌 − መ 𝑓 𝑋 2 𝑋 = 𝑥 𝑝 𝑥 d𝑥.
  69. 89 能動学習 ◼ 共変量シフト適応を用いて学習: መ 𝛽 ≔ arg min 𝛽

    1 𝑛 ෍ 𝑖=1 𝑛 𝑌𝑖 − 𝑋⊤𝛽 𝑞 𝑋𝑖 𝑝 𝑋𝑖 . • これは重み付き最小二乗法. • 解析解: መ 𝛽 = ෍ 𝑖=1 𝑛 𝑋𝑖 𝑋𝑖 ⊤ 𝑞 𝑋𝑖 𝑝 𝑋𝑖 −1 ෍ 𝑖=1 𝑛 𝑋𝑖 𝑌𝑖 𝑞 𝑋𝑖 𝑝 𝑋𝑖 .
  70. 90 バイアス・バリアンス・近似誤差 ◼ 𝛽∗ = arg min 𝛽 ∫ 𝔼

    𝑌 − መ 𝑓 𝑋 2 𝑋 = 𝑥 𝑞 𝑥 d𝑥,𝑔 𝑋 = 𝑋⊤𝛽∗とする. ◼ バイアス・バリアンス・近似誤差を以下のように定義する: • 𝐵 = ∫ 𝔼 መ 𝑓 𝑋 𝑋 = 𝑥, 𝑋 𝑖=1 𝑛 − 𝑔(𝑋) 2 𝑞 𝑥 d𝑥 . • 𝑉 = 𝔼 ∫ መ 𝑓 𝑥 − 𝔼 መ 𝑓 𝑋 𝑋 = 𝑥, 𝑋 𝑖=1 𝑛 2 𝑞 𝑥 d𝑥 ∣ 𝑋 𝑖=1 𝑛 . • 𝐶 = ∫ 𝑔 𝑥 − 𝑓(𝑥) 2𝑞 𝑥 d𝑥 . • ここで,𝐵と𝑉は確率変数. 𝔼 መ 𝑓 𝑋 𝑋 = 𝑥, 𝑋 𝑖=1 𝑛 は訓練データの共変量で条件づけ. መ 𝑓 𝑥 も確率変数. • 平均二乗誤差∫ 𝔼 𝑌 − መ 𝑓 𝑋 2 𝑋 = 𝑥 𝑞 𝑥 d𝑥 = 𝐵 + 𝑉 + 𝐶.
  71. 91 バイアス・バリアンス・近似誤差 ◼ 近似誤差𝐶は改善しようがないので,バイアスとバリアンスに着目. • 𝐵 = 𝑂𝑝 𝛿2𝑛−1 .

    • 𝑉 = 𝜎2𝑡𝑟(𝑈𝐿𝐿⊤). • Var 𝜀 𝑋 = 𝜎2. • 𝑈 ≔ ∫ 𝑥𝑥⊤𝑞 𝑥 d 𝑥. • 𝐿 ≔ σ 𝑖=1 𝑛 𝑋𝑖 𝑋𝑖 ⊤ 𝑞 𝑋𝑖 𝑝 𝑋𝑖 −1 𝑋1 𝑋2 ⋮ 𝑋𝑛 𝑞 𝑋𝑖 𝑝 𝑋𝑖 .
  72. 92 ALICE ◼ 回帰モデルとバイアスとバリアンス(再掲). • 𝑌 = 𝑋⊤𝛽 + 𝛿𝑟

    𝑋 . • 𝑟(𝑋)は近似誤差. • バイアス:𝐵 = 𝑂𝑝 𝛿2𝑛−1 . • バリアンス:𝑉 = 𝜎2𝑡𝑟(𝑈𝐿𝐿⊤). ◼ バイアスは𝛿に依存. ◼ バリアンスは𝑝(𝑥)に依存(𝐿を介して) ◼ 提案法: ALICE(Active Learning using the Importance-weighted least-squares learning based on Conditional Expectation of the generalization error) • バリアンスを小さくするように𝑝(𝑥)を選択する手法. バリアンスを小さくすれば良い!
  73. 93 未解決問題 ◼ Sugiyama (2006)の問題点 • バイアスとバリアンスの議論に改善の余地がある? • そもそもバリアンス部分の改善にどれほどの意味があるのか? ◼

    Kato, Matsui, and Inokuchi (2025)との組み合わせ • 密度比が未知だと収束レートがそもそも遅くなる. ◼ 適応性 • 分散などを既知としなければならない. • 誤差項の分散を𝑋に対して一定としている. • 適応的実験で緩和可能.
  74. 95 適応的実験計画 Kato, Ishihara, Honda, and Narita. (2020). “Efficient Average

    Treatment Effect Estimation via Adaptive Experiments.” Preprint. ◼ 能動適応的実験計画の研究の基礎となっている研究. • 共変量分布は固定で,処置割り当て確率のみを最適化.
  75. 96 定式化 ◼ Binary treatments, 1 and 0. ◼ Sample

    size, 𝑇. Each unit is indexed by 1,2, … , 𝑇. ◼ Potential outcome, 𝑌1,𝑡 , 𝑌0,𝑡 ∈ ℝ. • 𝜇𝑎 (𝑋) and 𝜎𝑎 2(𝑋): conditional mean and variance of 𝑌𝑎 given 𝑋. ◼ 𝑑-dimensional covariates, 𝑋𝑡 ∈ 𝒳 ⊂ ℝ𝑑. E.g., Age, occupation, etc. ◼ Average treatment effect, 𝜏 = 𝔼[𝑌1 − 𝑌0 ].
  76. 97 Adaptive experiment 1. Treatment-allocation phase: in each round 𝑡

    = 1,2, … , 𝑇: • Observe covariates 𝑋𝑡 . • Allocate treatment 𝐴𝑡 ∈ {1,0} based on 𝑋𝑠 , 𝐴𝑠 , 𝑌𝑠 𝑠=1 𝑡−1 and 𝑋𝑡 . • Observe the outcome 𝑌𝑡 = 1 𝐴𝑡 = 1 𝑌1,𝑡 + 1 𝐴𝑡 = 0 𝑌0,𝑡 . 2. Decision-making phase: at the end of the experiment (after observing 𝑋𝑡 , 𝐴𝑡 , 𝑌𝑡 𝑡=1 𝑇 ). • Estimate the ATE 𝜏 = 𝔼 𝑌1 − 𝔼 𝑌0 . Round 𝒕 Unit 𝑡 with Covariates 𝑋𝑡 Treatment 𝐴𝑡 Covariate 𝑋𝑡 Outcome 𝑌𝑡 After round 𝑻 • Estimate the ATE.
  77. 98 Performance measure and lower bound ◼ We aim to

    construct an asymptotically normal estimator Ƹ 𝜏𝑛 with a smaller asymptotic variance: 𝑇 Ƹ 𝜏𝑇 − 𝜏 →𝑑 𝒩 0, 𝑉 as 𝑇 → ∞. ◼ Efficiency bound for ATE estimation (Hahn, 1998): • Assume that observations are i.i.d. with a fixed treatment-allocation probability 𝑤𝑎 (𝑥). • Then, the efficiency bound is given by 𝑉 𝑤 ≔ 𝔼 𝜎1 2(𝑋) 𝑤1 (𝑋) + 𝜎0 2(𝑋) 𝑤0 (𝑋) + 𝜏 𝑋 − 𝜏 2 . • 𝜏 𝑥 is the conditional ATE defined as 𝜏 𝑋 ≔ 𝔼 𝑌1 𝑋 − 𝔼 𝑌0 𝑋 = 𝜇1 𝑋 − 𝜇0 (𝑋).
  78. 99 Ideal treatment-allocation probability ◼ The efficiency bound is a

    functional of the treatment-allocation probability. • The bound can be further minimized for the probability (Hahn, Hirano, and Karlan, 2011): 𝑤∗ ≔ arg min 𝑤 𝑉 𝑤 = arg min 𝑤 𝔼 𝜎1 2(𝑋) 𝑤1 (𝑋) + 𝜎0 2(𝑋) 𝑤0 (𝑋) + 𝜏 𝑋 − 𝜏 2 .
  79. 100 Ideal treatment-allocation probability ◼ Neyman allocation (Neyman, 1932; Hahn,

    Hirano, and Karlan, 2011). • 𝑤∗ has the following closed-form solution, which is called the Neyman allocation: 𝑤1 ∗(𝑥) = 𝜎1 𝑥 𝜎1 𝑥 + 𝜎0 𝑥 , 𝑤0 ∗(𝑥) = 𝜎0 (𝑥) 𝜎1 (𝑥) + 𝜎0 (𝑥) . • Allocate treatments with a ratio of the standard deviations. • Estimate the variances and 𝑤∗ during an experiment.
  80. 101 Adaptive experimental design for ATE estimation 1. Treatment-assignment phase:

    in each round 𝑡 = 1,2, … , 𝑇: I. Obtain estimator ො 𝜎𝑎,𝑡 2 (𝑋𝑡 ) of 𝜎𝑎 2(𝑋𝑡 ) using past observations 𝑌𝑠 , 𝐴𝑠 , 𝑋𝑠 𝑠=1 𝑡−1. II. Assign 𝐴𝑡 ∼ 𝑤𝑎,𝑡 (𝑋𝑡 ) = ො 𝜎𝑎,𝑡 2 (𝑋𝑡 ) / ො 𝜎1,𝑡 2 (𝑋𝑡 ) + ො 𝜎0,𝑡 2 (𝑋𝑡 ) . 2. Decision-making phase: at the end of the experiment: • Adaptive Augmented Inverse Probability Weighting (A2IPW) estimator: Ƹ 𝜏𝑇 A2IPW = 1 𝑇 ෍ 𝑡=1 𝑇 1 𝐴𝑡 = 1 𝑌𝑡 − ො 𝜇1,𝑡 (𝑋𝑡 ) 𝑤1,𝑡 𝑋𝑡 − 1 𝐴𝑡 = 0 𝑌𝑡 − ො 𝜇0,𝑡 (𝑋𝑡 ) 𝑤0,𝑡 𝑋𝑡 + ො 𝜇1,𝑡 (𝑋𝑡 ) − ො 𝜇0,𝑡 (𝑋𝑡 ) . • Ƹ 𝜇𝑎,𝑡 (𝑋𝑡 ) is an estimator of 𝜇𝑎 (𝑋𝑡 ) using past observations 𝑌𝑠 , 𝐴𝑠 , 𝑋𝑠 𝑠=1 𝑡−1.
  81. 102 Batch and sequential design ◼ Batch design (Hahn, Hirano,

    and Karlan (2011)): • Update the treatment-allocation probability only at certain rounds. • E.g., Two-stage experiment: Split 1000 rounds into the first 300 rounds and the next 700 rounds. The first stage is pilot phase for estimating the variances. In the second stage, we allocate the treatments following the estimated probability. ◼ Sequential design (ours): • Update the treatment-assignment probability at every rounds. Our paper is a sequential version of Hahn, Hirano, and Karlan (2011). 𝑇 𝑡 = 1 Sequential design Batch design
  82. 103 Asymptotic Normality and efficiency ◼ Rewrite the A2IPW estimator

    as Ƹ 𝜏𝑇 A2IPW = 1 𝑇 σ𝑡=1 𝑇 𝜓𝑡 . • 𝜓𝑡 ≔ 1 𝐴𝑡=1 𝑌𝑡−ෝ 𝜇1,𝑡(𝑋𝑡) 𝑤1,𝑡 𝑋𝑡 − 1 𝐴𝑡=0 𝑌𝑡−ෝ 𝜇0,𝑡(𝑋𝑡) 𝑤0,𝑡(𝑋𝑡) + Ƹ 𝜇1,𝑡 (𝑋𝑡 ) − Ƹ 𝜇0,𝑡 (𝑋𝑡 ). ◼ 𝜓𝑡 𝑡=1 𝑇 is a martingale difference sequence. • Under suitable conditions, we can apply the martingale central limit theorem. • We can address the sample dependency problem occurred by the adaptive sampling. • m (Asymptotic normality of the A2IPW estimator): • 𝑤𝑎,𝑡 (𝑋) − 𝑤0 ∗(𝑋) → 0 and Ƹ 𝜇𝑎,𝑡 (𝑋) → 𝜇𝑎 (𝑋𝑡 ) as 𝑡 → ∞ almost surely. • Then, it holds that 𝑇 Ƹ 𝜏𝑇 A2IPW − 𝜏 → 𝑑 𝒩 0, 𝑉 𝜋∗ 𝑎𝑠 𝑇 → ∞ Theorem (Asymptotic normality of the A2IPW estimator) V≈
  83. 104 効率性の改善  適応的実験計画はどの程度実験を効率化しているのか? ◼ 以下の帰無仮説と対立仮説の仮説検定に必要なサンプルサイズの計算 𝐻0 : 𝜏 =

    0, 𝐻1 : 𝜏 = Δ. • 処置割り当て確率を𝑤で固定. • 効果量をΔ ≠ 0で固定. ◼ 第一種の過誤を𝛼で制御し,検出力が𝛽であるために必要なサンプルサイズ: 𝑇∗ 𝑤 = 𝑉 𝑤 Δ2 𝑧1 −𝛼/2 − 𝑧𝛽 2 • 𝑧𝑚 は標準正規分布の𝑚分位点.
  84. 105 Efficiency gain ◼ サンプルサイズの比較 • 設定 • 𝑋 ∈

    Uniform[0, 1], 𝜎1 2(𝑋) = 𝑋2, 𝜎0 2(𝑋) = 0.1, Δ = 0.1, 𝛼 = 𝛽 = 0.05, 𝜏 𝑋 = 𝜏 = Δ. • RCT (𝑤1 (𝑋) = 𝑤0 (𝑋) = 1/2): 𝑇∗ 𝜋 ≈ 1300. • Neyman配分: 𝑇∗ 𝜋 ≈ 970. ◼ 別の事例 • 𝜎1 2(𝑋) = (2𝑋)2, 𝜎0 2(𝑋) = 0.1. • RCT: 𝑇∗ 𝜋 ≈ 3700. Neyman配分: 𝑇∗ 𝜋 ≈ 2600. サンプルサイズを330削減
  85. 106 二重機械学習 Kato, Yasui, and McAlinn (2021). “The Adaptive Doubly

    Robust Estimator for Policy Evaluation in Adaptive Experiments and a Paradox Concerning Logging Policy.” In NeurIPS. ◼ The asymptotic normality is related to double machine learning (Chernozhukov et al., 2018). ◼ We can replace the true probability 𝑤𝑡 with its estimator even if we know 𝑤𝑡 . • Since 𝑤𝑡 can be volatile, replacing it with its estimator can stabilize the performance. ◼ The asymptotic property does not change. • The use of past observations is a variant of sample splitting, recently called cross fitting. We refer to the sample splitting as adaptive fitting (Figure 1).
  86. 107 Related literature • Hahn, Hirano, and Karlan (2011) develops

    adaptive experimental design for ATE estimation with a batch update and discrete contexts. • Tabord-Meehan (2023) proposes stratification tree for relaxing the discreetness of the covariates in Hahn, Hirano, and Karlan (2011). • Kallus, Saito, and Uehara (2020), Rafi (2023), and Li and Owen (2024) refine arguments about the efficiency bound for experimental design. • Shimodaira (2000) develops a framework of covariates-shift adaptation, and Sugiyama (2008) proposes active learning using techniques of covariate-shift adaptation. • Uehara, Kato, and Yasui (2021) investigates ATE estimation and policy learning under covariate shift. They develop the efficiency bound and an efficient ATE estimator using DML.
  87. 109 実用への示唆 ◼ 訓練データとテストデータのズレは必ずしも悪いものではない. • 分散を小さくするような分布シフトもありうる. ◼ 共変量シフトが起きていても必ずしも補正する必要があるわけでない. • モデル誤特定などを考える必要性.

    • 密度比による補正が必要な事例. • 内生性(モデル誤特定). • 平均値(平均処置効果や期待リスク). ◼ 分散が小さくなるような推定量の構築. • 二重機械学習. • Neyman直交スコア + サンプル分割 or Donsker条件.
  88. 110 まとめ ◼ 能動適応的実験計画について紹介した • 共変量シフトを意図的に発生させることで因果推論を効率化. • 理想的な共変量シフトは分布の未知パラメータに依存. → 適応的実験で未知パラメータを推定しながら実験を実行.

    • 理論的貢献 • 漸近分散の理論的最良値(効率下限)を導出. • その下限と同じ漸近分散をもつ推定量を構築 with 二重機械学習. → 漸近的に効率な実験, ◼ 関連するトピックとして共変量シフトの一般論や能動学習を紹介した.
  89. 112 参考文献 • Masahiro Kato, Takuya Ishihara, Junya Honda, and

    Yusuke Narita. Efficient adaptive experimental design for average treatment effect estimation, 2020. arXiv:2002.05308. • Masahiro Kato, Kenichiro McAlinn, and Shota Yasui. The adaptive doubly robust estimator and a paradox concerning logging policy. In International Conference on Neural Information Processing Systems (NeurIPS), 2021. • Kaito Ariu, Masahiro Kato, Junpei Komiyama, Kenichiro McAlinn, and Chao Qin. A comment on “adaptive treatment assignment in experiments for policy choice”, 2021. • Masahiro Kato. Generalized Neyman allocation for locally minimax optimal best-arm identification, 2024a. arXiv: 2405.19317. • Masahiro Kato. Locally optimal fixed-budget best arm identification in two-armed gaussian bandits with unknown variances, 2024b. arXIV: 2312.12741. • Masahiro Kato and Kaito Ariu. The role of contextual information in best arm identification, 2021. Accepted for Journal of Machine Learning Research conditioned on minor revisions. • Masahiro Kato, Akihiro Oga, Wataru Komatsubara, and Ryo Inokuchi. Active adaptive experimental design for treatment effect estimation with covariate choice. In International Conference on Machine Learning (ICML), 2024a. • Masahiro Kato, Kyohei Okumura, Takuya Ishihara, and Toru Kitagawa. Adaptive experimental design for policy learning, 2024b. arXiv: 2401.03756. • Junpei Komiyama, Kaito Ariu, Masahiro Kato, and Chao Qin. Rate-optimal bayesian simple regret in best arm identification. Mathematics of Operations Research, 2023.
  90. 113 参考文献 • van der Vaart, A. (1998), Asymptotic Statistics,

    Cambridge Series in Statistical and Probabilistic Mathematics, Cambridge University Press. • Tabord-Meehan, M. (2022), “Stratification Trees for Adaptive Randomization in Randomized Controlled Trials,” The Review of Economic Studies. • van der Laan, M. J. (2008), “The Construction and Analysis of Adaptive Group Sequential Designs,” https://biostats.bepress.com/ucbbiostat/paper232. • Neyman, J. (1923), “Sur les applications de la theorie des probabilites aux experiences agricoles: Essai des principes,” Statistical Science, 5, 463–472. • Neyman, J. (1934), “On the Two Different Aspects of the Representative Method: the Method of Stratified Sampling and the Method of Purposive Selection,” Journal of the Royal Statistical Society, 97, 123–150. • Manski, C. F. (2002), “Treatment choice under ambiguity induced by inferential problems,” Journal of Statistical Planning and Inference, 105, 67–82. • Manski (2004), “Statistical Treatment Rules for Heterogeneous Populations,” Econometrica, 72, 1221–1246.
  91. 114 参考文献 • Kitagawa, T. and Tetenov, A. (2018), “Who

    Should Be Treated? Empirical Welfare Maximization Methods for Treatment Choice,” Econometrica, 86, 591–616. • Garivier, A. and Kaufmann, E. (2016), “Optimal Best Arm Identification with Fixed Confidence,” in Conference on Learning Theory. • Glynn, P. and Juneja, S. (2004), “A large deviations perspective on ordinal optimization,” in Proceedings of the 2004 Winter Simulation Conference, IEEE, vol. 1. • Chernozhukov, V., Chetverikov, D., Demirer, M., Duflo, E., Hansen, C., Newey, W., and Robins, J. (2018), “Double/debiased machine learning for treatment and structural parameters,” The Econometrics Journal. • Degenne, R. (2023), “On the Existence of a Complexity in Fixed Budget Bandit Identification,” Conference on Learning Theory (COLT). • Kasy, M. and Sautmann, A. (2021), “Adaptive Treatment Assignment in Experiments for Policy Choice,” Econometrica, 89, 113– 132. • Rubin, D. B. (1974), “Estimating causal effects of treatments in randomized and nonrandomized studies,” Journal of Educational Psychology.