IP70_counterfactual_machine_learning

Slide 1

Slide 1 text

反実仮想機械学習を⽤いた⾏動変容のための情報提供⽅策の最適化東京⼤学⼤学院博⼠2年増⽥慧樹⽻藤英⼆ 2024年11⽉16⽇ (⼟) 第70回⼟⽊計画学研究発表会・秋⼤会@岡⼭⼤学

Slide 2

Slide 2 text

⾏動モデルによる⾏動予測 • 特徴量𝑥! をもとに⾏動𝑦! を精度よく予測する関数𝑓を推定する 2 研究の背景 – データにもとづく政策介⼊効果予測の課題 𝒟 = 𝑥!, 𝑦! !"# $ 予測関数𝑓を学習データ 𝑦 ≈ 𝑓 𝑥 𝑎 = 𝜋 𝑥 最適な意思決定最良の予測 max %, ( 𝑧 𝑦 s. t. 𝑦 = 𝑓(𝑥) 年齢、居住地等の個⼈属性 (𝑥!)と、ハザードマップ・避難訓練などの介⼊ (𝑥!)を⾏なった場合の、避難有無(𝑦!)を予測する⾏動モデル𝑓を推定介⼊ (災害情報の提供)による⾏動変容を予測して、各個⼈の避難確率を最⼤にする介⼊⽅策を決定予測に基づく政策の最適化⽅策𝜋にもとづく⾏動𝑎 例) 避難⾏動を変容させるための災害情報の提供

Slide 3

Slide 3 text

⾏動モデルによる⾏動予測 • 特徴量𝑥! をもとに⾏動𝑦! を精度よく予測する関数𝑓を推定する 3 研究の背景 – データにもとづく政策介⼊効果予測の課題⾏動履歴を⽤いた意思決定の最適設計 • 特徴量𝑥! 、介⼊𝑎! 、⾏動𝑦! の履歴が得られたとき、期待報酬を最⼤化する⽅策𝜋を求める 𝒟 = 𝑥!, 𝑦! !"# $ 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ 予測関数𝑓を学習⽅策関数𝜋を直接学習データデータ 𝑦 ≈ 𝑓 𝑥 𝑎 = 𝜋 𝑥 最適な意思決定最良の予測 max ), ( 𝑧 𝑦 s. t. 𝑦 = 𝑓(𝑥) 予測に基づく政策の最適化反実仮想機械学習、オフ⽅策評価・学習

Slide 4

Slide 4 text

1. ⾏動モデルの予測精度と、それに基づく意思決定の最適性の関係について、明らかにする。 • 最良の予測モデルは最適な意思決定を導くのか？ 2. 過去の実験データをもとに、最適な⾏動を促す情報提供⽅策を求める。 • 新たな情報提供⽅策の評価⽅法として、⾏動モデルを⽤いる⽅法と因果推論⼿法に基づく⽅法の特徴を、解析的・数値的に確認 4 研究の⽬的真のモデル 𝑥! : 特徴量, 𝑎! : 介⼊, 𝑦! : ⾏動 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ⽣成最適化最適化意思決定の最適性真の最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) 推定された最適⽅策 . 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) ⾏動モデル未知の領域モデルの予測精度推定期待報酬の予測値

Slide 5

Slide 5 text

予測精度と意思決定の最適性は必ずしも⼀致しない例 Edge 1 ○とEdge 2 ◻のコストを予測し、予測値をもとにコストの⼩さい経路 (最短経路)を選択する問題 Elmachtoub and Grigas (2022) 5 既往研究 – 予測精度と意思決定の最適性モデル1: 予測精度は⾼いが意思決定が最適でないモデル2: 予測精度は低いが意思決定が最適コストの⼤⼩が切り替わる境界を正確に特定経路コスト (効⽤) 経路コスト (効⽤) 特徴量特徴量

Slide 6

Slide 6 text

1. 最適な意思決定からの誤差を予測モデルの損失関数に組み込むアプローチ • Smart “Predict, then Optimize” Elmachtoub and Grigas (2022) 6 既往研究 – 最適な意思決定を⾏うための⼿法 𝑙"#$ ̂ 𝑐, 𝑐 = 𝑐%𝑤 ̂ 𝑐 − 𝑧∗ 𝑐 𝑐: 真のパラメタ, ̂ 𝑐: 推定パラメタ推定パラメタの下での最適解真のパラメタの下での⽬的関数値 = 推定パラメタ ̂ 𝑐による意思決定が、真のパラメタcのもとでどれだけ良いか介⼊あり介⼊なし介⼊したときの報酬観測未観測介⼊しないときの報酬未観測観測介⼊による効果 →推定 → ⾮線形な⽬的関数への拡張が困難 2. 因果推論アプローチ • 特徴量𝑥! 、介⼊𝑎! 、報酬𝑟! の履歴データ𝒟 = 𝑥! , 𝑎! , 𝑟! !'( ) が得られたとき、介⼊による因果効果を推定→ × 新しい⽅策の評価、最適⽅策の学習

Slide 7

Slide 7 text

特徴量𝑥! , ⽅策𝜋* に基づく介⼊𝑎! ~𝜋* 𝑥! , ⾏動による報酬𝑟! に関する履歴データがあるとき、別の新しい⽅策𝝅の効果を推定したり、より良い⽅策𝝅を学習する 7 本研究のアプローチ – オフ⽅策評価・学習介⼊前介⼊後避難避難 𝑎+ 避難⾮避難 𝑎( ⾮避難避難 𝑎+ ⾮避難⾮避難 𝑎, 𝑎# : 避難訓練A 𝑎$ : 災害情報A 𝑎% : 避難訓練B 𝑎& : 災害情報B 属性𝑥! 属性𝑥! 属性𝑥! 属性𝑥! ⽅策𝜋9 履歴データ 𝒟 = 𝑥!, 𝑎!~𝜋-(𝑥!), 𝑟! !"# $ 新しい⽅策𝝅の評価最適な⽅策𝝅の学習既存の⽅策𝜋- に基づいて、報酬𝑟! 報酬𝑟! 報酬𝑟! 報酬𝑟!

Slide 8

Slide 8 text

• 新しい⽅策𝜋の性能𝑉(𝜋) 8 新⽅策𝝅の性能評価報酬特徴量𝑥と⾏動𝑎で条件付けた報酬の期待値この同時分布は未知 → データから𝑽(𝝅)を推定 → 過去の履歴データに少量しか存在しない、または存在しない特徴量𝑥と介⼊𝑎の組み合わせに対して、期待報酬をいかにうまく推定するかが課題（因果推論の根本問題） 1. 予測モデルを⽤いる⽅法 (Direct Method推定量) 2. ⾏動の重み付けを⽤いる⽅法 (Inverse Propensity Score推定量) 3. 1と2を組み合わせる⽅法 (Doubly Robust推定量)

Slide 9

Slide 9 text

9 新⽅策𝝅の性能評価 – Direct Method推定量 • 真の性能𝑉(𝜋)に対する推定量; 𝑉(𝜋)の平均⼆乗誤差は、バイアス (𝑉(𝜋)と ; 𝑉(𝜋)の差)とバリアンス (; 𝑉(𝜋)のばらつき)に分解できる期待報酬関数𝒒(𝒙, 𝒂)の推定モデル → 特徴量𝑥, 𝑎を⼊⼒とし、⾏動𝑦 (=報酬𝑟) を予測する⾏動モデル = 期待報酬の経験平均 ①推定モデルと真の期待報酬関数のズレ ③予測値のバラつき ②データ数誤差に影響する要因：⾏動モデルの予測精度が悪い場合や、予測値のばらつきが⼤きい場合は、新⽅策𝝅の性能を正しく評価できない

Slide 10

Slide 10 text

• 履歴データに少ないが新⽅策でよく選択される⾏動→ 重み⼤ • 履歴データに多いが、新⽅策であまり選択されない⾏動→ 重み⼩ • バイアスとバリアンス • Bias = 0 → 𝑉(𝜋)に対する不偏推定量 • Variance 10 新⽅策𝝅の性能評価 – Inverse Propensity Score推定量既存⽅策𝝅𝟎 と新⽅策𝝅についての介⼊𝒂𝒊 の選択確率の⽐ ※ 共通サポートの仮定のもとで成⽴全ての𝑥, 𝑎について、𝜋 𝑎 𝑥 > 0 ⇒ 𝜋# 𝑎 𝑥 > 0 既存⽅策と新⽅策の⾏動選択確率の差が⼤きい場合 (𝒘⼤)、バリアンスが拡⼤してしまうおそれ

Slide 11

Slide 11 text

11 新⽅策𝝅の性能評価 – Doubly Robust推定量 • バイアスとバリアンス • Bias = 0 → 𝑉(𝜋)に対する不偏推定量 • Variance = DM推定量とIPS推定量の組み合わせ IPS推定量の不偏性を継承しながら、バリアンスを低く抑えることが可能 DM推定量 IPS推定量と同様に、報酬を𝑤で重みづけ IPS推定量との違い −4 𝑞(𝑥, 𝑎)だけバリアンス低減

Slide 12

Slide 12 text

最良の予測モデルは最適な意思決定を導くのか？ 12 数値実験1 真のモデル Masuda & Ikegai (2024) 避難有無・時間・場所の選択を Discounted RLモデルで表現 𝑥! : ⾃宅浸⽔深、元の避難意向 𝑎! : 避難訓練、ハザードマップ 𝑦! : 避難の有無 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ⽣成学習 14種の⾏動モデル MNL(2次の交互作⽤あり/なし), ランダムフォレスト (深さ5, 10), サポートベクタマシン (線形, ガウス), k近傍法 (近傍3, 5), ニューラルネットワーク (1層、2層), LightGBM (深さ上限なし、上限10), 決定⽊ (深さ5, 10) 推定された最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) ⽅策学習⽅策学習真の最適⽅策 𝑎 = argmax%"∈+ . 𝑞(𝑥, 𝑎,) 意思決定の最適性を確認各個⼈への情報提供3種類予測精度を確認 1000データ

Slide 13

Slide 13 text

• モデルの予測精度 (テストデータに対する正解率)は、決定⽊系のモデルで⾼く (>80%)、シンプルなモデルでは60〜70%程度 13 数値実験1 - モデルの予測精度 (正解率) モデル予測精度

Slide 14

Slide 14 text

• 予測精度のランキングで⾊分け (⻩⾊に近いほど予測精度が⾼い) → MNL(交互作⽤)、NNなど予測精度の低いモデルで、意思決定が最適に近い → 予測精度と予測モデルによる意思決定の最適性は必ずしも⼀致しない 14 数値実験1 -意思決定の最適性 (真のモデルによる⽅策との差) 意思決定の精度 (最適な意思決定との⼀致度) モデル

Slide 15

Slide 15 text

3つの推定量 (DM, IPS, DR推定量)は、新たな⽅策 (意思決定)の性能を正確に推定できるか 15 数値実験2 真のモデル Masuda & Ikegai (2024) 避難有無・時間・場所の選択を Discounted RLモデルで表現 𝑥! : ⾃宅浸⽔深、元の避難意向 𝑎! : 避難訓練、ハザードマップ 𝑦! : 避難の有無 𝒟 = 𝑥!, 𝑎!, 𝑦! !"# $ データ⽣成性能推定 MNL 推定された性能真の性能計算⽅策性能の推定精度を確認真の性能 𝑉(𝜋) 7 𝑉'((𝜋) 7 𝑉)*+ (𝜋) 7 𝑉', (𝜋) MNL 新⽅策: 避難意向あり避難意向なし浸⽔域避難訓練ハザードマップ⾮浸⽔域何もしない何もしない 500データ

Slide 16

Slide 16 text

• IPS推定量を正規化したSNIPS推定量を使⽤ • 推定誤差は、SNIPS < DR < DMの順に⼩さい • SNIPS, DR推定量は、データが増えるほど、バリアンスが低下 16 数値実験2 – ⽅策性能の推定誤差真の期待報酬との平均⼆乗誤差バイアスバリアンスデータ数

Slide 17

Slide 17 text

◼ 本研究のまとめ • オフ⽅策評価・学習の⼿法を援⽤し、過去の介⼊の履歴データから、新たな⽅策の性能を評価・学習する枠組みを整理 • 最良のモデルは、最適な意思決定と結びつかない可能性がある → 適切な推定量を⽤いて、⽅策の評価・学習を直接⾏うアプローチの可能性 ◼ 今後の課題 • 予測精度と意思決定の最適性についての、さらなる分析 • 予測モデルの複雑さ？⾏動の複雑さ？予測値の分散？ • ⽅策の⻑期性能の評価 → 介⼊効果の忘却や強化の評価 • ⾏動の種類や数が増加した場合の、最適⽅策の学習 → 介⼊の有無だけでなく、介⼊内容の詳細をデザインする⼿法の開発例) 情報提供の⽂⾔、⽂書レイアウト、避難訓練の⾏程など 17 結論

Slide 18

Slide 18 text

真のモデルから500回サンプリング→予測モデルの学習→⽅策最適化を20回反復 →複雑な決定⽊系のモデルでモデルの予測精度が⾼い傾向 19 数値実験1 – 異なるデータセットでの検証

Slide 19

Slide 19 text

真のモデルから500回サンプリング→予測モデルの学習→⽅策最適化を20回反復 → 交互作⽤項ありのMNL, ニューラルネットワーク, 浅い決定⽊が最適に近い傾向 20 数値実験1 – 異なるデータセットでの検証