Slide 1

Slide 1 text

機械学習を用いた
 自動的な意思決定と反実仮想
 Shota Yasui
 @CCSE 2019
 


Slide 2

Slide 2 text

自己紹介
 名前:安井翔太(31) 職業:Economic Research Scientist 経歴: 2011年 立教大学 経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 2

Slide 3

Slide 3 text

AI/ML が様々なところで使われている
 3

Slide 4

Slide 4 text

殆どの応用は意思決定
 ● ユーザーを(に)・・・
 ○ どの車に乗せるか? 
 ○ どの商品とマッチさせるか? 
 ○ どの広告を見せるか? 
 ○ どのニュースと引き合わせるか? 
 
 ● 企業のML/AI = 意思決定を作ること 
 4

Slide 5

Slide 5 text

典型的なモデルの学習
 X
 A
 Y
 input
 label
 train data base
 model
 X, AをinputするとYの予測を行うモデル
 5

Slide 6

Slide 6 text

典型的な意思決定
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 6

Slide 7

Slide 7 text

典型的なサイクル
 data base
 train
 model
 X
 A
 Y
 input
 label
 deploy
 log data
 今日の意思決定は、明日の学習データ。
 7

Slide 8

Slide 8 text

この時の理想形を考えてみる
 ● この意思決定システムが達成するべき事は? 
 ○ 何かしらのKPIを最大にしたい 
 ○ KPI = Yなのであれば、累積Yの最大化 
 
 8

Slide 9

Slide 9 text

この時の理想形を考えてみる
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 ここの誤差が小さくなる事が重要! 
 9

Slide 10

Slide 10 text

本当にやるべき事
 input
 label
 実際には
 選ばれなかった選択肢 
 (反実仮想)
 全ての選択肢においての 誤差を小さくしたい
 10

Slide 11

Slide 11 text

11 実際に予測したいデータと誤差
 ● 選ばれなかった選択肢の結果も予測をしたい。
 ● この時のモデルの誤差は以下のようになる
 この誤差を最小化したい!
 label
 予測値
 9回の意思決定と3つの選択肢 


Slide 12

Slide 12 text

教師あり学習
 過去の選択に対して誤差を小さくする
 入力
 出力
 過去のmodel
 train data base
 model
 X, AをinputするとYの予測を行うモデル
 12

Slide 13

Slide 13 text

● 選ばれた選択肢(O = 1)だけに着目する
 ● この時のモデルの誤差は以下のようになる
 教師あり学習で考慮しているデータ
 
 この誤差を最小化したい?
 最小化したい誤差とは一致しない(Biased) 
 選んだ選択肢の中だけでの誤差の平均 
 13 9回の意思決定と1つの選択肢 


Slide 14

Slide 14 text

反実仮想を考える必要がある
 実際には
 選ばれなかった選択肢 
 (反実仮想)
 14

Slide 15

Slide 15 text

Inverse Propensity Score(IPS)
 誤差(損失)のIPS推定量 
 ● 暗黙的にO=1となる確率(P, Propensity Score)で重みがついたデータ 
 ○ 損失の期待値もPの重みがついてしまう 
 ○ 重みがついた損失は真の損失と一致しない 
 ● あらかじめPで割っておけば良いのでは? 
 Propensity Score
 15

Slide 16

Slide 16 text

Inverse Propensity Score(IPS)
 最小化したい誤差と一致する!(Unbiased)
 16

Slide 17

Slide 17 text

Pをどうやって入手するか?
 ● Pは各サンプル i で O = 1 となるような確率
 ● 実は真の確率を知っている
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 予測値を使ってどう意思決定するか?
 17

Slide 18

Slide 18 text

最大値の選択だと・・・
 18 最大値を常に選ぶならP=1 
 結局元の誤差の定数倍になってしまう 


Slide 19

Slide 19 text

最大値を選ぶ=詰み
 
 反実仮想を考えるのがほぼ不可能 
 19

Slide 20

Slide 20 text

確率的な意思決定が重要
 例:Epsilon Greedyを使う場合 
 1-εの確率で
 最大値の選択
 εの確率で
 ランダム選択
 この場合自動的に P = 1-εor P =ε/3 になる
 20

Slide 21

Slide 21 text

まとめ
 ● 今日の意思決定は明日の学習データ
 ● ループがあるなら反実仮想を考えよう!
 ● 確率的に意思決定をしよう!
 21