機械学習を用いた自動的な意思決定と反実仮想

Slide 1

Slide 1 text

機械学習を用いた  自動的な意思決定と反実仮想  Shota Yasui  @CCSE 2019   

Slide 2

Slide 2 text

自己紹介  名前：安井翔太（３１）職業：Economic Research Scientist 経歴： 2011年立教大学経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社（総合職, 微妙な分析の量産） 2015年アドテク部門へ異動（専門職, MLの応用） 2017年 AILabへ異動（研究職, ML + CI回りの応用） 2

Slide 3

Slide 3 text

AI/ML が様々なところで使われている  3

Slide 4

Slide 4 text

殆どの応用は意思決定  ● ユーザーを（に）・・・  ○ どの車に乗せるか？   ○ どの商品とマッチさせるか？   ○ どの広告を見せるか？   ○ どのニュースと引き合わせるか？     ● 企業のML/AI = 意思決定を作ること   4

Slide 5

Slide 5 text

典型的なモデルの学習  X  A  Y  input  label  train data base  model  X, AをinputするとYの予測を行うモデル  5

Slide 6

Slide 6 text

典型的な意思決定  model  意思決定の選択肢  feature  最大値なので  選択！  6

Slide 7

Slide 7 text

典型的なサイクル  data base  train  model  X  A  Y  input  label  deploy  log data  今日の意思決定は、明日の学習データ。  7

Slide 8

Slide 8 text

この時の理想形を考えてみる  ● この意思決定システムが達成するべき事は？   ○ 何かしらのKPIを最大にしたい   ○ KPI = Yなのであれば、累積Yの最大化     8

Slide 9

Slide 9 text

この時の理想形を考えてみる  model  意思決定の選択肢  feature  最大値なので  選択！  ここの誤差が小さくなる事が重要！   9

Slide 10

Slide 10 text

本当にやるべき事  input  label  実際には  選ばれなかった選択肢   （反実仮想）  全ての選択肢においての誤差を小さくしたい  10

Slide 11

Slide 11 text

11 実際に予測したいデータと誤差  ● 選ばれなかった選択肢の結果も予測をしたい。  ● この時のモデルの誤差は以下のようになる  この誤差を最小化したい！  label  予測値  ９回の意思決定と３つの選択肢  

Slide 12

Slide 12 text

教師あり学習  過去の選択に対して誤差を小さくする  入力  出力  過去のmodel  train data base  model  X, AをinputするとYの予測を行うモデル  12

Slide 13

Slide 13 text

● 選ばれた選択肢(O = 1)だけに着目する  ● この時のモデルの誤差は以下のようになる  教師あり学習で考慮しているデータ    この誤差を最小化したい？  最小化したい誤差とは一致しない（Biased）   選んだ選択肢の中だけでの誤差の平均   13 ９回の意思決定と１つの選択肢  

Slide 14

Slide 14 text

反実仮想を考える必要がある  実際には  選ばれなかった選択肢   （反実仮想）  14

Slide 15

Slide 15 text

Inverse Propensity Score(IPS)  誤差（損失）のIPS推定量   ● 暗黙的にO=1となる確率（P, Propensity Score）で重みがついたデータ   ○ 損失の期待値もPの重みがついてしまう   ○ 重みがついた損失は真の損失と一致しない   ● あらかじめPで割っておけば良いのでは？   Propensity Score  15

Slide 16

Slide 16 text

Inverse Propensity Score(IPS)  最小化したい誤差と一致する！（Unbiased）  16

Slide 17

Slide 17 text

Pをどうやって入手するか？  ● Pは各サンプル i で O = 1 となるような確率  ● 実は真の確率を知っている  model  意思決定の選択肢  feature  最大値なので  選択！  予測値を使ってどう意思決定するか？  17

Slide 18

Slide 18 text

最大値の選択だと・・・  18 最大値を常に選ぶならP=1   結局元の誤差の定数倍になってしまう  

Slide 19

Slide 19 text

最大値を選ぶ＝詰み    反実仮想を考えるのがほぼ不可能   19

Slide 20

Slide 20 text

確率的な意思決定が重要  例：Epsilon Greedyを使う場合   1-εの確率で  最大値の選択  εの確率で  ランダム選択  この場合自動的に P = 1-εor P =ε/3 になる  20

Slide 21

Slide 21 text

まとめ  ● 今日の意思決定は明日の学習データ  ● ループがあるなら反実仮想を考えよう！  ● 確率的に意思決定をしよう！  21