Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習を用いた自動的な意思決定と反実仮想

 機械学習を用いた自動的な意思決定と反実仮想

CCSE 2019にて行われた発表です。
企業における機械学習の応用は、ほとんどが意思決定に関連しています。そのような状況を考えた時に、分析者が最適化するべきものは一体何なのか?という事に関しての発表です。

019abed4c3338ed64d8060cf2fe91ab1?s=128

Shota Yasui

July 13, 2019
Tweet

Transcript

  1. 機械学習を用いた
 自動的な意思決定と反実仮想
 Shota Yasui
 @CCSE 2019
 


  2. 自己紹介
 名前:安井翔太(31) 職業:Economic Research Scientist 経歴: 2011年 立教大学 経済学部卒業 2013年

    Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 2
  3. AI/ML が様々なところで使われている
 3

  4. 殆どの応用は意思決定
 • ユーザーを(に)・・・
 ◦ どの車に乗せるか? 
 ◦ どの商品とマッチさせるか? 
 ◦

    どの広告を見せるか? 
 ◦ どのニュースと引き合わせるか? 
 
 • 企業のML/AI = 意思決定を作ること 
 4
  5. 典型的なモデルの学習
 X
 A
 Y
 input
 label
 train data base
 model


    X, AをinputするとYの予測を行うモデル
 5
  6. 典型的な意思決定
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 6

  7. 典型的なサイクル
 data base
 train
 model
 X
 A
 Y
 input
 label


    deploy
 log data
 今日の意思決定は、明日の学習データ。
 7
  8. この時の理想形を考えてみる
 • この意思決定システムが達成するべき事は? 
 ◦ 何かしらのKPIを最大にしたい 
 ◦ KPI =

    Yなのであれば、累積Yの最大化 
 
 8
  9. この時の理想形を考えてみる
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 ここの誤差が小さくなる事が重要! 
 9

  10. 本当にやるべき事
 input
 label
 実際には
 選ばれなかった選択肢 
 (反実仮想)
 全ての選択肢においての 誤差を小さくしたい
 10

  11. 11 実際に予測したいデータと誤差
 • 選ばれなかった選択肢の結果も予測をしたい。
 • この時のモデルの誤差は以下のようになる
 この誤差を最小化したい!
 label
 予測値
 9回の意思決定と3つの選択肢

  12. 教師あり学習
 過去の選択に対して誤差を小さくする
 入力
 出力
 過去のmodel
 train data base
 model
 X,

    AをinputするとYの予測を行うモデル
 12
  13. • 選ばれた選択肢(O = 1)だけに着目する
 • この時のモデルの誤差は以下のようになる
 教師あり学習で考慮しているデータ
 
 この誤差を最小化したい?
 最小化したい誤差とは一致しない(Biased)

    
 選んだ選択肢の中だけでの誤差の平均 
 13 9回の意思決定と1つの選択肢 

  14. 反実仮想を考える必要がある
 実際には
 選ばれなかった選択肢 
 (反実仮想)
 14

  15. Inverse Propensity Score(IPS)
 誤差(損失)のIPS推定量 
 • 暗黙的にO=1となる確率(P, Propensity Score)で重みがついたデータ 


    ◦ 損失の期待値もPの重みがついてしまう 
 ◦ 重みがついた損失は真の損失と一致しない 
 • あらかじめPで割っておけば良いのでは? 
 Propensity Score
 15
  16. Inverse Propensity Score(IPS)
 最小化したい誤差と一致する!(Unbiased)
 16

  17. Pをどうやって入手するか?
 • Pは各サンプル i で O = 1 となるような確率
 •

    実は真の確率を知っている
 model
 意思決定の選択肢
 feature
 最大値なので
 選択!
 予測値を使ってどう意思決定するか?
 17
  18. 最大値の選択だと・・・
 18 最大値を常に選ぶならP=1 
 結局元の誤差の定数倍になってしまう 


  19. 最大値を選ぶ=詰み
 
 反実仮想を考えるのがほぼ不可能 
 19

  20. 確率的な意思決定が重要
 例:Epsilon Greedyを使う場合 
 1-εの確率で
 最大値の選択
 εの確率で
 ランダム選択
 この場合自動的に P

    = 1-εor P =ε/3 になる
 20
  21. まとめ
 • 今日の意思決定は明日の学習データ
 • ループがあるなら反実仮想を考えよう!
 • 確率的に意思決定をしよう!
 21