Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
機械学習を用いた 自動的な意思決定と反実仮想 Shota Yasui @CCSE 2019
Slide 2
Slide 2 text
自己紹介 名前:安井翔太(31) 職業:Economic Research Scientist 経歴: 2011年 立教大学 経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社(総合職, 微妙な分析の量産) 2015年 アドテク部門へ異動(専門職, MLの応用) 2017年 AILabへ異動(研究職, ML + CI回りの応用) 2
Slide 3
Slide 3 text
AI/ML が様々なところで使われている 3
Slide 4
Slide 4 text
殆どの応用は意思決定 ● ユーザーを(に)・・・ ○ どの車に乗せるか? ○ どの商品とマッチさせるか? ○ どの広告を見せるか? ○ どのニュースと引き合わせるか? ● 企業のML/AI = 意思決定を作ること 4
Slide 5
Slide 5 text
典型的なモデルの学習 X A Y input label train data base model X, AをinputするとYの予測を行うモデル 5
Slide 6
Slide 6 text
典型的な意思決定 model 意思決定の選択肢 feature 最大値なので 選択! 6
Slide 7
Slide 7 text
典型的なサイクル data base train model X A Y input label deploy log data 今日の意思決定は、明日の学習データ。 7
Slide 8
Slide 8 text
この時の理想形を考えてみる ● この意思決定システムが達成するべき事は? ○ 何かしらのKPIを最大にしたい ○ KPI = Yなのであれば、累積Yの最大化 8
Slide 9
Slide 9 text
この時の理想形を考えてみる model 意思決定の選択肢 feature 最大値なので 選択! ここの誤差が小さくなる事が重要! 9
Slide 10
Slide 10 text
本当にやるべき事 input label 実際には 選ばれなかった選択肢 (反実仮想) 全ての選択肢においての 誤差を小さくしたい 10
Slide 11
Slide 11 text
11 実際に予測したいデータと誤差 ● 選ばれなかった選択肢の結果も予測をしたい。 ● この時のモデルの誤差は以下のようになる この誤差を最小化したい! label 予測値 9回の意思決定と3つの選択肢
Slide 12
Slide 12 text
教師あり学習 過去の選択に対して誤差を小さくする 入力 出力 過去のmodel train data base model X, AをinputするとYの予測を行うモデル 12
Slide 13
Slide 13 text
● 選ばれた選択肢(O = 1)だけに着目する ● この時のモデルの誤差は以下のようになる 教師あり学習で考慮しているデータ この誤差を最小化したい? 最小化したい誤差とは一致しない(Biased) 選んだ選択肢の中だけでの誤差の平均 13 9回の意思決定と1つの選択肢
Slide 14
Slide 14 text
反実仮想を考える必要がある 実際には 選ばれなかった選択肢 (反実仮想) 14
Slide 15
Slide 15 text
Inverse Propensity Score(IPS) 誤差(損失)のIPS推定量 ● 暗黙的にO=1となる確率(P, Propensity Score)で重みがついたデータ ○ 損失の期待値もPの重みがついてしまう ○ 重みがついた損失は真の損失と一致しない ● あらかじめPで割っておけば良いのでは? Propensity Score 15
Slide 16
Slide 16 text
Inverse Propensity Score(IPS) 最小化したい誤差と一致する!(Unbiased) 16
Slide 17
Slide 17 text
Pをどうやって入手するか? ● Pは各サンプル i で O = 1 となるような確率 ● 実は真の確率を知っている model 意思決定の選択肢 feature 最大値なので 選択! 予測値を使ってどう意思決定するか? 17
Slide 18
Slide 18 text
最大値の選択だと・・・ 18 最大値を常に選ぶならP=1 結局元の誤差の定数倍になってしまう
Slide 19
Slide 19 text
最大値を選ぶ=詰み 反実仮想を考えるのがほぼ不可能 19
Slide 20
Slide 20 text
確率的な意思決定が重要 例:Epsilon Greedyを使う場合 1-εの確率で 最大値の選択 εの確率で ランダム選択 この場合自動的に P = 1-εor P =ε/3 になる 20
Slide 21
Slide 21 text
まとめ ● 今日の意思決定は明日の学習データ ● ループがあるなら反実仮想を考えよう! ● 確率的に意思決定をしよう! 21