効果検証入門から見直す「データサイエンス」

by Shota Yasui

Slide 1

Slide 1 text

効果検証入門から見直す  「データサイエンス」  @データサイエンス協会セミナー  2020.08.28  安井翔太 

Slide 2

Slide 2 text

2 自己紹介  名前：安井翔太（32）職業：Economic Research Scientist Data Science Center 副所長経歴： 2011年立教大学経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社（総合職, 微妙な分析の量産） 2015年アドテク部門へ異動（専門職, MLの応用） 2017年 AILabへ異動（研究職, ML + CI回りの応用） @housecat442 

Slide 3

Slide 3 text

書籍紹介  ● 効果検証に関する本を書きました  ● 因果推論/計量経済学を使った効果の検証  ● 今日の前半部分の内容 

Slide 4

Slide 4 text

なぜ因果推論が大事なのか？  4 ● よく見るデータサイエンスの問題  ○ 効果の検証はかなりいい加減なことができる  ○ データのバイアスは無視されがち  →この2つに対してリスクがよく理解されていない    ● 因果推論はリスクの理解と対応策を教えてくれる  ○ 「効果」について正面から取り組む唯一（？）の分野  ○ データのバイアスの対処方法がわかる 

Slide 5

Slide 5 text

今日の内容  1. 効果検証の入門    2. 効果検証の考え方に基づく  データサイエンスに対する2つの疑問    3. 効果の出せるデータサイエンス  5

Slide 6

Slide 6 text

1.効果検証の入門  効果検証の入門の入門 

Slide 7

Slide 7 text

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する 

Slide 8

Slide 8 text

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する 

Slide 9

Slide 9 text

効果の定義  何かしらの施策   世界線Aの鍋   世界線Bの鍋   9 鍋  ● 鍋Aと鍋Bの味の差（効果）を知りたい  塩を加えるか否か...  

Slide 10

Slide 10 text

Donald Rubin@Harvard   ポテンシャル　アウトカムフレームワーク  Potential Outcome Framework  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果  

Slide 11

Slide 11 text

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果  

Slide 12

Slide 12 text

統計学とは？  手元にあるデータから、母集団のことを考えるための学問    ● 例: 味噌汁  ○ 味噌汁の味見をするとき、全部飲むのではなく小皿ですくって確認する    ● ざっくりした用語のまとめ  ○ パラメータ(期待値): 鍋全体の塩辛さ  ○ 推定量(平均): 小皿の塩辛さ  ○ 推定値: 推定量の実際の値のこと。（データで得られる値）   12

Slide 13

Slide 13 text

効果検証（因果推論）の大まかなイメージ  1.効果を定義する  2.統計学を使って  データから効果を推定する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果   母集団  手元のデータ  サンプリング 

Slide 14

Slide 14 text

1.効果検証の入門  セレクションバイアスについて 

Slide 15

Slide 15 text

クーポンの効果を考える  クーポンを付与（介入）  世界線Aのユーザー i さん   ユーザー i さん  15 世界線Bのユーザー i さん   購入：2000円  購入：3000円  ECサイトであるユーザーにクーポンを配布  

Slide 16

Slide 16 text

クーポンの効果を考える  16 クーポンを付与（介入）  世界線Bのユーザー   世界線Aのユーザー   購入：3000円  購入：2000円  効果：1000円 

Slide 17

Slide 17 text

理想的なデータ  17 ● クーポンをユーザーに割り振る  ● クーポンがある場合とない場合の売上がわかるとする  ● 差分を取ればクーポンの効果が1000円であることがわかる 

Slide 18

Slide 18 text

因果推論の根本問題  クーポンを付与（介入）  世界線Aのユーザー   ユーザー  同時に観測が  できない  18 世界線Bのユーザー   購入：2000円  購入：3000円 

Slide 19

Slide 19 text

実際に得られるデータ  19 ● クーポンを渡せば、クーポンのありの売り上げが観測される。  ● クーポンを渡さなければ、クーポンなしの売り上げが観測される。  ● 直接差分を計算することはもう出来ない。 

Slide 20

Slide 20 text

適当な集計の問題  20 クーポンが配布されなかった   ユーザーの平均売り上げ   クーポンが配布された   ユーザーの平均売り上げ   １０００円  ３０００円  効果は  ２０００円？ 

Slide 21

Slide 21 text

セレクションバイアスの問題  21 クーポンがなくても  発生する売上  クーポンの効果  １０００円  単純な比較で  効果と思い込む部分   ２０００円  セレクション   バイアス 

Slide 22

Slide 22 text

発生源が存在する  22 例えば購買予測を行って、予測値が高いユーザーにクーポンを配布する場合・・・   予測購買確率：80%  予測購買確率：70%  何かしらの予測モデル  予測購買確率：60%  予測購買確率：40%  担当者  Z = 0  Z = 1 

Slide 23

Slide 23 text

発生源が存在する  23 例えば購買予測を行って、予測値が高いユーザーにクーポンを配布する場合・・・   予測購買確率：80%  予測購買確率：70%  何かしらの予測モデル  予測購買確率：60%  予測購買確率：40%  担当者  クーポンがなくても売り上げが高い　　　が高い　　　が低い Z = 1  Z = 0 

Slide 24

Slide 24 text

バイアスの発生にはパターンがある  ● 介入Zは何かしらの意思決定を元に割り振られる  ○ 誰が、何のために、何を参照して割り振っているか？    ● クーポンの場合・・・  ○ 担当者がクーポン施策の成功を目指して割り振る。  ○ 何をもって成功と考えるか？  ■ 単純な集計の結果で売り上げが高くなることを成功とすると・・・   24

Slide 25

Slide 25 text

一応式で理解しておく  25 データ上で平均の差を効果と考える   クーポンが配布されなかった  ユーザーの平均売り上げ   クーポンが配布された  ユーザーの平均売り上げ  

Slide 26

Slide 26 text

一応式で理解しておく  26 データ上で平均の差を効果と考える   期待値  期待値  これらの平均は母集団上では   条件付き期待値の推定になっている  

Slide 27

Slide 27 text

一応式で理解しておく  27 期待値  期待値  セレクションバイアス   データ上で平均の差を効果と考える   本当に推定したい効果  

Slide 28

Slide 28 text

1.効果検証の入門  A/Bテストのご利益 

Slide 29

Slide 29 text

Golden Standard Research Design: A/Bテスト（RCT）  29

Slide 30

Slide 30 text

A/Bテストの流れ  ● 介入(Z)を定義する  ● 介入の有無をランダムに決める   ● 介入有無のグループ間を比較する   30 出典）A/B Testing at Scale Tutorial given at SIGIR 2017 and KDD 2017)

Slide 31

Slide 31 text

A/Bテストとセレクションバイアス  31 クーポンがなくても  発生する売上  クーポンの効果  １０００円  ランダムに  クーポンを割り振り  ● クーポンをランダムに選んだユーザーに配布  ● その結果Y0がZ=1とZ=0のグループにおいて同等になった  

Slide 32

Slide 32 text

一応式で理解しておく  32 期待値  期待値  セレクションバイアス = 0   データ上で平均の差を効果と考える   本当に推定したい効果  

Slide 33

Slide 33 text

1.効果検証の入門  実験できないとき：回帰分析 

Slide 34

Slide 34 text

回帰分析とは・・・？  34 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね  

Slide 35

Slide 35 text

回帰分析とは・・・？  35 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね 

Slide 36

Slide 36 text

回帰分析とは・・・？  36 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね  

Slide 37

Slide 37 text

回帰分析とは・・・？  37 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね   ● 予測の性能を最適化するためにstep wise AICでモデル選択したり 

Slide 38

Slide 38 text

回帰分析とは・・・？  38 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね   ● 予測の性能を最適化するためにstep wise AICでモデル選択したり  ● Cross-Validationで汎化誤差を考慮してモデル選択したり  

Slide 39

Slide 39 text

回帰分析とは・・・？  39 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね   ● 予測の性能を最適化するためにstep wise AICでモデル選択したり  ● Cross-Validationで汎化誤差を考慮してモデル選択したり   ● あとR^2もありましたね・・・ 

Slide 40

Slide 40 text

回帰分析とは・・・？  40 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね   ● 予測の性能を最適化するためにstep wise AICでモデル選択したり  ● Cross-Validationで汎化誤差を考慮してモデル選択したり   ● あとR^2もありましたね・・・  ● え、分散不均一性・・・？ 

Slide 41

Slide 41 text

回帰分析とは・・・？  41 回帰分析ってあれですよね・・・  ● 誤差を最小にするように線を学習するやつですよね   ● データの分布に合わせてロジスティック回帰とか考えないといけないですよね  ● VIFとかみて多重共線性も確認しないとですね   ● 予測の性能を最適化するためにstep wise AICでモデル選択したり  ● Cross-Validationで汎化誤差を考慮してモデル選択したり   ● あとR^2もありましたね・・・  ● え、分散不均一性・・・？  ● い、因果効果・・・ 

Slide 42

Slide 42 text

元ネタ： Empirical Strategies Short Course by Joshua Angrist

Slide 43

Slide 43 text

複雑怪奇な回帰  43 いろいろな分野の常識が持ち込まれて   キメラ化した回帰分析   因果効果説明予測

Slide 44

Slide 44 text

複雑怪奇な回帰  44 いろいろな分野の常識が持ち込まれて   キメラ化した回帰分析   効果検証だけ考えた   シンプルな回帰分析   因果効果説明予測因果効果

Slide 45

Slide 45 text

効果検証での回帰分析の考え方  バイアスのある母集団サンプル 45 母集団推定したい真の効果  

Slide 46

Slide 46 text

効果検証での回帰分析の考え方  バイアスのある母集団サンプル 46 母集団セレクションバイアスの原因と思われる変数   ・過去の購買量  ・年齢や性別などのデモグラ   ・etc...  推定したい真の効果   Zの効果を表すパラメーター  

Slide 47

Slide 47 text

効果検証での回帰分析の考え方  バイアスのある母集団サンプル 47 母集団セレクションバイアスの原因になる変数をモデルに入れると近づく   セレクションバイアスの原因と思われる変数   ・過去の購買量  ・年齢や性別などのデモグラ   ・etc...  推定したい真の効果   Zの効果を表すパラメーター  

Slide 48

Slide 48 text

効果検証での回帰分析の考え方  バイアスのある母集団サンプル 48 母集団セレクションバイアスの原因になる変数をモデルに入れると近づく   推定したい真の効果   Zの効果を表すパラメーター   この母集団も観測できない  =この回帰分析は実行不可能  母集団で回帰分析！ 

Slide 49

Slide 49 text

効果検証での回帰分析の考え方  バイアスのある母集団サンプル 49 母集団セレクションバイアスの原因になる変数をモデルに入れると近づく   推定したい真の効果   ● 母集団におけるγの推定値   ● 真の効果の推定値手元のデータで回帰分析！  母集団で回帰分析！   推定！ 

Slide 50

Slide 50 text

きになること・・・  ● xってどう選べば良いの？  ● 入れちゃダメな変数は？  ● 多重共線性考えなくて良いのか？  ● 予測性能みなくて良いのか？  ● 線形回帰で良いのか？  →効果検証入門をぜひ 

Slide 51

Slide 51 text

1.効果検証の入門  実験できないとき：傾向スコア 

Slide 52

Slide 52 text

傾向スコアとは？  ● 介入が割り振られる確率のこと  ○ ロジスティック回帰などで推定が可能  ● これを使ってバイアスを小さくする  ● 主な使い方  ○ マッチング  ○ IPW(IPS or Holvitz-Thompson Estimator)  52

Slide 53

Slide 53 text

クーポンを配ってみる  53 ユーザーグループA   ユーザーグループB   ユーザーグループC   売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50%  ● クーポンの効果は一律１０００円   ● 　　が高いユーザーにはクーポンが配られないという設定   ● セレクションバイアスは負の値になる  

Slide 54

Slide 54 text

集計で効果を推定する  54 ユーザーグループA   ユーザーグループB   ユーザーグループC   平均売上＝2556  平均売上＝3359  →推定された効果は約800円   売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 55

Slide 55 text

IPWのイメージ  55 ユーザーグループA   ユーザーグループB   ユーザーグループC   このデータが全て観測できた   場合の平均が知りたい   このデータが全て観測できた   場合の平均が知りたい   売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 56

Slide 56 text

IPWのイメージ  56 ユーザーグループA   ユーザーグループB   ユーザーグループC   このデータが全て観測できた   場合の平均が知りたい   このデータが全て観測できた   場合の平均が知りたい   この差分が効果の推定値になる   売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 57

Slide 57 text

IPWのイメージ  57 ユーザーグループA   ユーザーグループB   ユーザーグループC   ５人中１人しか観測されない   →このユーザーを５人分カウントしよう   x5  売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 58

Slide 58 text

IPWのイメージ  58 ユーザーグループA   ユーザーグループB   ユーザーグループC   ５人中２人しか観測されない   →２人を2.5人分ずつカウントしよう   x5  x2.5  x2.5  売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 59

Slide 59 text

IPWのイメージ  59 ユーザーグループA   ユーザーグループB   ユーザーグループC   4人中２人しか観測されない   →２人を2人分ずつカウントしよう   x2.5  x2.5  x5  x2  x2  売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 60

Slide 60 text

IPWのイメージ  60 ユーザーグループA   ユーザーグループB   ユーザーグループC   {(3824x5) + (3726x2.5) + (2506 x 2.5) + (3015x2) + (2727x2) } / 14 = 3477  x2.5  x2.5  x5  x2  x2  売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 61

Slide 61 text

IPWのイメージ  61 ユーザーグループA   ユーザーグループB   ユーザーグループC   {(2047 + 2953 + 2833 + 2866)x1.25 + (2482 + 2443 + 2102)x1.66 + (2234 + 2044)x2 } / 14 =2492  x1.25  x2  x1.25  x1.25  x1.25  x1.66  x1.66  x1.66  x2  売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 62

Slide 62 text

IPWのイメージ  62 ユーザーグループA   ユーザーグループB   ユーザーグループC   推定された売上  ＝2492  推定された売上  ＝3477  →推定された効果は約985円   売り上げ：高  クーポン確率：20%  売り上げ：中  クーポン確率：40%  売り上げ：低  クーポン確率：50% 

Slide 63

Slide 63 text

（余談）マッチングのイメージ  63 →推定された効果は約940円       3824 - 2833 = 991  3726 - 2482 = 1283  3506 - 2443 = 1063  3015 - 2334 = 681  2727 - 2044 = 683  傾向スコアの近いユーザーをペアにして、差分を効果として計算する。  

Slide 64

Slide 64 text

広告テンプレート選択@CyberAgent  64 slot _1 slot _2 slot _3 slot_1 sl ot _2 ユーザー  セグメント{A,B,C}  予測モデル  意思決定  ルール  slot_1 sl ot _2 広告表示  クリック  広告画像の  選択肢  セグメントにより選ばれやすい画像が異なる  ● セグメントA  ○ 80%の確率でZ=1  ○ 20%の確率でZ=0  ● セグメントB  ○ 60%の確率でZ=1  ○ 40%の確率でZ=0  ● セグメントC  ○ 40%の確率でZ=1  ○ 60%の確率でZ=0 

Slide 65

Slide 65 text

考えるお題  広告画像の選択肢を評価・比較したい  →無駄なものは削除したい    65 slot_1 slot_2 slot_3 slot_1 slot _2 template_id: 26 template_id: 75

Slide 66

Slide 66 text

とりあえず集計した結果  ● template_id毎にCTRを計算する ● template_id:26のCTRが高そう →Biasを含んだ結果営業や事業責任者の方が見るデータ 66 26以外いらないね！！

Slide 67

Slide 67 text

● バイアスがある程度減っているはず。 ● 26がよかったというのは幻想だった。 ● CTRはどれも大差ないという結果。傾向スコアを使ったIPW  67

Slide 68

Slide 68 text

2.効果検証から出る疑問  教師ありの機械学習を例に考える 

Slide 69

Slide 69 text

効果検証から得られる観点  69 観測されるデータには  バイアスが存在する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果   効果は2つの世界線の差にある  →これらの観点は他のDS技術でどう捉えられているのか？ 

Slide 70

Slide 70 text

2.効果検証から出る2つの疑問  教師あり学習を例に考える  - バイアスはどう考えられているのか？   

Slide 71

Slide 71 text

学習データがある母集団から手に入る  71 母集団サンプル (学習データ)

Slide 72

Slide 72 text

誤差を定義する  72 母集団サンプル (学習データ) あるモデルfの誤差を定義 

Slide 73

Slide 73 text

モデルを学習する（誤差の最小化）  73 母集団サンプル (学習データ) あるモデルfの誤差  誤差を最小にするように   モデルを学習する 

Slide 74

Slide 74 text

データ上の誤差は推定値  74 母集団サンプル (学習データ) あるモデルfの誤差の推定値  あるモデルfの真の誤差（母集団におけるの誤差）   実は誤差の推定値を最小にするようにモデルを学習している  

Slide 75

Slide 75 text

同じ母集団からテストデータが得られる  75 母集団サンプル (学習データ) サンプルテストデータ誤差の推定値を最小化して得られるモデル   同じ母集団から得られたデータなので   誤差は小さくなるはず  

Slide 76

Slide 76 text

母集団学習データにバイアスがある場合  76 バイアスのある母集団サンプル (学習データ) サンプルテストデータバイアスのある母集団の誤差の推定値   を最小化して得られたモデル   別の母集団への誤差を最小にしているので   誤差は思うように小さくならない  

Slide 77

Slide 77 text

おさらい  ● 学習データにはバイアスがあるかも  ○ 調査に協力してくれたユーザーのデータしかない  ○ でも予測は全部のユーザーにしたい    ● 何も考慮しなければどうなるのか？  ○ バイアスのある母集団への誤差を最小化する  ○ これはバイアスの無い母集団への誤差最小化とは一致しない  77

Slide 78

Slide 78 text

実際どう捉えられているか？  ● 技術的には対応策はいろいろ提案されている  ○ Covariate Shift  ○ Domain Adaptation  ○ etc...  ● 技術に関して手に入りやすい情報があまりない  ○ 日本語の教科書とかにはほぼ情報がない  ○ 特にどんな時に使えば良いのかが議論されてない  78

Slide 79

Slide 79 text

母集団他の分野でも起きること  79 バイアスのある母集団サンプル (学習データ) 得られるデータにはバイアスがある   単純に損失の最小化をしても本当に行いたい予測や知識は得られない   バイアスの無い母集団での損失が最小化できると   予測ができたり何かがわかったりする  

Slide 80

Slide 80 text

例：モデルの解釈性とバイアス  ● 教師あり学習を行ってモデルから情報を得る  ○ Aという要素が重要！  ○ といった情報を得ることができる（と考えられている）  ● 学習データにバイアスがあるとどうなる？  ○ 結果がコロコロ変わることが示唆されている  ■ バイアスがあるデータではAが重要   ■ バイアスのないデータではBが重要   ○ 参考）Robust and Stable Black Box Explanations @ ICML20  80

Slide 81

Slide 81 text

2.効果検証から出る2つの疑問  教師あり学習を例に考える  - 効果について考える 

Slide 82

Slide 82 text

よくあるデータサイエンスプロジェクト  82 予測モデルの作成  知識や示唆の発見  ビジネスへの応用  適当な効果検証  データの取得  データ  サイエンティスト 

Slide 83

Slide 83 text

データサイエンスの効果検証が行われるとする  83 予測モデルの作成  知識や示唆の発見  ビジネスへの応用  効果検証  ・ABテスト  ・因果推論  データの取得  データ  サイエンティスト 

Slide 84

Slide 84 text

テック企業では常識  84 +1000 test /day +200 test /day 2013年に行われていたABテストの数   →1000 test/day in 2017   出典）A/B Testing at Scale Tutorial given at SIGIR 2017 and KDD 2017)

Slide 85

Slide 85 text

テック企業以外でも・・・  85

Slide 86

Slide 86 text

86 最後に因果効果で評価されるなら、  因果効果を直接最大化すれば良いのでは？ 

Slide 87

Slide 87 text

例えば・・・  ● 因果推論を使った意思決定してみよう  ● 個人の因果効果を機械学習で予測してみよう  などが考えられる  87

Slide 88

Slide 88 text

こういう意見もある  88 えーでもあれですよね    機械学習の予測をビジネスで使う場合、予測性能が向上すればビジネス上の意思決定も改善されますよね？     だからCross-Validationでの評価を改善してゆけばビジネスでも改善が起きるはずですよね？     だからわざわざPotential Outcome Frameworkとか持ち込まなくても良いのではないでしょうか？  

Slide 89

Slide 89 text

23回ABテストした結果・・・   ● 横軸：機械学習のオフラインでの予測能力の改善   ● 縦軸：ビジネスKPIの改善   ● オフラインの予測能力とビジネスKPIに関係無し   Lucas Bernardi, Themistoklis Mavridis, and Pablo Estevez. 2019. 150 Successful Machine Learning Models: 6 Lessons Learned at Booking.com. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD '19). 89 残念なお知らせ@KDD2019 

Slide 90

Slide 90 text

なぜそうなるのか？  ● 意思決定の質との繋がりが明確か？  ○ 計測可能な予測性能の改善と意思決定の繋がりが見えているか？  ○ 多くの場合繋がりが曖昧だったり弱かったりする  ● 補足）  ○ 予測がビジネスKPIに明確に関連する場合は問題なし  90

Slide 91

Slide 91 text

利用可能な技術もある  ● 因果推論を使った意思決定  ○ Aの効果がよかったから、Aを使おうという話。  ● 機械学習で因果効果を予測する  ○ いろいろ工夫して効果を予測する  ○ Uplift Modeling / ITE Prediction  ● 強化学習で報酬（累積因果効果）を最大化する  ○ Bandit Algorithm  →こちらは日本語でも情報がちらほらある  91

Slide 92

Slide 92 text

DSをビジネスで使ってみることと、  成果につなげることの間には大きな谷がある。  92 効果検証  応用・実装  成果  データサイエンティスト 

Slide 93

Slide 93 text

3.効果の出せる  データサイエンティスト 

Slide 94

Slide 94 text

効果検証から得られる観点  94 観測されるデータには  バイアスが存在する  世界線Bの鍋の味   世界線Aの鍋の味   施策の効果   効果は2つの世界線の差にある  →様々なケースでこれらの観点が重要になる 

Slide 95

Slide 95 text

何が必要なのか？  ● 技術的な話  ○ バイアス対処にまつわる技術  ○ 効果を改善する技術  ● ソフトな話  ○ 自分のデータにバイアスがあるのかを発見できるか？  ○ 重要な効果が何かを先に定義できるか？    →バイアスの検知や効果の定義がなければ技術は無意味  95

Slide 96

Slide 96 text

効果を出すために重要なスキル  ● バイアスの存在に気がつけるか？  ○ 体系はない（経済学が近いかも？）  ○ バイアスのあるデータだけみてもバイアスはわからない  ○ なので、実はドメイン知識が非常に重要  ● 推定したい効果を明確に定義できるか？  ○ 因果推論では、Z = 0 or 1の効果しかわからない。  ○ 何がビジネスに重要なのかをよく議論する必要がある  ○ 「どの要因が一番効いているのか？」はかなり難しい  96

Slide 97

Slide 97 text

スキルチェックリストへ  勝手に提案  現状：バイアスに関連する内容ほぼ無し    提案：    ● バイアスに気が付けるスキル入れてみませんか？    ● 効果を定義できることは重要ではありませんか？  97

Slide 98

Slide 98 text

98 Enjoy!