Tech企業におけるA/B test

Slide 1

Slide 1 text

Tech企業における  A/B test（公開用）  2020/5/16   @日本評価学会社会実験分科会  Shota Yasui 

Slide 2

Slide 2 text

自己紹介  名前：安井翔太（３２）職業：Economic Research Scientist web: https://yasui-salmon.github.io/ 経歴： 2011年立教大学経済学部卒業 2013年 Norwegian School of Economics MSc in Economics 2013年 Cyberagent 入社（総合職, 微妙な分析の量産） 2015年アドテク部門へ異動（専門職, MLの応用） 2017年 AILabへ異動（研究職, ML + CI回りの応用）良く使う言語: R, SQL, Python 2

Slide 3

Slide 3 text

Tech企業とA/Bテスト  3

Slide 4

Slide 4 text

テック企業とABテスト  4

Slide 5

Slide 5 text

テック企業で行われるABの量  5 +1000 test /day +200 test /day +??? test /day

Slide 6

Slide 6 text

学会もある  6 Conference on Digital Experiment( Link) 

Slide 7

Slide 7 text

Computer Scienceでの研究も盛ん  7 ● sequential experiment   ● efficient adaptive experiment   ● best arm identification  

Slide 8

Slide 8 text

なぜそんなにABテストしているか？  8 長期的な利益につながるから 

Slide 9

Slide 9 text

テック企業におけるRCT(A/Bテスト)の現実  9 一部のグローバルトップ企業   その他弱小ローカルテック企業  

Slide 10

Slide 10 text

テック企業のABテストの考え方はこれ読むべき  10 Ron kohavi    テック企業でABテスト文化を作り上げた人   Computer Scienceのトップ会議でABテストのチュートリアルや研究発表を続けて啓蒙活動を行ってきた人。  

Slide 11

Slide 11 text

CyberAgentでのA/Bテスト  11

Slide 12

Slide 12 text

ABテストの基本的なプロセス  12 logging 分析ランダムにアサイン  Treatment  ランダムにアサイン  Control  意思決定

Slide 13

Slide 13 text

CAでどんな実験をしているか？  13 例：広告画像のABテスト   ● どちらの画像の方がクリックされやすいだろうか？   ● 数十～百程度のABテストが回っている   ● 広告画像を作るクリエイターや営業の人が実施する  

Slide 14

Slide 14 text

ABテストが始まるまでの流れ  14 バナーを作成  クリエイター  エンジニア  ABテストの依頼  クリエイター  結果の分析 

Slide 15

Slide 15 text

CAでどんな実験をしているか？  15 例：広告の配信アルゴリズムのABテスト   ● どちらのアルゴリズムの方が売上に貢献するだろうか？   ● 月10回程度 

Slide 16

Slide 16 text

ABテストが始まるまでの流れ  16 データサイエンティスト  エンジニア  データサイエンティスト  ABテストの依頼  若しくは自分で実装  データサイエンティスト  結果の分析  1% vs 99%  でスタート  結果が良ければ割り振りを増やす 

Slide 17

Slide 17 text

社会科学的な設定と異なる点  17 ● 意思決定者=分析者  ○ クリエイターがABを依頼して、自分で結果を見る。  ○ データサイエンティストがABを始め、自分で結果をみる。  ● 分析と意思決定のサイクルが短い  ○ 通常業務に加え、大量の分析と意思決定の日々。  ● 検証したい介入の種類が多い  ○ 改善しうるものはなんでも試したい 

Slide 18

Slide 18 text

ここから生まれる需要  18 ● 分析として正しい　<　意思決定として正しい  ○ 最後の意思決定の質が重要  ● 自動化の重要性  ○ 実験が多くなるとより面倒に・・・  ● 複雑な設定の実験を簡素にする  ○ より多くの設定で実験を使える状態にしたい    →これにこたえたい 

Slide 19

Slide 19 text

より効率的な意思決定の導入  19

Slide 20

Slide 20 text

意思決定する立場になると・・・  20 分析における検出力の最大化？意思決定における Regretの最小化？一体どちらがゴールなのか？   最適な選択との乖離＝Regret

Slide 21

Slide 21 text

考えるお題  あるユーザーに対してどちらの広告テンプレートを見せるべきか？    21 slot_1 slot_2 slot_3 slot_1 slot _2 template_id: 26 template_id: 75

Slide 22

Slide 22 text

Regretという観点で実験を考え直す  1. トータルで1000万回広告を表示する  2. より多くのクリックを集めたい  3. 最初の200万回でABテストを行う  4. 良かった選択肢を選び続ける    実験では最適な選択との乖離が出来る＝Regret   →ビジネスにおける損失  22

Slide 23

Slide 23 text

Regretという観点で実験を考え直す  1. トータルで1000万回広告を表示する  2. より多くのクリックを集めたい  3. 最初の200万回でABテストを行う←ここに無駄がある  4. 良かった選択肢を選び続ける    実験では最適な選択との乖離が出来る＝Regret   →ビジネスにおける損失  23

Slide 24

Slide 24 text

Adaptiveな実験としてのバンディット  あるユーザーに対してどちらの広告テンプレートを見せるべきか？  →クリックがより起きそうな方を都度選ぶべき  （クリックを増やしたいなら  24 slot_1 slot_2 slot_3 slot_1 slot _2 template_id: 26 template_id: 75

Slide 25

Slide 25 text

Thompson Sampling MAB  25 model for 26 model for 75 ベータ分布  α：5  β：35  ベータ分布  α：3  β：12  0.2 0.4 sampling  sampling  arg max slot_1 slot _2 template_id: 75 clickされたらα=α+1   clickされなければβ=β+1   と更新する 

Slide 26

Slide 26 text

Adaptiveな実験としてのバンディット  あるユーザーに対してどちらの広告テンプレートを見せるべきか？  →クリックがより起きそうな方を選ぶべき（クリックを増やしたいなら  →機械学習で予測して、予測値が大き方を選べば良いのでは？  26 slot_1 slot_2 slot_3 slot_1 slot _2 template_id: 26 template_id: 75

Slide 27

Slide 27 text

Thompson Sampling Contextual Bandit  27 model for 26 model for 75 特徴量xから予測する(ex. logistic regression   y = f(x)  特徴量xから予測する   y = g(x)  0.2 0.4 sampling  sampling  arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新  都度更新ではなく1日１回のケースも  男性には26だけど女性には75が良いといった傾向が汲み取れる 

Slide 28

Slide 28 text

Thompson Sampling Contextual Bandit  28 model for 26 model for 75 特徴量xから予測する   y = f(x)  特徴量xから予測する   y = g(x)  0.2 0.4 sampling  sampling  arg max slot_1 slot _2 template_id: 75 yを観測したらf or gを更新  都度更新ではなく1日１回のケースも  Policy  男性には26だけど女性には75が良いといった傾向が汲み取れる 

Slide 29

Slide 29 text

バンディットの利点  29 ● Regretが一定のバウンドに収まる  ○ 意思決定の質がある程度担保される    ● 分析→意思決定のフローが自動  ○ 意思決定者としては楽  ○ ちゃんと動作しているか？という運用コストが発生  ○ この辺りはデータサイエンティストが頑張る？ 

Slide 30

Slide 30 text

バンディットのログから  評価を行う  30

Slide 31

Slide 31 text

分析・評価の必要性  ● 広告主に対するレポート  ○ 次にどんな広告画像を作るべきなのか？  ○ 配信した広告画像は何が良かったのか？    ● バンディットの操作には分析が必要  ○ バンディットの選択肢を増減させたい  ○ 今ある選択肢の中でいらないものはどれか？    →効果の推定が必要になる  31

Slide 32

Slide 32 text

バンディットフィードバック  ● Thompson Samplingの特徴  ○ ある確率にしたがって腕を選択する＝ABテスト  ○ X毎に選択確率が異なる＝X毎に異なる確率でAB  ● 因果推論からの観点  ○ 腕の選択確率＝真の傾向スコア  ○ Xは全て既知    →IPWで因果効果が推定できる状況  32

Slide 33

Slide 33 text

Biased Result  ● template_id毎にCTRを計算する ● template_id:26のCTRが高そう →Biasを含んだ結果営業や事業責任者の方が見るデータ 33 26以外いらないね！！

Slide 34

Slide 34 text

IPW result  ● バイアスがある程度減っているはず。 ● 26がよかったというのは幻想だった。 ● CTRはどれも大差ないという結果。 34

Slide 35

Slide 35 text

ATEベースで意思決定して良いのか？  35

Slide 36

Slide 36 text

Heterogeneity  ● interstitial ○ 1: 全画面で見せる ○ 0: 記事の中で見せる ● interstitial=0では26が良い ● interstitial=1では75が良い 36 ● ATEで悪くとも、あるXでは良い腕も存在しているかもしれない。   ● ATEにしたがった意思決定をしても、改善出来ない可能性がある。  

Slide 37

Slide 37 text

複雑な状況での効果検証  37

Slide 38

Slide 38 text

広告オークションにおける機械学習の役割  38 X  何かしらの  機械学習モデル  予測値を元に  入札額を計算  入札  落札費用  購買  ● オークションで落札すると広告が表示出来る   ● 落札するとコストが発生する   ● 広告をクリックして物が買われると嬉しい   →機械学習は購買確率やクリック確率を予測している  

Slide 39

Slide 39 text

機械学習のABテスト  39 39 X  何かしらの  機械学習モデル  予測値を元に  入札額を計算  入札  落札費用  購買  ランダムに選んだユーザーに   別のモデルを使う 

Slide 40

Slide 40 text

何が難しいか？  ● 費用の側面と収益の側面がある  ○ 薬であれば効果と副作用？  ● どの様に意思決定すればよいか？  ○ 収益と費用が同じ単位ではない場合が多い  ■ 収益 vs ユーザー体験など   ○ 収益も増えるけど、費用も増えるモデルは良いモデルなのか？    →実験が出来ても意思決定が難しい  40

Slide 41

Slide 41 text

取り敢えずの対処  ● 以下の結果以外では結論が出る  ○ 費用が変わらないけど、収益が増える。  ○ 収益が変わらないけど、費用が減る。    ● 何かしらの重みを決めてスコアを出す  ○ Overall Evaluation Criteria（OEC）と呼ばれるもの  ■ Google, Amazon, Microsoft, etcはOECを決めるチームが存在する   ○ スコアに差があれば結論を出す  41

Slide 42

Slide 42 text

42 Yasui, Shota, Gota Morishita, Komei Fujita, Masashi Shibata. “A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedback.” The Web Conference (WWW), Taipei, Apr. 2020 ある実験結果  ● 機械学習におけるデータのバイアスを除去してABテスト   ● CPA: 購買を1件獲得するあたりの平均コスト   ● Cost: 広告費用    →平均コストは有意な差が無いが、広告費用は有意に増加。   　広告配信ビジネス的には嬉しい結果。  

Slide 43

Slide 43 text

おしまい  43