大学院時代にやっていた研究
● 修論タイトル
○ “A Comparison of the Effectiveness of Advertisement in Discrete Choice Models with
Random and Non-Random Choice Sets”
● 広告が消費者の需要に与える影響を離散選択モデルを用いて分析
● 2つの離散選択モデルを比較
○ BLP(1995)タイプ: full informationのもとで広告がutility functionの中に入る
○ Goeree(2008)タイプ: limited informationのもとで広告によって商品がchoice setに入る確
率を上げる
● 日本の自動車マーケットのデータを使用
○ 年 x 車種レベルの販売量,テレビCM量,カタログ情報を頑張って集めた
3
テック企業でRCTってやりやすい?
● 確かにテック企業ではRCTはやりやすい
● ビジネス上の意思決定において重要な役割を担っているが...
48
over 20000 test / year
over 500 test / year
参考: Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing
オフライン評価の難しさ: セレクションバイアス
67
feature candidate
X1
a,b,c,d,e a d
X2
a,b,c,d,e c c
eval
NA
1
click
0
1
old
logic
new
logic
既存ロジックと新ロジックの選択が異なる
場合,クリック有無は観測不可能
一致した場合,クリック有無を観測可能
Biased!!!
選択が一致したものだけで評価を行う ...?
配信データ シミュレーション
既存ロジックのログのデータの分布 ≠ 実際のデータの分布
Replay Methodの例
70
feature candidate
X1
a,b,c,d,e a d
X2
a,b,c,d,e c c
X3
a,b,c,d,e d d
X4
f,g,h f f
X5
f,g,h g f
eval
NA
1
0
1
NA
click
0
1
0
1
1
評価に使う
新ロジックをオフラインで評価した際の
クリック率は2/3
評価に使わない
評価に使わない
配信データ シミュレーション
Replay Methodの欠点
● 評価の分散を下げるためにはより多くのランダム配信ログが必要
○ 一方で,ランダム配信を増やすほど全体の効果は下がってしまう
● バンディットの配信ログを使って新ロジックを評価できないか?
74
IPW(Inverse Probability Weighting)を使って
オフライン評価ができる
イェール大 x サイバーエージェントの共同研究を紹介する
“Efficient Counterfactual Learning from Bandit Feedback”
Narita, Yasui, Yata (AAAI 2019)
Slide 75
Slide 75 text
IPWを使ったオフライン評価
75
75
feature click
X1 1 a b
X2 1 c c
X3 0 b b
X4 1 a a
X5 1 b c
eval
NA
1
0
1
NA
Aが選ばれる条件付き確率,
モデルから計算可能
True Propensity Score
selected arm
selected arm
Slide 76
Slide 76 text
IPW (Estimated)
76
Estimated Propensity
Score
by Logistic Regression, GBDT,
Random Forest
真のPSを用いるより推定されたPSを用いることで,オフライン評価の分散が小さくなる
詳しくは https://www.slideshare.net/shotayasui/l-05-bandit-with-causality
feature click
X1 1 a b
X2 1 c c
X3 0 b b
X4 1 a a
X5 1 b c
eval
NA
1
0
1
NA
Slide 77
Slide 77 text
4. おまけ:
実証産業組織論と機械学習の研究紹介
77
Slide 78
Slide 78 text
商品カテゴリ横断での離散選択モデル
● “Counterfactual Inference for Consumer Choice Across Many
Product Categories”
○ Rob Donnelly, Francisco R. Ruiz, David Blei, and Susan Athey
● スーパーで同時に複数カテゴリの商品を買うようなケースの分析
○ 例: バナナと洗剤とヨーグルトと肉のそれぞれから1 or 0 個買う
● 既存研究では1つのカテゴリ内での購買行動に注目していた
● カテゴリ横断したutility functionの推定に機械学習の手法が使わ
れている
78
RCTしないと機械学習モデルのビジネスインパクトは不明瞭
● 横軸:
○ 既存モデルと新モデルのオフラインで
の予測精度比(auroc, loglossなど)
● 縦軸:
○ 既存モデルと新モデルのRCTでの
ビジネスKPIの比 (CVRなど)
150 successful Machine Learning models: 6 lessons learned at Booking.com, KDD2019
“OFFLINE MODEL PERFORMANCE
IS JUST A HEALTH CHECK”
Slide 95
Slide 95 text
学術研究でもRCTは評価される
“... This paper strikes a good balance between analytic
and empirical results. The problem itself is grounded in
a real-world issue without being overly specific to a
single narrow area, and is beneficial in practice.”
遅れCV論文のレビュワーコメントより抜粋