Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
KDD2021 参加報告&論文読み会 藤田光明 / @6km6km Trustworthy Online Marketplace Experimentation with Budget-split Design
Slide 2
Slide 2 text
自己紹介 藤田 光明 Data Scientist ● 職歴 ○ 2018.4 - ■ AI事業本部 Dynalyst ■ 広告配信アルゴリズムの開発 / 実装 ■ A/Bテストシステムの改善 ○ 2020.11 - ■ AI事業本部 DX本部小売セクター ■ 小売の購買データを用いた広告配信 ● 興味 ○ A/Bテストを通したプロダクトグロース ○ ビジネス x 経済学 / Counterfactual Machine Learning 2
Slide 3
Slide 3 text
どんな論文? ● Linkedinの論文 ● マーケットプレイスとは ○ ネット広告: 広告主(買い手)がユーザ(売り手)の広告表示権利を買う ○ 転職サイト: 雇用主が転職希望者に求人を見せる ● マーケットプレイスにおけるA/Bテストの問題点 ○ 「カニバリゼーションバイアス」が存在 ○ 例: 広告主の限られた予算を対照群に比べて介入群がたくさん使う ○ 従来のバイアスを回避する手法には検出力不足・モデルエラーなどの問題がある ● 新たなA/Bテストデザイン”budget-split design”を提案 ○ 検出力が高くバイアスのない介入効果の推定が可能に ※この発表では、ネット広告に絞った説明をします
Slide 4
Slide 4 text
目次 ● モチベーション ● budget-split design ● 実験 ● まとめ
Slide 5
Slide 5 text
モチベーション
Slide 6
Slide 6 text
有限な予算があるネット広告A/Bテストの問題点 ● SUTVAを満たさない ○ SUTVA: stable unit treatment value assumption Treatment Control win rate = 75% win rate = 50% ユーザレベルで分割 予算 win rateが高い分予算を多く使う カニバリゼーションバイアス: 売上が介入群 > 比較群なのは、介入によって売上が増えた影響 + 比較群の売上を「共食い」した影響 結果、介入効果が過剰推定される
Slide 7
Slide 7 text
定式化 potential outcome: 推定したい介入効果: i: ユーザ(N人), j:キャンペーン(M本) それぞれのユーザが 介入をうけたかどうかの バイナリ変数のベクトル 各キャンペーンの予算ベクトル Yがキャンペーンの予算に依存する 予算の大小によって入札戦略や 予算ペーシングが変わるため ユーザ全員が介入を受けた / 受けなかったときのY 予算が無限の場合: SUTVAが成立するため、以下のナイーブな推定量が不偏性をもつ
Slide 8
Slide 8 text
予算が有限の場合におこること ユーザiへの介入 ユーザi以外の介入群ユーザ数 ユーザi以外が全員介入を受ける ユーザiではない1人を除き全員が介入を受けない 全員が介入を受けない < 全員が介入を受ける 1人を除く全員とユーザiが介入を受ける ユーザiだけが介入を受ける 介入群に予算 を食われる 比較群の予算 を食える 介入効果が正で、 介入を受けるユーザ数が少ないほど、介入時のアウトカムが大きくなるケース
Slide 9
Slide 9 text
カニバリゼーションバイアス ① ② 前ページより①, ②とも正であり、ナイーブな推定量は正の方向にバイアスを持つ Y(1,1;B)を過剰推定 Y(0,0;B)を過小推定
Slide 10
Slide 10 text
既存文献で提案された解決策 ● analysis approach ● design approach ○ campaign randomization ○ switchback design
Slide 11
Slide 11 text
analysis approach ● 干渉構造やカニバリゼーションバイアスをモデル化する ● モデルを使って真の介入効果を推定する ● 問題点 ○ 推定の精度がモデルの仮定に依存する ○ モデルエラーが介入効果の数倍になるケースも考えられる ○ 複雑なネット広告市場を完璧にモデル化できるならそもそも実験しなくていい
Slide 12
Slide 12 text
campaign randomization キャンペーン(それぞれが予算を持つ)単位でランダム化 キャンペーンA キャンペーンB キャンペーンC Treatment Control 問題点 ● 検出力が低い(キャンペーン数 < ユーザ数) ● 複数キャンペーンの対象になるユーザがいた場合はバイアスが残る
Slide 13
Slide 13 text
switchback design 時間(日、週)ごとに介入 / 非介入を切り替える 問題点 ● 検出力が低い(日数 < ユーザ数) ○ 特にアウトカムの計測期間が長いとき ● キャリーオーバー効果(時間を横断した効果)を無視している time 全員に介入 全員に非介入 全員に介入
Slide 14
Slide 14 text
budget-split design
Slide 15
Slide 15 text
budget-split design ユーザを分割したのち、各キャンペーンでそれぞれに予算を割り振る Treatment Control キャンペーンA キャンペーンB 予算 ● 弱い仮定(後述)のもとでバイアスがない ● 検出力がユーザレベルのランダム化と同等程度に高い
Slide 16
Slide 16 text
具体的な手順
Slide 17
Slide 17 text
具体的な手順 を推定 を推定 予算ペーシング等もそれぞれのMごとに行う
Slide 18
Slide 18 text
budget-split designでの推定量 M(0)を使って推定 M(1)を使って推定 stable system assumptionのもとで不偏
Slide 19
Slide 19 text
stable system assumption 分割した市場が本来のそれに近いこと ● 設定 ○ 本来(分割しない状態)の市場でのキャンペーン: C ○ K人のユーザに分割した市場でのキャンペーン: C(K) ● C(K)とCが同じような振る舞いをすることを保証したい ○ 極端な例: Kが1に近いとき、C(K)とCは同等とはいい難い ○ 入札戦略や予算ペーシングはKが不十分なときに機能しなくなるのが要因 ○ C(K)とCが同等といえるためのKの下限は、ユーザの同質性のレベルによる ● 全体のユーザ数NやKが十分に大きいときは問題ない
Slide 20
Slide 20 text
実験
Slide 21
Slide 21 text
検出力
Slide 22
Slide 22 text
バイアス
Slide 23
Slide 23 text
まとめ
Slide 24
Slide 24 text
論文のまとめ ● マーケットプレイスのA/Bテストにおいてbudget-split designを提案 ● ユーザを分割し、各キャンペーンの予算をそれぞれに割り当てること で、介入 <> 比較群間の干渉を防ぐ ● カニバリゼーションバイアスを取り除きつつ、高い検出力で介入効果の 推定が可能に
Slide 25
Slide 25 text
個人的に思ったこと ● DSPで広告配信やってるとよく出くわす問題 ● 提案手法は予算ペーシングがまともに動くことを前提としている ○ ある程度成熟したプロダクトに限定された解決策 ● 複数の実験を独立にできないのはデメリット ○ ⇒ future workでも言及されている ○ ペーシングも考慮すると細かい分割はできないので、同時にできる実験数が限られる ● もっと厳密に考えていくと、学習データを分ける話になる? ○ モデルAが生んだログデータをモデルBの学習にも使うのは、ある種のカニバリ? ○ 各モデルが生んだログデータのみを学習データとしてA/Bテストするべき?