$30 off During Our Annual Pro Sale. View Details »

Trustworthy Online Marketplace Experimentation with Budget-split Design

Komei Fujita
September 24, 2021

Trustworthy Online Marketplace Experimentation with Budget-split Design

KDD2021 参加報告&論文読み会で " Trustworthy Online Marketplace Experimentation with Budget-split Design"という論文を紹介しました。
https://connpass.com/event/223966/

Komei Fujita

September 24, 2021
Tweet

More Decks by Komei Fujita

Other Decks in Technology

Transcript

  1. KDD2021 参加報告&論文読み会
    藤田光明 / @6km6km
    Trustworthy Online
    Marketplace Experimentation
    with Budget-split Design

    View Slide

  2. 自己紹介
    藤田 光明 Data Scientist
    ● 職歴
    ○ 2018.4 -
    ■ AI事業本部 Dynalyst
    ■ 広告配信アルゴリズムの開発 / 実装
    ■ A/Bテストシステムの改善
    ○ 2020.11 -
    ■ AI事業本部 DX本部小売セクター
    ■ 小売の購買データを用いた広告配信
    ● 興味
    ○ A/Bテストを通したプロダクトグロース
    ○ ビジネス x 経済学 / Counterfactual Machine Learning
    2

    View Slide

  3. どんな論文?
    ● Linkedinの論文
    ● マーケットプレイスとは
    ○ ネット広告: 広告主(買い手)がユーザ(売り手)の広告表示権利を買う
    ○ 転職サイト: 雇用主が転職希望者に求人を見せる
    ● マーケットプレイスにおけるA/Bテストの問題点
    ○ 「カニバリゼーションバイアス」が存在
    ○ 例: 広告主の限られた予算を対照群に比べて介入群がたくさん使う
    ○ 従来のバイアスを回避する手法には検出力不足・モデルエラーなどの問題がある
    ● 新たなA/Bテストデザイン”budget-split design”を提案
    ○ 検出力が高くバイアスのない介入効果の推定が可能に
    ※この発表では、ネット広告に絞った説明をします

    View Slide

  4. 目次
    ● モチベーション
    ● budget-split design
    ● 実験
    ● まとめ

    View Slide

  5. モチベーション

    View Slide

  6. 有限な予算があるネット広告A/Bテストの問題点
    ● SUTVAを満たさない
    ○ SUTVA: stable unit treatment value assumption
    Treatment Control
    win rate = 75% win rate = 50%
    ユーザレベルで分割
    予算
    win rateが高い分予算を多く使う
    カニバリゼーションバイアス:
    売上が介入群 > 比較群なのは、介入によって売上が増えた影響 + 比較群の売上を「共食い」した影響
    結果、介入効果が過剰推定される

    View Slide

  7. 定式化
    potential outcome:
    推定したい介入効果:
    i: ユーザ(N人), j:キャンペーン(M本)
    それぞれのユーザが
    介入をうけたかどうかの
    バイナリ変数のベクトル 各キャンペーンの予算ベクトル
    Yがキャンペーンの予算に依存する
    予算の大小によって入札戦略や
    予算ペーシングが変わるため
    ユーザ全員が介入を受けた / 受けなかったときのY
    予算が無限の場合:
    SUTVAが成立するため、以下のナイーブな推定量が不偏性をもつ

    View Slide

  8. 予算が有限の場合におこること
    ユーザiへの介入 ユーザi以外の介入群ユーザ数
    ユーザi以外が全員介入を受ける
    ユーザiではない1人を除き全員が介入を受けない
    全員が介入を受けない < 全員が介入を受ける
    1人を除く全員とユーザiが介入を受ける
    ユーザiだけが介入を受ける
    介入群に予算
    を食われる
    比較群の予算
    を食える
    介入効果が正で、
    介入を受けるユーザ数が少ないほど、介入時のアウトカムが大きくなるケース

    View Slide

  9. カニバリゼーションバイアス


    前ページより①, ②とも正であり、ナイーブな推定量は正の方向にバイアスを持つ
    Y(1,1;B)を過剰推定
    Y(0,0;B)を過小推定

    View Slide

  10. 既存文献で提案された解決策
    ● analysis approach
    ● design approach
    ○ campaign randomization
    ○ switchback design

    View Slide

  11. analysis approach
    ● 干渉構造やカニバリゼーションバイアスをモデル化する
    ● モデルを使って真の介入効果を推定する
    ● 問題点
    ○ 推定の精度がモデルの仮定に依存する
    ○ モデルエラーが介入効果の数倍になるケースも考えられる
    ○ 複雑なネット広告市場を完璧にモデル化できるならそもそも実験しなくていい

    View Slide

  12. campaign randomization
    キャンペーン(それぞれが予算を持つ)単位でランダム化
    キャンペーンA キャンペーンB キャンペーンC
    Treatment Control
    問題点
    ● 検出力が低い(キャンペーン数 < ユーザ数)
    ● 複数キャンペーンの対象になるユーザがいた場合はバイアスが残る

    View Slide

  13. switchback design
    時間(日、週)ごとに介入 / 非介入を切り替える
    問題点
    ● 検出力が低い(日数 < ユーザ数)
    ○ 特にアウトカムの計測期間が長いとき
    ● キャリーオーバー効果(時間を横断した効果)を無視している
    time
    全員に介入 全員に非介入 全員に介入

    View Slide

  14. budget-split design

    View Slide

  15. budget-split design
    ユーザを分割したのち、各キャンペーンでそれぞれに予算を割り振る
    Treatment Control
    キャンペーンA キャンペーンB
    予算
    ● 弱い仮定(後述)のもとでバイアスがない
    ● 検出力がユーザレベルのランダム化と同等程度に高い

    View Slide

  16. 具体的な手順

    View Slide

  17. 具体的な手順
    を推定
    を推定
    予算ペーシング等もそれぞれのMごとに行う

    View Slide

  18. budget-split designでの推定量
    M(0)を使って推定
    M(1)を使って推定
    stable system assumptionのもとで不偏

    View Slide

  19. stable system assumption
    分割した市場が本来のそれに近いこと
    ● 設定
    ○ 本来(分割しない状態)の市場でのキャンペーン: C
    ○ K人のユーザに分割した市場でのキャンペーン: C(K)
    ● C(K)とCが同じような振る舞いをすることを保証したい
    ○ 極端な例: Kが1に近いとき、C(K)とCは同等とはいい難い
    ○ 入札戦略や予算ペーシングはKが不十分なときに機能しなくなるのが要因
    ○ C(K)とCが同等といえるためのKの下限は、ユーザの同質性のレベルによる
    ● 全体のユーザ数NやKが十分に大きいときは問題ない

    View Slide

  20. 実験

    View Slide

  21. 検出力

    View Slide

  22. バイアス

    View Slide

  23. まとめ

    View Slide

  24. 論文のまとめ
    ● マーケットプレイスのA/Bテストにおいてbudget-split designを提案
    ● ユーザを分割し、各キャンペーンの予算をそれぞれに割り当てること
    で、介入 <> 比較群間の干渉を防ぐ
    ● カニバリゼーションバイアスを取り除きつつ、高い検出力で介入効果の
    推定が可能に

    View Slide

  25. 個人的に思ったこと
    ● DSPで広告配信やってるとよく出くわす問題
    ● 提案手法は予算ペーシングがまともに動くことを前提としている
    ○ ある程度成熟したプロダクトに限定された解決策
    ● 複数の実験を独立にできないのはデメリット
    ○ ⇒ future workでも言及されている
    ○ ペーシングも考慮すると細かい分割はできないので、同時にできる実験数が限られる
    ● もっと厳密に考えていくと、学習データを分ける話になる?
    ○ モデルAが生んだログデータをモデルBの学習にも使うのは、ある種のカニバリ?
    ○ 各モデルが生んだログデータのみを学習データとしてA/Bテストするべき?

    View Slide