Pro Yearly is on sale from $80 to $50! »

WWW2020論文読み会 / Webと経済学: A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedbackの紹介 / 秋葉原ラボ 數見拓朗

2016ba6b977a2e6691811fa66d5f4336?s=47 CyberAgent
August 18, 2020

WWW2020論文読み会 / Webと経済学: A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedbackの紹介 / 秋葉原ラボ 數見拓朗

WWW2020にて発表された「A Feedback Shift Correction In Predicting Conversion Rates under Delayed Feedback」について紹介しています。

2016ba6b977a2e6691811fa66d5f4336?s=128

CyberAgent

August 18, 2020
Tweet

Transcript

  1. Webと経済学: A Feedback Shift Correction in Predicting Conversion Rates under

    Delayed Feedbackの紹介 株式会社サイバーエージェント 秋葉原ラボ 數⾒ 拓朗 WWW-2020 論⽂読み会
  2. 取り上げる論⽂ l クリックからコンバージョン(以下、CV)するまでの時間を加味 したCV予測問題 • [Title] A Feedback Shift Correction

    In Predicting Conversion Rates under Delayed Feedback • [Authors] Shota Yasui, Goto Morishita, Komei Fujita, and Masashi Shibata @ Cyberagent, Inc. 2
  3. 研究の貢献 l Chapelle(2014)で提⽰された、広告CVの遅れを加味した問題を定 式化し、⼀致性を満たすような重み付き推定量を提案した(本資 料にて説明する箇所) l 重み付き推定量の導出⽅法を提⽰した(本資料では説明をスキッ プする箇所) l ⾃社プロダクト(Dynalyst)において提案⼿法を実装し、既存⼿

    法よりと⽐較し、統計的に有意な結果を得た 3
  4. はじめに 4

  5. はじめに: 広告CVの予測問題 5 click cv click cv 時間 データ対象期間 click

    正例 負例 ? 正例であるが、 データ対象期間のため 負例として扱われる
  6. はじめに: クリックとCVの関係 Chapelle (2014): Criteo Conversion Log 6 クリックから約15⽇経過すれば、約 90%の広告がCVされるかどうかわかる

    約26⽇後にはデータセット内の 約11%が新しい広告キャンペーン ある程度⻑い期間を取れば「負例として扱われてしまうサンプル」を正例として扱えるか? ⻑い期間を取ったとしても、新規の広告が追加されるため「負例として扱ってしまう」問題は残る
  7. 問題設定と提案⼿法 7

  8. 問題設定 8 data 1 " " = 1 2 #

    # = 0 3 $ $ = 0 click cv click cv 時間 データ対象期間 click = 0 の場合、期間外で CV している可能性がある • 対象期間のデータ: % , % ; % ∈ ℝ&, % ∈ 0,1 %'" ( • 特徴量ベクトル: % • データ期間内でのCVの有無: % ∈ 0,1
  9. 問題設定 9 data 1 " " = 1 " =

    1 " = 1 2 # # = 0 # = 0 # = 1 3 $ $ = 0 $ = 1 $ = 0 • 期間外を含めたCVの有無: % ∈ 0,1 • データの正しさ: % ∈ 0,1 click cv click cv 時間 データ対象期間 click 2つのindicatorの導⼊ • 期間内でCVしたときは、% = 1, % = 1 • 期間内でCVしなかったは、% = 0 % = 0
  10. 推定量の⼀致性 l 期待誤差を最⼩にするようなパラメータを推定する l (1)にはという観察不可能なデータを含むので、観察可能なデー タ ! , ! !"#

    $ を⽤いて経験損失最⼩化によるの推定を考える l しかし、(2)式により得られる推定量は⼀致性を持たない 10 ∗ ≡ arg min ∈, ,/ , ; ; ; (1) = 012 (() ≡ arg min ∈, 1 ? %'" ( % , % ; ; % ; (2) lim (→6 = 012 (() ≠ ∗ (3)
  11. 重み付き推定量の提案 11 C 789: (() ≡ 1 ? %'" (

    % % % % % , % ; ; % ; (4) lim (→6 C 789: (() = ,; , ; ; ; ∵⼤数の法則 = G , ; ; ; = G , ; ; ; = ,/ , ; ; ; Feedback Shift Importance Weight (以下、FSIW) 証明 , , の関係を利⽤して推定する FSIWによって得られる推定量は、 期間外のCV情報を含む期待誤差を最⼩にするようなパラメータに収束
  12. [参考]共変量シフトとの⽐較: Sugiyama, et al. (2007) 12 C 9:012 (() ≡

    1 ? %'" ( <=>< % <?@%( % % , % ; ; % ; (4) lim (→6 C 9:012 (() = ,; <=>< <?@%( , ; ; ; ∵⼤数の法則 = G <=>< <?@%( , ; ; ; <?@%( = G , ; ; ; <=>< = ,B , ; ; ; ∵ = 証明 [仮定]テスト⼊⼒の確率密度と訓練⼊⼒の確率密度が異なる 訓練データ テストデータ Importance Weighted ERM (IWERM) IWERMによって得られる推定量は、期待テスト誤差を最⼩にするようなパラメータに収束
  13. 簡単な実験 13

  14. 簡単な実験 l 提案⼿法のを理解するための簡単な実験 • 簡単化のために を既知とする • 3つの推定値 # L,MNOP

    , # L,QRST , # L,UVWX を求める ⁃ bias: y~x、true: c~x, FSIW: y~x, weights=(4)式 14 1. サンプル数 : n = 10,000 2. 観察されるCVはサンプルの25%を占める : = 1 = 0.25 3. 期間内外でCVするサンプルは75% : = 1 = 0.75 4. = 1のサンプルの特徴量は 0,1 に従う : !,#$% ∼ 0,1 5. = 0のサンプルの特徴量は 2,1 に従う : !,#$& ∼ 2,1 6. CVを予測するモデルとしてLM1を利⽤する : ; = % %'()* + ,!',"- 7. 損失関数の具体化 : , ; ; = log ; + 1 − log 1 − ; ※1 LM: ロジスティクスモデル data 1 " ~ 0,1 " = 1 " = 1 … … … … 2,500 #$%% ~ 0,1 #$%% = 1 #$%% = 1 2,501 #$%" ~ 0,1 #$%" = 0 #$%" = 1 … … … … 7,500 &$%% ~ 0,1 &$%% = 0 &$%% = 1 7,501 &$%" ~ 2,1 &$%" = 0 &$%" = 0 … … … … 10,000 "%%%% ~ 2,1 "%%%% = 0 "%%%% = 0
  15. 結果 l 推定値の⽐較 l LogLossの⽐較 15 = 推定値 標準誤差 =

    , 3.093 0.061 = , -1.965 0.041 モデル LogLoss bias 0.737 true 0.424 FSIW 0.609 = 推定値 標準誤差 = , -0.966 0.023 = , -0.378 0.019 = 推定値 標準誤差 = , 0.282 0.010 = , -0.187 0.009 bias true FSIW
  16. まとめ 16

  17. まとめと雑感 l まとめ • 広告CVの予測問題はよく知られた問題(Chapelle, 2014)であるが、推定 量の⼀致性に注⽬をして解決⼿法を提案した • FSIWの具体的な導出⽅法を⽰し、⾃社プロダクトにて提案⼿法の優位性 を⽰した

    l 雑感 • 重み付き推定量は分散が⼤きくなることが知られているので、最⼩分散で はないかもしれない 17
  18. 参考⽂献 l 問題設定 • [KDD 2014] Olivier Chapelle “Modeling Delayed

    Feedback in Display Advertising” l 重み付き経験損失最⼩化 • [JMLR 2007] Masashi Sugiyama, Matthias Krauledat, and Klaus-Robert Müller “Covariate Shift Adaptation by Importance Weighted Cross Validation” 18