Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WWW2020論文読み会 / Webと経済学: A Feedback Shift Correc...

Avatar for CyberAgent CyberAgent PRO
August 18, 2020

WWW2020論文読み会 / Webと経済学: A Feedback Shift Correction in Predicting Conversion Rates under Delayed Feedbackの紹介 / 秋葉原ラボ 數見拓朗

WWW2020にて発表された「A Feedback Shift Correction In Predicting Conversion Rates under Delayed Feedback」について紹介しています。

Avatar for CyberAgent

CyberAgent PRO

August 18, 2020
Tweet

More Decks by CyberAgent

Other Decks in Technology

Transcript

  1. Webと経済学: A Feedback Shift Correction in Predicting Conversion Rates under

    Delayed Feedbackの紹介 株式会社サイバーエージェント 秋葉原ラボ 數⾒ 拓朗 WWW-2020 論⽂読み会
  2. 取り上げる論⽂ l クリックからコンバージョン(以下、CV)するまでの時間を加味 したCV予測問題 • [Title] A Feedback Shift Correction

    In Predicting Conversion Rates under Delayed Feedback • [Authors] Shota Yasui, Goto Morishita, Komei Fujita, and Masashi Shibata @ Cyberagent, Inc. 2
  3. はじめに: 広告CVの予測問題 5 click cv click cv 時間 データ対象期間 click

    正例 負例 ? 正例であるが、 データ対象期間のため 負例として扱われる
  4. はじめに: クリックとCVの関係 Chapelle (2014): Criteo Conversion Log 6 クリックから約15⽇経過すれば、約 90%の広告がCVされるかどうかわかる

    約26⽇後にはデータセット内の 約11%が新しい広告キャンペーン ある程度⻑い期間を取れば「負例として扱われてしまうサンプル」を正例として扱えるか? ⻑い期間を取ったとしても、新規の広告が追加されるため「負例として扱ってしまう」問題は残る
  5. 問題設定 8 data 1 " " = 1 2 #

    # = 0 3 $ $ = 0 click cv click cv 時間 データ対象期間 click = 0 の場合、期間外で CV している可能性がある • 対象期間のデータ: % , % ; % ∈ ℝ&, % ∈ 0,1 %'" ( • 特徴量ベクトル: % • データ期間内でのCVの有無: % ∈ 0,1
  6. 問題設定 9 data 1 " " = 1 " =

    1 " = 1 2 # # = 0 # = 0 # = 1 3 $ $ = 0 $ = 1 $ = 0 • 期間外を含めたCVの有無: % ∈ 0,1 • データの正しさ: % ∈ 0,1 click cv click cv 時間 データ対象期間 click 2つのindicatorの導⼊ • 期間内でCVしたときは、% = 1, % = 1 • 期間内でCVしなかったは、% = 0 % = 0
  7. 推定量の⼀致性 l 期待誤差を最⼩にするようなパラメータを推定する l (1)にはという観察不可能なデータを含むので、観察可能なデー タ ! , ! !"#

    $ を⽤いて経験損失最⼩化によるの推定を考える l しかし、(2)式により得られる推定量は⼀致性を持たない 10 ∗ ≡ arg min ∈, ,/ , ; ; ; (1) = 012 (() ≡ arg min ∈, 1 ? %'" ( % , % ; ; % ; (2) lim (→6 = 012 (() ≠ ∗ (3)
  8. 重み付き推定量の提案 11 C 789: (() ≡ 1 ? %'" (

    % % % % % , % ; ; % ; (4) lim (→6 C 789: (() = ,; , ; ; ; ∵⼤数の法則 = G , ; ; ; = G , ; ; ; = ,/ , ; ; ; Feedback Shift Importance Weight (以下、FSIW) 証明 , , の関係を利⽤して推定する FSIWによって得られる推定量は、 期間外のCV情報を含む期待誤差を最⼩にするようなパラメータに収束
  9. [参考]共変量シフトとの⽐較: Sugiyama, et al. (2007) 12 C 9:012 (() ≡

    1 ? %'" ( <=>< % <?@%( % % , % ; ; % ; (4) lim (→6 C 9:012 (() = ,; <=>< <?@%( , ; ; ; ∵⼤数の法則 = G <=>< <?@%( , ; ; ; <?@%( = G , ; ; ; <=>< = ,B , ; ; ; ∵ = 証明 [仮定]テスト⼊⼒の確率密度と訓練⼊⼒の確率密度が異なる 訓練データ テストデータ Importance Weighted ERM (IWERM) IWERMによって得られる推定量は、期待テスト誤差を最⼩にするようなパラメータに収束
  10. 簡単な実験 l 提案⼿法のを理解するための簡単な実験 • 簡単化のために を既知とする • 3つの推定値 # L,MNOP

    , # L,QRST , # L,UVWX を求める ⁃ bias: y~x、true: c~x, FSIW: y~x, weights=(4)式 14 1. サンプル数 : n = 10,000 2. 観察されるCVはサンプルの25%を占める : = 1 = 0.25 3. 期間内外でCVするサンプルは75% : = 1 = 0.75 4. = 1のサンプルの特徴量は 0,1 に従う : !,#$% ∼ 0,1 5. = 0のサンプルの特徴量は 2,1 に従う : !,#$& ∼ 2,1 6. CVを予測するモデルとしてLM1を利⽤する : ; = % %'()* + ,!',"- 7. 損失関数の具体化 : , ; ; = log ; + 1 − log 1 − ; ※1 LM: ロジスティクスモデル data 1 " ~ 0,1 " = 1 " = 1 … … … … 2,500 #$%% ~ 0,1 #$%% = 1 #$%% = 1 2,501 #$%" ~ 0,1 #$%" = 0 #$%" = 1 … … … … 7,500 &$%% ~ 0,1 &$%% = 0 &$%% = 1 7,501 &$%" ~ 2,1 &$%" = 0 &$%" = 0 … … … … 10,000 "%%%% ~ 2,1 "%%%% = 0 "%%%% = 0
  11. 結果 l 推定値の⽐較 l LogLossの⽐較 15 = 推定値 標準誤差 =

    , 3.093 0.061 = , -1.965 0.041 モデル LogLoss bias 0.737 true 0.424 FSIW 0.609 = 推定値 標準誤差 = , -0.966 0.023 = , -0.378 0.019 = 推定値 標準誤差 = , 0.282 0.010 = , -0.187 0.009 bias true FSIW
  12. 参考⽂献 l 問題設定 • [KDD 2014] Olivier Chapelle “Modeling Delayed

    Feedback in Display Advertising” l 重み付き経験損失最⼩化 • [JMLR 2007] Masashi Sugiyama, Matthias Krauledat, and Klaus-Robert Müller “Covariate Shift Adaptation by Importance Weighted Cross Validation” 18