Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction

Yudai Hayashi
November 22, 2023
130

論文紹介:Unbiased Delayed Feedback Label Correction for Conversion Rate Prediction

ウォンテッドリー社内勉強会~推薦論文読み~で発表した資料です。
イベントURL: https://wantedly.connpass.com/event/301781/

Yudai Hayashi

November 22, 2023
Tweet

Transcript

  1. © 2023 Wantedly, Inc.
    論文紹介:Unbiased Delayed Feedback
    Label Correction for Conversion Rate
    Prediction
    ウォンテッドリー社内勉強会 ~推薦論文読み会~
    Y. Wang, P. Sun, M. Zhang, Q. Jia, J. Li and S. Ma
    https://dl.acm.org/doi/pdf/10.1145/3580305.3599536
    Nov. 22 2023 - Presenter: Yudai Hayashi

    View full-size slide

  2. © 2023 Wantedly, Inc.
    自己紹介
    林 悠大
    ● 経歴:
    ○ 東京大学工学系研究科でPh.D取得
    ○ 2022年にウォンテッドリーにデータサイ
    エンティストとして新卒入社
    ● Twitter(X): @python_walker
    ● 趣味:
    ○ 読書
    ○ 音楽聴くこと
    ○ ウイスキー
    Twitter

    View full-size slide

  3. © 2023 Wantedly, Inc.
    Short Summary
    ● 文脈:CVR予測
    ● 課題:クリック→コンバージョンまでに遅延があるので学習データを収集した時点
    では偽陰性サンプルが混ざり込む
    ● 解決方法:偽陰性サンプルを検出してラベル修正を行うモデルを導入
    ● 結果:遅延問題に焦点を当てた他の先行研究と比べてより高い精度を得られた
    (AUC, PRAUC, LogLoss)

    View full-size slide

  4. © 2023 Wantedly, Inc.
    遅延フィードバックの問題点
    Time
    学習用データ取得期間
    click conversion
    データ取得日
    ● クリックからコンバージョンするまでの間にはある程度のラグが存在
    ● コンバージョンに繋がらなかったクリックの中には偽陰性のサンプルが混ざ
    り、モデル性能の低下を引き起こす

    View full-size slide

  5. © 2023 Wantedly, Inc.
    先行研究
    ● DFM
    ○ コンバージョンまでの時間をモデリング
    ● FSIW
    ○ 重要度サンプリングを利用して損失関数を補正
    ● nnDF
    ○ 一定期間より前のデータは正しいと仮定して、そのデータを使って損失関
    数を補正

    View full-size slide

  6. © 2023 Wantedly, Inc.
    手法
    負例に対してコンバージョン確率を予測するモデルを作ってラベルを修正
    Time
    データ取得日
    期間2
    期間1
    ● 期間1でコンバージョンがない
    データを学習データとする
    ● 期間2でのコンバージョンを正
    解ラベルとして付与
    限定的なデータしか使わなくて精度が出ないのでは?

    View full-size slide

  7. © 2023 Wantedly, Inc.
    手法:Alternative Training

    CVR予測
    モデル
    Embedding
    特徴量
    CVR予測値

    ラベル補正モデル
    経過時間
    転用
    真のラベル予測値
    学習データ全体 ラベル補正用データ
    Step 1:
    学習データ全体でCVR予測モデルを
    訓練する
    Step 2:
    CVRモデルのEmbeddingレイヤーを
    移植してラベル補正モデルの訓練を
    行う
    → 補正用データが少なさを補う

    View full-size slide

  8. © 2023 Wantedly, Inc.
    手法:Alternative Training
    Step 3:
    ● ラベル補正モデルを固定
    ● 負例サンプルに重みをかけた損
    失関数を使ってCVRモデルを訓

    Step 4:
    CVRのEmbeddingレイヤーを移植し
    てラベル補正モデルを訓練
    (以下繰り返し)
    CVR予測
    モデル
    ラベル補正モ
    デル
    学習データ全体
    パラメータ固定
    c w
    Weighted Log Loss: lLC

    View full-size slide

  9. © 2023 Wantedly, Inc.
    結果
    ● Criteoデータセットを利用して実験
    ○ 23日分のWeb広告のクリック、コンバージョンが含まれるパブリックデー

    ● AUCで最大0.76 %の改善、PRAUCで最大 1.02 %の改善
    遅延フィードバックが無いとき (理想状態)
    偽陰性サンプルに何も処理しないとき
    結果の抜粋

    View full-size slide

  10. © 2023 Wantedly, Inc.
    未コンバージョンデータに対してラベルを付与する期間による性能変化
    time interval
    ● time interval が短すぎると遅延
    フィードバックの問題が解消されな

    ● time interval が長すぎると学習
    データが古くなり最新データに対し
    て性能が悪くなる

    View full-size slide

  11. © 2023 Wantedly, Inc.
    Alternative training の有効性
    ● 論文で提案されたような構造でも、学習方法としてはほかに何通りか考えられる
    ○ CVRモデルとラベル補正モデルを同時に訓練する (JL)
    ○ ラベル補正モデルとCVRモデルを同じにする
    ■ CVRモデルで偽陰性データかを0, 1で評価する(hard)
    ■ CVRモデルで偽陰性データである確率を0~1で評価する(soft)
    ■ CVRモデルで偽陰性データである確率が一定以上の未評価データを
    落とす (drop)
    提案手法は上のどれと比較しても優れている

    View full-size slide

  12. © 2023 Wantedly, Inc.
    Alternative training の有効性
    Q. 訓練のイテレーションを何回行えばよいか?
    A. 1回行えば十分な性能を引き出せる

    View full-size slide

  13. © 2023 Wantedly, Inc.
    フィードバックの遅延の長さと性能への影響
    コンバージョンまでの時間
    ● コンバージョンまでに時間がかかるデータの予
    測はそもそも難しい (Oracleでも性能が右肩
    下がり)
    ● 提案手法は時間が長いグループでより高い性
    能改善を示している

    View full-size slide

  14. © 2023 Wantedly, Inc.
    まとめ
    ● 偽陰性データのラベル補正をおこなうモデルを組み込んだCVR予測モデル ULC
    を提案
    ● AUC, PRAUCといった指標でstate-of-the-artを達成
    ● CVR予測モデルと、ラベル補正のモデルを交互に訓練するAlternative Training
    が有効な訓練手法として得られた
    ● コンバージョンまでの時間が長いデータにおいてより高い精度改善を実現

    View full-size slide

  15. © 2023 Wantedly, Inc.
    参考文献
    ● Yifan Wang, Peijie Sun, Min Zhang, Qinglin Jia, Jingjie Li, and Shaoping Ma. 2023. Unbiased
    Delayed Feedback Label Correction for Conversion Rate Prediction. In Proceedings of the 29th
    ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD ’23), August 6–10,
    2023, Long Beach, CA, USA. ACM, New York, NY, USA.

    View full-size slide