Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MLPRP#5 Estimating Position-Bias without Intrusive Interventions

usaito
PRO
August 02, 2019

MLPRP#5 Estimating Position-Bias without Intrusive Interventions

usaito
PRO

August 02, 2019
Tweet

More Decks by usaito

Other Decks in Research

Transcript

  1. © So-net Media Networks Corporation.
    Estimating Position Bias without
    Intrusive Interventions
    東京⼯業⼤学 経営⼯学系 B4
    齋藤 優太

    View Slide

  2. © So-net Media Networks Corporation.
    2
    • Unbiased Learning-to-Rank
    • 関連研究
    • メタ情報
    • 提案⼿法
    • 実験結果(軽く)
    • まとめ・QA
    ⽬次

    View Slide

  3. © So-net Media Networks Corporation.
    3
    検索クエリに対し最適なドキュメントのランキングを返したい
    例)ある検索クエリに対して10個のdocumentを表⽰するとき
    Position (k) Ranking 1 Ranking 2
    1 ◎ ✖
    2 ◎ ✖
    --- --- ---
    9 ✖ ◎
    10 ✖ ◎
    Ranking 1のように
    関連しているdocsを
    上位に表⽰したい
    (◉だと関連性あり)
    ランキング学習とは

    View Slide

  4. © So-net Media Networks Corporation.
    4
    次のように⼀般的な損失関数を考えてみる
    Rankingに関連する関数
    : (query, document, relevance) のデータ
    : あるqueryに対して提⽰されたdoc集合
    ランキング学習の定式化

    View Slide

  5. © So-net Media Networks Corporation.
    5
    評価関数として例えば、
    ランキング学習の評価関数
    : (query, document, relevance) のデータ
    : あるqueryに対して提⽰されたdoc集合
    Relevantなdocumentの順位の総和を⼩さくしたい

    View Slide

  6. © So-net Media Networks Corporation.
    6
    最適化したい損失の計算にはRelevanceが必要
    しかし、コストと時間がかかるのでhuman annotationはしたくない
    安価に⼿に⼊るClickデータを使ってRanking Systemを構築したい
    実際に使えるのはClickデータだけ

    View Slide

  7. © So-net Media Networks Corporation.
    7
    最適化したい損失の計算にはRelevanceが必要
    しかし、コストと時間がかかるのでhuman annotationはしたくない
    安価に⼿に⼊るClickデータを使ってRanking Systemを構築したい
    Relevanceだった部分をClickにそのまま⼊れ替えても⼤丈夫︖
    実際に使えるのはClickデータだけ

    View Slide

  8. © So-net Media Networks Corporation.
    8
    ある検索クエリに対して10個のdocumentを表⽰したとき
    Position (k) Relevance ??? Click
    1 ◎ ◎
    2 × ×
    --- --- --- ---
    9 ◎ ×
    10 × ×
    必ずしも Relevance = Click とは⾔えなさそう...
    ClickはRelevanceの代わりになる︖

    View Slide

  9. © So-net Media Networks Corporation.
    9
    ClickとRelevanceを関係付けるため次のPosition-Based Modelを導⼊
    かつ
    Click
    Position-Based Model (PBM)
    Examination
    (positionのみに依存)
    Relevance
    (query-docのみに依存)
    C: Click
    E: Examination
    R: Relevance

    View Slide

  10. © So-net Media Networks Corporation.
    10
    ある検索クエリに対して10個のdocumentを表⽰したとき
    Position (k) Relevance Examine Click
    1 ◎ ◎ ◎
    2 × ◎ ×
    --- --- --- ---
    9 ◎ × ×
    10 × × ×
    Position-Based Model (PBM)
    検討するか否か
    ClickデータはExaminationの存在によってバイアスがかかっている

    View Slide

  11. © So-net Media Networks Corporation.
    11
    Relevanceだった部分をClickにそのまま⼊れ替えたらダメ︕
    Inverse Propensity Approach

    View Slide

  12. © So-net Media Networks Corporation.
    12
    Relevanceだった部分をClickにそのまま⼊れ替えたらダメ︕
    Examination確率の逆数で重み付け [Joachims et al., WSDM2017]
    logに残ってる︕
    Inverse Propensity Approach

    View Slide

  13. © So-net Media Networks Corporation.
    13
    Examination確率の逆数で重み付け [Joachims et al. WSDM2017]
    logに残ってる︕
    Inverse Propensity Approach
    Inverse Propensityの直感的な理解
    • 下のpositionにも関わらずclickが発⽣したデータを重要視
    • 理論的にも正当性が⽰される

    View Slide

  14. © So-net Media Networks Corporation.
    14
    重み付けした
    損失の期待値
    真の損失
    Unbiased!
    Inverse Propensity Approach

    View Slide

  15. © So-net Media Networks Corporation.
    関連研究

    View Slide

  16. © So-net Media Networks Corporation.
    16
    WSDM2017で枠組みが提案されて以降、PBMのモデル化のもとで
    Examination確率をいかに推定するかが研究の主な焦点
    • Swapping Experiment [Joachims et al. WSDM2017]
    • ランダムなランキング表⽰データを⽤いて推定
    • Regression-EM [Wang et al. WSDM2018]
    • ランダム配信なしでパラメータをEM-basedな⼿法で推定
    • Dual Learning Algorithm [Ai et al. SIGIR2018]
    • RelevanceとExaminationのunbiasedなlossを相互依存する形で最適化
    関連研究

    View Slide

  17. © So-net Media Networks Corporation.
    17
    WSDM2017で枠組みが提案されて以降、PBMのモデル化のもとで
    Examination確率をいかに推定するかが研究の主な焦点
    • Swapping Experiment [Joachims et al. WSDM2017]
    • ランダムなランキング表⽰データを⽤いて推定
    関連研究
    • ⼤量の介⼊が必要・時間がかかる(コスト⼤)

    View Slide

  18. © So-net Media Networks Corporation.
    18
    WSDM2017で枠組みが提案されて以降、PBMのモデル化のもとで
    Examination確率をいかに推定するかが研究の主な焦点
    • Regression-EM [Wang et al. WSDM2018]
    • ランダム配信なしでパラメータをEM-basedな⼿法で推定
    • Dual Learning Algorithm (前回発表) [Ai et al. SIGIR2018]
    • RelevanceとExaminationのunbiasedなlossを相互依存する形で最適化
    関連研究
    途中でRelevanceを推定必要がある (本末転倒感)
    (relevance modeling)

    View Slide

  19. © So-net Media Networks Corporation.
    メタ情報

    View Slide

  20. © So-net Media Networks Corporation.
    20
    Estimating Position Bias without Intrusive Interventions
    @WSDMʼ19
    • サマリー
    • Rankerに関するA/Bテストが有する特殊な構造を活⽤
    • Relevance modelingを必要とせずExamination確率を
    効率的に推定する⽅法を提案
    メタ情報・サマリー
    押し付けがましい介⼊

    View Slide

  21. © So-net Media Networks Corporation.
    従来の推定⽅法の詳細

    View Slide

  22. © So-net Media Networks Corporation.
    22
    Swapping Experimentによる推定⽅法
    PBMのモデル化のもとでもっとも単純なexamination確率の推定⽅法
    k番⽬とkʼ番⽬の結果を⼀定確率でswap
    元の出⼒ swap後
    1番⽬と3番⽬をswapする例
    何が嬉しいのか︖
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  23. © So-net Media Networks Corporation.
    23
    Swapping Experimentによる推定⽅法
    PBMのモデル化のもとでもっとも単純なexamination確率の推定⽅法
    k番⽬とkʼ番⽬の結果を⼀定確率でswap
    元の出⼒ swap後
    1番⽬と3番⽬をswapする例
    k, kʼ番⽬のrelevanceの期待値が⼀致
    CTRの⽐はexamineの⽐に︕
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  24. © So-net Media Networks Corporation.
    24
    Swapping Experimentによる推定⽅法
    PBMのモデル化のもとでもっとも単純なexamination確率の推定⽅法
    元の出⼒ swap後
    1番⽬と3番⽬をswapする例
    k, kʼ番⽬のrelevanceの期待値が⼀致
    CTRの⽐ Examine確率の⽐

    View Slide

  25. © So-net Media Networks Corporation.
    25
    Swap Interventionのつらみ
    元の出⼒ swap後
    1番⽬と3番⽬をswapする例
    Swappingではサンプル数を集め難い
    • 1query辺り1pairのみのswapしかしない
    場合、いつ終わるかわからない
    • 1query辺りにたくさんのpairのswapを
    する場合、はちゃめちゃなランキングに
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  26. © So-net Media Networks Corporation.
    提案⼿法

    View Slide

  27. © So-net Media Networks Corporation.
    27
    Intervention Harvesting
    Swapの⽋点に対応するため別のデータ形式を考えてみる
    どのqueryが来ても⼀定確率でm個の
    Rankerを割り当てる (A/B test)
    m=3の例
    数式的には,
    どのqueryにも ⼀定確率
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  28. © So-net Media Networks Corporation.
    28
    AB testは⼤量の実験を⽣成している
    異なるrankerによって偶発的に
    異なるpositionに提⽰されたdocs
    ⼤元のrankerの選択はランダム
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  29. © So-net Media Networks Corporation.
    29
    AB testは⼤量の実験を⽣成している
    異なるrankerによって偶発的に
    異なるpositionに提⽰されたdocs
    ⼤元のrankerの選択はランダム
    局所的にたくさんのswappingが
    同時に起こっているように⾒える
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  30. © So-net Media Networks Corporation.
    30
    Interventional Set
    複数RankerのA/B testによって観測されるデータを使って
    次のInterventional Setというものを考える(ややこしい)

    View Slide

  31. © So-net Media Networks Corporation.
    31
    Interventional Setの作り⽅
    複数RankerのA/B testによって観測されるデータを使って
    次のInterventional Setというものを考える(ややこしい)
    異なる2つのRankerによって
    それぞれk, kʼ番⽬にrankされたことがある
    queryとdocumentペアの集合

    View Slide

  32. © So-net Media Networks Corporation.
    32
    Interventional Setの作り⽅
    複数RankerのA/B testによって観測されるデータを使って
    次のInterventional Setというものを考える(ややこしい)
    異なる2つのRankerによって
    それぞれk, kʼ番⽬にrankされたことがある
    queryとdocumentペアの集合

    View Slide

  33. © So-net Media Networks Corporation.
    33
    Interventional Setの作り⽅
    複数RankerのA/B testによって観測されるデータを使って
    次のInterventional Setというものを考える(ややこしい)
    異なる2つのRankerによって
    それぞれk, kʼ番⽬にrankされたことがある
    queryとdocumentペアの集合

    View Slide

  34. © So-net Media Networks Corporation.
    34
    Interventional Setの作り⽅(具体例)
    m=3の例
    先ほどの例においては
    のようにInterventional Setを構成
    (d_3, d_5でも作れます)
    複数のsetに⼊ることも
    [Fang et al., SIGIR2019]のFigure 1

    View Slide

  35. © So-net Media Networks Corporation.
    35
    Interventional Setの性質 (理論的な説明)
    (注)厳密には正しくないですが、時間制約もあり直感的な理解を優先しました
    A/Bテストによって⽣成されるInterventional Setにおいて

    View Slide

  36. © So-net Media Networks Corporation.
    36
    Interventional Setの性質 (理論的な説明)
    (注)厳密には正しくないですが、時間制約もあり直感的な理解を優先しました
    同じInterventional Setに属するデータについて
    A/Bテストによって⽣成されるInterventional Setにおいて

    View Slide

  37. © So-net Media Networks Corporation.
    37
    Interventional Setの性質 (理論的な説明)
    (注)厳密には正しくないですが、時間制約もあり直感的な理解を優先しました
    k番⽬・kʼ番⽬におけるCTRの⽐
    A/Bテストによって⽣成されるInterventional Setにおいて

    View Slide

  38. © So-net Media Networks Corporation.
    38
    Interventional Setの性質 (理論的な説明)
    (注)厳密には正しくないですが、時間制約もあり直感的な理解を優先しました
    A/Bテストによって⽣成されるInterventional Setにおいて
    k番⽬・kʼ番⽬におけるCTRの
    k番⽬・kʼ番⽬におけるCTRの⽐ = Examination確率の⽐

    View Slide

  39. © So-net Media Networks Corporation.
    39
    Interventional Setの性質 (理論的な説明)
    A/Bテストによって⽣成されるInterventional Setにおいて
    より多くのデータを活⽤できるInterventional Setを使っても
    Swappingと同様の推定が可能 (⼀致性が保証, 効率性が改善)

    View Slide

  40. © So-net Media Networks Corporation.
    実験結果

    View Slide

  41. © So-net Media Networks Corporation.
    41
    Arxiv Full-Text Search
    Arxivにおけるこの画⾯のpositionごとのexamination確率を推定
    query : unbiased learning-to-rank
    time : 2019/08/02, 06:29
    Relevanceに設定して検索
    https://arxiv.org

    View Slide

  42. © So-net Media Networks Corporation.
    42
    Intervention Harvestingは効率的
    設定
    同数queryに対してSwap Experimentと
    Intervention Harvestingを⾏い
    k=20までのexamination確率を推定
    結果
    同数のqueryにおいてIntervention
    Harvestingは⼤量のデータを活⽤するため
    よりタイトな信頼区間 (by bootstrap)
    [Agarwal et al., WSDM2019]
    その他semi-synthetic dataを⽤いた実験もやってました

    View Slide

  43. © So-net Media Networks Corporation.
    43
    まとめ
    • Examination確率のためのSwappingは⾼コストであり,
    Relevance modelingは本末転倒感
    • Rankerに関するA/Bテストが有する特殊な構造を活⽤することで
    効率的なExamination確率の推定を達成する
    Intervention Harvestingを提案
    • 同数queryを使った実験においてSwappingよりも効率的で
    他の⼿法よりも正確な推定が可能に

    View Slide

  44. © So-net Media Networks Corporation.
    ご静聴ありがとうございました

    View Slide

  45. © So-net Media Networks Corporation.
    45
    [Joachims et al. WSDM2017]: Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with
    biased feedback. In Proceedings of the 10th ACM International Conference on Web Search and Data Mining (WSDM ʼ17).
    [Wang et al. WSDM2018]: Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias
    Estimation for Unbiased Learning to Rank in Personal Search. In Proceedings of the 11th ACM International Conference on Web
    Search and Data Mining (WSDM ʼ18).
    [Ai et al. SIGIR2018]: Qingyao Ai, Keping Bi, Cheng Luo, Jiafeng Guo, and W. Bruce Croft. Unbiased learning to rank with unbiased
    propensity estimation. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval
    (SIGIRʼ18).
    [Agarwal et al. WSDM2019]: Aman Agarwal, Ivan Zaitsev, Xuanhui Wang, Cheng Li, Marc Najork and Thorsten Joachims. 2019.
    Estimating Position Bias without Intrusive Interventions. In The 12th ACM International Conference on Web Search and Data
    Mining (WSDM ʼ19)
    [Hu et al. WWW2019]: Ziniu Hu and Yang Wang, Qu Peng, Hang Li. 2019. Unbiased LambdaMART: An Unbiased Pairwise Learning-
    to-Rank Algorithm. In Proceedings of the 2019 World Wide Web Conference (WWW ʼ19)
    [Agarwal et al. WWW2019]: Aman Agarwal, Xuanhui Wang, Cheng Li, Mike Bendersky, and Marc Najork. 2019. Addressing Trust
    Bias for Unbiased Learning-to-Rank. In Proceedings of the 2019 World Wide Web Conference (WWW ʼ19)
    [Fang et al. SIGIR2019] Fang, Z., Agarwal, A., and Joachims, T. Intervention harvesting for context-dependent examination-bias
    estimation. arXiv preprint arXiv:1811.01802, 2018.
    References

    View Slide