Unbiased Learning-to-Rank with Unbiased Propensity Estimation@MLPRP#1

6e166ed0b8cf24a9d5aef105dacf5db7?s=47 usaito
May 10, 2019

Unbiased Learning-to-Rank with Unbiased Propensity Estimation@MLPRP#1

Machine Learning Papers Reading Pitch (MRPRP) #1
https://machine-learning-pitch.connpass.com/event/127956/

6e166ed0b8cf24a9d5aef105dacf5db7?s=128

usaito

May 10, 2019
Tweet

Transcript

  1. © So-net Media Networks Corporation. Unbiased Learning-to-Rank with Unbiased Propensity

    Estimation 東京⼯業⼤学 経営⼯学系 B4 中⽥研究室 齋藤 優太
  2. © So-net Media Networks Corporation. 2 ⽬次 • メタ情報・サマリー •

    Unbiased Learning-to-Rank • 関連研究 • 提案⼿法 • 実験結果 • まとめ・QA
  3. © So-net Media Networks Corporation. 3 メタ情報・サマリー • 主著︓Qingyao Ai

    (UMass Amherst) • 学会︓SIGIRʼ18 • サマリー • Clickデータのみを⽤いてRelevanceを予測する分野 • これまではClickデータのみを⽤いることで⽣まれるbiasを 補正する処理を学習の前段で別途⾏う必要があった • Biasの補正とモデルの学習をend-to-endで⾏う⼿法を提案
  4. © So-net Media Networks Corporation. 4 検索クエリに対し最適なドキュメントのランキングを返したい 例)ある検索クエリに対して10個のdocumentを表⽰するとき Position (k)

    Ranking 1 Ranking 2 1 5 1 2 4 2 --- --- --- 9 1 5 10 2 4 Ranking 1のように 関連度の⾼いdocumentを 上位に表⽰したい (5段階の関連度) ランキング学習とは
  5. © So-net Media Networks Corporation. 5 次のように⼀般的な損失関数を考えてみる Rankingに関連する関数 : (query,

    document, relevance) のデータ : あるqueryと共起したdocument集合 ランキング学習の定式化
  6. © So-net Media Networks Corporation. 6 損失関数として例えば、 Relevantなdocumentの順位の総和を⼩さくしたい Relevantなdocumentの順位の逆数の総和を⼩さくしたい 実際はlogかけたり

    ランキング学習の損失関数
  7. © So-net Media Networks Corporation. 7 最適化したい損失の計算にはRelevanceが必要 しかし、コストと時間がかかるのでhuman annotationはしたくない 安価に⼿に⼊るClickデータを使ってRanking

    Systemを構築したい 実際に使えるのはClickデータだけ
  8. © So-net Media Networks Corporation. 8 最適化したい損失の計算にはRelevanceが必要 しかし、コストと時間がかかるのでhuman annotationはしたくない 安価に⼿に⼊るClickデータを使ってRanking

    Systemを構築したい Relevanceだった部分をClickにそのまま⼊れ替えても⼤丈夫︖ 実際に使えるのはClickデータだけ
  9. © So-net Media Networks Corporation. 9 ある検索クエリに対して10個のdocumentを表⽰したとき Position (k) Relevance

    ??? Click 1 ◎ ◎ 2 × × --- --- --- --- 9 ◎ × 10 × × 必ずしも Relevance = Click とは⾔えなさそう... ClickはRelevanceの代わりになる︖
  10. © So-net Media Networks Corporation. 10 ClickとRelevanceを関係付けるため次のPosition-Based Modelを導⼊ Examination Relevance

    かつ Click Position-Based Model (PBM)
  11. © So-net Media Networks Corporation. 11 ClickとRelevanceを関係付けるため次のPosition-Based Modelを導⼊ このモデル化のもとでは、 •

    queryとdocumentがrelevantかつexaminedのときclickが発⽣ • Relevanceはqueryとdocumentのみに依存 • Examinationはpositionのみに依存 Examination Relevance Click Position-Based Model (PBM)
  12. © So-net Media Networks Corporation. 12 ある検索クエリに対して10個のdocumentを表⽰したとき Position (k) Relevance

    Examine Click 1 ◎ ◎ ◎ 2 × ◎ × --- --- --- --- 9 ◎ × × 10 × × × RelevanceとExaminationの両⽅が発⽣して初めてClickが発⽣ Position-Based Model (PBM)
  13. © So-net Media Networks Corporation. 13 Relevanceだった部分をClickにそのまま⼊れ替えたらダメ︕ Inverse Propensity Approach

  14. © So-net Media Networks Corporation. 14 Relevanceだった部分をClickにそのまま⼊れ替えたらダメ︕ Examination確率の逆数で重み付け [Joachims et

    al. (2017)] データに残ってる︕ Inverse Propensity Approach
  15. © So-net Media Networks Corporation. 15 重み付けした 損失の期待値 真の損失 Unbiased!

    Inverse Propensity Approach
  16. © So-net Media Networks Corporation. 関連研究

  17. © So-net Media Networks Corporation. 17 WSDM2017で枠組みが提案されて以降、 Examination確率をいかに推定するかが研究の主な焦点 • Result

    Randomization [Joachims et al. WSDM2017] • ランダムなランキング表⽰データを⽤いて推定 • Regression-EM [Wang et al. WSDM2018] • ランダム配信なしでパラメータをEM-basedな⼿法で推定 • Intervention-Harvesting [Wang et al. WSDM2019] • Relevanceモデルをexamination parameterの推定時に必要としない 関連研究
  18. © So-net Media Networks Corporation. 18 そのほかの研究も、Examination確率の推定 -> 学習の⼿順を前提 •

    Trust Position-Based Model [Agarwal et al. WWW2019] • Position-Based ModelにTrust Biasを導⼊した新たなモデル化 • Unbiased LambdaMART [Hu et al. WWW2019] • Inverse Propensity ScoreをPairwise lossに拡張 • Context Dependent Examination Bias [Fang et al. SIGIR2019] • Examination確率がcontextにも依存するというモデル化 関連研究
  19. © So-net Media Networks Corporation. 提案⼿法

  20. © So-net Media Networks Corporation. 20 • 近年の⼿法の複雑化にわかるようにExaminationの推定は困難 • さらに、モデルの学習毎にExaminationの推定も⾏わなければならない

    • Examination parameterの推定を容易にしたい • end-to-endでexamination parameterの推定と relevanceの予測を達成するモデルが欲しい 問題意識
  21. © So-net Media Networks Corporation. 21 既存のIPSのアイデア︓両辺をExamination parameterで割る Examination Relevance

    Click Relevanceを分離︕ 提案⼿法のアイデア
  22. © So-net Media Networks Corporation. 22 本研究のアイデア︓両辺をRelevance parameterで割る Examinationを分離︕ Examination

    Relevance Click 提案⼿法のアイデア
  23. © So-net Media Networks Corporation. 23 次のExamination parameterの推定に対する真の損失を わからない... 先ほどのアイデアを⽤いてRelevance

    parameterの逆数で重み付け データに残ってる︕ Inverse Relevance Weighting
  24. © So-net Media Networks Corporation. 24 Unbiased! 重み付けした 損失の期待値 真の損失

    Inverse Relevance Weighting
  25. © So-net Media Networks Corporation. 25 Softmax Loss 分析に基づいた重み付けによりnaiveなlossを補正する 提案⼿法︓Dual

    Learning Algorithm (DLA)
  26. © So-net Media Networks Corporation. 26 重み付け 分析に基づいた重み付けによりnaiveなlossを補正する 提案⼿法︓Dual Learning

    Algorithm (DLA)
  27. © So-net Media Networks Corporation. 27 重み付け部分はもう⼀⽅のパラメータに依存 Examination Relevance 提案⼿法︓Dual

    Learning Algorithm (DLA)
  28. © So-net Media Networks Corporation. 28 3 Queryのmini-batchサンプリング 5 ExaminationとRelevanceの

    Parameterを推定 6 Lossを計算. それぞれのLossは もう⼀⽅のparameterに依存 7 Lossの勾配でparameter更新 提案⼿法︓Dual Learning Algorithm (DLA) [Ai et al. 2018]のAlgorithm1を引⽤
  29. © So-net Media Networks Corporation. 実験結果

  30. © So-net Media Networks Corporation. 30 Yahoo! LETOR dataset •

    29,921 queries • 710k documents • 5 level relevance judgement (ただし, click dataはなし) • 700 features Gold-standard parametersを⼈⼯的に⽣成 examination relevance 実験設定①
  31. © So-net Media Networks Corporation. 31 Result Randomizationを⽤いて学習したDNN(RandList)と遜⾊なく、 それ以外のbaselinesよりも良い結果を全ての指標で観測 •

    Click dataはexaminationとrelevanceの実現値の積によって⽣成 • Training dataのpositionはinitial rankerによって⽣成 実験結果① [Ai et al. 2018]のTable3を引⽤
  32. © So-net Media Networks Corporation. 32 バイアス⼩ バイアス⼤ バイアス⼩ バイアス⼤

    • バイアスが⼤きさとNoCorrectの性能は負の相関 • RandListはbiasのmisspecificationに敏感 • DLAは都度biasを学習できるのでバイアスの ⼤きさにそれほど影響を受けず良い性能 実験結果① [Ai et al. 2018]のFigure1, 2を引⽤
  33. © So-net Media Networks Corporation. 33 Commercial Web Search Data

    • 3,449 queries • Top 10 results for two weeks • 5 level relevance judgement • 33 features 古典的なClick Modelsの⼿法の性能を実験的に⼀貫して上回る結果 実験設定 & 結果② [Ai et al. 2018]のTable4を引⽤
  34. © So-net Media Networks Corporation. 34 ご静聴ありがとうございました︕ • これまではClickデータのみを⽤いることで⽣まれる biasを補正する処理を学習の前段で別途⾏う必要があった

    • Bias補正とRelevance推定が実は同じ問題であることを指摘 • Biasの補正とモデルの学習をend-to-endで⾏うDLAを提案 まとめ
  35. © So-net Media Networks Corporation. 35 [Joachims et al. WSDM2017]:

    Thorsten Joachims, Adith Swaminathan, and Tobias Schnabel. 2017. Unbiased learning-to-rank with biased feedback. In Proceedings of the 10th ACM International Conference on Web Search and Data Mining (WSDM ʼ17). [Wang et al. WSDM2018]: Xuanhui Wang, Nadav Golbandi, Michael Bendersky, Donald Metzler, and Marc Najork. 2018. Position Bias Estimation for Unbiased Learning to Rank in Personal Search. In Proceedings of the 11th ACM International Conference on Web Search and Data Mining (WSDM ʼ18). [Ai et al. SIGIR2018]: Qingyao Ai, Keping Bi, Cheng Luo, Jiafeng Guo, and W. Bruce Croft. Unbiased learning to rank with unbiased propensity estimation. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (SIGIRʼ18). [Agarwal et al. WSDM2019]: Aman Agarwal, Ivan Zaitsev, Xuanhui Wang, Cheng Li, Marc Najork and Thorsten Joachims. 2019. Estimating Position Bias without Intrusive Interventions. In The 12th ACM International Conference on Web Search and Data Mining (WSDM ʼ19) [Hu et al. WWW2019]: Ziniu Hu and Yang Wang, Qu Peng, Hang Li. 2019. Unbiased LambdaMART: An Unbiased Pairwise Learning- to-Rank Algorithm. In Proceedings of the 2019 World Wide Web Conference (WWW ʼ19) [Agarwal et al. WWW2019]: Aman Agarwal, Xuanhui Wang, Cheng Li, Mike Bendersky, and Marc Najork. 2019. Addressing Trust Bias for Unbiased Learning-to-Rank. In Proceedings of the 2019 World Wide Web Conference (WWW ʼ19) [Fang et al. SIGIR2019] Fang, Z., Agarwal, A., and Joachims, T. Intervention harvesting for context-dependent examination-bias estimation. arXiv preprint arXiv:1811.01802, 2018. References