SIGIR2021読み会

Bias and Counterfactual Learning 大垣慶介 SIGIR論文読み会

Bias and Counterfactual Learning Implicit Feedbackに対するBias => 全体利益最適化 ▪ 我々が観測してるのはあくまでも一部のCVしたユーザーの結果であり、そ
れだけで最適化を行うと、全体CVは最適値にならないドキュメントに存在するステレオタイプのBias => Fairness ▪ 現在クリック数が多いドキュメントであっても、ステレオタイプ・偏見が含まれている不適切なドキュメントであることもある

反実仮想(表示バイアス) • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing
Post-Click Conversion Rate Estimation • 表示されてても順位によって見られたり見られなかったり、その記事より上に他の記事が何でてるかによってもクリックするか変わるよね ◦ Adapting Interactional Observation Embedding for Counterfactual Learning to Rank • Counterfactual以外に、オンライン学習という手もあるけど、実際どう違うの ◦ Unbiased Learning to Rank: Online or Offline? Fairness • ステレオタイプの激しいドキュメントは検索順位を下げよう ◦ Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation for BERT Rankers • ところで、結果の表示順ってユーザーの意見に影響与えちゃわない？ ◦ This Is Not What We Ordered: Exploring Why Biased Search Result Rankings Affect User Attitudes on Debated Topics

Counterfactual Learning is 何クリックを元にした学習はシンプルで良いが、バイアスがあるので、バイアスもモデル化して、 ”もしバイアスがなければどのようなCVRになるか”を使って学習しよう一番上にダメなやつがでてると永遠にいい記事のフィードバックが得られない • そもそも表示されてない人はクリックされないし
• 表示されてても順位によって見られたり見られなかったり • 特にいい記事じゃなくても上位に出ることが多くてクリックされたとか • 他の記事が何でてるかによってもクリックするか変わるよね (エムスリーでもポジションバイアスとして考慮されてる話の一般化 )

Enhanced Doubly Robust Learning for Debiasing Post-Click Conversion Rate Estimation
CVR予測におけるバイアス現実的にはクリックしてないイベントは CVRも0として学習される -> バイアス oを予測値でキャンセルしたい。そのために抜けおちてるもの -> 2つの仮定: • いま表示されてないものがもし表示されたらどれくらいconversionしてたか: imputed error • 今クリックされているものはどれくらい観測しやすかったか -> doubly robust

Doubly Robust 片方ロバストなモデル (それぞれoをキャンセル) (Enhanced) Doubly Robust oをキャンセルしたい。そのために抜けおちてるもの -> 2つの仮定:
• いま表示されてないものがもし表示されたらどれくらいconversionしてたか: imputed error • 今クリックされているものはどれくらい観測しやすかったか -> doubly robust

面白いところ: 交互に学習 p_hatを学習 -> e_hatを学習というステージを両方のモデルが収束するまで続ける(依存があるため)

Adapting Interactional Observation Embedding for Counterfactual Learning to Rank その記事より上に他の記事が何でてるかによってもクリックするか変わるよね
何番目に表示されたかどういう内容のクエリで、何番目に表示されたかいままでどれとどれと。。。を表示・クリックしたか https://dl.acm.org/doi/10.1145/3404835.3462917 めちゃくちゃ多い依存を LSTMでモデリング

Unbiased Learning to Rank: Online or Offline? バイアスを除くには、 Counterfactual以外に、オンライン学習という手もあるけど、実際どう違うのオンライン:
正確にそれぞれの記事のクリック率は出せないけど、相関がある指標として並べ替えリスト同士の比較(bandit) オフライン(反実仮想): クリック以外の変数も使って真のrelevanceを推定する • オンラインのほうが有利な環境はあるが、オフラインのほうが手法に依存しにくい • 筆者らが過去手法を実装して実験、実装もOSS公開 https://github.com/ULTR-Community/ULTRA https://www.youtube.com/watch?v=WWd6txl135A

表示バイアス • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing

Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation
for BERT Rankers https://github.com/CPJKU/FairnessRetrievalResults Governor を Heで受けるバイアスがかかってる文書を順位下げられる Learning to Rankに qとdの近さ (通常のmetric learning) 属性Xを当てられる学習の反転(adversarial) GANではtrue/fakeだけどここでは男性 /女性などを当てられないように

This Is Not What We Ordered: Exploring Why Biased Search
Result Rankings Affect User Attitudes on Debated Topics • 検索結果を見せた後に意見はどう変わるか • 各コンテンツには事前に賛成派か反対派かのラベルが振られており、それを並び順のバイアス度合いを変えて様々な被験者に見せる検索結果の表示順がユーザーの意見を変えるのは、上位が目に入るせいか、あるいは上位を信頼しているせいかバイアスによって意見は変わったただし、それは上位に出る記事のクリック数が高いから意見のバイアスをかけても、ポジションバイアスは変わらない (上位の意見が重要なら下位の挙動は変わりそう)

表示バイアス • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing

SIGIR2021読み会

SIGIR2021読み会

Keisuke OGAKI

More Decks by Keisuke OGAKI

Other Decks in Science

Featured

Transcript

Bias and Counterfactual Learning 大垣慶介 SIGIR論文読み会

Bias and Counterfactual Learning Implicit Feedbackに対するBias => 全体利益最適化 ▪ 我々が観測してるのはあくまでも一部のCVしたユーザーの結果であり、そ

反実仮想(表示バイアス) • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing

反実仮想(表示バイアス) • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing

Enhanced Doubly Robust Learning for Debiasing Post-Click Conversion Rate Estimation

Doubly Robust 片方ロバストなモデル (それぞれoをキャンセル) (Enhanced) Doubly Robust oをキャンセルしたい。そのために抜けおちてるもの -> 2つの仮定:

面白いところ: 交互に学習 p_hatを学習 -> e_hatを学習というステージを両方のモデルが収束するまで続ける(依存があるため)

Adapting Interactional Observation Embedding for Counterfactual Learning to Rank その記事より上に他の記事が何でてるかによってもクリックするか変わるよね

Unbiased Learning to Rank: Online or Offline? バイアスを除くには、 Counterfactual以外に、オンライン学習という手もあるけど、実際どう違うのオンライン:

表示バイアス • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing

Societal Biases in Retrieved Contents: Measurement Framework and Adversarial Mitigation

This Is Not What We Ordered: Exploring Why Biased Search

表示バイアス • そもそも表示されてない人はクリックされないし ◦ Enhanced Doubly Robust Learning for Debiasing