Introduction to Interleaving Ranking Evaluation

Introduction to Interleaving Jun Ernesto Okumura @ 情報検索/推薦各社合同論文読み祭
2021/7/15 Photo by Etienne Boulanger on Unsplash

自己紹介: 奥村純 ( ) • Career ◦ 2020.3〜 Data
Director 執行役員 @Eureka, inc ◦ 2014.4〜データアナリスト, MLエンジニア @DeNA ◦ note | データアナリストの成長段階 • Interest ◦ データ組織マネジメント ◦ 強化学習 ◦ 検索・推薦技術（勉強中）『データサイエンティスト養成読本ビジネス活用編』（技術評論社） R. Sutton and A. Balto “Reinforcement Learning”（翻訳中） @pacocat

紹介する文献 A probabilistic method for inferring preferences from clicks Hofmann
2011 (CIKM 2011) Comparing the Sensitivity of Information Retrieval Metrics Radlinski & Craswell 2010 (SIGIR 2010) Innovating Faster on Personalization Algorithms at Netflix Using Interleaving Parks et al. 2019 (Netflix TechBlog 2017) 1 2 3 Motivation • ランキングの指標設計に関心がある（適切な OECの定義や指標のsensitivity） • Yandexの登壇資料（Effective Online Evaluation for Web Search; SIGIR 2019 Tutorial）で興味を持った

ランキングアルゴリズムの評価軸評価が明示的に与えられるフィードバック • ユーザーの手動レーティング、スコアリング • アノテーターによる評価 ※1 評価が明示的に与えられないフィードバック • クリック
• セッション時間 Pros • 品質を直接的に評価できる Cons • 収集コストが高い • アノテーションは検索者と評価者が異なる ◦ 検索背景が異なるのでバイアスがかかる Pros • 収集が容易（行動ログから集められる） Cons • 品質を必ずしも表現している訳ではない ※2 ◦ クリックベイト（clickbait） ◦ 関連の低い結果によるセッション時間の増加 ※1: 最初に紹介する 2論文はドキュメント検索を想定しており、結果の関連度をアノテーターが 5段階評価したデータが使われている ※2: 例えば以下。他にも、ユーザーによってクリックやセッションのパターンが異なり Noisy なデータになる可能性も指摘されている。 D. Kelly and N. Belkin. Display time as implicit feedback: understanding task effects. In SIGIR ’04, pages 377–384, 2004. Explicit Feedback Implicit Feedback

ランキングアルゴリズムの評価軸各ランキングがどの程度いいか絶対的に評価 • クリックやレーティングに基づいたスコア • Precision, MAP@K, DCG, ...※ 2つ以上のランキングのどちらがいいかを相対評価
• ユーザーにどちらかいい方を選んでもらう • Interleaving ← 今回話す内容 Pros • 各rankerを直接スコア付けできる • A/Bテストで片方の群だけを表示できる Cons • ユーザーやクエリによってクリック傾向が違う ◦ 同質ユーザー同士で比較する必要がある Pros • 同じユーザー内で2つのリストを評価できる Cons • 2つのリストを同時に表示して評価する場合はデータ収集コストが高い • 片方の群だけを表示することができない ※ 各指標の説明はBrainPadさんのBlogに詳しいです: https://blog.brainpad.co.jp/entry/2017/08/25/140000 Absolute Estimation Relative Estimation

ランキングアルゴリズムの評価軸 2つ以上のランキングのどちらがいいかを相対評価 • ユーザーにどちらかいい方を選んでもらう • Interleaving Pros • 同じユーザー内で2つのリストを評価できる Cons
• 2つのリストを同時に表示して評価する場合はデータ収集コストが高い • 片方の群だけを表示することができない ※ 画像はGoogleとBingの検索結果を区別するプロジェクトのもので、選好を選ぶ文脈から離れますが UI の参考例として載せています Relative Estimation

Interleaving rankerの相対比較のために、2つ以上のランキングを織り込んで相対評価する ranker A ranker B … … …

代表的なInterleaving手法織り込み方、評価方法によっていくつかのバリエーションがある • Balanced Interleaving (Joachims et al. 2003※1) •
Document Constraints (He et al. 2009※2) • Team Draft (Radlinski et al. 2008※3) • Probablistic Interleaving (Hofmann et al. 2011※4) （まずは、最初の3手法の比較をしてから、4番目の手法を解説します） ※1: T. Joachims. Evaluating retrieval performance using clickthrough data. In J. Franke, G. Nakhaeizadeh, and I. Renz, editors, pages 79–96. Springer, 2003. ※2: J. He, C. Zhai, and X. Li. Evaluation of methods for relative comparison of retrieval systems based on clickthroughs. In CIKM ’09, pages 2029–2032, 2009. ※3: F. Radlinski, M. Kurup, and T. Joachims. How does clickthrough data reflect retrieval quality? In CIKM ’08, pages 43–52, 2008. ※4: K. Hofmann, Shimon Whiteson, and Maarten de Rijke. 2011. A probabilistic method for inferring preferences from clicks. In CIKM '11.

Photo by Etienne Boulanger on Unsplash A probabilistic method for
inferring preferences from clicks Hofmann et al. 2011 (CIKM 2011) 1

Balanced Interleaving: Algorithm ※ Joachims, “Unbiased Evaluation of Retrieval Quality
using Clickthrough Data”, 2002 各リストの何番目のアイテムを見るか管理するポインタポインタが一致していれば、リスト A からまだ登録されていないアイテムを追加 Aのポインタをインクリメント ※ ここではリスト A を優先しているが、A,Bどちらを優先するかはランダムに決めるポインタが一致してなければ、リスト B からまだ登録されていないアイテムを追加 Bのポインタをインクリメント

Balanced Interleaving: Example d1 d2 d3 d4 d2 d3 d4
d1 d1 d2 d3 d4 d2 d1 d3 d4 list list どちらのリストから優先するかで 2種類のパターンが実現 ① から一番ランクが高い d1 を選択（k 1 =1, k 2 =0） ② から一番ランクが高い d2 を選択（k 1 =1, k 2 =1） ③ で一番ランクが高い d2 は既に選ばれてる（ k 1 =2, k 2 =1） ④ で一番ランクが高い d3 を選択（k 1 =2, k 2 =2） ⑤ で一番ランクが高い d3 は既に選ばれてる（ k 1 =3, k 2 =2） ⑥ で一番ランクが高い d4 を選択（k 1 =2, k 2 =2）同様に、から選択を始めれば左のようなリストが完成する

Balanced Interleaving: Evaluation d1 d2 d3 d4 d2 d1 d3
d4 × × × × ① 最もランクが低いクリックアイテムを求める ② 各リストにおける対象アイテムのランクの小さい方を求める ③ 各リストでランクkより上位のクリックをカウント ④ カウントが多かったの勝ち ① 最もランクが低いクリックアイテムを求める ② 各リストにおける対象アイテムのランクの小さい方を求める ③ 各リストでランク k より上位のクリックをカウント ④ カウントは同数なので引き分け click クリック実績から、各ランクに含まれる特定条件のクリック数をカウントして勝者を決定する d1 d2 d3 d4 d2 d3 d4 d1 list list

Document Constraints: Overview 「クリックされたアイテムはクリックされなかったアイテムより上位に来るべき」を明示的に評価 • リスト生成は Balanced Interleaving と同じ
• クリックされたアイテムと、より上位にあるクリックされなかったアイテムを定義 • 推論された制約を各リストがどれだけ守っているか、で勝敗を決定 d1 d2 d3 d4 × × ① 制約を推論 d1 d2 d3 d4 d2 d3 d4 d1 list list ② 制約が守られているかを審査 ③ はどちらも守れておらず、　はどちらも守っているのでの勝ち d2 d1 d3 d4 × × ③ は一つ守れており　はどちらも守っていないのでの勝ち

Team Draft: Algorithm ※ Radlinski et al., “How does clickthrough
data reflect retrieval quality?”, CIKM 2008 コイントスによってどちらのチーム（リスト）がメンバー（アイテム）を選べるか決定 ※ 選出メンバーが偏らない（高々 1の差になる）よう制約がある Aが主導権を取れば、一番ランクの高いメンバー（アイテム）を選出加えて「アイテムにAチームから選ばれた」という属性を付与 Bが主導権を取れば、一番ランクの高いメンバー（アイテム）を選出加えて「アイテムにBチームから選ばれた」という属性を付与

Team Draft: Example d1 d2 d3 d4 d2 d3 d4
d1 d1 d2 d3 d4 list list ① 乱数でが選ばれれば、一番高ランクの d1 を選出 ② から、一番高ランクの d2 を選出 ③ 乱数でが選ばれれば、一番高ランクの d3 を選出 ④ から、一番高ランクの d4 を選出乱数の出方によって以下の 3つのパターンも生成される d2 d1 d3 d4 d2 d1 d3 d4 d1 d2 d3 d4 選出アイテムがどちらのリストの寄与かを明示的に保存している点が特徴

Team Draft: Evaluation d1 d2 d3 d4 d2 d1 d3
d4 d2 d1 d3 d4 d1 d2 d3 d4 ① チームごとにクリックをカウント × ② カウントの多いの勝ち × × ① チームごとにクリックをカウント ② カウントの多いの勝ち × ① チームごとにクリックをカウント ② カウントの多いの勝ち ① チームごとにクリックをカウント ② カウントの多いの勝ちどちらのチーム（リスト）のメンバー（アイテム）がよりクリックされたかで勝敗を決定

結局どの手法がいいの？以下2つの観点で手法を評価していく Bias • ランダムなクリック分布が与えられた時に、どちらか一方のリストを選好してしまうかどうか • Biasの影響を受けないほうが評価手法としては好ましい Sensitivity • 優れた方のリストを正しく検知できるかどうか
• Sensitivityが高いほうが評価手法としては好ましい

　の上位2件を入れ替えたもの Bias Assessment : Balanced Interleaving d1 d2 d3
d4 d2 d3 d4 d1 d1 d2 d3 d4 d2 d1 d3 d4 list list と全く同じ ① Balanced Interleavingは結果のリストが似やすい • 1つ目のパターンでは、上位の結果はの貢献になりやすい • に対しても同様のバイアスはあるが、これらの効果がキャンセルアウトするとは限らない • 実際、全てのクリックパターンを表にするとが選好される※ ② 位置バイアス (position bias)の存在 • d1やd2がクリックされやすいのでを選好しやすい ※ 実際にやってみると確かにこの通りになります Balanced Interleaving はbiasの影響を受ける

Bias Assessment: Document Constraints d1 d2 d3 d4 d2 d3
d4 d1 d1 d2 d3 d4 list list Balanced Interleavingと同様の振り分けがされるので bias影響あり加えて、評価方法にも biasがかかる • 同じようなリストが生成されると、クリックが連動する • 結果、より多くのクリックが多くの制約を作ることになり、左の例ではが不利になりやすい Document Contraints はbiasの影響を受ける × × × × × ×

Bias Assessment: Team Draft 各イテレーションでサイコロを振ってアイテムをアサインするので、どのアイテムも均等にチームに振り分けられバイアスが生じない d1 d2 d3 d4
d2 d1 d3 d4 d2 d1 d3 d4 d1 d2 d3 d4

Sensitivity Assessment NDCGのように、優れた方のリストを正しく選好するアルゴリズムになっているか？ • そもそもリストの優劣と Interleavingに相関がなければ、 Sensitivityはない ◦ c.f. 実は、この相関はいくつかの実験で確認されている（後述）
• 仮に相関があったとしても、 Sensitivityがないケースもある ◦ Team Draftの例では、唯一クリックされた d3を高ランクに置いているがより優れたリストになっているが、 Team Draftで評価すると引き分けになってしまう d1 d2 d3 d4 d2 d3 d4 d1 list list × × d3をより高くリストしているの方が優れているはず（が、Team Draftではこの差は検知できていない）

UnbiasかつSensitivityも高いProbablistic Interleavingの提案 d1 d2 d3 d4 d2 d3 d4 d1
softmax関数を使って各アイテムの非ゼロな選択確率を定義 ※1 • 確率的にアイテムが選択される ◦ 同ランクのアイテムは同確率で選択される ◦ Team Draft同様、Biasが生じない • クリックの評価がランクに従ってアサインされる ◦ 0か1かではなく、貢献配分が smoothになる ◦ 評価に順番が考慮される ※2 ※1: τ (tau) はボルツマン温度に似たパラメータで、大きいほど上位ランクに関するフィードバックが強くなる（本実験では　 τ=3 が使われている） ※2: 先ほど Team Draft で生じたような Sensitivity の課題は起こらない

Probablistic Interleaving: List Generation d1 d2 d3 d4 d2 d3
d4 d1 S1 S2 d1 d2 d3 d4 S1 S2 d2 d3 d4 S1 S2 d3 d4 S1 S2 d4 d4 d1 d2 d3 d4 どちらのリストを参照するか決定どのアイテムを選択するかを softmax による分布から決定

Probablistic Interleaving: Evaluation assignment: a generated list: l query: q
click: c 観測されたクリックからアウトカムを近似起こり得たかもしれない全てのアサインを考え周辺化具体的な計算には以下のベイズ則を使うリストの優劣を表すアウトカム ∈ {-1, 0, 1}

Probablistic Interleaving: Example d1 d2 d3 d4 × × ①
当該リストを作るためにあり得たかもしれない　全てのアサインの組み合わせを計算 : P(a | l, q) ② c1とc2の勝率を計算して勝敗を決定（ s2の勝ち）

各Interleaving手法を比較するための実験設定 Data Set • Microsoft learning to rank (MSLR) data
set※ ◦ MSLR-WEB30K: fold1 ◦ 18,919のクエリとドキュメントの特徴量を提供 ◦ ドキュメントのrelevanceは5段階のラベルがある Click Simulation • 上記データをクリックする 2つのエージェントを想定（表） ◦ リストの上から順にクリックと探索の判断をしていく ◦ perfect model ▪ relevanceが4だと確実にクリックする ▪ 最後まで探索を継続する ◦ realistic model ▪ relavanceが4の時でも0.8の確率でしかクリックしない ▪ relavanceが高いドキュメントに遭遇すると満足して探索を終了しやすい ※ https://www.microsoft.com/en-us/research/project/mslr/ : ドキュメントのrelevance : 与えられたrelevanceのドキュメントのクリック確率 : 与えられたrelevanceでの探索終了確率

実験の評価方法 Ground TruthとRanker • 5段階評価に基づくNDCGをground truthに設定 • 136の特徴それぞれについてランキングを判断する rankersを構築 ◦
Interleavingを使った各rankerの比較結果とNDCGによる正解を比較評価観点 • Accuracy ◦ 様々なrankerによる結果から固定された 1,000クエリを抽出 ◦ 1,000のクエリとrankerペアについて、Interleavingがどれだけ正しい選好を当てられたか計測 • Convergence ◦ クエリサイズを1から10,000までに段階的に拡大し、 Interleaving手法の収束性を観測 ◦ 各クエリサイズに対して 1,000回の実験を繰り返す • Noise ◦ （上記2観点で使われるperfect click modelとは異なり）realistic click modelを用いて確率的な挙動に対してどの程度ロバストかを計測

Accuracy • Probablistic Interleaving（提案手法）が一番高 accuracy ◦ Document Constraint を除いて、NDCGが0.05以上離れているrankerペアを正しく識別 ◦
逆にDocument Constraint はNDCGが0.12も離れているペアに対しても不正解が出ていた • Balanced Interleaving と Document Constraint はエラーの分布に偏りがあった（ biasの存在を確認） ◦ 一方、Team Draftではエラーがランダムに分布していた

Convergence: Data Set • Accuracyで使ったデータからサブデータセットを構築 ◦ “easy” ranker pairs: 全ての手法で優劣を検知できた
rankerのペア ◦ “problem” ranker pairs: 一部の手法で優劣を間違えてしまった rankerペア • これらのデータセットに対して、各手法の収束性を観測 4つの全手法が、正しく rankerの優劣を判定できたもの一部の手法で、rankerの優劣が正しく判断できなかったもの

Convergence: Result for Pair 1 (“easy” pair) • 判断が容易なペアに対しては、どの手法も 100程度のクエリサンプルで判断可能
• Probablistic InterleavingはSensitivityが高い（biasがなく、magnitudeも考慮されている）

Convergence: Result for Pair 4 (“problem” pair) • 判断が難しいrankerペアのため、どの手法も収束が遅い ◦
特に、Document Constraintは10,000クエリで検証しても収束してない • Probabilistic Interleavingでは収束が早め

Convergence: Result for Pair 5 (“problem” pair) • NDCGの差が小さいとbias影響を受けるBalanced Interleave,
Document Constraintはかなり厳しい • bias影響を受けないTeam Draft, Probabilistic Interleavingは正しく収束する ◦ その上で、0/1ではないスムージングされた FBに基づく提案手法は Sensitivityが高い

Noise: Result for Pair 3 (“problem” pair) • perfect click
modelではなく、より現実的な realistic click model を使う ◦ 探索を途中で辞めるため、クリックが上位ランクに溜まりやすくなる ◦ Document Constraint では制約が多くなりbiasの影響を受けやすくなる

Noise: Result for Pair 4 (“problem” pair) • NDCGの差が小さいと、どの手法も Noiseの影響をより受けるようになる
• Pair 4では、Probabilistic Interleaving 以外は正しい優劣判断をつけることができなかった

ここまでのまとめ • Implicit Feedback から相対的なランキング評価を行う Interleavingという手法を紹介 • 代表的には Balanced Interleaving,
Team Draft, Document Constraint などの手法があるが、いずれも bias影響を受けやすかったり、 sensitivityが高くない、という課題があった • softmax関数を使った Probabilistic Interleaving手法を提案 ◦ unbiasかつsensitivityも高く、シミュレーションで有効性が確認された ◦ 実験ではAccuracyの他、収束性、確率的なクリックパターンに対するロバスト性が確認された

Photo by Etienne Boulanger on Unsplash Comparing the Sensitivity of
Information Retrieval Metrics Radlinski & Craswell 2010 (SIGIR 2010) 2

TL;DR ※ 登壇時間をオーバーしそうなので、完結に紹介しています、すみません 🙏（今後、他文献と併せてどこかで詳細に紹介するかもしれません） • Interleaving（ここではTeam Draft）は、NDCGやMAPといった指標とどの程度相関するか調べた研究 • 結果、各指標間（特に NDCGとの間）で相関が確認された
• 各指標のメリット、デメリットにも言及されており、参考になる論文

Photo by Etienne Boulanger on Unsplash Innovating Faster on Personalization
Algorithms at Netflix Using Interleaving Parks et al. 2019 (Netflix TechBlog 2017) 3

Overview • Netflixにおける Interleaving の活用事例 ◦ NDCGとの強い相関、Sensitivityの高さ、を活かして実験の効率化を実現している ◦ Interleaving※を使った効率的な初期比較（ Phase
1）とA/Bテスト（Phase 2）の2段階最初にInterleavingで検証することで、 A/Bテストに進めるべき実験をクイックにスクリーニングしている A/Bテストは1つの実験に時間がかかるが、 Phase1で見込みのあるアイディアだけを実験するので効率的

Team Draft based approach※ ※ BlogにはTeam Draftをベースにしていると記述がある（どのような改良が加えられているかは不明）

Interleavingの強みと弱み ※ グラフの縦軸は、1本目の紹介論文と逆になっている点に注意 • Netflixでは通常の指標を使った A/Bテストよりも100xサンプル効率が良くなったと報告している ※ • A/Bテストで使われている指標との強い相関も確認 •
一方で、Interleavingはあくまで相対的な選好を評価をするので、ある variantに触れたグループの CVRやRetentionといった指標は評価できない。そのため、後続の A/Bテストも必要になる。

And more ... • Interleaving は他にも多くの発展型、改良があります ◦ Optimized Interleaving（Radlinski &
Craswell 2013※1） ◦ Multi-leaving (Schuth et al. 2014※2) • 実装は以下にとても詳しいものがあるので、興味ある方はご参考に ◦ https://github.com/mpkato/interleaving ※1: Radlinski and Craswell, ”Optimized Interleaving for Online Retrieval Evaluation”, WSDM 2013 ※2: Schuth et al., ”Multileaved Comparisons for Fast Online Evaluation”, CIKM 2014

Introduction to Interleaving Ranking Evaluation

Introduction to Interleaving Ranking Evaluation

More Decks by Jun Ernesto Okumura

Other Decks in Technology

Featured

Transcript