Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【IR Reading 2025秋】Breaking the Lens of the Tele...

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for Haruki Fujimaki Haruki Fujimaki
November 15, 2025
33

【IR Reading 2025秋】Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets (SIGIR 2025)

IR Reading 2025秋で紹介する「Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets (SIGIR 2025)」の発表資料です。

https://dl.acm.org/doi/10.1145/3726302.3729910

Avatar for Haruki Fujimaki

Haruki Fujimaki

November 15, 2025
Tweet

Transcript

  1. IR Reading 2025 Fall Breaking the Lens of the Telescope:

    Online Relevance Estimation over Large Retrieval Sets (SIGIR25)
 Mandeep Rathee, V Venktesh, Sean MacAvaney, Avishek Anand 筑波大学 知識獲得システム研究室 藤巻 晴葵
  2. 背景 3 近年の検索パイプラインは 軽量検索モデル→高精度ランキングモデル という多段式の構造 高精度検索モデルを全文書に適用することが難しいためこの方法が用いられる 大量のドキュメント 検索スコアのTop K ドキュメント

    1 3 2 大量のドキュメント BM25, DPRなどの 検索モデルで対象を絞る 時間とコストのかからない 1 LLM, Cross-Encoderなどの 高精度ランクモデルでリランク 時間とコストが多くかかる 2
  3. 提案手法:概要 5 高精度検索モデルの結果をもとに、 候補全体の関連度を動的に推定・更新しながら再ランキングする手法 Online Relevance Estimation(ORE) 検索候補の特徴空間 特徴空間から推定 特徴空間の更新

    2 1 1 15.3 2 11.8 3 4.2 ランキングリスト 推定スコア上位文書を少数取得 高精度モデルでリランキング 推定 1 高精度モデルの結果をもとに 推定モデルを更新して誤差修正 残った候補を再評価 更新 2
  4. 関連研究:適応取得(Adaptive Retrieval) 再ランク済み文書の近傍を探索し、候補集合を動的に拡張する枠組み Retrieverが見落とした関連文書を後から回収することを目的とする 概要 1 GAR (Graph-based Adaptive Retrieval):文書グラフ上で高スコア文書の近傍を探索

    Quam:学習済みアフィニティを用いて関連文書の近傍を取得 代表例 2 高リコール化が可能 探索対象の選択はヒューリスティック 計算コストが高く、サンプル効率が低い 特徴と限界 3 OREは探索対象の優先度を推定モデルで動的に学習 GAR/Quamのような近傍探索を統一的に制御し、探索・活用を自動バランス化 OREとの関係・違い 4 6
  5. 関連研究:オンライン, バンディットランキング ランキングを探索(explore)と活用(exploit)のトレードオフとして最適化 限られた評価回数で高報酬(高関連)な項目を見つけることを目指す 概要 1 Multi-Armed Bandit Ranking:各文書を「腕」として報酬を学習 Online

    Learning to Rank (OLTR):ユーザクリックなどの逐次学習 Top-k Bandit:上位k件の選択に特化した確率的最適化 代表例 2 少数サンプルで学習を改善可能 外部報酬(クリックなど)を前提とすることが多い 大規模retrieval集合には直接適用されにくい 特徴と限界 3 OREは高精度ランカー呼び出しを報酬として利用 バンディットの考え方を再ランキングに適用した新しい応用形 OREとの関係・違い 4 7
  6. 提案手法:詳細 8 OREの処理フロー Q2DAff D2DAff D2SetAff : クエリ-文書の類似度 : 文書-文書の類似度

    : 既知関連文書との類似度 これらを特徴ベクトル として作成 D2SetAff以外は1度だけ生成 候補特徴の作成 1 新しい重みで全候補を再評価 次に評価すべき文書(探索対象)が自動的に変わる ランカー呼び出し予算 m 回まで繰り返す 再スコア 4 推定スコア: : 特徴重み ここでの上位スコアの文書を高精度モデルに渡す スコアづけ 2 : 任意のランクモデル(実測値) 推定スコアと実測値の誤差から重みを最小2乗で更新 モデル更新 3 特徴空間から推定 特徴空間の更新
  7. Research Question How effective is ORE compared to existing approaches

    for hybrid and adaptive retrieval setups? OREは、既存手法に比べてどれだけ有効か? 1 How helpful is the utility (estimated relevance) in prioritizing documents for retrieval? 推定関連性は、文書の優先選定にどれだけ貢献するか? 2 How efficient is ORE compared to existing approaches for adaptive retrieval? OREは既存の適応検索手法に比べて、どれだけ効率的か? 3 How much time does estimated relevance take compared to expensive ranker calls? 推定関連性の算出は、高精度ランカー呼び出しと比べてどれだけ時間を要するか? 4 9
  8. 実験設定 10 MSMARCO Passage (約 8.8 百万パッセージ) TREC DL19(43クエリ)TREC DL20(54クエリ)

    MSMARCO Passage‑v2 (約 138.4 百万パッセージ、重複除去済) TREC DL21(53クエリ) TREC DL22(76クエリ) データセット 1 Recall@c nDCG@c c の候補値:{50, 100, 1000} →ランキング予算 この予算の回数分しかRankerは呼び出せない想定 評価指標 2 Lexical: BM25 Semantic: TCT-ColBERT-HNP Ranker: Mono-T5 検索モデル 3 Hybrid Retrieval (BM25+TCT) R eciprocal Rank Fusion Convex Combination Adaptive Retrieval 文書グラフに基づいた近傍探索(k=16) GA R QUAM ベースライン 4
  9. 実験結果:RQ1 OREは、既存手法に比べてどれだけ有効か? How effective is ORE compared to existing approaches

    for hybrid and adaptive retrieval setups? 2 1 マークされているのはT検定で優位な差があるもの Hybrid検索 DL19のRecall@50で8.9%, 14.11%改善 1 適応検索 DL19のRecall@50で10.65%~22.06%改善 2 11
  10. 実験結果:RQ1 OREは、既存手法に比べてどれだけ有効か? How effective is ORE compared to existing approaches

    for hybrid and adaptive retrieval setups? 3 1 2 マークされているのはT検定で優位な差があるもの Hybrid検索 DL21でRecall@100を11.74%, 17.12%改善 1 Hybrid検索 DL22でRecall@100を7.46%, 14.09%改善 2 適応検索 GAR, QUAMと比較し22.66%, 30.55%改善 3 12
  11. 実験結果:RQ2 推定関連性は、文書の優先選定にどれだけ貢献するか? How helpful is the utility (estimated relevance) in

    prioritizing documents for retrieval? 1 2 Hybrid検索における (a) : OREのモデル更新ごとの検索性能の変化 (b) : OREのモデル更新ごとのリランクとの誤差 1batch(16sample)だけでも検索性能を その他のHybrid手法よりも向上させられる 1 2回目のモデルのオンライン更新で ランクモデルとのエラーを大きく削減できる 2 13
  12. 実験結果:RQ3 OREは既存の適応検索手法に比べて、どれだけ効率的か? How efficient is ORE compared to existing approaches

    for adaptive retrieval? 1 2 Adaptive Retrieval検索における (a) : OREのモデル更新ごとの検索性能の変化 (b) : OREのモデル更新ごとのリランクとの誤差 従来のAdaptive Retrievalと比べ、 OREは常に高い効率で検索性能を改善できる 1 Hybrid検索と同様に、オンライン更新で ランクモデルとのエラーを削減できる 2 14
  13. 実験結果:RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか? How much time does estimated relevance take compared

    to expensive ranker calls? (a) : 一定のRecall性能を達成するのに必要な時間 (b) : 予算ごとの各処理にかかる時間 OREは0.56を達成するのに、2回の呼び出しのみ を必要とし、GAR(8回呼び出し)よりも2倍高速 a CE: ランク処理, Fit: モデル更新, Lookup: 特徴構築 実行時間はランク部分(Mono-T5)の処理が 大きく支配的である b 15
  14. 実験結果:RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか? How much time does estimated relevance take compared

    to expensive ranker calls? 1 2 2 1 より高精度なランクモデルを利用した際のレイテンシと精度 ランクモデルを変更しても 一貫してOREが他の適応検索に比べて 少ないレイテンシ(平均2~3 倍高速) 1 ランクモデルを変更しても 少ない予算においてOREが 他の適応検索に比べて高い検索性能がある 2 16
  15. まとめ 従来のテレスコープ型IR (retriever→ranker)は、上位取得候補に依存し「bounded recall」問題を抱える。 ランカー呼び出しを効率化しつつ、関連文書をより多く発見できるオンライン推定手法のOREを提案 研究の目的 1 3つの特徴を利用した推定モデルQ2DAff, D2DAff, D2SetAff

    オンライン最小二乗更新により、重みαを反復的に最適化 Hybrid検索、適応検索 の両方に適用可能な汎用枠組み 方法 2 OREはretrieverスコアに依存せず、学習的に関連性を再推定できる Hybrid設定ではretriever融合の効果を高め、Adaptive設定では探索性能を向上 結果 3 18