【IR Reading 2025秋】Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets (SIGIR 2025)

IR Reading 2025 Fall Breaking the Lens of the Telescope:
Online Relevance Estimation over Large Retrieval Sets (SIGIR25)  Mandeep Rathee, V Venktesh, Sean MacAvaney, Avishek Anand 筑波大学知識獲得システム研究室藤巻晴葵

概要研究の狙い大規模な文書集合に対して、高精度ランクモデルを効率的に適用する手法を提案同じ回数のRankerの呼び出しでリコールを改善する検索の枠組みを提案検索自体の改善ではないことに注意！（ ️ パイプライン改善, 検索モデル改善）キーワード Online
Relevance Estimation Bounded Recall 問題動的再ランキング主な結果 TREC DLシリーズの性能で最大Recallを+30%改善 Rankerの呼び出しを半減し、2倍以上効率的に実行 2

背景 3 近年の検索パイプラインは軽量検索モデル→高精度ランキングモデルという多段式の構造高精度検索モデルを全文書に適用することが難しいためこの方法が用いられる大量のドキュメント検索スコアのTop K ドキュメント
1 3 2 大量のドキュメント BM25, DPRなどの検索モデルで対象を絞る時間とコストのかからない 1 LLM, Cross-Encoderなどの高精度ランクモデルでリランク時間とコストが多くかかる 2

問題点 4 初段の検索モデルが見逃すとリランクの対象にならない (Bounded Recall問題) Top Kが固定されているため、探索的に対象を広げることができないランクスコア検索スコア検索モデルのスコア
Top K = relevant

提案手法：概要 5 高精度検索モデルの結果をもとに、候補全体の関連度を動的に推定・更新しながら再ランキングする手法 Online Relevance Estimation（ORE）検索候補の特徴空間特徴空間から推定特徴空間の更新
2 1 1 15.3 2 11.8 3 4.2 ランキングリスト推定スコア上位文書を少数取得高精度モデルでリランキング推定 1 高精度モデルの結果をもとに推定モデルを更新して誤差修正残った候補を再評価更新 2

関連研究：適応取得（Adaptive Retrieval）再ランク済み文書の近傍を探索し、候補集合を動的に拡張する枠組み Retrieverが見落とした関連文書を後から回収することを目的とする概要 1 GAR (Graph-based Adaptive Retrieval)：文書グラフ上で高スコア文書の近傍を探索
Quam：学習済みアフィニティを用いて関連文書の近傍を取得代表例 2 高リコール化が可能探索対象の選択はヒューリスティック計算コストが高く、サンプル効率が低い特徴と限界 3 OREは探索対象の優先度を推定モデルで動的に学習 GAR/Quamのような近傍探索を統一的に制御し、探索・活用を自動バランス化 OREとの関係・違い 4 6

関連研究：オンライン, バンディットランキングランキングを探索（explore）と活用（exploit）のトレードオフとして最適化限られた評価回数で高報酬（高関連）な項目を見つけることを目指す概要 1 Multi-Armed Bandit Ranking：各文書を「腕」として報酬を学習 Online
Learning to Rank (OLTR)：ユーザクリックなどの逐次学習 Top-k Bandit：上位k件の選択に特化した確率的最適化代表例 2 少数サンプルで学習を改善可能外部報酬（クリックなど）を前提とすることが多い大規模retrieval集合には直接適用されにくい特徴と限界 3 OREは高精度ランカー呼び出しを報酬として利用バンディットの考え方を再ランキングに適用した新しい応用形 OREとの関係・違い 4 7

提案手法：詳細 8 OREの処理フロー Q2DAff D2DAff D2SetAff : クエリ-文書の類似度 : 文書-文書の類似度
: 既知関連文書との類似度これらを特徴ベクトルとして作成 D2SetAff以外は1度だけ生成候補特徴の作成 1 新しい重みで全候補を再評価次に評価すべき文書（探索対象）が自動的に変わるランカー呼び出し予算 m 回まで繰り返す再スコア 4 推定スコア： : 特徴重みここでの上位スコアの文書を高精度モデルに渡すスコアづけ 2 : 任意のランクモデル（実測値）推定スコアと実測値の誤差から重みを最小2乗で更新モデル更新 3 特徴空間から推定特徴空間の更新

Research Question How effective is ORE compared to existing approaches
for hybrid and adaptive retrieval setups? OREは、既存手法に比べてどれだけ有効か？ 1 How helpful is the utility (estimated relevance) in prioritizing documents for retrieval? 推定関連性は、文書の優先選定にどれだけ貢献するか？ 2 How efficient is ORE compared to existing approaches for adaptive retrieval? OREは既存の適応検索手法に比べて、どれだけ効率的か？ 3 How much time does estimated relevance take compared to expensive ranker calls? 推定関連性の算出は、高精度ランカー呼び出しと比べてどれだけ時間を要するか？ 4 9

実験設定 10 MSMARCO Passage （約 8.8 百万パッセージ） TREC DL19（43クエリ）TREC DL20（54クエリ）
MSMARCO Passage‑v2 （約 138.4 百万パッセージ、重複除去済） TREC DL21（53クエリ） TREC DL22（76クエリ）データセット 1 Recall@c nDCG@c c の候補値：{50, 100, 1000} →ランキング予算この予算の回数分しかRankerは呼び出せない想定評価指標 2 Lexical: BM25 Semantic: TCT-ColBERT-HNP Ranker: Mono-T5 検索モデル 3 Hybrid Retrieval （BM25+TCT） R eciprocal Rank Fusion Convex Combination Adaptive Retrieval 文書グラフに基づいた近傍探索(k=16) GA R QUAM ベースライン 4

実験結果：RQ1 OREは、既存手法に比べてどれだけ有効か？ How effective is ORE compared to existing approaches
for hybrid and adaptive retrieval setups? 2 1 マークされているのはT検定で優位な差があるもの Hybrid検索 DL19のRecall@50で8.9%, 14.11%改善 1 適応検索 DL19のRecall@50で10.65%~22.06%改善 2 11

実験結果：RQ1 OREは、既存手法に比べてどれだけ有効か？ How effective is ORE compared to existing approaches
for hybrid and adaptive retrieval setups? 3 1 2 マークされているのはT検定で優位な差があるもの Hybrid検索 DL21でRecall@100を11.74%, 17.12%改善 1 Hybrid検索 DL22でRecall@100を7.46%, 14.09%改善 2 適応検索 GAR, QUAMと比較し22.66%, 30.55%改善 3 12

実験結果：RQ2 推定関連性は、文書の優先選定にどれだけ貢献するか？ How helpful is the utility (estimated relevance) in
prioritizing documents for retrieval? 1 2 Hybrid検索における (a) : OREのモデル更新ごとの検索性能の変化 (b) : OREのモデル更新ごとのリランクとの誤差 1batch(16sample)だけでも検索性能をその他のHybrid手法よりも向上させられる 1 2回目のモデルのオンライン更新でランクモデルとのエラーを大きく削減できる 2 13

実験結果：RQ3 OREは既存の適応検索手法に比べて、どれだけ効率的か？ How efficient is ORE compared to existing approaches
for adaptive retrieval? 1 2 Adaptive Retrieval検索における (a) : OREのモデル更新ごとの検索性能の変化 (b) : OREのモデル更新ごとのリランクとの誤差従来のAdaptive Retrievalと比べ、 OREは常に高い効率で検索性能を改善できる 1 Hybrid検索と同様に、オンライン更新でランクモデルとのエラーを削減できる 2 14

実験結果：RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか？ How much time does estimated relevance take compared
to expensive ranker calls? (a) : 一定のRecall性能を達成するのに必要な時間 (b) : 予算ごとの各処理にかかる時間 OREは0.56を達成するのに、2回の呼び出しのみを必要とし、GAR(8回呼び出し)よりも2倍高速 a CE: ランク処理, Fit: モデル更新, Lookup: 特徴構築実行時間はランク部分(Mono-T5)の処理が大きく支配的である b 15

実験結果：RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか？ How much time does estimated relevance take compared
to expensive ranker calls? 1 2 2 1 より高精度なランクモデルを利用した際のレイテンシと精度ランクモデルを変更しても一貫してOREが他の適応検索に比べて少ないレイテンシ(平均2~3 倍高速) 1 ランクモデルを変更しても少ない予算においてOREが他の適応検索に比べて高い検索性能がある 2 16

結果まとめ OREはハイブリッド検索、適応検索の両方で高精度 Insight 1 少数サンプルでも推定が安定し、サンプル効率が高い Insight 2 推定関連性がランカーモデルの結果と近いスコアになりうる Insight 3
17

まとめ従来のテレスコープ型IR （retriever→ranker）は、上位取得候補に依存し「bounded recall」問題を抱える。ランカー呼び出しを効率化しつつ、関連文書をより多く発見できるオンライン推定手法のOREを提案研究の目的 1 3つの特徴を利用した推定モデルQ2DAff, D2DAff, D2SetAff
オンライン最小二乗更新により、重みαを反復的に最適化 Hybrid検索、適応検索の両方に適用可能な汎用枠組み方法 2 OREはretrieverスコアに依存せず、学習的に関連性を再推定できる Hybrid設定ではretriever融合の効果を高め、Adaptive設定では探索性能を向上結果 3 18

【IR Reading 2025秋】Breaking the Lens of the Tele...

【IR Reading 2025秋】Breaking the Lens of the Telescope: Online Relevance Estimation over Large Retrieval Sets (SIGIR 2025)

Haruki Fujimaki

More Decks by Haruki Fujimaki

Featured

Transcript

IR Reading 2025 Fall Breaking the Lens of the Telescope:

問題点 4 初段の検索モデルが見逃すとリランクの対象にならない (Bounded Recall問題) Top Kが固定されているため、探索的に対象を広げることができないランクスコア検索スコア検索モデルのスコア

提案手法：概要 5 高精度検索モデルの結果をもとに、候補全体の関連度を動的に推定・更新しながら再ランキングする手法 Online Relevance Estimation（ORE）検索候補の特徴空間特徴空間から推定特徴空間の更新

提案手法：詳細 8 OREの処理フロー Q2DAff D2DAff D2SetAff : クエリ-文書の類似度 : 文書-文書の類似度

Research Question How effective is ORE compared to existing approaches

実験設定 10 MSMARCO Passage （約 8.8 百万パッセージ） TREC DL19（43クエリ）TREC DL20（54クエリ）

実験結果：RQ1 OREは、既存手法に比べてどれだけ有効か？ How effective is ORE compared to existing approaches

実験結果：RQ1 OREは、既存手法に比べてどれだけ有効か？ How effective is ORE compared to existing approaches

実験結果：RQ2 推定関連性は、文書の優先選定にどれだけ貢献するか？ How helpful is the utility (estimated relevance) in

実験結果：RQ3 OREは既存の適応検索手法に比べて、どれだけ効率的か？ How efficient is ORE compared to existing approaches

実験結果：RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか？ How much time does estimated relevance take compared

実験結果：RQ4 推定関連性の算出は、ランク処理と比べてどれだけ時間を要するか？ How much time does estimated relevance take compared

結果まとめ OREはハイブリッド検索、適応検索の両方で高精度 Insight 1 少数サンプルでも推定が安定し、サンプル効率が高い Insight 2 推定関連性がランカーモデルの結果と近いスコアになりうる Insight 3