Upgrade to Pro — share decks privately, control downloads, hide ads and more …

検索と推論タスクに関する論文の紹介

 検索と推論タスクに関する論文の紹介

IR Reading 2025 秋 での論文紹介に使用したスライドです.
https://sigirtokyo.github.io/post/2025-11-15-irreading_2025fall/

紹介した論文
Rank1: Test-Time Compute for Reranking in Information Retrieval (COLM 2025)
ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025)

Avatar for Yu Nakano / 中野優

Yu Nakano / 中野優

November 14, 2025
Tweet

More Decks by Yu Nakano / 中野優

Other Decks in Science

Transcript

  1. • 推論モデルの流行とともに検索でも推論が必要なタスクが登場 ◦ BRIGHT: 推論が必要なクエリを集めたデータセット 検索と推論タスク 2 BRIGHT: A Realistic

    and Challenging Benchmark for Reasoning-Intensive Retrieval 従来の 質問応答の データセット Yellowstone 国立公園の名前の由来は? Yellowstone 国立公園: この公園には Yellowstone 川の源流があり… 単純な キーワードマッチや 意味のマッチで 回答可能 BRIGHT データセット 1,000 人のゲストが参加する大規模なイベントを 企画していると想像してください.1 年は 365 日 しかないことを考えると,その年の同じ日に生ま れたゲストの最低人数は何人でしょうか? 長さ 1 の正方形内に任意の 19 個の点を配置し, これらの点を直径 2/3 の円でできるだけ多く覆う ことを考えると… 鳩の巣原理により,これらの小 さな正方形の少なくとも 1 つは … 例えば問題を解くのに 関連ありそうな 文書などを検索する 必要がある
  2. BRIGHT のための検索/リランキングの精度向上を目的とした 2 本の論文をピックアップして紹介 • Rank1: Test-Time Compute for Reranking

    in Information Retrieval (COLM 2025) ◦ 大きいモデルの reasoning chain を蒸留すると良いリランカーが作れた話 • ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) ◦ 推論が必要なクエリへの対応として学習データセットの作成を工夫した話 今回紹介する論文 3
  3. • 背景: LLM-based Reranker • アイデア: Reasoning を活用することでリランキングの精度が よくなるのは? Rank1:

    Test-Time Compute for Reranking in Information Retrieval (COLM 2025) 5 クエリ 文書 Reasoning Traces 適合性
  4. ではどのように Reasoning を学習すれば良いか? Rank1: Test-Time Compute for Reranking in Information

    Retrieval (COLM 2025) 6 クエリ 文書 Reasoning Traces 適合性 データセットから 容易に取得して 学習に利用可能 データセットに 付随していない → 大きい推論モデルの 出力を用いて蒸留 すれば良いのでは? 大きい推論モデルの Reasoning traces を 学習データとするという話
  5. • DeepSeek R1 で reasoning traces + ラベルを作成 ◦ まず

    MSMARCO から 63 万件を生成 ◦ 複数段階の filtering で最終的に約 38 万件の学習データを作成 • 1. R1 の予測したラベルと異なるものを除外 • 2. さらに 1 のデータで学習し,その予測結果が R1 の予測と異なるものを除外 • 3. 残りのうち正例は MS MARCO 公式でも正例のものを,負例は self-filter を通過し たものを最終的に選択 • 学習と推論 ◦ モデル: Qwen-2.5 7B/14B/32B (w/o instruction tuning) ◦ LoRA で学習(LLaMA-Factory を利用) ◦ 推論高速化のために vLLM を利用 学習データの作成とモデルの学習・推論 7 https://github.com/hiyouga/LLaMA-Factory https://github.com/vllm-project/vllm
  6. • 実験データセット: BRIGHT, NevIR, mFollowIR, DL19 • BRIGHT での結果 ◦

    (First-stage) Retriever: BM25 w/ GPT-4o CoT ◦ 既存手法である RankLLaMA と比較して精度が高い傾向 実験 8 そもそもの retriever が良いので,そこと比較するとそこまで改善しているわけではなさそう? 既存の zero-shot pointwise reranker との比較が合っても良さそうだがないのはなぜなんだろう……
  7. TREC DL19 での結果 9 データセットに付随するラベルを使うと提案手法は 既存手法より精度が悪い傾向 ◦ 一方で提案手法は top-10 のうち

    20% 弱が未評価(既存手法は 4%) 未評価の文書を人手で再評価すると提案手法が良い傾向 ◦ 既存の検索データセットの限界を示している可能性?
  8. 1. 推論コストが高すぎる ◦ Reasoning Trace を出力 しその上でラベルを出力 → 既存の LLM

    Reranker と比べても重すぎる 2. Retriever が BM25 ◦ もっと良いのが作れるの では? Rank1 を読んでいて思ったこと 11
  9. 提案手法: ReasonIR ◦ LLM でデータセットを 工夫して作成 ◦ 作成したデータセットで Bi-Encoder モデルを学習

    → ReasonIR-8B (w/ QR)は Rank1-32B と同等の精度を… 1/4 のサイズで実現 200 倍高速に ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) 12
  10. • Pilot Study より既存モデルはクエリ長が 大きくなると性能が伸びづらい傾向(右図) ◦ BRIGHT の平均クエリ長は 198 tokens

    と大きく 既存モデルは対応できていないのではないか? → VL: 300-2,000 語のクエリを作成(24 万件) VL (Varied-Length): 多様な長さのデータを作成 14 ↑既存モデル↓
  11. HQ (Hard Query): 推論の必要なクエリの生成 15 科学ドメインの文書を スコア付け & フィルタリングし 文書シード集合(正例)を作成

    Hard Query: ある研究者が、夜勤で働く人々の睡眠パターンを 調査している。研究者は、これらの人々が日中に寝つきにくく、 勤務時間中に疲労を感じる傾向があることに気づいた。この現 象の主な要因は何だろうか…? Positive: 概日リズム、または概日周期は、およそ24時間ごとに繰り返される自然な振 動である … Hard Negative: 夜勤中…体温が上昇する…しかし、夜勤…は自然な体温調節のような 個人差は見られない。夜勤中の高体温と日中の睡眠における不快感という主観的経験 との間には、因果関係ではなく相関関係があることが示されている。 ガイドラインを与えてクエリを生成: 具体的には 背景知識や一般的な問題解決パターンなどを 考えさせてからクエリを作成 生成したクエリと正例間には共通するような語彙は少ないが 生成クエリと生成した負例の間には「夜勤」のような共通の語が出現(狙い通り)
  12. 作成したデータセットの分析 16 クエリ長: VL > HQ > Public 意図通り VL

    で長いクエリを生成できている 難しさ: HQ > VL > Public 検索モデルに対して以下のクエリの割合を難しさと定義 (positive のスコア) < (hard negative のスコア) 意図通り HQ は Lexical な BM25 でも Semantic な GRIT でも同様に難しい
  13. 観察: 単体で見た場合は HQ より VL のほうが効果があるが合わせるのが最も良い → Public (難易度: Easy)

    と HQ (難易度: Hard) の 橋渡しになっているのが VL (難易度: Medium) なのではないかと主張 BRIGHT での Ablation Study 18
  14. 推論が必要なクエリを持つ BRIGHT データセットの精度向上を 目的とした2 本の論文をピックアップして紹介した 1. Rank1: Test-Time Compute for

    Reranking in Information Retrieval (COLM 2025) ◦ 大きいモデルの reasoning chain を蒸留すると良いリランカーが作れた話 2. ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) ◦ 推論が必要なクエリへの対応として学習データセットの作成を工夫した話 まとめ 19