検索と推論タスクに関する論文の紹介

論文紹介する人: 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論文より引用検索と推論タスクに関する論文の紹介 Rank1: Test-Time Compute for
Reranking in Information Retrieval (COLM 2025) ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025)

• 推論モデルの流行とともに検索でも推論が必要なタスクが登場 ◦ BRIGHT: 推論が必要なクエリを集めたデータセット検索と推論タスク 2 BRIGHT: A Realistic
and Challenging Benchmark for Reasoning-Intensive Retrieval 従来の質問応答のデータセット Yellowstone 国立公園の名前の由来は？ Yellowstone 国立公園: この公園には Yellowstone 川の源流があり… 単純なキーワードマッチや意味のマッチで回答可能 BRIGHT データセット 1,000 人のゲストが参加する大規模なイベントを企画していると想像してください．1 年は 365 日しかないことを考えると，その年の同じ日に生まれたゲストの最低人数は何人でしょうか？長さ 1 の正方形内に任意の 19 個の点を配置し，これらの点を直径 2/3 の円でできるだけ多く覆うことを考えると… 鳩の巣原理により，これらの小さな正方形の少なくとも 1 つは … 例えば問題を解くのに関連ありそうな文書などを検索する必要がある

BRIGHT のための検索/リランキングの精度向上を目的とした 2 本の論文をピックアップして紹介 • Rank1: Test-Time Compute for Reranking
in Information Retrieval (COLM 2025) ◦ 大きいモデルの reasoning chain を蒸留すると良いリランカーが作れた話 • ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) ◦ 推論が必要なクエリへの対応として学習データセットの作成を工夫した話今回紹介する論文 3

Rank1: Test-Time Compute for Reranking in Information Retrieval (COLM 2025)

• 背景: LLM-based Reranker • アイデア: Reasoning を活用することでリランキングの精度がよくなるのは？ Rank1:
Test-Time Compute for Reranking in Information Retrieval (COLM 2025) 5 クエリ文書 Reasoning Traces 適合性

ではどのように Reasoning を学習すれば良いか？ Rank1: Test-Time Compute for Reranking in Information
Retrieval (COLM 2025) 6 クエリ文書 Reasoning Traces 適合性データセットから容易に取得して学習に利用可能データセットに付随していない → 大きい推論モデルの出力を用いて蒸留すれば良いのでは？大きい推論モデルの Reasoning traces を学習データとするという話

• DeepSeek R1 で reasoning traces + ラベルを作成 ◦ まず
MSMARCO から 63 万件を生成 ◦ 複数段階の filtering で最終的に約 38 万件の学習データを作成 • 1. R1 の予測したラベルと異なるものを除外 • 2. さらに 1 のデータで学習し，その予測結果が R1 の予測と異なるものを除外 • 3. 残りのうち正例は MS MARCO 公式でも正例のものを，負例は self-filter を通過したものを最終的に選択 • 学習と推論 ◦ モデル: Qwen-2.5 7B/14B/32B (w/o instruction tuning) ◦ LoRA で学習（LLaMA-Factory を利用） ◦ 推論高速化のために vLLM を利用学習データの作成とモデルの学習・推論 7 https://github.com/hiyouga/LLaMA-Factory https://github.com/vllm-project/vllm

• 実験データセット: BRIGHT, NevIR, mFollowIR, DL19 • BRIGHT での結果 ◦
(First-stage) Retriever: BM25 w/ GPT-4o CoT ◦ 既存手法である RankLLaMA と比較して精度が高い傾向実験 8 そもそもの retriever が良いので，そこと比較するとそこまで改善しているわけではなさそう？既存の zero-shot pointwise reranker との比較が合っても良さそうだがないのはなぜなんだろう……

TREC DL19 での結果 9 データセットに付随するラベルを使うと提案手法は既存手法より精度が悪い傾向 ◦ 一方で提案手法は top-10 のうち
20% 弱が未評価（既存手法は 4%）未評価の文書を人手で再評価すると提案手法が良い傾向 ◦ 既存の検索データセットの限界を示している可能性？

ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025)

1. 推論コストが高すぎる ◦ Reasoning Trace を出力しその上でラベルを出力 → 既存の LLM
Reranker と比べても重すぎる 2. Retriever が BM25 ◦ もっと良いのが作れるのでは？ Rank1 を読んでいて思ったこと 11

提案手法: ReasonIR ◦ LLM でデータセットを工夫して作成 ◦ 作成したデータセットで Bi-Encoder モデルを学習
→ ReasonIR-8B (w/ QR)は Rank1-32B と同等の精度を… 1/4 のサイズで実現 200 倍高速に ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) 12

VL, HQ の 2 種類のデータを LLM で作成し学習に利用学習データセット作成 13 Public
は公開のデータセット

• Pilot Study より既存モデルはクエリ長が大きくなると性能が伸びづらい傾向（右図） ◦ BRIGHT の平均クエリ長は 198 tokens
と大きく既存モデルは対応できていないのではないか？ → VL: 300-2,000 語のクエリを作成（24 万件） VL (Varied-Length): 多様な長さのデータを作成 14 ↑既存モデル↓

HQ (Hard Query): 推論の必要なクエリの生成 15 科学ドメインの文書をスコア付け & フィルタリングし文書シード集合（正例）を作成
Hard Query: ある研究者が、夜勤で働く人々の睡眠パターンを調査している。研究者は、これらの人々が日中に寝つきにくく、勤務時間中に疲労を感じる傾向があることに気づいた。この現象の主な要因は何だろうか…？ Positive: 概日リズム、または概日周期は、およそ24時間ごとに繰り返される自然な振動である … Hard Negative: 夜勤中…体温が上昇する…しかし、夜勤…は自然な体温調節のような個人差は見られない。夜勤中の高体温と日中の睡眠における不快感という主観的経験との間には、因果関係ではなく相関関係があることが示されている。ガイドラインを与えてクエリを生成: 具体的には背景知識や一般的な問題解決パターンなどを考えさせてからクエリを作成生成したクエリと正例間には共通するような語彙は少ないが生成クエリと生成した負例の間には「夜勤」のような共通の語が出現（狙い通り）

作成したデータセットの分析 16 クエリ長: VL > HQ > Public 意図通り VL
で長いクエリを生成できている難しさ: HQ > VL > Public 検索モデルに対して以下のクエリの割合を難しさと定義 (positive のスコア) < (hard negative のスコア) 意図通り HQ は Lexical な BM25 でも Semantic な GRIT でも同様に難しい

両方の評価データセットで既存手法より高い精度を達成実験結果: BRIGHT & RAG ベンチマーク 17

観察: 単体で見た場合は HQ より VL のほうが効果があるが合わせるのが最も良い → Public (難易度: Easy)
と HQ (難易度: Hard) の橋渡しになっているのが VL (難易度: Medium) なのではないかと主張 BRIGHT での Ablation Study 18

推論が必要なクエリを持つ BRIGHT データセットの精度向上を目的とした2 本の論文をピックアップして紹介した 1. Rank1: Test-Time Compute for
Reranking in Information Retrieval (COLM 2025) ◦ 大きいモデルの reasoning chain を蒸留すると良いリランカーが作れた話 2. ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025) ◦ 推論が必要なクエリへの対応として学習データセットの作成を工夫した話まとめ 19

検索と推論タスクに関する論文の紹介

検索と推論タスクに関する論文の紹介

Yu Nakano / 中野優

More Decks by Yu Nakano / 中野優

Other Decks in Science

Featured

Transcript

論文紹介する人: 中野優 https://sites.google.com/view/yu-nakano 図表は基本的に論文より引用検索と推論タスクに関する論文の紹介 Rank1: Test-Time Compute for

• 推論モデルの流行とともに検索でも推論が必要なタスクが登場 ◦ BRIGHT: 推論が必要なクエリを集めたデータセット検索と推論タスク 2 BRIGHT: A Realistic

BRIGHT のための検索/リランキングの精度向上を目的とした 2 本の論文をピックアップして紹介 • Rank1: Test-Time Compute for Reranking

Rank1: Test-Time Compute for Reranking in Information Retrieval (COLM 2025)

• 背景: LLM-based Reranker • アイデア: Reasoning を活用することでリランキングの精度がよくなるのは？ Rank1:

ではどのように Reasoning を学習すれば良いか？ Rank1: Test-Time Compute for Reranking in Information

• DeepSeek R1 で reasoning traces + ラベルを作成 ◦ まず

• 実験データセット: BRIGHT, NevIR, mFollowIR, DL19 • BRIGHT での結果 ◦

TREC DL19 での結果 9 データセットに付随するラベルを使うと提案手法は既存手法より精度が悪い傾向 ◦ 一方で提案手法は top-10 のうち

ReasonIR: Training Retrievers for Reasoning Tasks (COLM 2025)

1. 推論コストが高すぎる ◦ Reasoning Trace を出力しその上でラベルを出力 → 既存の LLM

提案手法: ReasonIR ◦ LLM でデータセットを工夫して作成 ◦ 作成したデータセットで Bi-Encoder モデルを学習

VL, HQ の 2 種類のデータを LLM で作成し学習に利用学習データセット作成 13 Public

• Pilot Study より既存モデルはクエリ長が大きくなると性能が伸びづらい傾向（右図） ◦ BRIGHT の平均クエリ長は 198 tokens

HQ (Hard Query): 推論の必要なクエリの生成 15 科学ドメインの文書をスコア付け & フィルタリングし文書シード集合（正例）を作成

作成したデータセットの分析 16 クエリ長: VL > HQ > Public 意図通り VL

両方の評価データセットで既存手法より高い精度を達成実験結果: BRIGHT & RAG ベンチマーク 17

観察: 単体で見た場合は HQ より VL のほうが効果があるが合わせるのが最も良い → Public (難易度: Easy)

推論が必要なクエリを持つ BRIGHT データセットの精度向上を目的とした2 本の論文をピックアップして紹介した 1. Rank1: Test-Time Compute for