論文紹介 ”Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG” @GDG Tokyo

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介 ● 小渕周（Shu Kobuchi）こぶシュー ● https://x.com/shu_kob @shu_kob ● システムエンジニア → ブロックチェーン業界 ● 2023年12月スリーシェイク入社 ○ Sreake 事業部 ○ アプリケーション開発支援チームエンジニア ○ 生成 AI アプリケーション開発等 ○ Gemini、Google Cloudを使用 ○ 2025年1月マネージャー 2

Slide 3

Slide 3 text

紹介する論文 ● 著者 ○ Bowen Jin (1 2 *), Jinsung Yoon (1), Jiawei Han (2) and Sercan Ö. Arık (1) ■ 1) Google Cloud AI Research, 2) University of Illinois at Urbana-Champaign ● タイトル ○ Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG ● 発表年月日 ○ 2024年10月8日 ● URL ○ https://arxiv.org/abs/2410.05983 3

Slide 4

Slide 4 text

Slide 5

Slide 5 text

RAG (Retrieval Augmented Generation) ● LLM (Large Language Model：大規模言語モデル)が知らない情報を外部から与えてあげて拡張する手法 - 質問に関連する情報をコンテキストとしてプロンプトに含める Agent Builder Cloud Storage など Vertex AI ベクトル化社内情報などベクトル検索でより欲しい情報にアクセスできるように質問回答 5 Retriever Generator コンテキスト

Slide 6

Slide 6 text

長文コンテキスト Agent Builder Cloud Storage など Vertex AI ベクトル化社内情報など質問回答 6 1. 自社の情報セキュリティ強化に結びつく分野に重点を置いて情報セキュリティ監査を行うことになった。 2. 非機能要求とは自動車は、ひとたび事故を起こせば人命に関わる機械であり、安全性は性能と並んで極めて重要です。 3. EC サイトの構築時に利用しているWeb サーバ等のOS・ミドルウェア、 4. 契約段階からセキュリティへの配慮が必要自分が行うべきセキュリティ対策は 5. 企業の事業運営上で重大な問題を引き起こす可能性のある情報が RAG検索の数が膨大で、これらをコンテキストに含めるケース

Slide 7

Slide 7 text

論文の内容 7 ● コンテキストが長くなればなるほど、 RAGの性能が上昇し続けると思いきや劣化 1. コンテキストで最初と最後に関連スコアの高い文書を配置する並び替えを実施（訓練不要で簡単） 2. 暗黙的なファインチューニング 3. 中間推論を用いたファインチューニング課題 ● ハードネガティブ ● （これまでの研究では紛らわしくない間違いであるランダムネガティブのみ想定）原因解決法

Slide 8

Slide 8 text

グラフイメージ 8 性能検索された文章数文量がある程度多くなると、「ハードネガティブ」が原因で性能低下

Slide 9

Slide 9 text

Hard Negatives（ハードネガティブ） ● モデルが誤って正例と判断しやすい負例 ○ 正例と非常に似ているため、モデルが誤って分類しやすいデータ例1：感情分析 ● 正例: 「この映画は最高だった！」 ● ハードネガティブ: 「この映画は最高だったけど、結末が少し残念だった。」 ○ このハードネガティブは、全体的には肯定的な意見ですが、否定的な要素も含まれており、モデルが誤ってポジティブと判断してしまう可能性があります。例2：質問応答 ● 質問: 「東京のタワーは何？」 ● 正解: 「東京タワーです。」 ● ハードネガティブ: 「東京の塔はスカイツリーもあります。」 ○ このハードネガティブは、質問に対する答えとは異なる情報を含んでいますが、質問と文脈的に関連しており、モデルが誤って正解と判断してしまう可能性があります。 9

Slide 10

Slide 10 text

Hard Negatives（ハードネガティブ）例3：スパムメール分類 ● スパム: 「【緊急】あなたのアカウントが停止されます。今すぐこちらをクリック！」 ● ハードネガティブ: 「【お知らせ】お客様のアカウントのセキュリティ強化のため、パスワードの変更をお願いいたします。」 ○ このハードネガティブは、スパムメールと似たような文言やフォーマットを使用しており、モデルが誤ってスパムと判断してしまう可能性があります。なぜハードネガティブが重要なのか？ ● モデルの性能向上: ハードネガティブを学習データに含めることで、モデルはより複雑なパターンを学習し、正例と負例をより正確に区別できるようになります。 ● 過学習の防止: ハードネガティブを適切に扱うことで、モデルが特定のデータに過度に適合してしまう（過学習）のを防ぐことができます。 10

Slide 11

Slide 11 text

Slide 12

Slide 12 text

要旨 ● RAG (Retrieval-Augmented Generation) の重要性: ○ LLMが外部知識を利用する重要性 ○ 知識集約型タスクでのLLMの精度向上 ○ 事実誤認やハルシネーションの軽減 ● 本研究のモチベーション: ○ LLMのコンテキスト長が拡大する中で、RAGシステムを最適に設計する方法が未開拓 ○ 長いコンテキストを持つLLMを効果的に使用するためには、標準的なRAG設計の再評価が必要 ● 本研究の目的: ○ 長いコンテキストを持つLLMをRAGシステムで活用する際の課題を特定 ○ これらの課題に対処するための新しいアプローチを提案 12

Slide 13

Slide 13 text

1. はじめに ● 背景: ○ RAG (Retrieval-Augmented Generation) の重要性：外部知識を利用してLLMの性能向上 ○ 長文脈LLMの登場：より多くの情報を処理できる可能性 ● 研究の動機: ○ 直感的な期待：より多くの情報を取得すればRAGの性能が向上するはず ○ しかし、実際にはそうではないことが判明 ○ 長文脈LLMにおけるRAGの最適設計に関する未解明な課題 ● 研究の目的: ○ 長文脈LLMにおけるRAGの課題を体系的に分析 ○ 効果的な解決策を提案し、実証する 13

Slide 14

Slide 14 text

2. 関連研究 ● 既存のRAGシステム: ○ RetrieverとGenerator（生成AIモデル）の独立した改善 ○ ハードネガティブに関する研究は少ない ● 長コンテキストLLMの研究: ○ 長コンテキストLLMのベンチマークは、現実のRAGシナリオを反映していない ○ マルチドキュメント設定では、単一の「正解」ドキュメントとランダムなネガティブを仮定する傾向 ● 本研究の差別化: ○ RAGにおける長コンテキストLLMの利点と最適化に焦点を当てる ○ 長いコンテキストを活用したRAGの最適化に関するギャップを埋める 14

Slide 15

Slide 15 text

3. 長いコンテキストLLMにおけるRAGの課題 ● 3.1. コンテキストサイズの影響: ○ 長いコンテキストが常にパフォーマンス向上につながらないことを示す ○ 検索されたパッセージ数が増えるにつれてパフォーマンスが低下する「逆U字型」パターン ○ 強力なretrieverを使用すると、パフォーマンスの低下がより顕著になる 15 強い弱い

Slide 16

Slide 16 text

3. 長いコンテキストLLMにおけるRAGの課題 ● 3.2. Retrieval品質とLLM能力の相互作用: ○ Recall（関連文書の網羅率）は向上するが、Precision（関連文書の精度）は低下する ○ 関連文書が含まれていても、LLMが正しい答えを生成できないことがある ○ 強力なretriever（e5）による「ハードネガティブ」は、弱いretriever（BM25）よりも有害な場合がある 16 強い弱い

Slide 17

Slide 17 text

3. 長いコンテキストLLMにおけるRAGの課題 ● 3.3. ハードネガティブの重要性: ○ ハードネガティブとは、関連性が低くLLMを混乱させる可能性のある文書 ○ 長いコンテキストRAGでは、ハードネガティブが性能に悪影響を与える ○ 現状のベンチマークは、ハードネガティブを適切に捉えられていない可能性がある ○ Retrieverの強度がハードネガティブの難易度に影響する ○ ランダムネガティブは現実世界のRAGを反映していない ■ ランダムネガティブとは、正の例（正しい答えや関連性の高いデータ）に対してランダムに選択された負の例（間違った答えや関連性の低いデータ）のことを指す 17

Slide 18

Slide 18 text

● Retrieval Reordering (検索結果並び替え): ○ 長コンテキストLLMにおける "Lost-in-the-middle" （中間消失）現象を利用 ○ 関連スコアの高いドキュメントを最初と最後に配置 ○ ハードネガティブの影響を軽減する ○ 実験的に、大きな検索セットで、Retrieval Reorderingがパフォーマンスを向上させることを実証 4. シンプルで効果的な訓練不要のRAG改善 18

Slide 19

Slide 19 text

5. データ拡張型Fine-tuningによるロバスト性の向上 ● 5.1. ファインチューニングによるLLMのロバスト性（外乱に強い）の暗黙的な向上: ○ ハードネガティブに対するLLMのロバスト性を暗黙的に向上させる ○ RAGに特化したデータでLLMをFine-tuning（再学習）する ○ 複数のRetrievalコンテキストを提示し、ノイズ下での関連情報の識別能力を向上させる ○ 実験結果： ■ RAG FT (Fine-tuning) は、RetrievalありのチャットモデルやSFTを上回る ■ RAG FTのカーブはより平坦で、ハードネガティブに強いことを示す ■ RAG FTは知識抽出能力も向上させる ○ ※ 暗黙的なファインチューニングとは、直接的に教え込まなくても、学習を通じて獲得される知識や能力のこと。 RAGにおいては、モデルが大量のデータとRAGによる情報検索を通じて、暗黙的に知識を獲得し、より自然な文章生成を可能に。 19

Slide 20

Slide 20 text

5. データ拡張型Fine-tuningによるロバスト性の向上 20

Slide 21

Slide 21 text

5. データ拡張型Fine-tuningによるロバスト性の向上 ● 5.2. 推論拡張による関連性識別の強化: ○ 中間推論ステップを追加して、関連文書の識別を明示的に教える ○ 推論ステップを最初に生成させ、関連文書の識別の構造化されたアプローチを導入 ○ 実験結果: ■ 中間推論を取り入れたRAGファインチューニングが、暗黙的なRAGファインチューニングを上回る ■ 明示的な関連性トレーニングが、ノイズから重要な情報を識別するLLMの能力を向上させる ■ 構造化された推論が理解を深め、パフォーマンスを向上させる 21

Slide 22

Slide 22 text

5. データ拡張型Fine-tuningによるロバスト性の向上 22

Slide 23

Slide 23 text

5. データ拡張型Fine-tuningによるロバスト性の向上 23

Slide 24

Slide 24 text

Generalization（汎化） ● 簡単に言うと、「学習した知識を、未知の状況にも応用できる力」 ● 例えば、 ○ 学習データで「猫はかわいい」と学習したモデルが、「犬はかわいい」という新しい文に対しても、「かわいい」という感情を正しく理解可能 ○ 学習データで「東京」という地名に関する情報を学習したモデルが、「大阪」という新しい地名に関しても、場所に関する情報を推測可能 ● このような能力が generalization （汎化） ● なぜ重要なのか？ ○ 現実世界は多様で、学習データに含まれる情報だけではカバーしきれないため ○ モデルが現実世界の様々な状況に対応できるよう、汎化能力は不可欠 24

Slide 25

Slide 25 text

6. Fine-tuningにおけるデータ中心の視点 ● データ分布の影響: ○ 多様なトレーニングデータが、汎化能力を向上させる ● Retrieversの選択の影響: ○ 異なるretrieverからのデータでFine-tuningすると、未知のretrieverに対する汎化能力が向上する ○ 特定のretrieverで訓練されたモデルは、類似したretrieverでより汎化する ○ 「ハードネガティブ」の特徴はretrieverによって異なる ● 訓練コンテキスト長の影響: ○ 最大コンテキスト長でFine-tuningすると、さまざまなRetrievalサイズで最適なパフォーマンスが得られる ○ LLMが様々な量の情報を効果的に処理できるようにする 25

Slide 26

Slide 26 text

7. 結論 ● 主な結論: ○ 長文脈LLMにおいて、検索結果の増加が必ずしも性能向上に繋がらない ○ 「ハードネガティブ」が性能低下の主要因であることを特定 ○ 提案手法（検索結果の並び替え、暗黙的/明示的なファインチューニング）が有効であることを実証 ● 今後の展望: ○ より高度な検索結果並び替え手法の探求 ○ より詳細で多段階な推論連鎖を用いたLLMのファインチューニング ● 研究の意義: ○ 長文脈LLMを用いたRAGシステム設計の新たな視点を提供 ○ よりロバストで高性能なRAGシステムの実現に貢献 26