Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 ”Long-Context LLMs Meet RAG: Overcoming Ch...

Shu Kobuchi
January 28, 2025

論文紹介 ”Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG” @GDG Tokyo

https://gdg-tokyo.connpass.com/event/340671/

大規模言語モデル(LLM)は、外部の知識源を利用することで、より強力な応答を生成できるようになります(これをRetrieval-Augmented Generation: RAGと呼びます)。LLMが処理できる入力テキストの長さが長くなるにつれて、より多くの関連情報をRAGで与えられるようになり、生成される回答の質が向上することが期待されます。一般的には、取得する情報が多いほど関連情報(高い再現率)も増え、結果として性能が向上すると考えられます。

しかし、長文処理LLMにおけるRAGの性能が、取得する情報が増えすぎると逆に低下する現象を明らかにし、その原因が「ハードネガティブ」な情報にあることを示しました。そして、その問題を解決するために、効果的な学習不要および学習を伴うアプローチを提案しています。

Shu Kobuchi

January 28, 2025
Tweet

More Decks by Shu Kobuchi

Other Decks in Technology

Transcript

  1. 論文紹介 ”Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs

    in RAG” @GDG Tokyo「生成 AI 論文をわいわい読む会」 Copyright © 3-shake, Inc. All Rights Reserved. 2025年01月28日 小渕 周 Shu Kobuchi 1
  2. 自己紹介 • 小渕 周(Shu Kobuchi)こぶシュー • https://x.com/shu_kob @shu_kob • システムエンジニア

    → ブロックチェーン業界 • 2023年12月スリーシェイク入社 ◦ Sreake 事業部 ◦ アプリケーション開発支援チーム エンジニア ◦ 生成 AI アプリケーション開発等 ◦ Gemini、Google Cloudを使用 ◦ 2025年1月 マネージャー 2
  3. 紹介する論文 • 著者 ◦ Bowen Jin (1 2 *), Jinsung

    Yoon (1), Jiawei Han (2) and Sercan Ö. Arık (1) ▪ 1) Google Cloud AI Research, 2) University of Illinois at Urbana-Champaign • タイトル ◦ Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG • 発表年月日 ◦ 2024年10月8日 • URL ◦ https://arxiv.org/abs/2410.05983 3
  4. RAG (Retrieval Augmented Generation) • LLM (Large Language Model:大規模言語モデル)が知らない情報を外部から与えてあげて拡張 する手法

    - 質問に関連する情報をコンテキストとしてプロンプトに含める Agent Builder Cloud Storage など Vertex AI ベクトル化 社内情報など ベクトル検索で より欲しい情報にアクセスでき るように 質問 回答 5 Retriever Generator コンテ キスト
  5. 長文コンテキスト Agent Builder Cloud Storage など Vertex AI ベクトル化 社内情報など

    質問 回答 6 1. 自社の情報セキュリティ強化に結びつく分 野に重点を置いて情報セキュリティ監査を 行うことになった。 2. 非機能要求とは自動車は、ひとたび事故 を起こせば人命に関わる機械であり、安 全性は性能と並んで極めて重要です。 3. EC サイトの構築時に利用しているWeb サーバ等のOS・ミドルウェア、 4. 契約段階からセキュリティへの配慮が必 要自分が行うべきセキュリティ対策は 5. 企業の事業運営上で重大な問題を引き起 こす可能性のある情報が RAG検索の数が膨大で、 これらをコンテキストに 含めるケース
  6. 論文の内容 7 • コンテキストが長くなればなるほど、 RAGの性能が上昇し続けると思いきや劣化 1. コンテキストで最初と最後に関連スコアの高い文書を配置する並び替えを実施 (訓練不要で簡単) 2. 暗黙的なファインチューニング

    3. 中間推論を用いたファインチューニング 課題 • ハードネガティブ • (これまでの研究では紛らわしくない間違いである ランダムネガティブ のみ想定) 原因 解決法
  7. Hard Negatives(ハードネガティブ) • モデルが誤って正例と判断しやすい負例 ◦ 正例と非常に似ているため、モデルが誤って分類しやすいデータ 例1:感情分析 • 正例: 「この映画は最高だった!」

    • ハードネガティブ: 「この映画は最高だったけど、結末が少し残念だった。」 ◦ このハードネガティブは、全体的には肯定的な意見ですが、否定的な要素も含まれており、 モデルが誤ってポジティブと判断してしまう可能性があります。 例2:質問応答 • 質問: 「東京のタワーは何?」 • 正解: 「東京タワーです。」 • ハードネガティブ: 「東京の塔はスカイツリーもあります。」 ◦ このハードネガティブは、質問に対する答えとは異なる情報を含んでいますが、質問と文脈 的に関連しており、モデルが誤って正解と判断してしまう可能性があります。 9
  8. Hard Negatives(ハードネガティブ) 例3:スパムメール分類 • スパム: 「【緊急】あなたのアカウントが停止されます。今すぐこちらをクリック!」 • ハードネガティブ: 「【お知らせ】お客様のアカウントのセキュリティ強化のため、パスワードの 変更をお願いいたします。」

    ◦ このハードネガティブは、スパムメールと似たような文言やフォーマットを使用しており、 モデルが誤ってスパムと判断してしまう可能性があります。 なぜハードネガティブが重要なのか? • モデルの性能向上: ハードネガティブを学習データに含めることで、モデルはより複雑なパターン を学習し、正例と負例をより正確に区別できるようになります。 • 過学習の防止: ハードネガティブを適切に扱うことで、モデルが特定のデータに過度に適合してし まう(過学習)のを防ぐことができます。 10
  9. 要旨 • RAG (Retrieval-Augmented Generation) の重要性: ◦ LLMが外部知識を利用する重要性 ◦ 知識集約型タスクでのLLMの精度向上

    ◦ 事実誤認やハルシネーションの軽減 • 本研究のモチベーション: ◦ LLMのコンテキスト長が拡大する中で、RAGシステムを最適に設計する方法が未開拓 ◦ 長いコンテキストを持つLLMを効果的に使用するためには、標準的なRAG設計の再評価が必 要 • 本研究の目的: ◦ 長いコンテキストを持つLLMをRAGシステムで活用する際の課題を特定 ◦ これらの課題に対処するための新しいアプローチを提案 12
  10. 1. はじめに • 背景: ◦ RAG (Retrieval-Augmented Generation) の重要性:外部知識を利用してLLMの性能向上 ◦

    長文脈LLMの登場:より多くの情報を処理できる可能性 • 研究の動機: ◦ 直感的な期待:より多くの情報を取得すればRAGの性能が向上するはず ◦ しかし、実際にはそうではないことが判明 ◦ 長文脈LLMにおけるRAGの最適設計に関する未解明な課題 • 研究の目的: ◦ 長文脈LLMにおけるRAGの課題を体系的に分析 ◦ 効果的な解決策を提案し、実証する 13
  11. 2. 関連研究 • 既存のRAGシステム: ◦ RetrieverとGenerator(生成AIモデル)の独立した改善 ◦ ハードネガティブに関する研究は少ない • 長コンテキストLLMの研究:

    ◦ 長コンテキストLLMのベンチマークは、現実のRAGシナリオを反映していない ◦ マルチドキュメント設定では、単一の「正解」ドキュメントとランダムなネガティブを仮定 する傾向 • 本研究の差別化: ◦ RAGにおける長コンテキストLLMの利点と最適化に焦点を当てる ◦ 長いコンテキストを活用したRAGの最適化に関するギャップを埋める 14
  12. 3. 長いコンテキストLLMにおけるRAGの課題 • 3.3. ハードネガティブの重要性: ◦ ハードネガティブとは、関連性が低くLLMを混乱させる可能性のある文書 ◦ 長いコンテキストRAGでは、ハードネガティブが性能に悪影響を与える ◦

    現状のベンチマークは、ハードネガティブを適切に捉えられていない可能性がある ◦ Retrieverの強度がハードネガティブの難易度に影響する ◦ ランダムネガティブは現実世界のRAGを反映していない ▪ ランダムネガティブとは、正の例(正しい答えや関連性の高いデータ)に対してランダ ムに選択された負の例(間違った答えや関連性の低いデータ)のことを指す 17
  13. • Retrieval Reordering (検索結果並び替え): ◦ 長コンテキストLLMにおける "Lost-in-the-middle" (中間消失)現象を利用 ◦ 関連スコアの高いドキュメントを最初と最後に配置

    ◦ ハードネガティブの影響を軽減する ◦ 実験的に、大きな検索セットで、Retrieval Reorderingがパフォーマンスを向上させること を実証 4. シンプルで効果的な訓練不要のRAG改善 18
  14. 5. データ拡張型Fine-tuningによるロバスト性の向上 • 5.1. ファインチューニングによるLLMのロバスト性(外乱に強い)の暗黙的な向上: ◦ ハードネガティブに対するLLMのロバスト性を暗黙的に向上させる ◦ RAGに特化したデータでLLMをFine-tuning(再学習)する ◦

    複数のRetrievalコンテキストを提示し、ノイズ下での関連情報の識別能力を向上させる ◦ 実験結果: ▪ RAG FT (Fine-tuning) は、RetrievalありのチャットモデルやSFTを上回る ▪ RAG FTのカーブはより平坦で、ハードネガティブに強いことを示す ▪ RAG FTは知識抽出能力も向上させる ◦ ※ 暗黙的なファインチューニングとは、直接的に教え込まなくても、学習を通じて獲得され る知識や能力のこと。 RAGにおいては、モデルが大量のデータとRAGによる情報検索を通じて、暗黙的に知識を獲 得し、より自然な文章生成を可能に。 19
  15. 5. データ拡張型Fine-tuningによるロバスト性の向上 • 5.2. 推論拡張による関連性識別の強化: ◦ 中間推論ステップを追加して、関連文書の識別を明示的に教える ◦ 推論ステップを最初に生成させ、関連文書の識別の構造化されたアプローチを導入 ◦

    実験結果: ▪ 中間推論を取り入れたRAGファインチューニングが、暗黙的なRAGファインチューニ ングを上回る ▪ 明示的な関連性トレーニングが、ノイズから重要な情報を識別するLLMの能力を向上さ せる ▪ 構造化された推論が理解を深め、パフォーマンスを向上させる 21
  16. Generalization(汎化) • 簡単に言うと、「学習した知識を、未知の状況にも応用できる力」 • 例えば、 ◦ 学習データで「猫はかわいい」と学習したモデルが、「犬はかわいい」という新しい文に対 しても、「かわいい」という感情を正しく理解可能 ◦ 学習データで「東京」という地名に関する情報を学習したモデルが、「大阪」という新しい

    地名に関しても、場所に関する情報を推測可能 • このような能力が generalization (汎化) • なぜ重要なのか? ◦ 現実世界は多様で、学習データに含まれる情報だけではカバーしきれないため ◦ モデルが現実世界の様々な状況に対応できるよう、汎化能力は不可欠 24
  17. 6. Fine-tuningにおけるデータ中心の視点 • データ分布の影響: ◦ 多様なトレーニングデータが、汎化能力を向上させる • Retrieversの選択の影響: ◦ 異なるretrieverからのデータでFine-tuningすると、未知のretrieverに対する汎化能力が

    向上する ◦ 特定のretrieverで訓練されたモデルは、類似したretrieverでより汎化する ◦ 「ハードネガティブ」の特徴はretrieverによって異なる • 訓練コンテキスト長の影響: ◦ 最大コンテキスト長でFine-tuningすると、さまざまなRetrievalサイズで最適なパフォーマ ンスが得られる ◦ LLMが様々な量の情報を効果的に処理できるようにする 25
  18. 7. 結論 • 主な結論: ◦ 長文脈LLMにおいて、検索結果の増加が必ずしも性能向上に繋がらない ◦ 「ハードネガティブ」が性能低下の主要因であることを特定 ◦ 提案手法(検索結果の並び替え、暗黙的/明示的なファインチューニング)が有効であること

    を実証 • 今後の展望: ◦ より高度な検索結果並び替え手法の探求 ◦ より詳細で多段階な推論連鎖を用いたLLMのファインチューニング • 研究の意義: ◦ 長文脈LLMを用いたRAGシステム設計の新たな視点を提供 ◦ よりロバストで高性能なRAGシステムの実現に貢献 26