Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections

peisuke
November 18, 2023

Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections

LLM x 検索論文読み会

Title: Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections
Author: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi
Presenter: Keisuke Fujimoto ()

peisuke

November 18, 2023
Tweet

More Decks by peisuke

Other Decks in Technology

Transcript

  1. Author: Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh

    Hajishirzi Presenter: Keisuke Fujimoto (Labs) Self-RAG: Learning to Retrieve, Generate and Critique through Self-Reflections
  2. • 論文
 ◦ Self-RAG: Learning to Retrieve, Generate and Critique

    through Self-Reflections
 ▪ preprint: arXiv:2310.11511
 
 • 従来課題
 ◦ RAGにおいて、Retrieveしたデータが無関係の場合に上手く回答 できない
 
 • 目的
 ◦ Retrieveしたデータが適切かを判定し、生成文章を改善
 論文の概要 3
  3. • 既存のRAGプロセス ◦ クエリに関連するテキストを検索し、それを用いて回答を生成 RAGの説明 5 自社製品Aの昨年の 出荷台数は? 自社製品A 昨年

    出荷台数 LLM1: 自然言語を検索 クエリに変換 大量にある 社内ドキュメント 非LLM: 検索ロジック LLM2: 以下のコンテキストを前提として、質 問に答えて下さい。 – [ドキュメントのテキスト文] – 自社製品Aの昨年の出荷台数は? xx,xxx,xxx台 検索でヒットした 社内ドキュメント
  4. ハルシネーション問題 言語モデルの現状と問題点 6 RAGにおける関連文書の検索 の困難性 クエリ query = "カビゴンってどんなポケモンですか? "

    関連文書群より抜粋 '第五世代で登場した幻のポケモンである。通常であれば幻のポケ モンはポケモン図鑑の終盤に番号が振られているが、ビクティニはく さタイプの御三家であるツタージャの前 (イッシュ図鑑でいえば No.000)に図鑑番号が振られている唯一のポケモンである。固定シ ンボルに話しかけたときの鳴き声は「きゅきゅわわ~んっ !」' ABEJA Tech blog: https://tech-blog.abeja.asia/entry/retrieval-and-llm-20230703
  5. • Retrieveしたテキストセグメントが、どの程度役立つかを自己評価しなが ら、文章を逐次生成してく Self-RAGの全体のプロセス 7 クエリ 外部情報を 収集 有用性を評 価

    作成中 の回答 続きの文章を 生成 続きの文章 を生成 作成中の回答 に追加 Retrieveをする場合 Retrieveをしない場合
  6. • Retrieve機構 ◦ クエリに対して、関連性の高い外部情報を提供 • Self-Reflection機構 ◦ 生成されたテキストが、取得した外部情報とどのように関係しているかを判 定 RetrieveとSelf-Reflectionメカニズムの役割

    12 Retrieve機構 Self-Reflection機構 クエリ 文章群 関連文 クエリ 関連文 クエリ・関連文が関連している かどうかのトークン 生成文 関連文が回答生成に役立った かのトークン Reflection token
  7. • Criticモデル ◦ 文章ペアの関連性に基づき、Reflectionトークンを予測 ◦ 生成モデルを学習するためのデータセットである拡張データセットの作成に 利用される ◦ Self-RAGの推論時には利用しない •

    生成モデル ◦ Reflectionトークン付きの文章を生成 ◦ Self-RAGでは、生成モデルの出力した文をユーザに出力 学習するモデルの種類と役割 14
  8. • 文章感の関係性から以下の4パターンのトークンを予測 ◦ Retrieve: Retrieveの判断を行う ◦ IsRel: Retrieveした文とクエリの関連性の判断を行う ◦ IsSup:

    Retrieveした文が生成に役立っているかの判断を行う ◦ IsUse: 生成文の有用性の判断を行う Criticモデルの役割 15
  9. • 人手のアノテーションは高コストなので、GPT-4を利用してデータセットを 作成 • Retrieveのトークンを学習するための戦略 ◦ データ収集 ▪ 学習データからランダムに2つの文(クエリと生成済み文章)を収集 ◦

    プロンプト ▪ Given an instruction, make a judgment on whether finding some external documents from the web helps to generate a better response. ▪ 訳:ウェブから外部の文書を探し出すことがより良い回答を生成するのに役立 つかどうかを判断します。 Criticモデルを学習するためのデータの作成 16
  10. • Short-form generations tasks ◦ データセット: PopQA, TriviaQA-unfiltered ◦ Metric:

    回答が生成に含まれているかを評価 • Closed-set tasks ◦ データセット: PubHealth, ARC-Challenge ◦ Metric: True/False、multiple-choice • Long-form generation tasks ◦ データセット: ALCE-ASQA ◦ Metric: FactScore、correctness、fluency、citation precision and recall 実験: タスクとデータセット 21
  11. • Baselines without retrievals ◦ 商用利用/プライベートデータで学習されているモデル ▪ ChatGPTなど ◦ OSSとして利用されているモデル

    ▪ AlpacaやLlama2など • Baselines with retrievals ◦ AlpacaやLlama2などとRAGを組み合わせたモデル 実験: ベースラインについて 22
  12. • Trainingデータ ◦ Open-Instruct processed data、knowledge-intensive datasetsな どから150k 個のinstruction-output pairsを利用

    • Model ◦ 生成モデル:Llama2 7B and 13B ◦ Criticモデル:Llama2 7B • Retriever ◦ Contriever-MS MARCO • 計算リソース ◦ A100 x 4 実験: セッティング詳細 23