Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ACL読み会2025@名大:RAGEval: Scenario Specific RAG Ev...

Avatar for Kojima Ryo Kojima Ryo
September 22, 2025

ACL読み会2025@名大:RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

Avatar for Kojima Ryo

Kojima Ryo

September 22, 2025
Tweet

Other Decks in Education

Transcript

  1. RAGEval|1. スキーマ要約 • シード文書からLLMを用いてスキーマを作成 • シード文書:専門分野のシナリオが反映されている文書 • シード文書は人間が選定 8 例:財務報告スキーマの一部

    "Report Type":, "Report Time":, "Company Information": { "Name": "Establishment Date": "Main Business": "Registration Location": "Listing Status": "Industry": }, "Report Content": [ 専門分野の用語や概念 となる要素を抽出
  2. RAGEval|2. 設定生成 • LLMにより,スキーマの各要素に具体的な値を代入 • 1つのスキーマから複数の設定を生成 10 { "Report Type":

    "Corporate Governance Report", "Report Time": "2017", "Company Information": { "Name": "Banana Consumer Goods Co.", "Establishment Date": "June 1, 2000", "Main Business": "Manufacturer and distributor of personal care and household goods", "Registration Location": "New York, United States", "Listing Status": "Publicly traded on NYSE", "Industry": "Consumer Goods" 例:財務報告の設定の一部 具体的な値(架空)が 代入される
  3. RAGEval|3. 文書生成 • LLMにより,設定に従った文書を生成 • 設定に基づき文書を生成することで一貫性を確保 12 In February 2017,

    Evergreen Consumer Goods Co. expanded its operations into three new international markets: Europe, Asia, and South America. By establishing partnerships with local distributors and investing heavily in marketing campaigns, the company aimed to increase its market reach and generate higher revenue. This expansion into new markets had a positive impact on the company's financial performance. 例:財務報告の生成文書の一部 設定に基づき,架空の 会社の財務報告文書が 生成される
  4. 実験設定 1. 生成文書の品質評価 • 本フレームワーク,ゼロ・ワンショットで生成された文書に順位付け • 安全性,明確さ,準拠性,豊富さの観点で評価 2. 生成モデルの性能評価 •

    検索モデルをBGE-M3モデルに固定し,検索結果をプロンプトに連結 • 本論文の評価指標と従来の評価指標を比較 3. 検索モデルの性能評価 • 生成モデルをLlama3-8B-Instructに固定 • 文単位の再現率(Recall)と単語単位の有効情報の割合(EIR)での評価 19