Upgrade to Pro — share decks privately, control downloads, hide ads and more …

LLMによるRAG評価用合成テストデータの生成

mtsukada
January 17, 2025

 LLMによるRAG評価用合成テストデータの生成

【AWS活用 AI/ML/LLM #1】機械学習/大規模言語モデルのためのデータ準備
https://blueish.connpass.com/event/342077/

mtsukada

January 17, 2025
Tweet

More Decks by mtsukada

Other Decks in Design

Transcript

  1. ©Mitsubishi Electric Corporation L L M に よ る R

    A G 評 価 用 合 成 テ ス ト デ ー タ の 生 成 A I 戦 略 プ ロ ジ ェ ク ト グ ル ー プ 塚 田 真 規 2 0 2 5 / 1 / 1 7
  2. ©Mitsubishi Electric Corporation 自 己 紹 介 2 @m_tsukada •

    2024 Japan AWS All Certifications Engineers • 名前: • 塚田 真規 (つかだ まさき) • 所属: • 三菱電機株式会社 • AI戦略プロジェクトグループ (横浜市みなとみらい)
  3. ©Mitsubishi Electric Corporation AW S B e d r o

    c k で の R A G 構 築 4 LLM Model Embedding Model データ 取り込み 関連情報取得 関連情報+クエリ →テキスト生成 クエリ AWS Cloud Knowledge Base OpenSearch Service テキスト生成結果 Aurora Neptune ドキュメント Amazon S3 データベース Amazon Bedrock Cohere Embed Amazon Titan Cohere Command Amazon Nova Anthropic Claude Evaluations • Bedrock Knowledge Basesを中心に、RAGを構築するサービスが揃っている! • 様々なプロパイダーが提供する多様なLLMモデル、埋め込みモデルが利用可能 • OpenSearch Service、Aurora PostgreSQL、Neptuneにデータベースを簡単に作成可能 • LLM as a Judgeによるナレッジベースの自動評価が可能
  4. ©Mitsubishi Electric Corporation AW S B e d r o

    c k で の R A G 構 築 5 よし! AWSのマネージドサービスを活用して RAGアプリを作ったぞ! 評価機能もあるし、さっそく検証だ! LLM Model Embedding Model データ 取り込み 関連情報取得 関連情報+クエリ →テキスト生成 AWS Cloud Knowledge Base OpenSearch Service Aurora Neptune ドキュメント Amazon S3 データベース Amazon Bedrock Cohere Embed Amazon Titan Cohere Command Amazon Nova Anthropic Claude Evaluations
  5. ©Mitsubishi Electric Corporation LLM Model Embedding Model データ 取り込み 関連情報取得

    関連情報+クエリ →テキスト生成 AWS Cloud Knowledge Base OpenSearch Service Aurora Neptune ドキュメント Amazon S3 データベース Amazon Bedrock Cohere Embed Amazon Titan Cohere Command Amazon Nova Anthropic Claude Evaluations AW S B e d r o c k で の R A G 構 築 6 そういえば、検証用のテストデータが無いな… テストデータ
  6. ©Mitsubishi Electric Corporation RAGアプリの場合では: R A G に お け

    る 評 価 デ ー タ セ ッ ト • RAGの動作検証・性能評価にはテストデータセットが必要! 7 テストデータを用意するのは大変… 質問と回答が自然言語 質問/回答に加え、コンテキスト(参考文書)も必要となるケースも 質問と回答はコンテキスト(参考文書)を元に作成する必要がある
  7. ©Mitsubishi Electric Corporation L L M に よ る R

    A G 評 価 用 合 成 テ ス ト デ ー タ の 生 成 8 生成項目 概要 必須/オプション 1 質問 チャンクテキストを参照して作成可能な質問 必須 2 回答 チャンクテキストのみを参考にして作成可能な、1の質問への回答 必須 3 質問の変形 (より口語&簡易に) 1の質問をより間接的に、簡潔にしたもの (人がチャットで入力する質問に近い形式) オプション 4 検証用テキスト 1の質問回答に必要なチャンクテキストの抜粋 オプション 解決策 LLMを活用して、RAG評価用の合成テストデータのセットを構築する 参考:Generate synthetic data for evaluating RAG systems using Amazon Bedrock 入力ファイル PDF Word Text CSV 出力ファイル Bedrock LLM
  8. ©Mitsubishi Electric Corporation Amazon ECS R A G 評 価

    用 合 成 テ ス ト デ ー タ 生 成 ア プ リ ケ ー シ ョ ン 9 チャンク1 チャンク2 チャンクN アップロード … チャンキング 結果集約 ダウンロード 入力ファイル PDF Word Text Bedrock LLM チャンクテキストを元にLLMを複数回呼び出し、 必要な情報を生成質問 出力ファイル (CSV) • Amazon ECSにアプリケーションを構築し、社内に展開 • WebフレームワークとしてStreamlitを利用 • ドキュメントローダ、LLM呼び出しにはLangChainを利用
  9. ©Mitsubishi Electric Corporation テ ス ト デ ー タ 生

    成 ア プ リ ケ ー シ ョ ン 画 面 10 オプションデータの選択 アップロードファイル形式の選択 結果のダウンロード ブラウザから質問&回答 が確認可能 データ生成実行
  10. ©Mitsubishi Electric Corporation 生 成 し た 合 成 テ

    ス ト デ ー タ • 生成元データ(入力データ) • 三菱電機ニュースリリース「DX人財育成強化を目的とした「DXイノベーションアカデミー」を設立」の全文PDF • https://www.mitsubishielectric.co.jp/news/2024/1216-b.html 11 ID 質問 回答 簡易的な質問 参照テキスト チャンクコンテキスト 1 三菱電機の「DXイノベー ションアカデミー」の設立目 的は? 三菱電機の「DXイノベーションアカデ ミー」の設立目的は、DX人財の育成強 化と、体系的な育成プログラムを通じて 「循環型デジタル・エンジニアリング企業」 への変革を推進することです。 三菱電機DXアカデミーの 目的は? 三菱電機株式会社は、DX 人財の育成強化に向けて、 当 社グループ内の従業員を対象とした体系的な育成機関「DX イノベーションアカデミー」を2025 年4 月1 日に設立します。 今回設立する「DX イノベーションアカデミー」は、当社グループ における DX 人財のスキルセット※1 に基づき、それぞれに必 要な技術・知識・マインドセットを集中的に習得し、実践に活 かすことができる学びの場を当社グループ内へ提供します。 1 (人事No.2421) 2024 年12 月16 日 三菱電機株式会社 DX 人財育成強化を目的とし た「DX イノベーションアカデミー」 を設立 … … 2 三菱電機のDX人財育成 プログラムにおける認定レ ベルは何段階か? 三菱電機のDX人財育成プログラムにお ける認定レベルは4段階です。 三菱電機DX人財育成 プログラムの認定段階数 は? ・講座の修了状況や業務実績などに応じて4 段階(ブロン ズ、シルバー、ゴールド、プラチナ)のレベル認定制度を導入。 プラチナ DX 業務における顕著な功績を有するエキスパート ゴールド 技術力・事業推進能力を有するDX 事業を牽引す るリーダー シルバー DX 事業を主体的に実行できる主担当 ブロンズ DX 業務における基本的な知識を有する者 2 ・当社グループ全従業員向けの 「DXリテラシー講座」により、 … … …
  11. ©Mitsubishi Electric Corporation 手 っ 取 り 早 く 試

    す 方 法 RagasにはRAG用テストデータ作成機能も提供されている! 12 RAG Agents/Tool use cases Natural Language Comparison SQL General purpose Others LLMアプリの評価を支援・強化してくれる 便利なPythonライブラリ 提供評価項目 loader = PyPDFLoader(file_path) documents = loader.load() generator = TestsetGenerator(llm=generator_llm, embedding_model=generator_embeddings) dataset = generator.generate_with_langchain_docs(documents, testset_size=3) 日本語対応などは発展途上中 • Open Sourceを活用したデータ生成
  12. ©Mitsubishi Electric Corporation 終 わ り に 取り組んだこと 「LLMを用いてPDFからRAG検証用合成テストデータを生成」 ◦人が作業するよりも、短時間かつ簡単にデータ準備が可能

    ◦スケーラビリティもあり ×生成のデータに品質に注意は必要(ハルシネーション、バイアスなど) 13 様々な困りごとを解決してくれるLLMの汎用性の高さを改めて知り、 LLMの可能性と便利を改めて実感できました!