RAGの回答精度評価用のQAデータセットを生成AIに作らせた話

RAGの性能評価⽤のQAデータセットを⽣成AIに作らせた話 ´ AI/MLなんでもLT会 ´ 藏原これはる（NCDC株式会社） ´ 2024 /
08 / 23

⽬次 1. ⾃⼰紹介 2. 本⽇の概要 3. 背景 RAGについて 4. 問題意識
5. 基本的な考え⽅ 6. 構築 1. Bedrock Prompt Manager 2. Bedrock Prompt Flow 7. 結果 8. RAG評価への応⽤ 9. まとめ 10. 課題 2

⾃⼰紹介 l ⽒名 l 藏原これはる l ロール l NCDC株式会社
ITコンサルタント l 略歴 l 2021/04 ゼネコンの情シス職に新卒⼊社 l 2023/11 NCDC⼊社 l 趣味など l 読書（百年の孤独が積読に追加されました） l ポケモンGO 3

本⽇の概要 l RAGの回答精度の評価⼿法に関する話 l RAGの構築に関する話は今⽇はしません l ナレッジからQAデータセットを作成し、テストを⾏う⼿法を提案 l QAデータセットの作成に、Amazon Bedrockの各サービスを利⽤
l ノーコードで処理を開発できたため、⾮プログラマでも実⾏可能 4

背景 RAGについて l “Retrieval-Augmented Generation (RAG) は、⼤規模⾔語モデル（LLM）によるテキスト⽣成に、外部情報の検索を組み合わせることで、回答精度を向上させる技術のこと。検索拡張⽣成などと訳される”（NRIより引⽤） l
LLMによる汎⽤的な⽂章⽣成機能に、ユーザー独⾃の知識（ナレッジベース）を組み込むことで、独⾃の知識を踏まえた回答を⽣成させている l LLM⾃⾝がナレッジベースを学習しているわけではない 5 アプリケーション +リトリーバープログラム(LLMの時もある) ジェネレーター LLM ユーザー主として⼈間弊社の有給取得ルールを教えて︕ 弊社の有給取得ルールの説明⽂を⽣成せよ。ただし⽂書A中の…、⽂書B中の…という内容をもとに⽣成することはい。弊社の有給取得ルールは[……]です参考︓https://ncdc.co.jp/columns/8742/

問題意識 l 世は⼤RAG時代、だが…… 1. 開発者⾃⾝がRAGの性能を評価できない l 太宰治作品を読んだことがない⼈に、「⾛れメロスRAG」の性能評価はできない l ⾃分が知っている（正誤を判断できる）内容の質問しか想定することができな
いから 2. 返答が微妙だった時の、性能の評価が難しい l そもそもその返答は正しいのか︖ 誤りなのか︖（ハルシネーション） l ナレッジが⾜りないのか︖ l RAGの回答精度が低いのか︖ l モデル性能が低いのか︖ l ジェネレーター or リトリーバー︖ l プロンプトが邪魔をしているのか︖ 6

基本的な考え⽅ l ナレッジの内容に関して、正しいとわかっている「質問ー回答」のデータセットを⽤意し、RAGに質問を⼊⼒することで正しい回答を返すかを評価する l 利⽤するナレッジは「質問ー回答」の形式になっていないことがほとんど l ナレッジを⽣成AIに⼊⼒し、「質問ー回答」のデータセットを⽣成させる
7 ナレッジナレッジベース化・Kendra ・OpenSearch RAG開発・モデル選択・プロンプト作成提供 QAデータセット作成テスト

（参考） Guardrails for Amazon Bedrock について l Guardrails for Amazon
Bedrock で contextual grounding check を実⾏できるようになりました(2024/08) l Grounding: モデルからの出⼒が、ナレッジベースの情報にどれだけ基づいているかを0~1で評価した値 l Relevance: モデルからの出⼒が、ユーザーの質問内容とどれだけ関連しているかを0~1で評価した値 l GroundingとRelevanceを両⽅評価することで、ハルシネーションを起こしている可能性が⾼い回答をフィルターすることが可能 l 情報の正誤そのものの評価ではないことに注意 l https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/g uardrails-contextual-grounding-check.html 8

構築 Bedrock Prompt Manager l ブラウザ上で基盤モデルを調整し、プロンプトの開発・保存ができるサービス l 試⾏錯誤（）の末、以下のプロンプトを作成した l
基盤モデルにはClaude3.5 Sonnetを使⽤ l ⾼性能だが、費⽤が⾼い l テストデータの作成にはSonnetを使い、RAG本体にはHaikuなどのより廉価なモデルを使うといったような運⽤の⼯夫が考えられる 9 以下の物語を読み、質問と回答のセットを5つ作成しなさい。テキストから作品名を明らかにしなさい。物語は{{topic}}です.

構築 Bedrock Prompt Flow l ノーコード・ローコードツールに近い感覚で、Bedrockの機能を⽤いたアプリケーションを開発できるサービス l 使い勝⼿、メリット、デメリットは他のノーコード・ローコードツールと同様
l 使⽤できるモジュールがまだ少ない l 簡単なルーチンの⾃動化などの処理はすぐに作成できる l S3に配置したテキストファイルを読み込み、Bedrockのプロンプトを呼び出す処理をノーコードで作成した 10

結果 l 「⾛れメロス／太宰治」から、質問と回答のセットを⽣成させた l 後から⼈間がチェックし、問題ないことを確認 11 番号質問回答内容チェッ
ク 1 メロスはどんな職業の⼈物ですか? メロスは村の牧⼈(⽺飼い)です。正 2 メロスが王城に⾏った理由は何ですか? 暴君ディオニスを暗殺するためです。正 3 メロスの⾝代わりになった友⼈の名前は? セリヌンティウスです。正 4 メロスが約束の時間に遅れそうになった原因は何ですか? 豪⾬による川の氾濫、⼭賊の襲撃、極度の疲労などです。正 5 物語の最後で、暴君ディオニスはどのような態度を取りましたか? メロスとセリヌンティウスの友情に感動し、⾃分も仲間に⼊れてほしいと頼みました。正

RAG評価への応⽤ l 基盤モデルとして、Claude3 SonnetとCalude3 Haikuを使った⼆つのエージェントを⽤意し、同じ質問に対する回答を⾒⽐べて⽐較 12 Haiku Sonnet QAデータセットと
同⼀内容の回答を返した︕

RAG評価への応⽤ l Claude3 Haikuは、スピードとコストで優れるものの、正確さという点で Sonnetにやや劣る l どちらもQAセットと異なったので、プロンプトに⼯夫の余地がある可能性 13 Haiku Sonnet
どちらもQAデータセットとは異なる回答を返し、さらに誤った情報を記載した（正しくは妹の結婚式）

まとめ l RAGの性能評価を⾏った l QAデータセットをナレッジから作成し、RAGに対して質問を投げることで、回答の正誤判定を⾏った l QAデータセットと⽐較することで、「なんとなく正しそう」「データが取れてそう」という雰囲気ベースの評価以上に正確な評価を⾏えるようになった
l QAデータセットの作成に際して、Amazon Bedrockの新サービスを活⽤した l ノーコードで作業を完結できた 14

課題 l QAデータセット⽣成処理の⾃動化 l ナレッジを追加したタイミングで処理が⾛り、QAデータがjsonなどで吐き出される形が理想 l txtファイル以外への対応 l 現状対応しているのはutf-8エンコーディングされたプレーンテキストのみ
l トークン数の上限対応 l ⼀度に20万⽂字程度が限界 l 評価指標の定量化・システム化 l 因果推論タスクとして解かせてみる︖ l Guardrailsよりも意味のある指標になる︖ l 性能向上のための打ち⼿の切り分け l QAデータセットのハルシネーション対策 l そもそも「正しい」って何 l 哲学 15

Thank you! 16

（参考）返答が微妙だった時の対応切り分けフロー 17 微妙な返答情報はナレッジにあるか︖ テストデータと同じモデルを使っている
か︖ 他モデルとの検証などナレッジの拡充プロンプトの改良

RAGの回答精度評価用のQAデータセットを生成AIに作らせた話

RAGの回答精度評価用のQAデータセットを生成AIに作らせた話

Koreharu

More Decks by Koreharu

Other Decks in Programming

Featured

Transcript

RAGの性能評価⽤のQAデータセットを⽣成AIに作らせた話 ´ AI/MLなんでもLT会 ´ 藏原これはる（NCDC株式会社） ´ 2024 /

⽬次 1. ⾃⼰紹介 2. 本⽇の概要 3. 背景 RAGについて 4. 問題意識

⾃⼰紹介 l ⽒名 l 藏原これはる l ロール l NCDC株式会社

本⽇の概要 l RAGの回答精度の評価⼿法に関する話 l RAGの構築に関する話は今⽇はしません l ナレッジからQAデータセットを作成し、テストを⾏う⼿法を提案 l QAデータセットの作成に、Amazon Bedrockの各サービスを利⽤

（参考） Guardrails for Amazon Bedrock について l Guardrails for Amazon

構築 Bedrock Prompt Manager l ブラウザ上で基盤モデルを調整し、プロンプトの開発・保存ができるサービス l 試⾏錯誤（）の末、以下のプロンプトを作成した l

構築 Bedrock Prompt Flow l ノーコード・ローコードツールに近い感覚で、Bedrockの機能を⽤いたアプリケーションを開発できるサービス l 使い勝⼿、メリット、デメリットは他のノーコード・ローコードツールと同様

結果 l 「⾛れメロス／太宰治」から、質問と回答のセットを⽣成させた l 後から⼈間がチェックし、問題ないことを確認 11 番号質問回答内容チェッ

RAG評価への応⽤ l 基盤モデルとして、Claude3 SonnetとCalude3 Haikuを使った⼆つのエージェントを⽤意し、同じ質問に対する回答を⾒⽐べて⽐較 12 Haiku Sonnet QAデータセットと

RAG評価への応⽤ l Claude3 Haikuは、スピードとコストで優れるものの、正確さという点で Sonnetにやや劣る l どちらもQAセットと異なったので、プロンプトに⼯夫の余地がある可能性 13 Haiku Sonnet

Thank you! 16

（参考）返答が微妙だった時の対応切り分けフロー 17 微妙な返答情報はナレッジにあるか︖ テストデータと同じモデルを使っている