Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介

Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介 ~ハンズオン参加レポート~ Fin-JAWS 第37回～re:Invent ラスベガス現地開催

依田涼太 Ryota YODA • 金融系ソフトウェアを設計、開発 • 現在は米国シリコンバレーでAI等の先端技術の調査・開発を担当 •
re:Invent初参加（ホテル間の距離を全く計算しておらず、いくつかのセッション聞き逃した） @YodeeeTech

生成AIにおけるRAG評価の重要性 • 金融機関のAI利用アンケートによると「情報検索」分野のAI活用において、期待を下回るという評価がされている • 金融におけるAI活用では、誤った情報による回答生成を避けるためにもRAGの継続的かつ定量的な評価が不可欠日本銀行
2024年10月「金融機関における生成AIの利用状況とリスク管理－アンケート調査結果」 https://www.boj.or.jp/research/brp/fsr/data/fsrb241021-1.pdf

Bedrock Knowledge Bases の RAG Evaluation機能が Preview リリース (米国時間12/1に発表) https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-rag-evaluation-preview/

RAG評価機能は①データの取り出し (Retrieval)と ②生成 (Generation)の評価を行う ① ②

RAGの評価には下記の項目が使用 + Coherence

• 新機能のKnowledge Base RAG Evaluation機能を活用し、データ取得結果と生成結果を評価がどのように行えるのかを検証するハンズオンセッションの概要 ~ AIM311
Evaluate the performance of your generative AI app in Amazon Bedrock ~

Step1: テストデータとしてJSONL形式で用意し、S3に格納 { "conversationTurns": [{ "prompt": { "content": [{ "text":
"Calculate the year-over-year percentage change in cash and cash equivalents for Octank Financial from 2020 to 2021." }] }, "referenceResponses": [{ "content": [{ "text": "2020 cash and cash equivalents: $350 million, 2021 cash and cash equivalents: $480 million, Percentage change = (2021 value - 2020 value) / 2020 value * 100 = ($480 million - $350 million) / $350 million * 100 = 37.14% increase" }] }] }] } プロンプト文正解文

Step2: 評価モデルや評価メトリクスを設定する評価する際に使用するモデルの設定評価メトリクスの設定

事前に定義した評価項目のスコア結果をコンソール上で確認可能設定した評価項目ごとのスコア複数の評価結果を比較可能

評価結果はS3にJSONL形式で出力されるため、 BIツールやPythonを使用した独自の分析が可能

• RAG Evaluation機能により、Knowledge Baseからの取得結果、 LLMによる生成結果を複数の観点で定量的に評価できるようになった • 現状は自分でテストデータを作成し、S3に格納する必要がある。 Guardrail機能への統合などにより、使いやすくなるかも • ユースケースとしてはLLM
Opsに組み込み、RAGの自動テストなどの活用が考えられるまとめ

Bedrock RAG Evaluationを活用したRAGの定量的評価方法の紹介

Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介

Yodeee

More Decks by Yodeee

Other Decks in Technology

Featured

Transcript