Slide 1

Slide 1 text

Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介 ~ハンズオン参加レポート~ Fin-JAWS 第37回 ~re:Invent ラスベガス現地開催

Slide 2

Slide 2 text

依田 涼太 Ryota YODA • 金融系ソフトウェアを設計、開発 • 現在は米国シリコンバレーでAI等の 先端技術の調査・開発を担当 • re:Invent初参加 (ホテル間の距離を全く計算しておらず、い くつかのセッション聞き逃した) @YodeeeTech

Slide 3

Slide 3 text

生成AIにおけるRAG評価の重要性 • 金融機関のAI利用アンケートによると 「情報検索」分野のAI活用において、期 待を下回るという評価がされている • 金融におけるAI活用では、誤った情報に よる回答生成を避けるためにもRAGの継 続的かつ定量的な評価が不可欠 日本銀行 2024年10月 「金融機関における生成AIの 利用状況とリ スク管理 -アンケート調査結果」 https://www.boj.or.jp/research/brp/fsr/data/fsrb241021-1.pdf

Slide 4

Slide 4 text

Bedrock Knowledge Bases の RAG Evaluation機能が Preview リリース (米国時間12/1に発表) https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-rag-evaluation-preview/

Slide 5

Slide 5 text

RAG評価機能は①データの取り出し (Retrieval)と ②生成 (Generation)の評価を行う ① ②

Slide 6

Slide 6 text

RAGの評価には下記の項目が使用 + Coherence

Slide 7

Slide 7 text

• 新機能のKnowledge Base RAG Evaluation機能を活用し、 データ取得結果と生成結果を評価がどのように行え るのかを検証する ハンズオンセッションの概要 ~ AIM311 Evaluate the performance of your generative AI app in Amazon Bedrock ~

Slide 8

Slide 8 text

Step1: テストデータとしてJSONL形式で用意し、S3に格納 { "conversationTurns": [{ "prompt": { "content": [{ "text": "Calculate the year-over-year percentage change in cash and cash equivalents for Octank Financial from 2020 to 2021." }] }, "referenceResponses": [{ "content": [{ "text": "2020 cash and cash equivalents: $350 million, 2021 cash and cash equivalents: $480 million, Percentage change = (2021 value - 2020 value) / 2020 value * 100 = ($480 million - $350 million) / $350 million * 100 = 37.14% increase" }] }] }] } プロンプト文 正解文

Slide 9

Slide 9 text

Step2: 評価モデルや評価メトリクスを設定する 評価する際に使用するモデルの設定 評価メトリクスの設定

Slide 10

Slide 10 text

事前に定義した評価項目のスコア結果を コンソール上で確認可能 設定した評価項目ごとのスコア 複数の評価結果を比較可能

Slide 11

Slide 11 text

評価結果はS3にJSONL形式で出力されるため、 BIツールやPythonを使用した独自の分析が可能

Slide 12

Slide 12 text

• RAG Evaluation機能により、Knowledge Baseからの取得結果、 LLMによる生成結果を複数の観点で定量的に評価できるようになった • 現状は自分でテストデータを作成し、S3に格納する必要がある。 Guardrail機能への統合などにより、使いやすくなるかも • ユースケースとしてはLLM Opsに組み込み、RAGの自動テストなどの 活用が考えられる まとめ