Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Bedrock RAG Evaluationを活用したRAGの定量的評価方法の紹介
Search
Sponsored
·
SiteGround - Reliable hosting with speed, security, and support you can count on.
→
Yodeee
December 05, 2024
Technology
350
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介
Yodeee
December 05, 2024
More Decks by Yodeee
See All by Yodeee
OCI上で実現するAIエージェント開発方法の紹介
yodeee
0
41
re:Inventから見えたレガシーモダナイぜーションのこれから
yodeee
0
140
Moxie
yodeee
0
24
Agents for Amazon Bedrockで何ができるようになるのか
yodeee
2
1.2k
Amazon Verified Permissionsをプロダクトにどう組み込むかを考える
yodeee
0
230
アウトプットし始めたら QOL (Quality of Learning) が爆上がりした話
yodeee
0
140
Pulumi AIで開発体験は変わるのか
yodeee
0
120
GPT × Alexa × AWS で 英会話学習スキルを作った話
yodeee
0
310
Other Decks in Technology
See All in Technology
Hatena Engineer Seminar 37 jj1uzh
jj1uzh
0
160
5分でわかる Amazon Connect_20260608
hwangbyeonghun
0
130
元・セキュリティ学習経験0大学生による業務紹介 / An Introduction to the Job by a Former College Student with Zero Security Training Experience
nttcom
0
940
40代で“やっとエンジニアになれた”――閉じた学びを開き、空の青さを知る / 20260628 Naoki Takahashi
shift_evolve
PRO
4
1.1k
4人目のSREはAgent
tanimuyk
0
280
#エンジニアBooks 30分でわかる 「技術記事を書く技術」 / engineer-books 2026-06-30
jnchito
1
130
2026 AI Memory Architecture
nagatsu
0
580
初めてのDatabricks勉強会
taka_aki
2
190
組織における AI-DLC 実践
askul
0
160
自作お家AIエージェントスタックチャンFWで困っている所紹介
74th
0
130
2026-06-24_人とAIの責務分離に基づく開発プロセスの提案.pdf
takahiromatsui
0
250
AIをフル活用してオンコール機能のプロトタイプを2日で作った話 / Building an AI-Powered On-Call Prototype in Just Two Days
nari_ex
0
150
Featured
See All Featured
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
370
GraphQLの誤解/rethinking-graphql
sonatard
75
12k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.9k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
62
44k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
23k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
850
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.5k
It's Worth the Effort
3n
188
29k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
220
Redefining SEO in the New Era of Traffic Generation
szymonslowik
1
350
Designing for Timeless Needs
cassininazir
1
260
The untapped power of vector embeddings
frankvandijk
2
1.8k
Transcript
Bedrock RAG Evaluationを活用した RAGの定量的評価方法の紹介 ~ハンズオン参加レポート~ Fin-JAWS 第37回 ~re:Invent ラスベガス現地開催
依田 涼太 Ryota YODA • 金融系ソフトウェアを設計、開発 • 現在は米国シリコンバレーでAI等の 先端技術の調査・開発を担当 •
re:Invent初参加 (ホテル間の距離を全く計算しておらず、い くつかのセッション聞き逃した) @YodeeeTech
生成AIにおけるRAG評価の重要性 • 金融機関のAI利用アンケートによると 「情報検索」分野のAI活用において、期 待を下回るという評価がされている • 金融におけるAI活用では、誤った情報に よる回答生成を避けるためにもRAGの継 続的かつ定量的な評価が不可欠 日本銀行
2024年10月 「金融機関における生成AIの 利用状況とリ スク管理 -アンケート調査結果」 https://www.boj.or.jp/research/brp/fsr/data/fsrb241021-1.pdf
Bedrock Knowledge Bases の RAG Evaluation機能が Preview リリース (米国時間12/1に発表) https://aws.amazon.com/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-rag-evaluation-preview/
RAG評価機能は①データの取り出し (Retrieval)と ②生成 (Generation)の評価を行う ① ②
RAGの評価には下記の項目が使用 + Coherence
• 新機能のKnowledge Base RAG Evaluation機能を活用し、 データ取得結果と生成結果を評価がどのように行え るのかを検証する ハンズオンセッションの概要 ~ AIM311
Evaluate the performance of your generative AI app in Amazon Bedrock ~
Step1: テストデータとしてJSONL形式で用意し、S3に格納 { "conversationTurns": [{ "prompt": { "content": [{ "text":
"Calculate the year-over-year percentage change in cash and cash equivalents for Octank Financial from 2020 to 2021." }] }, "referenceResponses": [{ "content": [{ "text": "2020 cash and cash equivalents: $350 million, 2021 cash and cash equivalents: $480 million, Percentage change = (2021 value - 2020 value) / 2020 value * 100 = ($480 million - $350 million) / $350 million * 100 = 37.14% increase" }] }] }] } プロンプト文 正解文
Step2: 評価モデルや評価メトリクスを設定する 評価する際に使用するモデルの設定 評価メトリクスの設定
事前に定義した評価項目のスコア結果を コンソール上で確認可能 設定した評価項目ごとのスコア 複数の評価結果を比較可能
評価結果はS3にJSONL形式で出力されるため、 BIツールやPythonを使用した独自の分析が可能
• RAG Evaluation機能により、Knowledge Baseからの取得結果、 LLMによる生成結果を複数の観点で定量的に評価できるようになった • 現状は自分でテストデータを作成し、S3に格納する必要がある。 Guardrail機能への統合などにより、使いやすくなるかも • ユースケースとしてはLLM
Opsに組み込み、RAGの自動テストなどの 活用が考えられる まとめ