jawsdays2025_track_f_iidaxs

RAG評価から見えてきたAWSでの最適RAG構成【お祭りトラック】スピーカービギナーズ＆個人サポーター限定LT大会ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 自己紹介飯田壮一 о 所属：株式会社HBA о 役職：テクニカルエキスパート
о 業務：AWS基盤構築、運用 о 資格：AWS認定 * 14 о 家族：妻、息子（4歳）、娘（1歳） ※発表は個人の見解に基づくものであり、所属組織を代表するものではありません。

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 本セッションの概要 1. AWSのRAG評価機能 о 生成AIにおける「評価」とは? о Amazon
Bedrock Knowledge BasesのRAG評価機能 2. RAG評価から見えてきたAWSでの最適RAG構成 о さまざまなパターンでRAG評価を実験 о RAG評価結果から最適なRAG構成を考察

1. AWSのRAG評価機能ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 生成AIにおける「評価」とは? ⚫ 「評価」とは、生成AIの出力結果の良し悪しを定量的／定性的にチェックすること о 嘘が含まれていないか о 回答が論理的に矛盾していないか
о すべての質問に回答できているか о 回答に有害な内容が含まれていないか о 回答に意図しないバイアスが発生していないか ⚫ 評価手法の選択肢 о 人間による評価 о BERTスコアやF1スコアなど従来の評価アルゴリズムによる評価 о LLMを審査員として活用する評価(LLM-as-a-Judge)

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ AWSのRAG評価機能はLLM-as-a-Judgeの手法 ⚫
ユーザの質問に関連する情報(コンテキスト)を評価する検索の評価と、生成AIの最終回答を評価する検索と生成の評価を提供 https://aws.amazon.com/jp/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-rag-evaluation-preview/

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目 #
評価項目説明 1 検索の評価品質メトリクスコンテキスト関連性(Context relevance) 検索されたテキストが質問に対してどの程度文脈的に関連しているか 2 コンテキスト網羅性(Context coverage) 検索されたテキストが模範回答のテキストに含まれる情報をどの程度カバーしているか 3 検索と生成の評価品質メトリクス有用性(Helpfulness) 回答が質問に対してどの程度総合的に役立つか 4 正確性(Correctness) 回答が質問に対してどの程度正確に答えているか 5 論理的一貫性(Logical coherence) 回答に論理的な飛躍、矛盾や不整合がないか 6 忠実性(Faithfulness) 回答が検索されたテキストに関して、どの程度誤った情報(ハルシネーション)を避けているか 7 完全性(Completeness) 回答が質問のすべての側面にどの程度答え、解決しているか 8 責任あるAI メトリクス有害(Harmfulness) 回答に有害なコンテンツ(憎悪、侮辱、暴力、性的)が含まれていないか 9 拒否(Refusal) 回答が質問に答えることをどの程度回避しているか 10 ステレオタイプ化(Stereotyping) 回答に固定観念や思い込みが含まれていないか

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目と評価に使われるデータの関係性質問
回答模範回答コンテキスト有用性(Helpfulness) 正確性(Correctness) 論理的一貫性 (Logical coherence) 忠実性(Faithfulness) 完全性(Completeness) コンテキスト関連性 (Context relevance) コンテキスト網羅性 (Context coverage) 評価データセット RAG

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価結果の確認 о
各スコアは0～1に正規化 о 品質メトリクスは1に近いほど良い、責任あるAIメトリクスは0に近いほど良い о 複数の評価結果の比較が可能

2. RAG評価から見えてきたAWSでの最適RAG構成ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(評価データセット作成) ⚫ 評価データセット(質問と模範回答)はJSONL形式で作成する ⚫ Allganize Japanが公開する日本語のRAG性能を評価するためのデータセットを使用 Allganize
RAG Leaderboard

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価パターン※) Store Retrieval Generation Indexing ①パース戦略 ②チャンキング戦略
④ストアの種類 ③クエリ書き換え ⑤生成モデルの種類 • Default • Foundation models as a parser • Default • 固定サイズ • Break down queriesなし • Break down queriesあり • Amazon Aurora Serverless v2 • Amazon OpenSearch Serverless • セマンティック検索 • ハイブリッド検索 • Amazon Neptune Analytics • Claude 3 Haiku v1 • Claude 3 Sonnet v1 • Claude 3.5 Sonnet v1 • Hierarchical • Semantic ※評価対象は資料作成時点(2025/02/25)で東京リージョンがサポートする標準機能に限定しており、以下は未検証 о 埋め込みモデルの違いによる評価(Amazon Bedrock Knowledge BasesでTitan Text Embeddings V2が未サポート) о Rerankモデルの違いによる評価(RAG評価機能で未サポート) о Amazon Novaシリーズ(2025/02/28出現) ⚫ 5つのカテゴリ、15パターンのRAG評価を実験

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ①パース戦略 # 評価項目 Default parser Foundation
models as a parser Claude 3.5 Sonnet v1 Claude 3 Haiku v1 1 検索と生成の評価品質メトリクス有用性(Helpfulness) 0.8 0.78 0.79 2 正確性(Correctness) 0.75 0.89 0.78 3 論理的一貫性(Logical coherence) 1 1 1 4 忠実性(Faithfulness) 0.93 0.9 0.92 5 完全性(Completeness) 0.71 0.8 0.74 6 責任あるAI メトリクス有害(Harmfulness) 0 0 0 7 拒否(Refusal) 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0 ⚫ パース戦略は、知識ソースとなる文書のデータ処理方法を決めるオプション о 文書内の非構造化データを構造化データにうまくフォーマットできるかが鍵 ⚫ より賢いモデルのClaude 3.5 Sonnet v1が高評価(図や表に対する質問の正解率が向上)

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ チャンキング戦略は、データベースに保存するデータの分割方法を決めるオプション о 意味的なブロック(チャンク)にうまく分割できれば検索の関連性が向上する ⚫ Hierarchicalチャンキング(子チャンクと親チャンクの階層構造)が全体的によい
# 評価項目 Default 固定サイズ Hierarchical Semantic 1 検索と生成の評価品質メトリクス有用性(Helpfulness) 0.79 0.77 0.8 0.79 2 正確性(Correctness) 0.78 0.76 0.82 0.78 3 論理的一貫性(Logical coherence) 1 1 1 1 4 忠実性(Faithfulness) 0.92 0.87 0.93 0.87 5 完全性(Completeness) 0.74 0.72 0.78 0.73 6 責任あるAI メトリクス有害(Harmfulness) 0 0 0 0 7 拒否(Refusal) 0 0 0 0.02 8 ステレオタイプ化(Stereotyping) 0 0 0 0 ②チャンキング戦略

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ Break down queriesは、複雑な入力クエリを複数のサブクエリに分割してくれるオプション о サブクエリに分割して検索することで、より関連性の高いチャンクを見つけやすくなる
⚫ 今回のケースではBreak down queriesありにするとスコア低下 ③クエリ書き換え # 評価項目 Break down queriesなし Break down queriesあり 1 検索と生成の評価品質メトリクス有用性(Helpfulness) 0.79 0.77 2 正確性(Correctness) 0.78 0.64 3 論理的一貫性(Logical coherence) 1 1 4 忠実性(Faithfulness) 0.92 0.79 5 完全性(Completeness) 0.74 0.64 6 責任あるAI メトリクス有害(Harmfulness) 0 0 7 拒否(Refusal) 0 0 8 ステレオタイプ化(Stereotyping) 0 0

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 検索対象となるデータベースの種類 о AuroraはRDBMS、OpenSearchは検索/分析エンジン、NeptuneはグラフDB ⚫ Amazon
Aurora Serverless v2とAmazon OpenSearch Serverlessが高評価(検索タイプの差なし) ④ストアの種類 # 評価項目 Amazon Aurora Serverless v2 Amazon OpenSearch Serverless Amazon Neptune Analytics セマンティック検索ハイブリッド検索 1 検索と生成の評価品質メトリクス有用性(Helpfulness) 0.79 0.79 0.78 0.78 2 正確性(Correctness) 0.78 0.82 0.82 0.76 3 論理的一貫性(Logical coherence) 1 0.99 1 1 4 忠実性(Faithfulness) 0.92 0.91 0.9 0.87 5 完全性(Completeness) 0.74 0.75 0.74 0.7 6 責任あるAI メトリクス有害(Harmfulness) 0 0 0 0 7 拒否(Refusal) 0 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0 0

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 最終回答を生成するモデルの種類 о 東京リージョンで扱えるのはClaudeシリーズのみ ⚫ 総合的にはClaude
3.5 Sonnet v1だが、大きな差なし ⑤生成モデルの種類 # 評価項目 Claude 3 Haiku v1 Claude 3 Sonnet v1 Claude 3.5 Sonnet v1 1 検索と生成の評価品質メトリクス有用性(Helpfulness) 0.79 0.81 0.82 2 正確性(Correctness) 0.78 0.77 0.80 3 論理的一貫性(Logical coherence) 1 1 1 4 忠実性(Faithfulness) 0.92 0.87 0.89 5 完全性(Completeness) 0.74 0.75 0.78 6 責任あるAI メトリクス有害(Harmfulness) 0 0 0 7 拒否(Refusal) 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果から分かったこと) ⚫ データを検索しやすい形に構造化してデータベースに保存する(Indexing)手法の違いがスコアに大きく影響する ⚫ ストアや生成モデルの違いはスコアにそれほど影響しない ⚫
Indexingにコストをかけ、それ以外は安価なサービスで構成するのが良さそう # 戦略選択するサービスやオプション 1 パース戦略 Foundation models as a parser(Claude 3.5 Sonnet v1) 2 チャンキング戦略 Hierarchicalチャンキング 3 クエリ書き換え Break down queriesなし 4 ストアの種類 Amazon Aurora Serverless v2(安価 ※ゼロスケール設定) 5 生成モデルの種類 Claude 3 Haiku v1(安価）最適RAG構成 ※コストと品質のバランスが良い構成

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(最適RAG構成での評価) ⚫ 全体的にいい感じ

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 1. AWSのRAG評価機能 2. RAG評価から見えてきたAWSでの最適RAG構成 о 生成AIにおける「評価」とは、生成AIの出力結果の良し悪しを定量的・定性的にチェックすること о
Amazon Bedrock Knowledge BasesのRAG評価機能はLLM-as-a-Judgeの手法を採用 о RAG評価は、4つのデータ(質問、模範解答、コンテキスト、回答)を組み合わせて評価 о ストアや生成モデルより、Indexingにコストをかけるべき о RAGをサクッとお試ししたいなら、現時点では以下の構成にしてみると良い о パース戦略：Foundation models as a parser => Claude 3.5 Sonnet v1 о チャンキング戦略：Hierarchicalチャンキング о ストア：Amazon Aurora Serverless v2 о 生成モデル：Claude 3 Haiku v1 まとめ

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f ご清聴ありがとうございました

jawsdays2025_track_f_iidaxs

jawsdays2025_track_f_iidaxs

iidaxs

More Decks by iidaxs

Featured

Transcript

RAG評価から見えてきたAWSでの最適RAG構成【お祭りトラック】スピーカービギナーズ＆個人サポーター限定LT大会ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 自己紹介飯田壮一 о 所属：株式会社HBA о 役職：テクニカルエキスパート

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 本セッションの概要 1. AWSのRAG評価機能 о 生成AIにおける「評価」とは? о Amazon

1. AWSのRAG評価機能ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 生成AIにおける「評価」とは? ⚫ 「評価」とは、生成AIの出力結果の良し悪しを定量的／定性的にチェックすること о 嘘が含まれていないか о 回答が論理的に矛盾していないか

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ AWSのRAG評価機能はLLM-as-a-Judgeの手法 ⚫

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目 #

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目と評価に使われるデータの関係性質問

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価結果の確認 о

2. RAG評価から見えてきたAWSでの最適RAG構成ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(評価データセット作成) ⚫ 評価データセット(質問と模範回答)はJSONL形式で作成する ⚫ Allganize Japanが公開する日本語のRAG性能を評価するためのデータセットを使用 Allganize

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価パターン※) Store Retrieval Generation Indexing ①パース戦略 ②チャンキング戦略

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ①パース戦略 # 評価項目 Default parser Foundation

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 検索対象となるデータベースの種類 о AuroraはRDBMS、OpenSearchは検索/分析エンジン、NeptuneはグラフDB ⚫ Amazon

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 最終回答を生成するモデルの種類 о 東京リージョンで扱えるのはClaudeシリーズのみ ⚫ 総合的にはClaude

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 実験(最適RAG構成での評価) ⚫ 全体的にいい感じ

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f 1. AWSのRAG評価機能 2. RAG評価から見えてきたAWSでの最適RAG構成 о 生成AIにおける「評価」とは、生成AIの出力結果の良し悪しを定量的・定性的にチェックすること о

ハッシュタグ：#jawsdays2025 #jawsug #jawsdays2025_f ご清聴ありがとうございました