Upgrade to Pro — share decks privately, control downloads, hide ads and more …

jawsdays2025_track_f_iidaxs

iidaxs
February 28, 2025
3

 jawsdays2025_track_f_iidaxs

iidaxs

February 28, 2025
Tweet

Transcript

  1. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 自己紹介 飯田 壮一 о 所属:株式会社HBA о 役職:テクニカルエキスパート

    о 業務:AWS基盤構築、運用 о 資格:AWS認定 * 14 о 家族:妻、息子(4歳)、娘(1歳) ※発表は個人の見解に基づくものであり、所属組織を代表するものではありません。
  2. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 本セッションの概要 1. AWSのRAG評価機能 о 生成AIにおける「評価」とは? о Amazon

    Bedrock Knowledge BasesのRAG評価機能 2. RAG評価から見えてきたAWSでの最適RAG構成 о さまざまなパターンでRAG評価を実験 о RAG評価結果から最適なRAG構成を考察
  3. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 生成AIにおける「評価」とは? ⚫ 「評価」とは、生成AIの出力結果の良し悪しを定量的/定性的にチェックすること о 嘘が含まれていないか о 回答が論理的に矛盾していないか

    о すべての質問に回答できているか о 回答に有害な内容が含まれていないか о 回答に意図しないバイアスが発生していないか ⚫ 評価手法の選択肢 о 人間による評価 о BERTスコアやF1スコアなど従来の評価アルゴリズムによる評価 о LLMを審査員として活用する評価(LLM-as-a-Judge)
  4. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ AWSのRAG評価機能はLLM-as-a-Judgeの手法 ⚫

    ユーザの質問に関連する情報(コンテキスト)を評価する検索の評価と、生成AIの最終回 答を評価する検索と生成の評価を提供 https://aws.amazon.com/jp/about-aws/whats-new/2024/12/amazon-bedrock-knowledge-bases-rag-evaluation-preview/
  5. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目 #

    評価項目 説明 1 検索の評価 品質 メトリクス コンテキスト関連性(Context relevance) 検索されたテキストが質問に対してどの程度文脈的に関連して いるか 2 コンテキスト網羅性(Context coverage) 検索されたテキストが模範回答のテキストに含まれる情報をど の程度カバーしているか 3 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 回答が質問に対してどの程度総合的に役立つか 4 正確性(Correctness) 回答が質問に対してどの程度正確に答えているか 5 論理的一貫性(Logical coherence) 回答に論理的な飛躍、矛盾や不整合がないか 6 忠実性(Faithfulness) 回答が検索されたテキストに関して、どの程度誤った情報(ハル シネーション)を避けているか 7 完全性(Completeness) 回答が質問のすべての側面にどの程度答え、解決しているか 8 責任あるAI メトリクス 有害(Harmfulness) 回答に有害なコンテンツ(憎悪、侮辱、暴力、性的)が含まれて いないか 9 拒否(Refusal) 回答が質問に答えることをどの程度回避しているか 10 ステレオタイプ化(Stereotyping) 回答に固定観念や思い込みが含まれていないか
  6. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価項目と評価に使われるデータの関係性 質問

    回答 模範回答 コンテキスト 有用性(Helpfulness) 正確性(Correctness) 論理的一貫性 (Logical coherence) 忠実性(Faithfulness) 完全性(Completeness) コンテキスト関連性 (Context relevance) コンテキスト網羅性 (Context coverage) 評価データセット RAG
  7. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f Amazon Bedrock Knowledge BasesのRAG評価機能 ⚫ 評価結果の確認 о

    各スコアは0~1に正規化 о 品質メトリクスは1に近いほど良い、責任あるAIメトリクスは0に近いほど良い о 複数の評価結果の比較が可能
  8. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価パターン※) Store Retrieval Generation Indexing ①パース戦略 ②チャンキング戦略

    ④ストアの種類 ③クエリ書き換え ⑤生成モデルの種類 • Default • Foundation models as a parser • Default • 固定サイズ • Break down queriesなし • Break down queriesあり • Amazon Aurora Serverless v2 • Amazon OpenSearch Serverless • セマンティック検索 • ハイブリッド検索 • Amazon Neptune Analytics • Claude 3 Haiku v1 • Claude 3 Sonnet v1 • Claude 3.5 Sonnet v1 • Hierarchical • Semantic ※評価対象は資料作成時点(2025/02/25)で東京リージョンがサポートする標準機能に限定しており、以下は未検証 о 埋め込みモデルの違いによる評価(Amazon Bedrock Knowledge BasesでTitan Text Embeddings V2が未サポート) о Rerankモデルの違いによる評価(RAG評価機能で未サポート) о Amazon Novaシリーズ(2025/02/28出現) ⚫ 5つのカテゴリ、15パターンのRAG評価を実験
  9. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ①パース戦略 # 評価項目 Default parser Foundation

    models as a parser Claude 3.5 Sonnet v1 Claude 3 Haiku v1 1 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 0.8 0.78 0.79 2 正確性(Correctness) 0.75 0.89 0.78 3 論理的一貫性(Logical coherence) 1 1 1 4 忠実性(Faithfulness) 0.93 0.9 0.92 5 完全性(Completeness) 0.71 0.8 0.74 6 責任あるAI メトリクス 有害(Harmfulness) 0 0 0 7 拒否(Refusal) 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0 ⚫ パース戦略は、知識ソースとなる文書のデータ処理方法を決めるオプション о 文書内の非構造化データを構造化データにうまくフォーマットできるかが鍵 ⚫ より賢いモデルのClaude 3.5 Sonnet v1が高評価(図や表に対する質問の正解率が向上)
  10. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ チャンキング戦略は、データベースに保存するデータの分割方法を決めるオプション о 意味的なブロック(チャンク)にうまく分割できれば検索の関連性が向上する ⚫ Hierarchicalチャンキング(子チャンクと親チャンクの階層構造)が全体的によい

    # 評価項目 Default 固定サイズ Hierarchical Semantic 1 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 0.79 0.77 0.8 0.79 2 正確性(Correctness) 0.78 0.76 0.82 0.78 3 論理的一貫性(Logical coherence) 1 1 1 1 4 忠実性(Faithfulness) 0.92 0.87 0.93 0.87 5 完全性(Completeness) 0.74 0.72 0.78 0.73 6 責任あるAI メトリクス 有害(Harmfulness) 0 0 0 0 7 拒否(Refusal) 0 0 0 0.02 8 ステレオタイプ化(Stereotyping) 0 0 0 0 ②チャンキング戦略
  11. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ Break down queriesは、複雑な入力クエリを複数のサブクエリに分割してくれるオプション о サブクエリに分割して検索することで、より関連性の高いチャンクを見つけやすくなる

    ⚫ 今回のケースではBreak down queriesありにするとスコア低下 ③クエリ書き換え # 評価項目 Break down queriesなし Break down queriesあり 1 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 0.79 0.77 2 正確性(Correctness) 0.78 0.64 3 論理的一貫性(Logical coherence) 1 1 4 忠実性(Faithfulness) 0.92 0.79 5 完全性(Completeness) 0.74 0.64 6 責任あるAI メトリクス 有害(Harmfulness) 0 0 7 拒否(Refusal) 0 0 8 ステレオタイプ化(Stereotyping) 0 0
  12. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 検索対象となるデータベースの種類 о AuroraはRDBMS、OpenSearchは検索/分析エンジン、NeptuneはグラフDB ⚫ Amazon

    Aurora Serverless v2とAmazon OpenSearch Serverlessが高評価(検索タイプの差なし) ④ストアの種類 # 評価項目 Amazon Aurora Serverless v2 Amazon OpenSearch Serverless Amazon Neptune Analytics セマンティック 検索 ハイブリッド 検索 1 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 0.79 0.79 0.78 0.78 2 正確性(Correctness) 0.78 0.82 0.82 0.76 3 論理的一貫性(Logical coherence) 1 0.99 1 1 4 忠実性(Faithfulness) 0.92 0.91 0.9 0.87 5 完全性(Completeness) 0.74 0.75 0.74 0.7 6 責任あるAI メトリクス 有害(Harmfulness) 0 0 0 0 7 拒否(Refusal) 0 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0 0
  13. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果) ⚫ 最終回答を生成するモデルの種類 о 東京リージョンで扱えるのはClaudeシリーズのみ ⚫ 総合的にはClaude

    3.5 Sonnet v1だが、大きな差なし ⑤生成モデルの種類 # 評価項目 Claude 3 Haiku v1 Claude 3 Sonnet v1 Claude 3.5 Sonnet v1 1 検索と生成 の評価 品質 メトリクス 有用性(Helpfulness) 0.79 0.81 0.82 2 正確性(Correctness) 0.78 0.77 0.80 3 論理的一貫性(Logical coherence) 1 1 1 4 忠実性(Faithfulness) 0.92 0.87 0.89 5 完全性(Completeness) 0.74 0.75 0.78 6 責任あるAI メトリクス 有害(Harmfulness) 0 0 0 7 拒否(Refusal) 0 0 0 8 ステレオタイプ化(Stereotyping) 0 0 0
  14. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 実験(RAG評価結果から分かったこと) ⚫ データを検索しやすい形に構造化してデータベースに保存する(Indexing)手法の違いがスコアに 大きく影響する ⚫ ストアや生成モデルの違いはスコアにそれほど影響しない ⚫

    Indexingにコストをかけ、それ以外は安価なサービスで構成するのが良さそう # 戦略 選択するサービスやオプション 1 パース戦略 Foundation models as a parser(Claude 3.5 Sonnet v1) 2 チャンキング戦略 Hierarchicalチャンキング 3 クエリ書き換え Break down queriesなし 4 ストアの種類 Amazon Aurora Serverless v2(安価 ※ゼロスケール設定) 5 生成モデルの種類 Claude 3 Haiku v1(安価) 最適RAG構成 ※コストと品質のバランスが良い構成
  15. ハッシュタグ:#jawsdays2025 #jawsug #jawsdays2025_f 1. AWSのRAG評価機能 2. RAG評価から見えてきたAWSでの最適RAG構成 о 生成AIにおける「評価」とは、生成AIの出力結果の良し悪しを定量的・定性的にチェックすること о

    Amazon Bedrock Knowledge BasesのRAG評価機能はLLM-as-a-Judgeの手法を採用 о RAG評価は、4つのデータ(質問、模範解答、コンテキスト、回答)を組み合わせて評価 о ストアや生成モデルより、Indexingにコストをかけるべき о RAGをサクッとお試ししたいなら、現時点では以下の構成にしてみると良い о パース戦略:Foundation models as a parser => Claude 3.5 Sonnet v1 о チャンキング戦略:Hierarchicalチャンキング о ストア:Amazon Aurora Serverless v2 о 生成モデル:Claude 3 Haiku v1 まとめ