AWSで構築するパターン別RAG構成解説

AWSで構築するパターン別RAG構成解説 2024.7.8 AWS事業本部つくぼし

Xへの投稿の際は、ハッシュタグ #cm_odyssey でお願いいたします。 2 お願い

⾃⼰紹介 • ハンドルネーム ◦ つくぼし • 所属 ◦ AWS事業本部コンサルティング部 ◦
ソリューションアーキテクト • 最近ハマっているAWSサービス ◦ AWS Application Composer • SNS/ブログ ◦ X(@tsukuboshi0755) ◦ DevelopersIO(つくぼし) 3

⽬次 1. はじめに 2. RAGのおさらい 3. AWSにおけるRAG検索エンジンサービスの⽐較 4. AWSにおけるベクトルデータベースサービスの⽐較 5.
AWSでオススメのRAG構成パターン 6. 最後に 4

1. はじめに 5

社内データをRAGで活⽤する事例が増えてきている 6

AWSではどのパターンのRAGを組むと良いのか？ 7

RAG含めた生成 AI周りの技術は、アップデート速度が早い傾向があります。今回のセッション内容は、あくまで 2024/7/7までの情報を元にしているためご注意ください。 8 ご注意事項

2. RAGのおさらい 9

RAG(Retrieval Augmented Generative)とは？ 10 ⽣成AIにデータの検索結果を与える事で、⽣成する回答性能を向上させる⼿法

なぜRAGが必要なのか？ 11 • ⼀般的に、⽣成AIは特定時点までのパブリックデータしか学習していない • そのため単独では、最新データやプライベートデータ等を⽤いた返答が難しい • 外部DBに参照データを格納し、DBの検索結果を元に⽣
成AIが回答⽣成する事で、上記の弱点を補う事が可能

RAGのフェーズ 1. Storeフェーズ 2. Retrievalフェーズ 3. Generationフェーズ 12

Storeフェーズ 13 • 外部データソースから関連情報を収集 • 収集した情報を分割し、検索エンジンが使⽤するデータベースに保存

Retrievalフェーズ 14 • 検索エンジンを⽤いて、類似ドキュメントの検索を実施 • 抽出されたドキュメント内容のみを結果として返答

Generationフェーズ 15 • 検索結果の内容を参照先として付与した上で、LLMにプロンプトを渡す • LLMがドキュメントに基づいて、回答を⽣成

RAGを理解する上で重要な概念 16 • チャンキング • エンベディング(埋め込み) • ベクトルデータベース

チャンキング 17 • ⼤きなドキュメントデータを⼩さな断⽚(チャンク)に分割する事を指す • RAGでは適切なチャンクサイズと分割⽅法を選ぶ事で、検索精度と⽣成品
質の向上が期待できる参考：https://ﬁntan.jp/page/10301/

エンべディング(埋め込み) 18 • テキストや画像などのデータを、数値ベクトルに変換する技術を指す • エンべディングにより、データの意味や関係性を数学的に表現する事で、機械学習モデルによる類似検索が可能になる参考：https://aws.amazon.com/jp/blogs/news/the-role-of-vector-datastores-in-generative-ai-applications/

ベクトルデータベース 19 • 数値ベクトルを効率的に保存し、ベクトル検索を実施するために設計されたデータベースシステムを指す • ベクトル検索：変換された数値ベクトルの類似度を⽐較し、関連性の⾼いデータを⾒つけ出す検索⽅法
参考：https://aws.amazon.com/jp/blogs/news/the-role-of-vector-datastores-in-generative-ai-applications/

3. AWSにおける RAG検索エンジンサービス 20

RAG検索エンジンサービスの選択肢 • Amazon Kendra • Knowledge Bases for Amazon Bedrock
21

Amazon Kendra 22 • AIを活⽤した⾼度なエンタープライズ検索サービス • データソースのドキュメント情報を抽出し、インデックスとして保存 •
インデックスを検索する事で、関連性の⾼い回答を提供

Kendraを⽤いたRAGの実装 23

Knowledge Bases for Amazon Bedrock 24 • 基盤モデルを⽤いてRAGを実現する Amazon Bedrockの⼀機能
• データソースのドキュメント情報をエンベディングに変換し、ベクトルデータベースに保存 • ベクトルデータベースを検索する事で、関連性の⾼い回答を提供

Knowledge basesを⽤いたRAGの実装 25

RAG検索エンジンサービスの⽐較観点 26 I. 使⽤料⾦ II. 対象データソース III. 同期実⾏スケジューリング機能 IV. 検索フィルタリング機能
V. チャンキング戦略

Ⅰ. 使⽤料⾦ 27 • Kendraは料⾦が⾼いので要注意！ ◦ 現状Enterprise版の場合、最低インデックス料⾦が 1,008USD/⽉となる ◦ Developer版にするとSingle
AZとなるが、最低インデックス料⾦が810USD/⽉と安くなる • Knowledge Basesの料⾦はベクトルデータベースにもよるが、ほとんどの場合Kendraよりは安くなる ◦ 基本はベクトルデータベース料⾦ + モデル利⽤料⾦

Ⅱ. 対象データソース 28 • KendraはS3の他に、様々なデータソースを接続可能 ◦ AWSであれば、RDSやFSx(Windows/NetApp ONTAP)といったサービスとも接続できる ◦
SaaSであれば、SharepointやBox、Google Drive等が利⽤できる ◦ Web Crawlerを⽤いて、特定のウェブサイトを参照する事も可能 • Knowledge BasesはS3のみデータソースとして接続可能 ◦ RDSやSaaS等を対象としたい場合、S3へのデータアップロードの仕組みが別途必要

Ⅲ. 同期実⾏スケジューリング機能 29 • Kendraは単体で同期実⾏スケジューリングを設定可能 ◦ オンデマンド(⼿動実⾏)またはスケジューリングのいずれかを選択できる • Knowledge
Basesは単体で同期実⾏スケジューリングを設定できない ◦ データ同期スケリューリングの仕組み(EventBridge Scheduler + Step Functions等)が別途必要

Ⅳ. 検索フィルタリング機能 30 • Kendraはメタデータによるフィルタリング、CDEによるメタデータ⾃動付与、及びACLによるフィルタリングを実施可能 ◦ メタデータをファイル毎に付与する事で、ファイル単位でフィルタリングできる ◦
CDE(Contents Data Enrichment)を設定する事で、メタデータの⾃動付与を⽐較的簡単に実現できる ◦ ACL(Access Control List)を設定すると、認証サーバと連携し、特定のユーザ‧グループ権限毎にプレフィックス単位でフィルタリングできる • Knowledge Basesはメタデータによるフィルタリングのみ実施可能 ◦ メタデータを⾃動付与したい場合、Lambda等でのメタデータ付与システムの仕組みが別途必要

Ⅴ. チャンキング戦略 31 • Kendraはチャンキング戦略を設定不可 • Knowledge Basesはチャンキング戦略を、以下から変更可能 ◦ デフォルトのチャンキング：各ファイルを300
の最⼤トークン数を持つチャンクに分割し処理する ◦ 固定サイズのチャンキング：各ファイルを20 ~ 8192 の間で指定した最⼤トークン数を持つチャンクに分割し処理する ◦ チャンキング無し：各ファイルをそのままチャンクとして処理する

余談：現時点のIaC化対応状況 32 • Kendraの場合、新データソース設定である TemplateConﬁgurationが⼀部のIaCで現状未対応のため、事前に対応しているか確認するのが吉 • Knowledge Basesの場合、ベクトルデータベース内のインデックス作成⽅法を別途考慮する必要あ
り

4. AWSにおけるベクトルデータベースサービスの⽐較 33

Knowledge Basesで指定できるベクトルデータベース 34

ベクトルデータベースサービスの選択肢 • OpenSearch Serverless (ベクトル検索) • Aurora PostgreSQL (pgvector拡張機能) •
サードパーティ 35

Amazon OpenSearch Serverless 36 • ⼤量のデータコレクションを格納し⾼速で検索可能にするサービス • Serverlessモードで起動する事で、クラスターの管理が不要
• ベクトル検索を選択する事で、ベクトルデータベースとして使⽤可能

Amazon Aurora PostgreSQL 37 • PostgreSQLと互換性のある、フルマネージドなリレーショナルデータベースサービス • pgvector拡張機能を⽤いた追加セットアップにより、ベクトルデータベースとして使⽤
可能 • Aurora に対して HTTP 経由でアクセスを⾏うData APIの許可設定が別途必要

サードパーティ 38 • Pinecone • Redis Enterprise Cloud • MongoDB
Atlas

サードパーティ 39 • Pinecone • Redis Enterprise Cloud • MongoDB
Atlas

ベクトルデータベースの⽐較観点 40 I. 東京リージョン対応 II. 使⽤料⾦ III. ハイブリッド検索 IV. シークレット運⽤
V. ネットワーク運⽤

Ⅰ. 東京リージョン対応 41 • OpenSearch及びAuroraは、東京リージョンに対応済 ◦ ただし使⽤できるBedrockモデルには制限があるため注意 •
Pineconeは、現状東京リージョンは未対応 ◦ 海外リージョンのKnowledge Bases及びS3を使⽤する必要がある

Ⅱ. 使⽤料⾦ 42 • OpenSearchは、東京リージョンの場合、最低OCU料⾦が 977.952USD(OCU：4)となる ◦ アクティブレプリカを無効にする事で、Single AZとなるが最低OCU料⾦は 488.976USD/⽉(OCU：2)となる
• Aurora (Serverless v2)は、東京リージョンの場合、最低ACU料⾦が 73.2USD(ACU：0.5)となる ◦ EventBridgeによりDBの起動停⽌スケジュールを設定する事で、RAGを使⽤していない時間の料⾦を削減可能 • Pinecone (Serverless)は、Standardプランかつバージニアリージョンの場合、最低Units料⾦が10.25USD(Read：1/Write：1)となる ◦ VPCに配置してPrivate Link接続したい場合は、Enterpriseプランにする必要があり、最低Units料⾦が20.5USD(Read：1/Write：1)に上がるため注意

Ⅲ. ハイブリッド検索 43 • OpenSearchではハイブリッド検索を使⽤可能 ◦ ハイブリッド検索：セマンティック検索と全⽂検索の両⽅を実⾏する検索⽅法。現状Knowledge Bases
ではOpenSearchのみ有効化可能。 ◦ さらにアナライザー(⼊⼒されたテキストの前処理をするフィルタ機能)として⽇本語対応プラグインを指定する事で、回答精度の向上が⾒込める。 • Aurora及びPineconeは利⽤不可

Ⅳ. シークレット運⽤ 44 • OpenSearchは、原則シークレットが不要 ◦ シークレット運⽤を考慮する必要がない • Aurora及びPineconeは、事前にSecrets Managerにシークレットの登録が必要
◦ AuroraはDBのユーザー名/パスワード ◦ PineconeはAPIキー

Ⅴ. ネットワーク運⽤ 45 • OpenSearch及びPineconeは、VPCの有無を選択可能 ◦ VPCなしにする事で、ネットワーク運⽤を考慮する必要がなくなる ◦ VPCありにする事で、Private
Linkを⽤いたプライベート接続が可能(Pineconeは現状パブリックプレビュー版のため注意) • Auroraは必ずVPCが必要 ◦ Private Linkを⽤いたプライベート接続は可能な⼀⽅で、ネットワーク運⽤の⼿間が必然的に発⽣する

5. AWSでオススメの RAG構成パターン 46

AWSでRAGを実現する⽅法 47 • Kendra & Bedrock • Knowledge Bases for
Amazon Bedrock • 独⾃実装

AWSでRAGを実現する⽅法 48 • Kendra & Bedrock • Knowledge Bases for
Amazon Bedrock • 独⾃実装

オススメのRAG構成パターン別⽐較表 49 比較観点 Kendra & Bedrock Knowledge Bases with OpenSearch
Knowledge Bases with Aurora Knowledge Bases with Pinecone 使用料金やや高~高中~やや高やや低~中低対象データソース S3/RDS/FSx(Windows・ONTAP)/ 各種SaaS/Web Crawler S3 S3 S3 同期実行スケジューリング機能ありなしなしなし検索フィルタリング機能メタデータ(自動付与機能あり)/ACL メタデータ(自動付与機能なし) メタデータ(自動付与機能なし) メタデータ(自動付与機能なし) チャンキング戦略なしありありあり東京リージョン対応ありありあり現時点ではなしハイブリッド検索なしありなしなしシークレット運用 S3との接続には不要 RDS/FSx/各種SaaS/Web Crawler との接続には原則必要不要必要必要ネットワーク運用デフォルトは不要デフォルトは不要必要デフォルトは不要

パターン1.Kendra + Bedrock 50

パターン1がオススメの⽅ 51 • データソースにS3以外のサービス(RDSやFSx、各種SaaS、Web Crawler)を使⽤したい⽅ • スケジューリング同期実⾏を簡単に使⽤したい⽅ •
⾼性能な検索フィルタリング機能を使⽤したい⽅

パターン2.Knowledge Bases with OpenSearch 52

パターン2がオススメの⽅ 53 • Kendraよりは料⾦を安く抑えたい⽅ • チャンキング戦略やハイブリッド検索を使いこなし、回答精度を独⾃に細かく調整したい⽅ • Secrets‧VPCなしの構成にしたい⽅

パターン3.Knowledge Bases with Aurora 54

パターン3がオススメの⽅ 55 • ある程度料⾦を安く抑えたい⽅ • Secrets‧VPC管理がそこまで⼿間にならない⽅ • RDBMSを⽤いてベクトルデータベースを運⽤したい⽅

パターン4.Knowledge Bases with Pinecone 56

パターン4がオススメの⽅ 57 • 料⾦をとにかく安く抑えたい⽅ • 参照元データを海外リージョンに配置しても問題ない⽅ • Secrets管理がそこまで⼿間にならない⽅ •
VPCなしの構成にしたい⽅

6. 最後に 58

まとめ 59 • AWSでRAG構成を検討する際は、以下の2点を考慮し、要件に応じて適切な構成を選択すると良い ◦ 検索エンジン(Kendra/Knowledge Bases) ◦ ベクトルデータベース
(OpenSearch/Aurora/Pinecone等) • RAG周りはアップデートが早いので、引き続き最新情報を追っていくのが吉

RAGを制するものは⽣成AIインフラを制す！ 60

参考⽂献 61 • [RAGの性能を改善するための8つの戦略 \| Fintan](https://ﬁntan.jp/page/10301/) • [⽣成系 AI アプリケーションでベクトルデータストアが果たす役割とは
\| Amazon Web Services ブログ](https://aws.amazon.com/jp/blogs/news/the-role-of-vector-datastores-in-generative -ai-applications/) • [AWS ⼊⾨ブログリレー 2024 〜Amazon Kendra編〜 \| DevelopersIO](https://dev.classmethod.jp/articles/introduction-2024-amazon-kendra/) • [AWS ⼊⾨ブログリレー 2024 〜Knowledge bases for Amazon Bedrock編〜 \| DevelopersIO](https://dev.classmethod.jp/articles/introduction-2024-knowledge-bases -for-amazon-bedrock/) • [Amazon Bedrock ⽣成AIアプリ開発⼊⾨ \[AWS深掘りガイド\] \| SBクリエイティブ](https://www.sbcr.jp/product/4815626440/)

AWSで構築するパターン別RAG構成解説

AWSで構築するパターン別RAG構成解説

More Decks by つくぼし

Other Decks in Technology

Featured

Transcript