Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Knowledge Bases for Amazon Bedrockの推しポイント
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
moritalous
July 29, 2024
Technology
3
820
Knowledge Bases for Amazon Bedrockの推しポイント
JAWS-UG 名古屋 生成AI夏祭り
https://jawsug-nagoya.connpass.com/event/324585/
で発表した資料です。
moritalous
July 29, 2024
Tweet
Share
More Decks by moritalous
See All by moritalous
なんだか流行ってるらしいMCPを Bedrockで使ってみよ〜
moritalous
0
3.3k
OSSの実装を参考にBedrockエージェントを作る
moritalous
2
760
Contextual Retrievalをやってみた
moritalous
0
330
The Ultimate RAG Showdown
moritalous
0
190
JAWS PANKRATION前哨戦 The Ultimate RAG Showdown
moritalous
0
50
The Ultimate RAG Showdown (Japanese)
moritalous
1
70
AWSのノーコード・ローコードLLMアプリ開発
moritalous
0
2.2k
Bedrockに触ってみよう - 【#Bedrock開発入門 出版記念】AWSで生成AIアプリ開発をはじめよう!
moritalous
1
1.7k
Bedrock最新情報 Bedrock Studio、Converse API / Tool use | 書籍「Amazon Bedrock 生成AIアプリ開発入門」出版イベント
moritalous
1
500
Other Decks in Technology
See All in Technology
ADK + Gemini Enterprise で 外部 API 連携エージェント作るなら OAuth の仕組みを理解しておこう
kaz1437
0
130
スピンアウト講座02_ファイル管理
overflowinc
0
790
事例から紐解くSHIFT流QA支援 ~大規模プロジェクトの品質管理支援、QA組織立ち上げ~ / 20260320 Nozomu Koketsu
shift_evolve
PRO
0
120
Visional 28新卒プロダクト職(エンジニア/デザイナー)向け 会社説明資料 / Visional Company Briefing for Newgrads 28
visional_engineering_and_design
1
110
君はジョシュアツリーを知っているか?名前をつけて事象を正しく認識しよう / Do you know Joshua Tree?
ykanoh
2
110
GitHub Copilot CLI で Azure Portal to Bicep
tsubakimoto_s
0
170
スピンアウト講座03_CLAUDE-MDとSKILL-MD
overflowinc
0
760
大規模ECサイトのあるバッチのパフォーマンスを改善するために僕たちのチームがしてきたこと
panda_program
1
340
GCASアップデート(202601-202603)
techniczna
0
250
夢の無限スパゲッティ製造機 #phperkaigi
o0h
PRO
0
330
AWS Systems Managerのハイブリッドアクティベーションを使用したガバメントクラウド環境の統合管理
toru_kubota
0
130
品質を経営にどう語るか #jassttokyo / Communicating the Strategic Value of Quality to Executive Leadership
kyonmm
PRO
2
1.1k
Featured
See All Featured
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
160
The Invisible Side of Design
smashingmag
302
51k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
650
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.7k
Tell your own story through comics
letsgokoyo
1
860
GraphQLとの向き合い方2022年版
quramy
50
14k
Measuring Dark Social's Impact On Conversion and Attribution
stephenakadiri
1
160
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.6k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.2k
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
150
Imperfection Machines: The Place of Print at Facebook
scottboms
269
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Transcript
Knowledge Bases for Amazon Bedrockの 推しポイント JAWS-UG 名古屋 生成AI夏祭り @moritalous
自己紹介 森田 和明 富士ソフト株式会社 主任 / フェロー(アーキテクト・エバンジェリスト) AWS Ambassador(2023~) AWS Top Engineer(2020~)
AWS All Certifications Engineer(2024) AWS Community Builder 生成AIに限らず、AWS関係のアーキテクトとエバンジェリストをやってます Java Webアプリ開発出身 新しいもの好き X / Qiita / GitHub : @moritalous 「Jumping deer with japanese temple」 Amazon Titan Image Generatorにて生成
書籍を執筆しました 通称「サクッと読める鈍器」www 重版決定🎉🎉🎉
おしながき 1. Knowledge Bases for Amazon Bedrockとは 2. Knowledge Bases
for Amazon Bedrockの推しポイント
1. Knowledge Bases for Amazon Bedrockとは
はじめるまえに 「Knowledge Bases for Amazon Bedrock」が長いので愛称を考えました ナレ ベ ベ #ナレベベ
流行るかどうかは、皆様のご協力にかかっております
ナレベベとは • ナレベベはRAG(Retrieval Augmented Generation:検索拡張生成)をマネージ ドで提供するサービス • S3にPDFドキュメントを用意して、あとはマウスでポチポチするだけで完成します
ナレベベの機能アップデートがアツい 7月 6月 5月 アップデートが山盛り
2. ナレベベの推しポイント
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる
RAGに必要な機能がそろってる 埋め込み 埋め込み 回答生成 テキスト 抽出 チャンク 分割 ベクトル データベース
検索 データソース 質問 回答 ナレベベ
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能
チャンク分割に「階層型チャンキング」が 選択可能 • 7/11のアップデートで、テキストをチャンク分割する方法が「デフォルト」「固定サ イズ」「チャンキングなし」に加え、「階層型チャンキング」「セマンティックチャンキ ング」が追加
チャンク分割の方法が充実 チャンク分割方法 内容 デフォルト 300トークンごとに分割 固定サイズ 分割するトークンのサイズとオーバーラップ(重複)の割合 を指定 階層型チャンキング 親チャンクのトークンサイズと子チャンクのトークンサイ
ズ、子チャンクのオーバーラップを指定。ベクトル化される のは子チャンク セマンティックチャンキング テキストの意味を理解して分割 チャンキングなし チャンキングしないので 1ファイルの文章が埋め込みモデ ルの上限を超えないか気にする必要がある
Amazon Bedrock は、大手 AI スタートアップ企業や Amazon の高性能な基盤モデル (FM) を統合 API
を通じて利用できるよ うにした、フルマネージド型のサービスです。 幅広い基盤モデルから選択して、ユースケースに最適なモデル を見つけることができます。 Amazon Bedrock は、セキュリティ、 プライバシー、責任ある AI を備えた生成 AI アプリケーションを 構築するための幅広い機能も提供します。 Amazon Bedrock を使用すると、ユースケースに最適な基盤モ デルを簡単に試して評価し、微調整や Retrieval Augmented Generation (RAG) などの手法を使用してデータで非公開にカス タマイズし、エンタープライズシステムとデータソースを使用して タスクを実行するエージェントを構築できます。 チャンク分割の方法が充実 階層型チャンキングのイメージ 質問 Bedrockとは? ドキュメント 子チャンク 親チャンク 回答生成プロンプト 以下のドキュメントから、ユーザーの質問に回答してください。 <document> {検索結果} </document> ユーザーの質問: Bedrockとは? Amazon Bedrock は、Amazon が提供するフルマネージド型のサービスです。 Amazon Bedrock は、以下のような特徴を持つサービスです : 1. 大手 AI スタートアップ企業や Amazon の高性能な基盤モデル (FM) を統合 API を通 じて利用できるようにしたフルマネージド型のサービスです。 2. 幅広い基盤モデルから選択して、ユースケースに最適なモデルを見つけることができ ます。 3. セキュリティ、プライバシー、責任ある AI を備えた生成 AI アプリケーションを構築する ための幅広い機能を提供します。 4. ユースケースに最適な基盤モデルを簡単に試して評価し、微調整や Retrieval Augmented Generation (RAG) などの手法を使用してデータで非公開にカスタマイズし、 エンタープライズシステムとデータソースを使用してタスクを実行するエージェントを構築 できます。 つまり、Amazon Bedrock は、さまざまな高性能な基盤モデルを統合的に利用できるフ ルマネージドのサービスで、生成 AI アプリケーションの構築を支援するものです。 階層型でないばあい(検索時のチャンクと回答生成時のチャンクが同一) 階層型のばあい(回答生成時に親チャンクを使用する) 近いチャンクを探す 検索は子チャンクで行う
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能
テキスト抽出にClaudeを利用可能に • PDFなどからテキストを抽出する際にClaudeのマルチモーダル機能を利用可能 になりました • 画像が埋め込まれたものや表形式のデータもいい感じにテキスト化できるように なりました
テキスト抽出にClaudeを利用可能に ←抽出したページ (DX白書2023より) ↓通常のテキスト抽出 文章の部分はおおよそいい感じ 表の部分は数値が読み取れているものの、 意味がわからない状態
テキスト抽出にClaudeを利用可能に Claudeを使ってテキスト抽出をした場合 Markdown形式に変換されるため、表の意味合いも保持できる ※ただし、この表は形式が複雑なため、正しく抽出できていない
テキスト抽出にClaudeを利用可能に 別のページでは表の理解がうまくいくものもあった(ただし文章の抽出はいまいち) うまくいったりいかなかったりなので、扱いがちょっと困る感じです
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化
検索キーワードのサブクエリー化 • ユーザーの質問文をそのまま使うのではなく、サブクエリーに分割して検索を行 う機能 • 「Bedrockの対応リージョンとKendraの対応リージョンを教えて」 →「Bedrockの対応リージョン」 の検索と「Kendraの対応リージ ョン」の検索をそれぞれ行い、 両方の結果から回答を生成
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化
5. ナレッジベースを複数作っても安心
ナレッジベース複数作っても安心 • 複数のナレッジベースを「クイック作成」で作成するとOpenSearch Serverlessの コレクションが複数作成されます • OpenSearch ServerlessはOCUという単位で課金されますが、複数のコレクショ ンでOCUは共有されます •
そのため、複数のナレッジベー スを作成しても課金がうなぎの ぼりになることはありません
ナレッジベース複数作っても安心 コレクションが2つあっても、 OCUは最低限の利用(インデックス作成で 0.5 OCU、検索で0.5 OCU) 月240ドルぐらい
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化
5. ナレッジベースを複数作っても安心 6. セッション保持機能あり
セッション保持機能あり • Bedrockに限らず、一般的に生成AIとのやり取りはステートレスなので、会話形 式のやり取りの場合は毎回過去のやり取りを送信する必要があります • ナレベベでは、セッションを管理する機能が用意されているので、過去の会話の 内容を送信することなく会話を続けることが可能 →セッション管理用の外部データベースが不要
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化可能
5. ナレッジベースを複数作っても安心 6. セッション保持機能あり 7. エージェントと連携可能
エージェントと連携可能 • Agents for Amazon Bedrockでナレベベを利用可能 • ナレッジベースを複数用意してAgentsと組み合わせることで、ユーザーの質問 にあったナレッジベースをエージェントに考えさせ、適切な回答ができます
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化可能
5. ナレッジベースを複数作っても安心 6. セッション保持機能あり 7. エージェントと連携可能 8. ナレッジベースなしでも利用可能
ナレッジベースなしでも利用可能 • 事前にナレッジベースを用意しなくても、質問とドキュメントを同時に渡して質問 が可能(Chat with your document) • 1ファイルしか使えなかったり制限も多い ナレベベを使わなくてもBedrock単独でも同様の機能が利用できるようになったの
で、今後はあまり出番はなさそう
ナレッジベースなしでも利用可能 マネジメントコンソールでもAPIでも可能です
2. ナレベベの推しポイント 1. RAGに必要な機能がそろってる 2. チャンク分割に「階層型チャンキング」が選択可能 3. テキスト抽出にClaudeが利用可能 4. 検索キーワードのサブクエリー化可能
5. ナレッジベースを複数作っても安心 6. セッション保持機能あり 7. エージェントと連携可能 8. ナレッジベースなしでも利用可能
ご清聴ありがとうございました