Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon Bedrock Knowledge Basesのアップデート紹介
Search
そのだ
December 09, 2024
2
360
Amazon Bedrock Knowledge Basesのアップデート紹介
【connpass】
宇宙最速のBedrock Recap LT会(AWS re:Invent 2024)
https://jawsug.connpass.com/event/337666/
そのだ
December 09, 2024
Tweet
Share
More Decks by そのだ
See All by そのだ
AIエージェントに脈アリかどうかを分析させてみた
sonoda_mj
2
170
Snowflake未経験の人がSnowflakeに挑戦してみた
sonoda_mj
1
51
生成AIアプリのアップデートと配布の課題をCDK Pipelinesで解決してみた
sonoda_mj
0
400
AWSでRAGを作る方法
sonoda_mj
1
430
緑一色アーキテクチャ
sonoda_mj
2
230
RAG構築におけるKendraとPineconeの使い分け
sonoda_mj
2
800
検索拡張生成(RAG)をAWSで作る方法
sonoda_mj
1
580
BedrockのToo Many Request解決してみた
sonoda_mj
2
3.1k
AmazonBedrockを使用した自作RAGの作り方
sonoda_mj
1
1.1k
Featured
See All Featured
It's Worth the Effort
3n
184
28k
Optimizing for Happiness
mojombo
376
70k
Writing Fast Ruby
sferik
628
61k
The Language of Interfaces
destraynor
156
24k
Music & Morning Musume
bryan
46
6.4k
Embracing the Ebb and Flow
colly
84
4.6k
How STYLIGHT went responsive
nonsquared
98
5.4k
Making Projects Easy
brettharned
116
6k
VelocityConf: Rendering Performance Case Studies
addyosmani
328
24k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
560
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Transcript
©Fusic Co., Ltd. 1 CONFIDENTIAL Amazon Bedrock Knowledge Basesの アップデート紹介
2024.12.10 苑田 朝彰 @sonoda_mj JAWS UG 東京
©Fusic Co., Ltd. 2 苑田 朝彰 Sonoda Tomotada - X:
sonoda_mj - 2023 AWS Jr.Champions - 2024 AWS Community Builders (ML & GenAI) - 2024 Japan AWS Top Engineers (Services) - 甲賀流忍者検定(初級) コメント 髪が青くなりました。 自己紹介 はじめに 株式会社Fusic
©Fusic Co., Ltd. 3 CONTENTS 目次 1. 背景 2. Amazon
Bedrock Data Automation(BDA)とは 3. BDAをKnowledge Basesで使ってみる 4. 自動生成クエリフィルターとは 5. まとめ
©Fusic Co., Ltd. 4 背景 1
©Fusic Co., Ltd. 5 Amazon Bedrock Knowledge Basesのアップデート一覧 • カスタム
データソースに接続できるようになった • ドキュメントの変更を 1 つのステップで直接KBに取り込むことができるようになった • リランカー モデルを使用して、再ランク付けできるようになった • Amazon Bedrock ナレッジベースのユーザークエリとメタデータスキーマに基づいて、自動で フィルターを適用できるようになった • ストリーミングレスポンス対応 • データソースから結果を取得するときにガードレールを適用できるようになった • Amazon Bedrock Data Automation パーサーまたは Amazon Bedrock ナレッジベースの基盤モデル を使用して、画像を含むマルチモーダルデータを解析できるようになった • ナレッジベースを構造化データストアに接続し、KBで SQL クエリを生成できるようになった • GraphRAGに対応した • KBのデータソースとしてKendra GenAI Indexが選択できるようになった • Aurora Serverlessがクイック作成に対応した 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/doc-history.html
©Fusic Co., Ltd. 6 Amazon Bedrock Knowledge Basesのアップデート一覧 • カスタム
データソースに接続できるようになった • ドキュメントの変更を 1 つのステップで直接KBに取り込むことができるようになった • リランカー モデルを使用して、再ランク付けできるようになった • Amazon Bedrock ナレッジベースのユーザークエリとメタデータスキーマに基づいて、自動で フィルターを適用できるようになった • ストリーミングレスポンス対応 • データソースから結果を取得するときにガードレールを適用できるようになった • Amazon Bedrock Data Automation パーサーまたは Amazon Bedrock ナレッジベースの基盤モデル を使用して、画像を含むマルチモーダルデータを解析できるようになった • ナレッジベースを構造化データストアに接続し、KBで SQL クエリを生成できるようになった • GraphRAGに対応した • KBのデータソースとしてKendra GenAI Indexが選択できるようになった • Aurora Serverlessがクイック作成に対応した 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/doc-history.html
©Fusic Co., Ltd. 7 Amazon Bedrock Data Automation とは 2
©Fusic Co., Ltd. 8 Amazon Bedrock Data Automation (以下BDA)は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテ ンツからデータを抽出することができる。
Amazon Bedrock Data Automationとは Amazon Bedrock Data Automation 免許証 output.md 名前:田中太郎 免許番号:123456789 住所:hogehoge 選択できる項目(翻訳済み)
©Fusic Co., Ltd. 9 標準出力(画像) テキストで表示される 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 10 標準出力(画像) 要素レベルで確認できる 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 11 標準出力(動画) 動画から情報を抽出する。 動画の要約 完全な文字起こしも可能 動画
©Fusic Co., Ltd. 12 ブループリント(設計書)を使用し、どのようなデータをどう抽出するか柔軟に定義することができる。 画像とドキュメントの2つがサポートされている。 カスタム出力
©Fusic Co., Ltd. 13 BDAをKnowledge Basesで使ってみる 3
©Fusic Co., Ltd. 14 Parsing stratege(高度な解析オプション)の使い分け 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html
©Fusic Co., Ltd. 15 Parsing stratege(高度な解析オプション)の使い分け 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html ドキュメント内のテキスト のみを解析する
©Fusic Co., Ltd. 16 Parsing stratege(高度な解析オプション)の使い分け 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html • 追加のプロンプトを必要としない •
テキストと画像の両方を含むマルチ モーダルデータを処理する • フルマネージドサービス
©Fusic Co., Ltd. 17 Parsing stratege(高度な解析オプション)の使い分け 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-advanced-parsing.html • 基盤モデルを使って、テキストと画像 の両方を含むマルチモーダルデータを
処理する • プロンプトのチューニングが可能
©Fusic Co., Ltd. 18 BDAとFoundation Modelの使い分け 使いやすさ BDA:プロンプトのチューニング不可 Foundation model:プロンプトのチューニングが可能
BDA:1ページあたり0.010USD Foundation model : • Claude3.5 Sonnet (v1) • 入力1000Tokenあたり0.003 USD • 出力1000Tokenあたり0.015 USD • Claude3 Haiku • 入力1000Tokenあたり0.00025 USD • 出力1000Tokenあたり0.00125 USD 値段
©Fusic Co., Ltd. 19 実際にやってみる Parsing strategyから 選択するだけ
©Fusic Co., Ltd. 20 データはそのだが過去に発表した登壇資料(CDK Pipeline, Snowflake) 実際にやってみる
©Fusic Co., Ltd. 21 データはそのだが過去に発表した登壇資料(CDK Pipeline, Snowflake) 実際にやってみる 画像のコードが 文字起こしされている
マルチモーダルストレージを設定すると ソースチャンクに画像が使用される
©Fusic Co., Ltd. 22 データはそのだが過去に発表した登壇資料(CDK Pipeline, Snowflake) 実際にやってみる { "content":
{ “text”: CDKに関するhogehoge }, "location": { "s3Location": { “uri”: “s3://Bucket名t/input/CDKPipeline.pdf" }, "type": "S3" }, "metadata": { “x-amz-bedrock-kb-source-uri”: “s3://バケット名/input/CDKPipeline.pdf", "category": "CDK", "x-amz-bedrock-kb-chunk-id": ”id", "x-amz-bedrock-kb-data-source-id": ”id" }, "score": 0.59251016 }, { "content": { “text”: Snowflakeに関するhogehoge }, "location": { "s3Location": { “uri”: “s3://Bucket名t/input/ Snowflaka.pdf" }, "type": "S3" }, "metadata": { “x-amz-bedrock-kb-source-uri”: “s3://バケット名/input/Snowflaka.pdf", "category": ”Snowflake", "x-amz-bedrock-kb-chunk-id": ”id", "x-amz-bedrock-kb-data-source-id": ”id" }, "score": 0.39254022 }, CDKに関する発表 Snowflakeに関する発表
©Fusic Co., Ltd. 23 自動生成クエリフィルター 4
©Fusic Co., Ltd. 24 手動で複雑なフィルターを作成する必要なく、検索結果を絞り込むことができる。 現在使用できるのはClaude3.5 Sonnetのみ 自動生成クエリフィルターとは 例)ワシントンで請求を行う場合 User
Amazon Bedrock Knowledge Bases 質問 フィルター適応 回答 User Amazon Bedrock Knowledge Bases 質問 回答 Claudeが自動でフィルターを 作成し、適応する 従来の方法 自動フィルタリング 引用:https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html
©Fusic Co., Ltd. 25 データはそのだが過去に発表した登壇資料(CDK Pipeline, Snowflake) そのまま検索すると両方のカテゴリから取得される 実際にやってみる {
"content": { “text”: CDKに関するhogehoge }, "location": { "s3Location": { “uri”: “s3://Bucket名t/input/CDKPipeline.pdf" }, "type": "S3" }, "metadata": { “x-amz-bedrock-kb-source-uri”: “s3://バケット名/input/CDKPipeline.pdf", "category": "CDK", "x-amz-bedrock-kb-chunk-id": ”id", "x-amz-bedrock-kb-data-source-id": ”id" }, "score": 0.59251016 }, { "content": { “text”: Snowflakeに関するhogehoge }, "location": { "s3Location": { “uri”: “s3://Bucket名t/input/ Snowflaka.pdf" }, "type": "S3" }, "metadata": { “x-amz-bedrock-kb-source-uri”: “s3://バケット名/input/Snowflaka.pdf", "category": ”Snowflake", "x-amz-bedrock-kb-chunk-id": ”id", "x-amz-bedrock-kb-data-source-id": ”id" }, "score": 0.39254022 }, CDKに関する発表 Snowflakeに関する発表
©Fusic Co., Ltd. 26 実際にやってみる { "content": {}, "location": {
"s3Location": { "uri": "s3://kendra-datasource-sonoda-test/input/CDKPipeline.pdf" }, "type": "S3" }, "metadata": { “x-amz-bedrock-kb-source-uri”: “s3://バケット名/input/CDKPipeline.pdf", “x-amz-bedrock-kb-description”: ”画像の詳細” "category": "CDK", “x-amz-bedrock-kb-byte-content-source”: “s3://バケット名/aws/bedrock/knowledge_bases/KBの ID/DatasourceのID/ファイル名”, “x-amz-bedrock-kb-data-source-id”: ”DatasourceのID" }, "score": 0.6175348 }, ・ ・ ・ categoryがCDKの検索結果
©Fusic Co., Ltd. 27 まとめ Bedrock系のアップデート多すぎ。 Point 01 プレビュー版ではあるが、BDAで非構造化マルチモーダルコンテンツからデータを抽出できた。 Point
02 メタデータの自動フィルタリングにより、簡単にフィルタリングが可能になった。 Point 03
©Fusic Co., Ltd. 28 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴ありがとうございました!