Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Amazon Bedrock Knowledge Basesに Data Autometion...
Search
そのだ
March 17, 2025
Technology
1
150
Amazon Bedrock Knowledge Basesに Data Autometionを導入してみた
【connpass】
https://fusic.connpass.com/event/344729/
【AsiaQuest×Fusic】AWSから表彰されたエンジニアが語る!2社コラボLT会
そのだ
March 17, 2025
Tweet
Share
More Decks by そのだ
See All by そのだ
仕事はAIに任せてラスベガスへ行きたいのでDSPyで自分のクローンを作った
sonoda_mj
1
74
ハッカソンから社内プロダクトへ AIエージェント「ko☆shi」開発で学んだ4つの重要要素
sonoda_mj
6
2.1k
RAGの基礎から実践運用まで:AWS BedrockとLangfuseで実現する構築・監視・評価
sonoda_mj
0
1.3k
Amazon Bedrock Knowledge basesにLangfuse導入してみた
sonoda_mj
2
1k
AIエージェントに脈アリかどうかを分析させてみた
sonoda_mj
2
370
Amazon Bedrock Knowledge Basesのアップデート紹介
sonoda_mj
2
660
Snowflake未経験の人がSnowflakeに挑戦してみた
sonoda_mj
1
230
生成AIアプリのアップデートと配布の課題をCDK Pipelinesで解決してみた
sonoda_mj
0
490
AWSでRAGを作る方法
sonoda_mj
1
620
Other Decks in Technology
See All in Technology
ファインディにおけるフロントエンド技術選定の歴史
puku0x
1
730
製造業から学んだ「本質を守り現場に合わせるアジャイル実践」
kamitokusari
0
490
_第4回__AIxIoTビジネス共創ラボ紹介資料_20251203.pdf
iotcomjpadmin
0
180
形式手法特論:コンパイラの「正しさ」は証明できるか? #burikaigi / BuriKaigi 2026
ytaka23
16
4.7k
2025-12-27 Claude CodeでPRレビュー対応を効率化する@機械学習社会実装勉強会第54回
nakamasato
4
1.4k
Oracle Database@Google Cloud:サービス概要のご紹介
oracle4engineer
PRO
1
850
投資戦略を量産せよ 2 - マケデコセミナー(2025/12/26)
gamella
1
630
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
150
Node vs Deno vs Bun 〜推しランタイムを見つけよう〜
kamekyame
1
370
研究開発部メンバーの働き⽅ / Sansan R&D Profile
sansan33
PRO
4
21k
モノタロウ x クリエーションラインで実現する チームトポロジーにおける プラットフォームチーム・ ストリームアラインドチームの 効果的なコラボレーション
creationline
0
610
Cloud WAN MCP Serverから考える新しいネットワーク運用 / 20251228 Masaki Okuda
shift_evolve
PRO
0
140
Featured
See All Featured
The Invisible Side of Design
smashingmag
302
51k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
48k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Joys of Absence: A Defence of Solitary Play
codingconduct
1
270
How to Align SEO within the Product Triangle To Get Buy-In & Support - #RIMC
aleyda
1
1.4k
Lightning talk: Run Django tests with GitHub Actions
sabderemane
0
97
AI: The stuff that nobody shows you
jnunemaker
PRO
1
160
How to Think Like a Performance Engineer
csswizardry
28
2.4k
Designing for Timeless Needs
cassininazir
0
110
Chasing Engaging Ingredients in Design
codingconduct
0
95
Six Lessons from altMBA
skipperchong
29
4.1k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Transcript
©Fusic Co., Ltd. 1 CONFIDENTIAL Amazon Bedrock Knowledge Basesに Data
Autometionを導入してみた! 2025.3.13 苑田 朝彰 @sonoda_mj AsiaQuest × Fusic
©Fusic Co., Ltd. 2 苑田 朝彰 Sonoda Tomotada - X:
sonoda_mj - 2023 AWS Jr.Champions - 2024 AWS Community Builders (ML & GenAI) - 2024 Japan AWS Top Engineers (Services) - 甲賀流忍者検定(初級)/ スパルタン コメント 最近後輩が捌いたぶりを食べました。 自己紹介 はじめに 株式会社Fusic
©Fusic Co., Ltd. 3 CONTENTS 目次 1. re:invent 2024のアップデートでKBは何が変わったのか 2.
Amazon Bedrock Data Automation導入してみた! 3. まとめ
©Fusic Co., Ltd. 4 re:invent 2024のアップデートでKBは 何が変わったのか 1
©Fusic Co., Ltd. 5 Amazon Bedrock 内から基盤モデルをデータソースに接続して、検索拡張生成 (RAG) を行うことができる。 Amazon
Bedrock Knowledge Basesとは Bedrock LLM Bedrock Embedding Model Vector DB Data Source or or or S3 様々なデータを入れる .txt, .md, .html, .doc/docx .csv, .xls/.xlsx, .pdf OpenSearch Serverless Aurora
©Fusic Co., Ltd. 6 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理
©Fusic Co., Ltd. 7 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • クエリ拡張 • クエリ分解 生成モデル • Amazon Titan • Anthropic Claude • その他 その他 • ガードレール • 評価 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint データ取り込み • IngestionJob API
©Fusic Co., Ltd. 8 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 9 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 10 Amazon Bedrock Data Automation (以下BDA)は、ドキュメント、画像、音声、動画などの非構造化マルチモーダルコンテ ンツからデータを抽出することができる。
Amazon Bedrock Data Automation Amazon Bedrock Data Automation 免許証 output.md 名前:田中太郎 免許番号:123456789 住所:hogehoge テキスト抽出 動画
©Fusic Co., Ltd. 11 標準出力(画像) テキストで表示される 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 12 標準出力(画像) 要素レベルで確認できる 運転免許証 運転免許証から情報を抽出する。
©Fusic Co., Ltd. 13 標準出力(動画) 動画から情報を抽出する。 動画の要約 完全な文字起こしも可能 動画
©Fusic Co., Ltd. 14 ブループリント(設計書)を使用し、どのようなデータをどう抽出するか柔軟に定義することができる。 画像とドキュメントの2つがサポートされている。 カスタム出力
©Fusic Co., Ltd. 15 Amazon Bedrock Data Automation 導入してみた! 2
©Fusic Co., Ltd. 16 RAGの仕組み Documents 前処理 チャンク分割 Embedding Vector
Database Embedding Model ユーザーの問い合わせ ドキュメント検索 回答をもとに プロンプト作成 応答 Embedding Embedding Model テキスト生成 Text Model データ処理 解析戦略 • default • foundation models • Data Automation -new チャンキング戦略 • default • 固定サイズ • Hierarchical • セマンティック • カスタム(Lambda) 埋め込みモデル • Amazon Titan • Cohere ストアの種類 • OpenSearch Serverless • Aurora Serverless • MongoDB Atlas • Pinecone • Redis Enterprise Cloud • Amazon Neptune Analytics - new • Amazon Redshift - new • Amazon Kendra GenAI Index - new 検索タイプ • ハイブリット検索 • セマンティック検索 高度なデータ操作 • メタデータフィルタリング(手動) • メタデータフィルタリング(自動) - new • クエリ拡張 • クエリ分解 • Reranking - new 生成モデル • Amazon Titan • Anthropic Claude • その他 • Amazon Nova - new その他 • ガードレール • 評価 - new • ストリーミング応答 - new データソースの種類 • S3 • Web Crawler • Confluence • Salesforce • SharePoint • Custom - new データ取り込み • IngestionJob API • IngestKnowledgeBaseDocumentsor - new
©Fusic Co., Ltd. 17 前処理をする理由 前処理をしないとLLMがデータを解釈できない可能性がある 不具合報告書(サンプル) テキスト抽出した後のデータ LLMなしの前処理 製品不具合報告書
文書番号DFT-2025-0142 社外秘 1.基本情報 項目 内容 製品名 産業用制御盤MCB5000 製造ロット LOT20250213A4 発生日 2025/2/20 報告者品質管理部山田 不具合検出工程 最終検査 2不具合内容 電源投入後制御基盤のTR24周辺が異常発熱(85度超)。 5台中2台で発生。樹脂部分変形の兆候あり。 システム診断でエラーE405表示。 <span style="color: green;">3.調査結果</span> 初期調査 ・TR24周辺の目視検査で異常なし ・C-E間電圧が規定値(3.3V±0.1V)超え4.2V ・X線検査で基盤内部に異常なし 根本原因分析 材料要因70% TR24のロット検査実施。5%の確率で特性値が仕様外 設計要因20% 回路シミュレーションで、特定条件下でTR24に過大電流 製造要因10% 2/13のはんだ付工程で使用の新ロットFXが原因でハンダ接合部の信頼性低下 4.対策 緊急対応 該当ロットの出荷停止 完了(2/20) どのテーブル情報か わからない 不要なタグが存在
©Fusic Co., Ltd. 18 前処理をする理由 前処理をしないとLLMがデータを解釈できない可能性がある 不具合報告書(サンプル) # 製品不具合報告書 **文書番号:
DFT-2025-0142** **社外秘** ## 1. 基本情報 | 項目 | 内容 | |------|------| | 製品名 | 産業用制御盤 MCB-5000 | | 製造ロット | LOT-20250213-A4 | | 発生日 | 2025年2月20日 | | 報告者 | 品質管理部 山田太郎 | | 不具合検出工程 | 最終検査工程 | ## 2. 不具合内容 電源投入後に制御基板のトランジスタT24周辺が異常発熱(85℃超)。 5台中2台で発生。樹脂部品変形の兆候あり。システム診断で「温度センサーエラー(E-405)」表示。 ## 3. 調査結果 ### 初期調査 - トランジスタT24周辺の目視検査で異常なし - コレクタ-エミッタ間電圧が規定値(3.3V±0.1V)を超え4.2V - X線検査で基板内部に異常なし ### 根本原因分析 **材料要因 (70%)** トランジスタT24のロット検査を実施。5%の確率で特性値が仕様外(許容範囲: 0.4A〜0.6A、検出値: 最大0.8A) **設計要因 (20%)** 回路シミュレーションの結果、特定条件下でトランジスタT24に過大電流が流れる可能性を確認 **製造要因 (10%)** 2月13日のはんだ付け工程で使用された新ロットのフラックスが原因で、はんだ接合部の信頼性低下 ## 4. 対策 ### 緊急対応 | 対応項目 | 状況 | |---------|------| | 該当ロットの出荷停止 | 完了 (2/20) | テキスト抽出した後のデータ LLMによる 前処理 整理されたテーブル構造 わかりやすい階層構造
©Fusic Co., Ltd. 19 KBのParsing strategyで設定可能なData Automationを使用する。現状、.txt, .md, .html, .doc,
.csv, .xls, .pdf, .jpeg/.pngしか 対応していない(はず) 1. KBに搭載されているData Automationを使用する Parsing strategyから 選択するだけ
©Fusic Co., Ltd. 20 KBのParsing strategyで設定可能なData Automationを使用する。現状、.txt, .md, .html, .doc,
.csv, .xls, .pdf, .jpeg/.pngしか 対応していない(はず) 1. KBに搭載されているData Automationを使用する KBの結果 サンプルデータ
©Fusic Co., Ltd. 21 Data Automationを使用し、動画からテキストを抽出する。その後、抽出したデータをKBに取り込む。 2. Data Automationを使って、前処理したデータをKBで使用する S3
AWS Lambda S3 AWS Lambda S3 OpenSearch Serverless Knowledge Bases 動画 Data Automation Json Markdown Data Automationで テキスト抽出 Jsonを整形してRAGが 使いやすい形に変更
©Fusic Co., Ltd. 22 Data Automationを使用し、動画からテキストを抽出する。その後、抽出したデータをKBに取り込む。 2. Data Automationを使って、前処理したデータをKBで使用する KBの結果
テキスト抽出した mdから回答生成
©Fusic Co., Ltd. 23 まとめ Data AutomationでKBの前処理を簡単に行うことができた。 Point 01 日本語対応が少々怪しい気がするので、注意が必要。
Point 02
©Fusic Co., Ltd. 24 Thank You We are Hiring! https://recruit.fusic.co.jp/
ご清聴ありがとうございました!