Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Amazon S3 Vectorを覗いてAmazon Bedrock Data Automat...

Amazon S3 Vectorを覗いてAmazon Bedrock Data Automationの様子を見てみる

Amazon Bedrock Data Automationを用いたマルチモーダルRAGでは、画像・動画・音声などのモダリティがどのようにチャンク化されているのかを検証してみました。

Avatar for MatsuzawaTakeshi

MatsuzawaTakeshi

January 12, 2026
Tweet

More Decks by MatsuzawaTakeshi

Other Decks in Technology

Transcript

  1. 2 Copyright(C) NRI Netcom, Ltd. All rights reserved. 1.自己紹介 2.Amazon

    Bedrock Knowledge Baseで マルチモーダルRAGが可能に 3.チャンクを覗いてみる 4.まとめ 5.コラム 目次
  2. 4 Copyright(C) NRI Netcom, Ltd. All rights reserved. 1. 自己紹介

    { "名前": "松澤 武志", "出身": "兵庫県 小野市", "趣味": ["お弁当作り", "推し活", "個人開発"], "職種": "アプリケーションエンジニア", "職歴": { "2024/08~": "Java(Spring Boot)/TypeScript(Angular)", "2025/07~": "C#(.NET)" }, "好きなAWSサービス": "AWS Amplify", "その他": [ "2025年6月「2025 Japan AWS Jr. Champion」に選出", "re:Inventが人生で初めての海外" ] } AWS Amplify
  3. 5 Copyright(C) NRI Netcom, Ltd. All rights reserved. 2. Amazon

    Bedrock Knowledge BaseでマルチモーダルRAGが可能に
  4. 6 Copyright(C) NRI Netcom, Ltd. All rights reserved. AWS re:Invent

    2025 での発表 2. Amazon Bedrock Knowledge BaseでマルチモーダルRAGが可能に • 2025/11/30(re:Inventの少し前)に発表 • マルチモーダルでRAGが可能 • 利用方法が2種類 • 2025/12/02(re:Invent 2日目)に発表 • Amazon Bedrcok Knowledge Baseの ベクトルストアとして利用可能 Amazon Bedrock ナレッジベースの マルチモーダル検索がGA! Amazon S3 VectorsがGA! https://aws.amazon.com/jp/about-aws/whats-new/2025/11/multimodal- retrieval-bedrock-knowledge-bases/
  5. 7 Copyright(C) NRI Netcom, Ltd. All rights reserved. Amazon Bedrock

    Data Automation (BDA) テキスト以外のモダリティをテキスト変換  OCRとビジュアルコンテンツ抽出によって画像を処理  トランスクリプトとシーンサマリーによって音声ファイルと動画ファイルをテキストに 変換  解析後、従来のテキストチャンクが適用あらゆる埋め込みモデルに対応 日本語対応 マルチモーダル検索(画像で検索)  Retrieve(取得のみ):可能  RetrieveAndGenerate(取得と応答生成):可能 2. Amazon Bedrock Knowledge BaseでマルチモーダルRAGが可能に { “data”:[0.001,0.001,0.0001…. ] }, “AMAZON_BEDROCK_TEXT”: “In& Outのハンバーガー。ボリューミーで美味しそう。 } In&Outのハンバーガー。 ボリューミーで美味しそう。 任意の Embedding Model BDA 汎用 バケット S3 Vectors マルチモーダルRAG対応の解析戦略(パーサー) PDF(ドキュメント) Image Video Audio
  6. 8 Copyright(C) NRI Netcom, Ltd. All rights reserved. Amazon Nova

    Multimodal Embeddings パーサーとしての基盤モデルを選択  音声・動画はベクトルに変換ができない  パーサーのモデルは埋め込みモデルとは別で設定 日本語対応 マルチモーダル検索(画像で検索)  Retrieve(取得のみ):可能  RetrieveAndGenerate(取得と応答生成):不可 Nova Multimodal Embeddings自体は、音声・動画を処理可能 2. Amazon Bedrock Knowledge BaseでマルチモーダルRAGが可能に { “data”:[0.001,0.001,0.0001…. ] }, “AMAZON_BEDROCK_TEXT”:[] } Amazon Nova Multimodal Embeddings マルチモーダル対応のEmbedding Model ドキュメント Image Video Audio 汎用 バケット S3 Vectors
  7. 9 Copyright(C) NRI Netcom, Ltd. All rights reserved. BDAで変換されるトークンを観察 2.

    Amazon Bedrock Knowledge BaseでマルチモーダルRAGが可能に ちゃんと目的に合ったデータを格納できているか? どのようなファイルをベクトル化すると効果的か? チャンキング戦略が意味を成しているか? # クライアントの作成 s3vectors = boto3.client("s3vectors", region_name="us-east-1") # 一覧検索 response = s3vectors.list_vectors( vectorBucketName=vector_bucket, indexName=vector_index, returnData=False, returnMetadata=True ) list_vectors で直接チャンクを 見てみよう! いろんなモダリティを埋め込めるのは良いものの、 どのようなファイルを格納すれば効果的にチャンク化できる? { “data”:[0.001,0.001,0.0001…. ] }, “AMAZON_BEDROCK_TEXT”: “In & Outのハンバーガー。ボリューミーで美味しそう。 } Amazon S3 Vector
  8. 11 Copyright(C) NRI Netcom, Ltd. All rights reserved. 画像 3.

    チャンクを覗いてみる [ { "key": "e0ce1044-2bc5-4961-bd51-010de2178217", "metadata": { "AMAZON_BEDROCK_TEXT": "This image shows a presentation slide titled ¥"Amazon Bedrock Guardrails¥" displayed on a large screen. The slide outlines several key features and functionalities of Amazon Bedrock, including configuring thresholds to filter undesirable content, identifying and correcting factual claims using automated reasoning, defining and disallowing denied topics, removing personally identifiable information, and filtering hallucinations. The slide is being viewed by a group of people, likely in a professional or academic setting, as indicated by the formal attire and attentive posture of the audience. The background includes architectural elements such as columns and a decorative ceiling.", "x-amz-bedrock-kb-source-file-mime-type": "image/jpeg", "x-amz-bedrock-kb-document-page-number": 0, "AMAZON_BEDROCK_METADATA":, "x-amz-bedrock-kb-data-source-id": "90YRNHYGUJ", "x-amz-bedrock-kb-source-file-modality": "IMAGE" } } ] Input • スライドの概略 • メタ情報も含まれる「背景には、柱や装飾的な天 井などの建築要素が含まれています。」 • スライドの文字を要約というよりかは、画像そのも のを要約 • チャンク数:1 • 画像単体ではチャンキング戦略があまり意味をな さない re:Inventのセッション (ANT 339) のスライドを撮影した画像 発見
  9. 12 Copyright(C) NRI Netcom, Ltd. All rights reserved. 動画 3.

    チャンクを覗いてみる [ { "metadata": { “x-amz-bedrock-kb-chunk-start-time-in-millis”: 0, "AMAZON_BEDROCK_TEXT": "[spk_0]: Go, go, go.", "x-amz-bedrock-kb-chunk-end-time-in-millis": 10366, } },{ “metadata”: { "x-amz-bedrock-kb-chunk-start-time-in-millis": 0, "AMAZON_BEDROCK_TEXT": "At a technology conference, a Formula 1-style racing car with ¥"AWS¥" branding is displayed as part of a sports safety demonstration. The car is surrounded by a red carpet and professional lighting, with ¥"Sports Forum¥" and ¥"Evolution of Safety¥" banners visible. Four men in casual work attire are actively working on the vehicle, focusing on the tires and undercarriage. One man uses a power tool while others observe and assist. A voice commands ¥"Go, go, go,¥" indicating a timed demonstration. The scene showcases a collaboration between AWS, Formula 1 racing, and sports safety organizations, highlighting how advanced technology and data are being used to improve player safety in high-risk sports. The professional setup and focused teamwork emphasize the serious nature of this technological advancement in sports safety.", "x-amz-bedrock-kb-source-file-mime-type": "video/quicktime", "AMAZON_BEDROCK_METADATA": "x-amz-bedrock-kb-chunk-end-time-in-millis": 10366 } } ] Input • 別途2分程度の動画も処理 • サマリ・Audioの構成は同じ • チャンク数:2 • 動画のサマリ情報 • Audio情報 • 5,4,3,2,1の掛け声はトークン化されていない re:InventのSports Forum で撮影した動画(10秒) 発見
  10. 13 Copyright(C) NRI Netcom, Ltd. All rights reserved. 音声 3.

    チャンクを覗いてみる re:Inventのセッション (SAS403-R) 冒頭約30分の録音 { “key”: “7c4a3adb-0f93-4f07-a8bb-cf1910708d8a”, “metadata”: { “x-amz-bedrock-kb-data-source-id”: “90YRNHYGUJ”, “x-amz-bedrock-kb-chunk-start-time-in-millis”: 406690, “x-amz-bedrock-kb-source-file-modality”: “AUDIO”, “x-amz-bedrock-kb-chunk-end-time-in-millis”: 458510, “AMAZON_BEDROCK_TEXT”: “Makes an MCPO MCP makes a call to a pool agent which is uh. To acknowledge this in terms The chief The multi-tenered rack system which you built in the previous slide which I put. You‘re kind of like making that, The database on that ask question if you’re trying to pull that. And then gives back that response to the orchestrated. The orchestrated agent does not see immediate response from that knowledge based agent.”, “AMAZON_BEDROCK_METADATA”:割愛, "x-amz-bedrock-kb-source-file-mime-type": "audio/mpeg" } }, • ところどころ誤字脱字が目立つ • 文脈でチャンクしてくれていそう • チャンク数:16 • 音声が全てチャンク化されている Input 発見
  11. 15 Copyright(C) NRI Netcom, Ltd. All rights reserved. 4. まとめ

    Image Video Audio  画像のメタ情報がチャンク化  画像の文字列を認識してほしい ユースケースだと要注意  音声・サマリ情報がチャンク化  話し言葉がチャンク化 Amazon Nova Multimodal Embeddings Amazon Bedrock Data Automation Good!  視覚的な類似性・ パターンマッチングに最適  技術図表・製品カタログなどに Good! Good!  音声が処理できない  音声が処理できない
  12. 16 Copyright(C) NRI Netcom, Ltd. All rights reserved. (コラム) グランドキャニオンの空撮写真をおすそ分け

    グランドキャニオンの空撮写真 ラスベガスの空撮写真 ラスベガスの 街並み