Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

OCI Generative AI におけるマルチモーダル検索の活用

OCI Generative AI におけるマルチモーダル検索の活用

Oracle Developer Day 2025
「OCI Generative AI におけるマルチモーダル検索の活用」の登壇資料です。

Avatar for Sho Obata

Sho Obata

May 26, 2025
Tweet

Other Decks in Technology

Transcript

  1. Agenda 1. AIの実装における課題 2. Multimodal × LLMとは 3. OCIの生成AIサービス 4.

    Multimodalにおけるデータ処理 4.1. Multimodal Embedding Model 4.2. Multi Embedding Model 4.3. AgentへのMultimodalなコンテキスト拡張 3
  2. RAG(Retrieval-Augmented Generation)とは Oracle Developer Day 2025の内容を 教えて ・発表者リスト ・登壇概要 Oracle

    Developer Day 2025 の登壇者は以下です。 ・AAA ・BBB … • 大規模言語モデル(LLM)と外部知識ソースを組み合わせて、より正確で信頼性 のある応答を生成する手法 • Agentのコンテキストを拡張する手法として使われることがある 6 Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG 外部知識ソース
  3. Oracle Developer Day 2025の登壇内容は、 aaaでした。 資料のグラフからbbbと 読み取れます。 音声からcccと説明して いました。 ・発表資料

    ・発表動画 ・登壇写真 企業のデータソースを活用した Agentとは 企業内のあらゆる形式のデータを活用したAgentシステムを構築したい 8 Oracle Developer Day 2025の内容を 教えて Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG
  4. Oracle Developer Day 2025の登壇内容は、 aaaでした。 資料のグラフからbbbと 読み取れます。 音声からcccと説明して いました。 ・発表資料

    ・発表動画 ・登壇写真 企業のデータソースを活用した Agentとは 企業内のあらゆる形式のデータを活用したAgentシステムを構築したい 9 Oracle Developer Day 2025の内容を 教えて Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG 多種多様なデータを使ったAgentシステムを構築するには MultimodalなRAGの理解が大切
  5. Multimodal SystemとLLM Multimodal System • テキスト、画像などの複数のモダリティをまとめて扱うことができるシステ ム • e.g.自動運転システム、スマートフォン Multimodal

    LLM • 複数のモダリティの情報を扱うことができるLLM • LLM内でモダリティ間が統合される • e.g. Llama, GPT, Gemini, Claude 12 機械学習から LLMへと変化し、高性能なモデルが登場した モデル内でモダリティ間の統合が可能になった
  6. Vector Store作成方法 Vector Storeの作成方法が複数ある 1. Multimodal Embedding Model型    全てのモダリティを1つのモデルでベクトル化する方法

    2. Multi Embedding Model型 各モダリティごとに異なるモデルを使いベクトル化する方法 3. Single Embedding Model型 全てのモダリティを1つのモダリティに変換してベクトル化する方法 14 Modality Vector Store [0.1, 0.3, 0.5…]
  7. Multimodal Embedding Model型 Text Image Multimodal EmbeddingModel Vector This is

    a dog Movie Vector Store • 複数のモダリティをMultimodal Embedding Modelを使いベクトル化する方法 • 1つのベクトル空間に複数のモーダルのベクトルを保存できる 15 e.g. ・Cohere Embed Multilingual Image v3.0 ・CLIP (Contrastive Language-Image Pretraining) ・Flamingo
  8. Multi Embedding Model型 Text to Vector EmbeddingModel Vector Vector Store

    Image to Vector EmbeddingModel Movie to Vector EmbeddingModel Vector Vector Text Image This is a dog Movie • 各モダリティごとに別々のEmbedding Modelを使いベクトル化する方法 • モダリティごとにベクトル空間を分けてベクトルを保存できる 16
  9. Single Embedding Model型 Text to Vector EmbeddingModel Vector Store Vector

    Image to Text Audio to Text Text Text Image This is a dog Movie • 各モダリティを全て1つのモダリティ (Text) に変換した後、1つの Embedding Modelを使いベクトル化する方法 • 1つのベクトル空間にベクトルを保存できる 17
  10. Vector Store作成方法の比較 Multimodal Embedding Model型 Multi Embedding Model型 Single Embedding

    Model型 モデルの 種類 Multimodal Embedding Model 各モダリティごとに別のモデ ル Text Embedding Model ベクトル 空間 一つのベクトル空間 に保存 複数のベクトル空間 に保存 テキストのベクトル空間に保 存 メリット ・データの前処理がシンプル ・全てのモーダルを同じ検索方 法で検索可能 ・各モダリティに特化したモデ ルを利用できる ・一般的なテキストの Embedding Modelのみ使用 ・全てのモーダルに同じ検索 方法を適用可能 デメリット ・モデルの選択肢が少ない ・詳細な情報に対するベクトル 化精度が課題 ・各モダリティの検索結果の 統合する仕組み が必要 ・管理するベクトルストアが増 える ・各モダリティに対して 前処理 が必要 ・モダリティの特徴が失われ る可能性がある 18
  11. Q&A フロー Question Multimodal Systemの実装において考慮が必要な箇所が3つある 1. 入力: Multimodalな入力を可能にするか 2. 生成:

    回答の生成にMultimodalモデルを使用するか 3. 出力: Multimodalな出力を可能にするか Retriever Generate Answer What breed is this dog? This is a gray Yorkshire Terrier. Yorkshire Terrier is small dogs. 1.入力 3.出 力 2.生成 Image Text Image Text Image Text
  12. OCI Generative AI OCIで利用可能な生成AIのサービス • Cohere Command A • Cohere

    Command R+ • Meta Llama 3.3 70B Chat Model • Cohere Embed English v3.0 • Cohere Embed Multilingual v3.0 Text Embedding Model • Cohere Embed English Image v3.0 • Cohere Embed Multilingual Image v3.0 Multimodal Embedding Model (※パラメータ数の少ない Light Modelや他の旧Modelも提供) • Meta Llama 4 Maverick • Meta Llama 4 Scout • Meta Llama 3.2 90B Vision Multimodal Chat Model New New New New New 22 ※Cohere Rerank 3.5のモデルも登場
  13. 新しいCohere Modelの特徴 23 Cohere Command A • 最もパフォーマンスの高いモデル • Agentic

    エンタープライズタスクに最適で、コンピュート効率を大幅に向上 • コンテキストサイズ(GA): 256k tokens • 日本語対応 • テキストの入出力 Cohere Embed English/Multilingual Image v3.0 • ImageのEmbedに対応したモデル • 日本語対応 • 1024次元のベクトル生成 参考文献: Use Cohere Command A and Rerank in OCI Generative AI https://docs.oracle.com/en-us/iaas/releasenotes/generative-ai/command-a-rerank.htm
  14. 新しいMeta Llama4 Modelの特徴 24 Meta Llama 4 Scout/Maverick • Mixture

    of Experts (MoE) architectureというモデル構築方法を採用 • Multimodal対応 (Text, Image) • テキスト: 多言語対応(日本語は未対応) • イメージ: 英語のみ • コンテキストサイズ(GA): ◦ Scout: 192k tokens ◦ Maverick: 512k tokens 参考文献: ・Use Meta Llama 4 in OCI Generative AI https://docs.oracle.com/en-us/iaas/releasenotes/generative-ai/llama-4.htm ・Mixture of Experts Explained https://huggingface.co/blog/moe Meta Llama 4
  15. Vector Store作成方法の比較 Multimodal Embedding Model型 Multi Embedding Model型 Single Embedding

    Model型 モデルの 種類 Multimodal Embedding Model 各モダリティごとに別のモデ ル Text Embedding Model ベクトル 空間 一つのベクトル空間 に保存 複数のベクトル空間 に保存 テキストのベクトル空間に保 存 メリット ・データの前処理がシンプル ・全てのモーダルに同じ検索 方法を適用可能 ・各モダリティに特化したモデ ルを利用できる ・一般的なテキストの Embedding Modelのみ使用 ・全てのモーダルに同じ検索 方法を適用可能 デメリット ・モデルの選択肢が少ない ・詳細な情報に対するベクトル 化精度が課題 ・各モダリティの検索結果の 統合する仕組み が必要 ・管理するベクトルストアが増 える ・各モダリティに対して 前処理 が必要 ・モダリティの特徴が失われる 可能性がある 27
  16. Vector Store作成方法の比較 Multimodal Embedding Model型 Multi Embedding Model型 Single Embedding

    Model型 モデルの 種類 Multimodal Embedding Model 各モダリティごとに別のモデ ル Text Embedding Model ベクトル 空間 一つのベクトル空間 に保存 複数のベクトル空間 に保存 テキストのベクトル空間に保 存 メリット ・データの前処理がシンプル ・全てのモーダルに同じ検索 方法を適用可能 ・各モダリティに特化したモデ ルを利用できる ・一般的なテキストの Embedding Modelのみ使用 ・全てのモーダルに同じ検索 方法を適用可能 デメリット ・モデルの選択肢が少ない ・詳細な情報に対するベクトル 化精度が課題 ・各モダリティの検索結果の 統合する仕組み が必要 ・管理するベクトルストアが増 える ・各モダリティに対して 前処理 が必要 ・モダリティの特徴が失われる 可能性がある 28 Multimodal Embedding Model型 Multimodal Embedding Model 一つのベクトル空間 に保存 ・データの前処理がシンプル ・全てのモーダルに同じ検索 方法を適用可能 ・モデルの選択肢が少ない ・詳細な情報に対するベクトル 化精度が課題
  17. Multimodal Embedding Model デモ 対象データ • テキストデータ:電化製品のname, detailのテキスト • 画像データ:電化製品のイメージ

    実行内容 • 製品に関する質問を行いテキストと画像を検索する {"name": "CoolFresh 300L ダブルドア冷蔵庫", "detail": "300Lの大容量で食材をたっぷり収納できるダブルドア冷蔵 庫です。...中〜大家族に最適です。 "},… Text Image 29
  18. Vector Store作成方法の比較 Multimodal Embedding Model型 Multi Embedding Model型 Single Embedding

    Model型 モデルの 種類 Multimodal Embedding Model 各モダリティごとに別のモデ ル Text Embedding Model ベクトル 空間 一つのベクトル空間 に保存 複数のベクトル空間 に保存 テキストのベクトル空間に保 存 メリット ・データの前処理がシンプル ・全てのモーダルに同じ検索 方法を適用可能 ・各モダリティに特化したモデ ルを利用できる ・一般的なテキストの Embedding Modelのみ使用 ・全てのモーダルに同じ検索 方法を適用可能 デメリット ・モデルの選択肢が少ない ・詳細な情報に対するベクトル 化精度が課題 ・各モダリティの検索結果の 統合する仕組み が必要 ・管理するベクトルストアが増 える ・各モダリティに対して 前処理 が必要 ・モダリティの特徴が失われる 可能性がある 33 Multi Embedding Model型 各モダリティごとに別のモデ ル 複数のベクトル空間 に保存 ・各モダリティに特化したモデ ルを利用できる ・各モダリティの検索結果の 統合する仕組み が必要 ・管理するベクトルストアが増 える
  19. Vector Storeの作成方法 • 各モーダルに対してEmbeddingを行い、別々のVector Storeを作成する ◦ テキストデータ(構造化データ) ◦ 画像データ Text

    to Vector EmbeddingModel Vector Vector Store Image to Vector EmbeddingModel Vector Text Image 35 Cohere Embed Multilingual Image v3.0 Cohere Embed Multilingual Image v3.0 それぞれのベクトルを、異 なるテーブルに保存
  20. 構造化データの処理 • MarkdownやJson形式に変更し、表形式のデータをLLMに渡す • LLMが行、列をより正確に読み取れる Question Retriever Generate Answer |

    売上高 / Total Net Sales | Q3 2025/5 (百万円 Millions of Yen, %=YoY) | Q1 2025/5 | Q2 2025/5 | Q3 2025/5 | Total | Q1 2024/5 | Q2 2024/5 | Q3 2024/5 | Q4 2024/5 | Total | |------------------------|----------------------------------------|-----------|-----------|-----------|-------|-----------|-----------|----------- |-----------|-------| | **クラウドサービス Cloud Services** | 13,915 (9.2%) | 14,368 (29.3%) | 16,711 (42.5%) | - | 44,995 | 12,742 (37.4%) | 11,110 (38.3%) | 11,726 (33.2%) | 12,678 (24.3%) | 48,257 | | **ライセンスサポート License Support** | 27,969 (3.6%) | 28,190 (3.4%) | 27,976 (1.6%) | - | 84,136 | 26,991 (2.9%) | 27,269 (3.6%) | 27,527 (4.1%) | 27,743 (4.0%) | 109,531 | 2024/5のQ4のFacility の経費を教えて。 経費は431百万円です。 Cohere Command A 37 Data Store
  21. 画像データの処理 Q&Aフロー • Imageをコンテキストとして利用する • Multimodalの生成モデルを使い回答を生成する Question Retriever Generate Answer

    Data Store 39 5年間の売上推移を 教えてください。 5年間の売上推移は - FY20: 211,357 - FY21: 208,523 - FY22: 214,691 - FY23: 226,914 - FY24: 244,542 Meta Llama 4 Scout
  22. 画像データの結果 結果 • 売上高 (Revenue) の画像を取 得できている • 画像から売上推移のデータを 取得できている

    The sales trend over the past 5 years is as follows: - **FY20**: 211,357 - **FY21**: 208,523 (a decrease from FY20) - **FY22**: 214,691 (an increase from FY21) - **FY23**: 226,914 (an increase from FY22) - **FY24**: 244,542 (an increase from FY23) Overall, the sales trend shows a slight decrease in FY21, but a steady increase in the subsequent years, with the highest revenue recorded in FY24. 40
  23. AgentにおけるMultimodalなコンテキスト拡張 Agentのコンテキスト拡張に、Multi Embedding Modelを利用した Multimodal RAGを使う • 2つ処理をToolsとしてセットする ◦ 構造化データの処理

    ◦ 画像データの処理 • モーダル間のタスク分割と統合をAgentで行う • 「部門の経費」と「5年間の売上推移」を質問する 41
  24. (参考) 動画データの処理 Vector Store Text to Vector EmbeddingModel Vector Image

    to Text Text • Single Embedding Modelを利用するケース • MovieをImageとAudioのモダリティに分ける • 各モダリティSummaryを作成する • テキストのEmbedding Modelを使いVectorを作成する Image: [0.7, 0.2, 0.9…] Audio: [0.1, 0.3, 0.5…] Vector Store Audio to Text Movie Image Audio OCI Speech 45 Cohere Embed Multilingual Image v3.0
  25. 参考資料 • 【ChatGPT】マルチモーダルRAGのリファレンス実装 ~多様な情報源から一貫性のある結果を引き出す~ ◦ https://qiita.com/ksonoda/items/28586434904c26ec465b • マルチモーダルRAGやってみた ◦ https://speakerdeck.com/tanimon/marutimodaruragyatutemita

    • マルチモーダル画像検索アプリを作ってみた! ◦ https://qiita.com/yuji-arakawa/items/70470b348c90adb82b7f • Announcing Cohere Command A and Rerank models on OCI Generative AI ◦ https://blogs.oracle.com/ai-and-datascience/post/cohere-command-a-rerank-oci-gen-ai • Announcing Meta Llama 4 model support on OCI Generative AI ◦ https://blogs.oracle.com/ai-and-datascience/post/announcing-meta-llama-4-support-oci-generative-ai • マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望 ◦ https://speakerdeck.com/hirosatogamo/llmops-3tunoji-shu-torendodeli-jie-surullmnojin-hou-nozhan-wang • Mixture of Experts Explained ◦ https://huggingface.co/blog/moe 47