OCI Generative AI におけるマルチモーダル検索の活用

OCI Generative AI におけるマルチモーダル検索の活用 Oracle Developer Day 2025 2025/05/23
Obata Sho

自己紹介 ▫名前：小畑　晶 (Sho Obata) ▫所属：独立系ベンチャーキャピタル AI支援チーム ▫現在の活動： AIプロダクト開発、投資先へのAI支援
▫趣味：スノーボード、旅行 @sh-sho GitHub/Linkedin/Qiita

Agenda 1. AIの実装における課題 2. Multimodal × LLMとは 3. OCIの生成AIサービス 4.
Multimodalにおけるデータ処理 4.1. Multimodal Embedding Model 4.2. Multi Embedding Model 4.3. AgentへのMultimodalなコンテキスト拡張 3

AIの実装における課題 AIプロダクトや導入支援で直面する課題「Agent時代における、多種多様なデータの活用方法は？」 4

Agentとは • AIを使用して自律的に目標に対するタスクを完了させるシステムのこと • 推論、計画、メモリなどの機能があり、他のサービスと連携し複雑なフローを自律的に実行する 5 外部サービス Web 顧客データ
Agent ユーザ RAG

RAG(Retrieval-Augmented Generation)とは Oracle Developer Day 2025の内容を教えて・発表者リスト・登壇概要 Oracle
Developer Day 2025 の登壇者は以下です。・AAA ・BBB … • 大規模言語モデル(LLM)と外部知識ソースを組み合わせて、より正確で信頼性のある応答を生成する手法 • Agentのコンテキストを拡張する手法として使われることがある 6 Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG 外部知識ソース

外部知識ソースとなる様々な形式のデータ • 自然言語（会話ログ、記事） • 構造化、非構造化（表構造、JSON） • 専門領域テキスト（医療、化学、法律） Text • 物体画像（犬、車、顔画像）
• 商品画像 • 図面、設計図 Image • 音声、音楽 • 動画 Audio/Movie • センサーデータ • 時系列データ • 地図データ etc. Other 7

Oracle Developer Day 2025の登壇内容は、 aaaでした。資料のグラフからbbbと読み取れます。音声からcccと説明していました。・発表資料
・発表動画・登壇写真企業のデータソースを活用した Agentとは企業内のあらゆる形式のデータを活用したAgentシステムを構築したい 8 Oracle Developer Day 2025の内容を教えて Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG

Oracle Developer Day 2025の登壇内容は、 aaaでした。資料のグラフからbbbと読み取れます。音声からcccと説明していました。・発表資料
・発表動画・登壇写真企業のデータソースを活用した Agentとは企業内のあらゆる形式のデータを活用したAgentシステムを構築したい 9 Oracle Developer Day 2025の内容を教えて Task:Oracle Developer Day 2025 の内容を調べる Tool: Search by RAG 多種多様なデータを使ったAgentシステムを構築するには MultimodalなRAGの理解が大切

Multimodal × LLMとは

Multimodalとはモダリティ (Modality) • 一般的には視覚や聴覚などの感覚のことを指す。人間が世界を認識したりコミュニケーションを取る際に受け取っている情報。 • 特にITの文脈では、データの種類や形式のことを指す Multimodal •
複数 (Multi) のモダリティ (Modality）のことを指す • テキスト、画像、動画などの様々な形式のデータ 11

Multimodal SystemとLLM Multimodal System • テキスト、画像などの複数のモダリティをまとめて扱うことができるシステム • e.g.自動運転システム、スマートフォン Multimodal
LLM • 複数のモダリティの情報を扱うことができるLLM • LLM内でモダリティ間が統合される • e.g. Llama, GPT, Gemini, Claude 12 機械学習から LLMへと変化し、高性能なモデルが登場したモデル内でモダリティ間の統合が可能になった

Multimodal RAG • 検索や生成の対象として、テキスト、画像や音声などの複数のモダリティを扱う RAGのことをMultimodal RAGという • 複数のモーダルを使うことで、テキスト以外のデータも外部ソースとして利用可能で、精度向上が期待できる •
Multimodalに対応する箇所は、Vector Storeの作成とQ＆Aフロー Vector Store Q&A フロー 13

Vector Store作成方法 Vector Storeの作成方法が複数ある 1. Multimodal Embedding Model型　　全てのモダリティを1つのモデルでベクトル化する方法
2. Multi Embedding Model型各モダリティごとに異なるモデルを使いベクトル化する方法 3. Single Embedding Model型全てのモダリティを1つのモダリティに変換してベクトル化する方法 14 Modality Vector Store [0.1, 0.3, 0.5…]

Multimodal Embedding Model型 Text Image Multimodal EmbeddingModel Vector This is
a dog Movie Vector Store • 複数のモダリティをMultimodal Embedding Modelを使いベクトル化する方法 • 1つのベクトル空間に複数のモーダルのベクトルを保存できる 15 e.g. ・Cohere Embed Multilingual Image v3.0 ・CLIP (Contrastive Language-Image Pretraining) ・Flamingo

Multi Embedding Model型 Text to Vector EmbeddingModel Vector Vector Store
Image to Vector EmbeddingModel Movie to Vector EmbeddingModel Vector Vector Text Image This is a dog Movie • 各モダリティごとに別々のEmbedding Modelを使いベクトル化する方法 • モダリティごとにベクトル空間を分けてベクトルを保存できる 16

Single Embedding Model型 Text to Vector EmbeddingModel Vector Store Vector
Image to Text Audio to Text Text Text Image This is a dog Movie • 各モダリティを全て１つのモダリティ (Text) に変換した後、1つの Embedding Modelを使いベクトル化する方法 • 1つのベクトル空間にベクトルを保存できる 17

Vector Store作成方法の比較 Multimodal Embedding Model型 Multi Embedding Model型 Single Embedding
Model型モデルの種類 Multimodal Embedding Model 各モダリティごとに別のモデル Text Embedding Model ベクトル空間一つのベクトル空間に保存複数のベクトル空間に保存テキストのベクトル空間に保存メリット・データの前処理がシンプル・全てのモーダルを同じ検索方法で検索可能・各モダリティに特化したモデルを利用できる・一般的なテキストの Embedding Modelのみ使用・全てのモーダルに同じ検索方法を適用可能デメリット・モデルの選択肢が少ない・詳細な情報に対するベクトル化精度が課題・各モダリティの検索結果の統合する仕組みが必要・管理するベクトルストアが増える・各モダリティに対して前処理が必要・モダリティの特徴が失われる可能性がある 18

Q&A フロー Question Multimodal Systemの実装において考慮が必要な箇所が3つある 1. 入力: Multimodalな入力を可能にするか 2. 生成:
回答の生成にMultimodalモデルを使用するか 3. 出力: Multimodalな出力を可能にするか Retriever Generate Answer What breed is this dog? This is a gray Yorkshire Terrier. Yorkshire Terrier is small dogs. 1.入力 3.出力 2.生成 Image Text Image Text Image Text

OCIの生成AIサービス

生成AIサービスの最新アップデート先週、OCIに新しいMultimodalモデルがリリースされました！ 21

OCI Generative AI OCIで利用可能な生成AIのサービス • Cohere Command A • Cohere
Command R+ • Meta Llama 3.3 70B Chat Model • Cohere Embed English v3.0 • Cohere Embed Multilingual v3.0 Text Embedding Model • Cohere Embed English Image v3.0 • Cohere Embed Multilingual Image v3.0 Multimodal Embedding Model (※パラメータ数の少ない Light Modelや他の旧Modelも提供) • Meta Llama 4 Maverick • Meta Llama 4 Scout • Meta Llama 3.2 90B Vision Multimodal Chat Model New New New New New 22 ※Cohere Rerank 3.5のモデルも登場

新しいCohere Modelの特徴 23 Cohere Command A • 最もパフォーマンスの高いモデル • Agentic
エンタープライズタスクに最適で、コンピュート効率を大幅に向上 • コンテキストサイズ(GA): 256k tokens • 日本語対応 • テキストの入出力 Cohere Embed English/Multilingual Image v3.0 • ImageのEmbedに対応したモデル • 日本語対応 • 1024次元のベクトル生成参考文献: Use Cohere Command A and Rerank in OCI Generative AI https://docs.oracle.com/en-us/iaas/releasenotes/generative-ai/command-a-rerank.htm

新しいMeta Llama4 Modelの特徴 24 Meta Llama 4 Scout/Maverick • Mixture
of Experts (MoE) architectureというモデル構築方法を採用 • Multimodal対応 (Text, Image) • テキスト: 多言語対応（日本語は未対応） • イメージ: 英語のみ • コンテキストサイズ(GA): ◦ Scout: 192k tokens ◦ Maverick: 512k tokens 参考文献: ・Use Meta Llama 4 in OCI Generative AI https://docs.oracle.com/en-us/iaas/releasenotes/generative-ai/llama-4.htm ・Mixture of Experts Explained https://huggingface.co/blog/moe Meta Llama 4

Multimodalにおけるデータ処理

Multimodalにおけるデータ処理 26 以下の環境を前提に説明する Demoコード今回利用するモデル • Cohere Command A •
Meta Llama 4 Scout • Cohere Embed Multilingual Image v3.0 OCI構成図

Model型モデルの種類 Multimodal Embedding Model 各モダリティごとに別のモデル Text Embedding Model ベクトル空間一つのベクトル空間に保存複数のベクトル空間に保存テキストのベクトル空間に保存メリット・データの前処理がシンプル・全てのモーダルに同じ検索方法を適用可能・各モダリティに特化したモデルを利用できる・一般的なテキストの Embedding Modelのみ使用・全てのモーダルに同じ検索方法を適用可能デメリット・モデルの選択肢が少ない・詳細な情報に対するベクトル化精度が課題・各モダリティの検索結果の統合する仕組みが必要・管理するベクトルストアが増える・各モダリティに対して前処理が必要・モダリティの特徴が失われる可能性がある 27

Model型モデルの種類 Multimodal Embedding Model 各モダリティごとに別のモデル Text Embedding Model ベクトル空間一つのベクトル空間に保存複数のベクトル空間に保存テキストのベクトル空間に保存メリット・データの前処理がシンプル・全てのモーダルに同じ検索方法を適用可能・各モダリティに特化したモデルを利用できる・一般的なテキストの Embedding Modelのみ使用・全てのモーダルに同じ検索方法を適用可能デメリット・モデルの選択肢が少ない・詳細な情報に対するベクトル化精度が課題・各モダリティの検索結果の統合する仕組みが必要・管理するベクトルストアが増える・各モダリティに対して前処理が必要・モダリティの特徴が失われる可能性がある 28 Multimodal Embedding Model型 Multimodal Embedding Model 一つのベクトル空間に保存・データの前処理がシンプル・全てのモーダルに同じ検索方法を適用可能・モデルの選択肢が少ない・詳細な情報に対するベクトル化精度が課題

Multimodal Embedding Model デモ対象データ • テキストデータ：電化製品のname, detailのテキスト • 画像データ：電化製品のイメージ
実行内容 • 製品に関する質問を行いテキストと画像を検索する {"name": "CoolFresh 300L ダブルドア冷蔵庫", "detail": "300Lの大容量で食材をたっぷり収納できるダブルドア冷蔵庫です。...中〜大家族に最適です。 "},… Text Image 29

Vector Storeの作成方法 • テキストも画像も同じMultimodal Embedding Modelを使いVectorを作成する • 同じVector空間に保存されるため、１回のベクトル検索でどちらも検索可能 Text Image
Multimodal Embedding Model Vector ダブルドア冷蔵庫 Vector Store Cohere Embed Multilingual Image v3.0 30

Multimodal Embedding Modelのテーブルテーブル構造 • テキスト、画像のベクトルデータを１つのカラムで管理 • テキスト、画像データなど全てDBに保存 31

Multimodal Embedding Modelの実行結果結果 • テキストと画像が同じベクトル検索の結果から取得できる • 色や形などのモダリティの特徴に関する検索が可能
32

Model型モデルの種類 Multimodal Embedding Model 各モダリティごとに別のモデル Text Embedding Model ベクトル空間一つのベクトル空間に保存複数のベクトル空間に保存テキストのベクトル空間に保存メリット・データの前処理がシンプル・全てのモーダルに同じ検索方法を適用可能・各モダリティに特化したモデルを利用できる・一般的なテキストの Embedding Modelのみ使用・全てのモーダルに同じ検索方法を適用可能デメリット・モデルの選択肢が少ない・詳細な情報に対するベクトル化精度が課題・各モダリティの検索結果の統合する仕組みが必要・管理するベクトルストアが増える・各モダリティに対して前処理が必要・モダリティの特徴が失われる可能性がある 33 Multi Embedding Model型各モダリティごとに別のモデル複数のベクトル空間に保存・各モダリティに特化したモデルを利用できる・各モダリティの検索結果の統合する仕組みが必要・管理するベクトルストアが増える

Multi Embedding Model対象データ対象データの概要 • Oracleの2025年の決算書(Excel)をデータソースとして利用する • 構造化データ：決算書の表形式のデータに対してデータ抽出を行う • 画像データ：決算書の売上高のグラフ(PNG)からデータ抽出を行う
2025年5月期第3四半期業績（2025年3月21日発表） https://www.oracle.com/jp/corporate/investor-relations/financial-results/ 34

Vector Storeの作成方法 • 各モーダルに対してEmbeddingを行い、別々のVector Storeを作成する ◦ テキストデータ（構造化データ） ◦ 画像データ Text
to Vector EmbeddingModel Vector Vector Store Image to Vector EmbeddingModel Vector Text Image 35 Cohere Embed Multilingual Image v3.0 Cohere Embed Multilingual Image v3.0 それぞれのベクトルを、異なるテーブルに保存

構造化データの課題 • 対象はExcelやスプレッドシートの表形式のデータ • 構造化された巨大なデータをLLMに渡した際に、読み取りの精度が悪い Question Retriever Generate Answer 構造化データ読み取り時の課題
• 行、列が誤って読み取られる • セル結合などがある場合に、精度が落ちる 36 Data Store

構造化データの処理 • MarkdownやJson形式に変更し、表形式のデータをLLMに渡す • LLMが行、列をより正確に読み取れる Question Retriever Generate Answer |
売上高 / Total Net Sales | Q3 2025/5 (百万円 Millions of Yen, %=YoY) | Q1 2025/5 | Q2 2025/5 | Q3 2025/5 | Total | Q1 2024/5 | Q2 2024/5 | Q3 2024/5 | Q4 2024/5 | Total | |------------------------|----------------------------------------|-----------|-----------|-----------|-------|-----------|-----------|----------- |-----------|-------| | **クラウドサービス Cloud Services** | 13,915 (9.2%) | 14,368 (29.3%) | 16,711 (42.5%) | - | 44,995 | 12,742 (37.4%) | 11,110 (38.3%) | 11,726 (33.2%) | 12,678 (24.3%) | 48,257 | | **ライセンスサポート License Support** | 27,969 (3.6%) | 28,190 (3.4%) | 27,976 (1.6%) | - | 84,136 | 26,991 (2.9%) | 27,269 (3.6%) | 27,527 (4.1%) | 27,743 (4.0%) | 109,531 | 2024/5のQ4のFacility の経費を教えて。経費は431百万円です。 Cohere Command A 37 Data Store

構造化データの精度検証 • エクセルの決算書シートをMarkdownとTextにしたもので比較 • どの程度エクセルを正確に読み取れているのかを確認 • 全部で20回質問を投げ、正答数を確認する Result Count Answer0
431 20 Result Count Answer0 1,622 17 Answer1 431 3 Markdown利用時 Text利用時 38 Q: 2024/5のQ4のFacility部門の経費を教えて

画像データの処理 Q&Aフロー • Imageをコンテキストとして利用する • Multimodalの生成モデルを使い回答を生成する Question Retriever Generate Answer
Data Store 39 5年間の売上推移を教えてください。 5年間の売上推移は - FY20: 211,357 - FY21: 208,523 - FY22: 214,691 - FY23: 226,914 - FY24: 244,542 Meta Llama 4 Scout

画像データの結果結果 • 売上高 (Revenue) の画像を取得できている • 画像から売上推移のデータを取得できている
The sales trend over the past 5 years is as follows: - **FY20**: 211,357 - **FY21**: 208,523 (a decrease from FY20) - **FY22**: 214,691 (an increase from FY21) - **FY23**: 226,914 (an increase from FY22) - **FY24**: 244,542 (an increase from FY23) Overall, the sales trend shows a slight decrease in FY21, but a steady increase in the subsequent years, with the highest revenue recorded in FY24. 40

AgentにおけるMultimodalなコンテキスト拡張 Agentのコンテキスト拡張に、Multi Embedding Modelを利用した Multimodal RAGを使う • ２つ処理をToolsとしてセットする ◦ 構造化データの処理
◦ 画像データの処理 • モーダル間のタスク分割と統合をAgentで行う • 「部門の経費」と「５年間の売上推移」を質問する 41

AgentにおけるMultimodalなコンテキスト拡張 Agentの定義 42 Toolを2つ登録

AgentにおけるMultimodalなコンテキスト拡張 Excelデータの結果 43

AgentにおけるMultimodalなコンテキスト拡張画像データの結果 44

(参考) 動画データの処理 Vector Store Text to Vector EmbeddingModel Vector Image
to Text Text • Single Embedding Modelを利用するケース • MovieをImageとAudioのモダリティに分ける • 各モダリティSummaryを作成する • テキストのEmbedding Modelを使いVectorを作成する Image: [0.7, 0.2, 0.9…] Audio: [0.1, 0.3, 0.5…] Vector Store Audio to Text Movie Image Audio OCI Speech 45 Cohere Embed Multilingual Image v3.0

まとめ • Agentにおけるコンテキスト拡張において、Multimodalの重要性を説明した • モダリティとMultimodal Systemの関係について紹介した • Multimodal RAGにおけるVector Storeの構成とQ＆Aフローについて説明
した • OCIに閉じた環境でMultimodal 対応のAgentを構築し、サンプルデータを使ったデータ処理の流れを説明した 46

参考資料 • 【ChatGPT】マルチモーダルRAGのリファレンス実装～多様な情報源から一貫性のある結果を引き出す～ ◦ https://qiita.com/ksonoda/items/28586434904c26ec465b • マルチモーダルRAGやってみた ◦ https://speakerdeck.com/tanimon/marutimodaruragyatutemita
• マルチモーダル画像検索アプリを作ってみた！ ◦ https://qiita.com/yuji-arakawa/items/70470b348c90adb82b7f • Announcing Cohere Command A and Rerank models on OCI Generative AI ◦ https://blogs.oracle.com/ai-and-datascience/post/cohere-command-a-rerank-oci-gen-ai • Announcing Meta Llama 4 model support on OCI Generative AI ◦ https://blogs.oracle.com/ai-and-datascience/post/announcing-meta-llama-4-support-oci-generative-ai • マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望 ◦ https://speakerdeck.com/hirosatogamo/llmops-3tunoji-shu-torendodeli-jie-surullmnojin-hou-nozhan-wang • Mixture of Experts Explained ◦ https://huggingface.co/blog/moe 47

ご清聴ありがとうございました 48

OCI Generative AI におけるマルチモーダル検索の活用

OCI Generative AI におけるマルチモーダル検索の活用

Other Decks in Technology

Featured

Transcript