Upgrade to Pro — share decks privately, control downloads, hide ads and more …

MultiModal RAGにおけるKnowledge Graphの活用

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for takatori takatori
December 09, 2025
1.4k

MultiModal RAGにおけるKnowledge Graphの活用

Avatar for takatori

takatori

December 09, 2025
Tweet

Transcript

  1. © LayerX Inc. 3 LLMとRAG • LLMの制限 ◦ 学習時点で知識が止まっている(カットオフ) ◦

    社内用語や特定ドメインの専門知識がない ◦ 嘘(ハルシネーション)をつく可能性がある • RAG(Retrieval-Augmented Generation) ◦ 外部知識ベースから関連⽂書を検索し、LLMに最新のコンテキストを提供する ◦ リアルタイムで取得された情報を活⽤することで、正確で信頼性の⾼い回答を実現 LLMの制限とRAG
  2. © LayerX Inc. 4 LLMとRAG • 従来のRAGの仕組み ◦ ドキュメントをチャンク化し、Embedding(埋め込みベクトル)の類似度で検索する •

    弱点 ◦ グローバルな意味構築ができない ▪ 上位数件の情報を取得して回答するため、ドキュメント全体を通して何が⾔えるか?と いう質問に答えられない • 例:「過去10年間で、学際的な研究が科学的発⾒にどのように影響を与えているか という主な傾向は何ですか?」 ◦ 「関係性」の⽋落 ▪ ベクトル化の過程で主語‧述語‧⽬的語といった構造が圧縮されてしまう ▪ Multi-hop推論に弱い: 「AはBであり、BはCである。ゆえにAはC?」といった、複数の 情報をまたぐ推論が苦⼿ 従来のRAGの限界
  3. © LayerX Inc. 5 LLMとRAG • GraphRAGとは? ◦ グラフ構造を⽤いて知識を組織化‧検索するRAG •

    GraphRAGのメリット ◦ 情報の「つながり」を理解できる(多段推論) ◦ 全体を俯瞰した回答が可能( Global Context) ◦ 解釈可能性が高い GraphRAG https://microsoft.github.io/graphrag/
  4. © LayerX Inc. 6 GraphRAGのワークフロー Q. Zhang et al., "A

    Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025.
  5. © LayerX Inc. 7 LLMとRAG GraphRAGにもいろいろ種類がある • Microsoft GraphRAG [Edge

    et al., 2024] ◦ ノードをコミュニティ化‧要約し、 データ全体の傾向把握を実現 • • LightRAG [Guo et al., 2024] ◦ 低レベルと⾼レベルの⼆段階検索 • • StructRAG [Jiang et al., 2024] ◦ 質問に応じて知識構造を動的に選択し 推論を強化 GraphRAGの進化 Q. Zhang et al., "A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025.
  6. © LayerX Inc. 8 LLMとRAG • MMGraphRAGとは? ◦ テキストのGraphRAGをマルチモーダル領域へ拡張したもの ◦

    複雑な質問に対して、画像とテキストの間を網羅的に推論できる経路を追跡し応答を⽣成 • 強み ◦ 視覚的要素が重要な質問や、答えが「答えられない」場合の判断において、優れた正確性 ▪ DocBenchとMMLongBenchというマルチモーダル⽂書QAベンチマークで、既存⼿法を ⼤幅に上回る性能を達成 ◦ 訓練不要で多様なドメインに適⽤可能 ◦ 解釈可能な推論経路 MMGraphRAG
  7. © LayerX Inc. 10 MMGraphRAGの仕組み 全体アーキテクチャ X. Wan and H.

    Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025.
  8. © LayerX Inc. 11 MMGraphRAGの仕組み • 前処理: 入力文書を解析し、テキスト情報と視覚情報を抽出・分離 • 単一モダリティ処理

    : ◦ text2graph: 文書のチャンキングとエンティティを抽出しテキストベースの知識グラフを構築 ◦ image2graph: 画像ベースの知識グラフを生成 (後述) • クロスモダリティ融合 : テキストベースと画像ベースの知識グラフを統合した MMKGを構築する Knowledge Graph構築ステップ
  9. © LayerX Inc. 13 MMGraphRAGの仕組み image2graph X. Wan and H.

    Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025.
  10. © LayerX Inc. 14 MMGraphRAGの仕組み • テキストベースと画像ベースの知識グラフを統合する ◦ 画像からのエンティティとテキストからのエンティティが同じものかを判定する ◦

    単純な総当たりではなく、クラスタリングを使用 • スペクトルクラスタリングによるエンティティリンキング • クラスタリングされた候補群を LLM に渡し、どの画像エンティティがどのテキストエンティティと 同⼀かを判定 Cross modal knowledge fusion Generated by Gemini
  11. © LayerX Inc. 15 MMGraphRAGの仕組み コンテキストを以下のステップで検索 • エンティティ検索 ◦ クエリに関連するエンティティをベクト

    ル検索 • グラフ探索 ◦ ナレッジグラフを使って、そのエン ティティに関連する他の情報や関係性 (エッジ)、元のテキストチャンクを収集 • コンテキスト構築 ◦ 収集した情報をLLMが理解できる形式 にまとめる Retrieval
  12. © LayerX Inc. 16 MMGraphRAGの仕組み 以下のステップで回答⽣成 • 一次回答の生成(テキストベース) ◦ LLMでテキストのみに基づいた回答を生成

    • 画像エンティティの抽出(マルチモーダル判定) ◦ コンテキストに画像が含まれているか判断 • 画像解析( Multimodal RAG) ◦ MLLMにより画像に基づいた回答を生成 • 回答の統合( Merge) ◦ テキストベース回答と画像の回答をマージ Generation
  13. © LayerX Inc. 18 実験 • ソースコード ◦ MMGraphRAGの実装が公開されている ◦

    ⽇本語に対応できるようにプロンプト などをカスタマイズ • 使⽤したモデル ◦ テキストモデル: gpt-4.1 ◦ マルチモーダルモデル: gpt-4o ◦ 埋め込みモデル: ruri-v3-310m ▪ ⽇本語特化 ▪ https://huggingface.co/cl-nagoy a/ruri-v3-310m 実験概要 https://github.com/wanxueyao/MMGraphRAG/tree/main/mmgraphrag
  14. © LayerX Inc. 21 実験 「ピンクのアイコンの企業と共通の連携企業を持つ会社の名前をあげて、その関係性を図で⽰して」 質問してみる Predicted: (1) ピンクのアイコンの企業は「株式会社ミライ‧ファッション」で

    す。 (2) 共通の連携企業を持つ会社は「⼤和技研⼯業株式会社」です。 (3) 共通の連携企業は「株式会社アドバンスド‧テクノロジー‧サプライ」です。 関係性図: ``` 株式会社アドバンスド‧テクノロジー‧サプライ / \ 株式会社ミライ‧ファッション ⼤和技研⼯業株式会社 MMGraphRAGの回答
  15. © LayerX Inc. 22 実験 • MMGraphRAGでは答えが存在しないクエリでも正しく「答えがない」と回答できている 「答えられない」クエリの場合 提供された画像およびデータ内の主要6社の中に、ライオンをモチーフとしたアイコ ンを使⽤する企業は存在しません。そのため、ご質問の「ライオンをモチーフとし

    たアイコンの企業の売上⾼」は、提供された情報からは特定できません。 参考として、画像内の主要6社は以下の通りです: (1) 株式会社デイリーグッズ‧オンライン(ショッピングカート+「D」ロゴ) 売上 ⾼:6000億円 (2) ⼤和技研⼯業株式会社(⻭⾞と⽮印ロゴ) 売上⾼:5000億円 (3) おいしい⾷品株式会社(リスとどんぐりロゴ) 売上⾼:4200億円 (4) 株式会社ミライ‧ファッション(ピンク⾊のペガサスロゴ) 売上⾼:3500億円 (5) サイバーソリューションズ株式会社(シールド型「CS」ロゴ) 売上⾼:2800億 円 (6) メディケア‧イノベーションズ株式会社(イルカと⼗字マークロゴ) 売上⾼ :1500億円 この中にライオンモチーフの企業は含まれていません。 MMGraphRAGの回答 Geminiの回答
  16. © LayerX Inc. 23 実験 • Knowledge Graph構築に時間がかかる ◦ LLMを何回も呼び出して構築するため

    ◦ リアルタイム性が要求させるような場⾯では使えなさそう • Knowledge Graphの構築が難しい ◦ 重複した概念をうまく同じエンティティとして認識できないことがある ◦ TKGでも同じ課題があった。結局Graph構築の精度が重要 ◦ 間違っているエンティティやリンクは⼈間かAIが修正すれば精度を向上して⾏けるかも? 難しかったところ
  17. © LayerX Inc. 28 Appendix • Microsoft GraphRAG ◦ D.

    Edge et al., "From Local to Global: A Graph RAG Approach to Query-Focused Summarization," arXiv:2404.16130, 2024. ◦ Project Page: https://microsoft.github.io/graphrag/ • GraphRAG Survey ◦ Q. Zhang et al., "A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025. • MMGraphRAG ◦ X. Wan and H. Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025. Reference