MultiModal RAGにおけるKnowledge Graphの活用

© LayerX Inc. MultiModal RAGにおけるKnowledge Graphの活⽤ 2025/12/09 【LegalOn Technologies×LayerX】LLM＆Search Meetup
LayerX Ai Workforce事業部 R&D（データ検索基盤）鷹取敏志

LLMとRAG

© LayerX Inc. 3 LLMとRAG • LLMの制限 ◦ 学習時点で知識が止まっている（カットオフ） ◦
社内用語や特定ドメインの専門知識がない ◦ 嘘（ハルシネーション）をつく可能性がある • RAG(Retrieval-Augmented Generation) ◦ 外部知識ベースから関連⽂書を検索し、LLMに最新のコンテキストを提供する ◦ リアルタイムで取得された情報を活⽤することで、正確で信頼性の⾼い回答を実現 LLMの制限とRAG

© LayerX Inc. 4 LLMとRAG • 従来のRAGの仕組み ◦ ドキュメントをチャンク化し、Embedding(埋め込みベクトル)の類似度で検索する •
弱点 ◦ グローバルな意味構築ができない ▪ 上位数件の情報を取得して回答するため、ドキュメント全体を通して何が⾔えるか？という質問に答えられない • 例:「過去10年間で、学際的な研究が科学的発⾒にどのように影響を与えているかという主な傾向は何ですか？」 ◦ 「関係性」の⽋落 ▪ ベクトル化の過程で主語‧述語‧⽬的語といった構造が圧縮されてしまう ▪ Multi-hop推論に弱い: 「AはBであり、BはCである。ゆえにAはC？」といった、複数の情報をまたぐ推論が苦⼿従来のRAGの限界

© LayerX Inc. 5 LLMとRAG • GraphRAGとは？ ◦ グラフ構造を⽤いて知識を組織化‧検索するRAG •
GraphRAGのメリット ◦ 情報の「つながり」を理解できる（多段推論） ◦ 全体を俯瞰した回答が可能（ Global Context） ◦ 解釈可能性が高い GraphRAG https://microsoft.github.io/graphrag/

© LayerX Inc. 6 GraphRAGのワークフロー Q. Zhang et al., "A
Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025.

© LayerX Inc. 7 LLMとRAG GraphRAGにもいろいろ種類がある • Microsoft GraphRAG [Edge
et al., 2024] ◦ ノードをコミュニティ化‧要約し、データ全体の傾向把握を実現 • • LightRAG [Guo et al., 2024] ◦ 低レベルと⾼レベルの⼆段階検索 • • StructRAG [Jiang et al., 2024] ◦ 質問に応じて知識構造を動的に選択し推論を強化 GraphRAGの進化 Q. Zhang et al., "A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025.

© LayerX Inc. 8 LLMとRAG • MMGraphRAGとは？ ◦ テキストのGraphRAGをマルチモーダル領域へ拡張したもの ◦
複雑な質問に対して、画像とテキストの間を網羅的に推論できる経路を追跡し応答を⽣成 • 強み ◦ 視覚的要素が重要な質問や、答えが「答えられない」場合の判断において、優れた正確性 ▪ DocBenchとMMLongBenchというマルチモーダル⽂書QAベンチマークで、既存⼿法を⼤幅に上回る性能を達成 ◦ 訓練不要で多様なドメインに適⽤可能 ◦ 解釈可能な推論経路 MMGraphRAG

MMGraphRAGの仕組み

© LayerX Inc. 10 MMGraphRAGの仕組み全体アーキテクチャ X. Wan and H.
Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025.

© LayerX Inc. 11 MMGraphRAGの仕組み • 前処理: 入力文書を解析し、テキスト情報と視覚情報を抽出・分離 • 単一モダリティ処理
: ◦ text2graph: 文書のチャンキングとエンティティを抽出しテキストベースの知識グラフを構築 ◦ image2graph: 画像ベースの知識グラフを生成 (後述) • クロスモダリティ融合 : テキストベースと画像ベースの知識グラフを統合した MMKGを構築する Knowledge Graph構築ステップ

© LayerX Inc. 13 MMGraphRAGの仕組み image2graph X. Wan and H.
Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025.

© LayerX Inc. 14 MMGraphRAGの仕組み • テキストベースと画像ベースの知識グラフを統合する ◦ 画像からのエンティティとテキストからのエンティティが同じものかを判定する ◦
単純な総当たりではなく、クラスタリングを使用 • スペクトルクラスタリングによるエンティティリンキング • クラスタリングされた候補群を LLM に渡し、どの画像エンティティがどのテキストエンティティと同⼀かを判定 Cross modal knowledge fusion Generated by Gemini

© LayerX Inc. 15 MMGraphRAGの仕組みコンテキストを以下のステップで検索 • エンティティ検索 ◦ クエリに関連するエンティティをベクト
ル検索 • グラフ探索 ◦ ナレッジグラフを使って、そのエンティティに関連する他の情報や関係性 (エッジ)、元のテキストチャンクを収集 • コンテキスト構築 ◦ 収集した情報をLLMが理解できる形式にまとめる Retrieval

© LayerX Inc. 16 MMGraphRAGの仕組み以下のステップで回答⽣成 • 一次回答の生成（テキストベース） ◦ LLMでテキストのみに基づいた回答を生成
• 画像エンティティの抽出（マルチモーダル判定） ◦ コンテキストに画像が含まれているか判断 • 画像解析（ Multimodal RAG） ◦ MLLMにより画像に基づいた回答を生成 • 回答の統合（ Merge） ◦ テキストベース回答と画像の回答をマージ Generation

実験

© LayerX Inc. 18 実験 • ソースコード ◦ MMGraphRAGの実装が公開されている ◦
⽇本語に対応できるようにプロンプトなどをカスタマイズ • 使⽤したモデル ◦ テキストモデル: gpt-4.1 ◦ マルチモーダルモデル: gpt-4o ◦ 埋め込みモデル: ruri-v3-310m ▪ ⽇本語特化 ▪ https://huggingface.co/cl-nagoy a/ruri-v3-310m 実験概要 https://github.com/wanxueyao/MMGraphRAG/tree/main/mmgraphrag

© LayerX Inc. 21 実験「ピンクのアイコンの企業と共通の連携企業を持つ会社の名前をあげて、その関係性を図で⽰して」質問してみる Predicted: (1) ピンクのアイコンの企業は「株式会社ミライ‧ファッション」で
す。 (2) 共通の連携企業を持つ会社は「⼤和技研⼯業株式会社」です。 (3) 共通の連携企業は「株式会社アドバンスド‧テクノロジー‧サプライ」です。関係性図： ``` 株式会社アドバンスド‧テクノロジー‧サプライ / \ 株式会社ミライ‧ファッション⼤和技研⼯業株式会社 MMGraphRAGの回答

© LayerX Inc. 22 実験 • MMGraphRAGでは答えが存在しないクエリでも正しく「答えがない」と回答できている「答えられない」クエリの場合提供された画像およびデータ内の主要6社の中に、ライオンをモチーフとしたアイコンを使⽤する企業は存在しません。そのため、ご質問の「ライオンをモチーフとし
たアイコンの企業の売上⾼」は、提供された情報からは特定できません。参考として、画像内の主要6社は以下の通りです： (1) 株式会社デイリーグッズ‧オンライン（ショッピングカート＋「D」ロゴ）売上⾼：6000億円 (2) ⼤和技研⼯業株式会社（⻭⾞と⽮印ロゴ）売上⾼：5000億円 (3) おいしい⾷品株式会社（リスとどんぐりロゴ）売上⾼：4200億円 (4) 株式会社ミライ‧ファッション（ピンク⾊のペガサスロゴ）売上⾼：3500億円 (5) サイバーソリューションズ株式会社（シールド型「CS」ロゴ）売上⾼：2800億円 (6) メディケア‧イノベーションズ株式会社（イルカと⼗字マークロゴ）売上⾼：1500億円この中にライオンモチーフの企業は含まれていません。 MMGraphRAGの回答 Geminiの回答

© LayerX Inc. 23 実験 • Knowledge Graph構築に時間がかかる ◦ LLMを何回も呼び出して構築するため
◦ リアルタイム性が要求させるような場⾯では使えなさそう • Knowledge Graphの構築が難しい ◦ 重複した概念をうまく同じエンティティとして認識できないことがある ◦ TKGでも同じ課題があった。結局Graph構築の精度が重要 ◦ 間違っているエンティティやリンクは⼈間かAIが修正すれば精度を向上して⾏けるかも？難しかったところ

まとめ

© LayerX Inc. 25 まとめ • GraphRAGをマルチモーダルに拡張したMMGraphRAGを紹介した • テキストのグラフと画像のグラフを融合することで網羅的に推論できる •
精度の⾼いグラフを⾼速に構築するところに課題が残るまとめ

ありがとうございました！

Appendix

© LayerX Inc. 28 Appendix • Microsoft GraphRAG ◦ D.
Edge et al., "From Local to Global: A Graph RAG Approach to Query-Focused Summarization," arXiv:2404.16130, 2024. ◦ Project Page: https://microsoft.github.io/graphrag/ • GraphRAG Survey ◦ Q. Zhang et al., "A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models," arXiv:2501.13958, 2025. • MMGraphRAG ◦ X. Wan and H. Yu, "MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs," arXiv:2507.20804, 2025. Reference

MultiModal RAGにおけるKnowledge Graphの活用

MultiModal RAGにおけるKnowledge Graphの活用

takatori

More Decks by takatori

Featured

Transcript

© LayerX Inc. MultiModal RAGにおけるKnowledge Graphの活⽤ 2025/12/09 【LegalOn Technologies×LayerX】LLM＆Search Meetup

LLMとRAG

© LayerX Inc. 3 LLMとRAG • LLMの制限 ◦ 学習時点で知識が止まっている（カットオフ） ◦

© LayerX Inc. 4 LLMとRAG • 従来のRAGの仕組み ◦ ドキュメントをチャンク化し、Embedding(埋め込みベクトル)の類似度で検索する •

© LayerX Inc. 5 LLMとRAG • GraphRAGとは？ ◦ グラフ構造を⽤いて知識を組織化‧検索するRAG •

© LayerX Inc. 6 GraphRAGのワークフロー Q. Zhang et al., "A

© LayerX Inc. 7 LLMとRAG GraphRAGにもいろいろ種類がある • Microsoft GraphRAG [Edge

© LayerX Inc. 8 LLMとRAG • MMGraphRAGとは？ ◦ テキストのGraphRAGをマルチモーダル領域へ拡張したもの ◦

MMGraphRAGの仕組み

© LayerX Inc. 10 MMGraphRAGの仕組み全体アーキテクチャ X. Wan and H.

© LayerX Inc. 11 MMGraphRAGの仕組み • 前処理: 入力文書を解析し、テキスト情報と視覚情報を抽出・分離 • 単一モダリティ処理

© LayerX Inc. 12 MMGraphRAGの仕組み複雑なPDFをMarkdownへ⾼精度に変換するツール前処理

© LayerX Inc. 13 MMGraphRAGの仕組み image2graph X. Wan and H.

© LayerX Inc. 14 MMGraphRAGの仕組み • テキストベースと画像ベースの知識グラフを統合する ◦ 画像からのエンティティとテキストからのエンティティが同じものかを判定する ◦

© LayerX Inc. 15 MMGraphRAGの仕組みコンテキストを以下のステップで検索 • エンティティ検索 ◦ クエリに関連するエンティティをベクト

© LayerX Inc. 16 MMGraphRAGの仕組み以下のステップで回答⽣成 • 一次回答の生成（テキストベース） ◦ LLMでテキストのみに基づいた回答を生成

実験

© LayerX Inc. 18 実験 • ソースコード ◦ MMGraphRAGの実装が公開されている ◦

© LayerX Inc. 19 実験架空の企業分析資料のPDFファイルをGemini(Nano Banana)で作成実験⽤に使⽤したデータ

© LayerX Inc. 20 実験構築されたマルチモーダルKnowledge Graph

© LayerX Inc. 21 実験「ピンクのアイコンの企業と共通の連携企業を持つ会社の名前をあげて、その関係性を図で⽰して」質問してみる Predicted: (1) ピンクのアイコンの企業は「株式会社ミライ‧ファッション」で

© LayerX Inc. 23 実験 • Knowledge Graph構築に時間がかかる ◦ LLMを何回も呼び出して構築するため

まとめ

© LayerX Inc. 25 まとめ • GraphRAGをマルチモーダルに拡張したMMGraphRAGを紹介した • テキストのグラフと画像のグラフを融合することで網羅的に推論できる •

ありがとうございました！

Appendix

© LayerX Inc. 28 Appendix • Microsoft GraphRAG ◦ D.