AI BASE #3.5 GraphRAG & BookRAG

GraphRAG & BookRAG 複雑なドキュメントに特化した検索拡張生成（RAG） Tatsuro HANDA (@t2hnd) AI BASE #3.5

• 専門分野における複雑なクエリの理解が困難 : 多段階（マルチホップ）の推論や専門用語の扱いに苦労し、情報の間の重要なつながりを見落とすことが多い • 分散したソースにまたがる知識の統合が難しい : チャンキ
ング（文書の分割）によってドキュメントが孤立した断片になり、全体の文脈や構造が失われる • 大規模化に伴うシステムの効率性のボトルネック : 大規模なドキュメントを検索し処理するのことが非効率従来のRAG (not GraphRAG)における課題 • Qinggang Zhang, et al. (2025) A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models https://arxiv.org/abs/2501.13958

関係性の把握グラフ構造を使用して、エンティティ間の複雑な関係や階層を明示的にモデル化する。推論能力の強化グラフ内のパス（経路）をたどることで、離れた概念を結びつけ、多段階の推論を可能にする。説明可能性回答がどのように導き出されたかという推
論の道筋を提示し、透明性を確保する。 GraphRAGによる解決策 • Qinggang Zhang, et al. (2025) A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models https://arxiv.org/abs/2501.13958

BookRAG: 現実世界の「本」に RAGを適用する例えばLLMに関する本を読みながら、こんな質問に答えてほしい • 大規模言語モデルの定義はなんですか？ • TransformerとRNNにおける長距離依存関係の処理はどのように違いますか？ •
Section 4 にRNNに関する図表はいくつふくまれますか？

従来のGraphRAG手法の限界 Text-based RAG (GraphRAG, RAPTOR): OCRを使いテキストを抽出してセマンティクスを構築するが、入れ子構造になった表やセクションなどの構造的な依存関係を捉えることができない Layout based
RAG(DocETL): マルチモーダルな情報ブロックを抽出できるが、異なるセクション間の意味的なつながりは抽出されない BookRAG: 現実世界の「本」に RAGを適用する 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 2. 固定的なクエリワークフロー

BookRAG: 現実世界の「本」に RAGを適用する • 大規模言語モデルの定義はなんですか？　-> ◯？ • TransformerとRNNにおける長距離依存関係の処理はどのように違いますか？ ->
△? • Section 4 にRNNに関する図表はいくつふくまれますか？ -> ✗ ? 従来のGraphRAG手法の限界 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 2. 固定的なクエリワークフロー

BookRAG: 現実世界の「本」に RAGを適用する BookRAGによる解決 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 => 両者を相互に関連付けるBookIndexを構築する 2. 固定的なクエリワークフロー
=> 動的なエージェントベース検索フローを構築する

BookIndex 本論文で提唱される検索手法を実現するためのドキュメントの階層構造と意味ネットワークを融合させたハイブリッドなインデックス Tree (T): 章やセクションなどの論理的な階層をデータ化したもの。情報パッチ（Information Patches）」として機能する Graph (G):
エンティティとその関係性を捉えるナレッジグラフ GT-Link (M): ナレッジグラフ上のエンティティを、ドキュメントツリーと結びつけるマッピング情報

Tree 構築 - Layout Parsing & Filtering: VLM（視覚言語モデル）を使用してタイトル、テキスト、画像を識別し、レイアウトを解析・フィルタリングする -
LLMが論理レベルを検証し、階層ツリー（目次構造）を構築する BookIndexの構築プロセス

Graph 構築 - Entity Extraction & Resolution: ツリーのノードからエンティティを抽出する - 勾配ベースエンティティ解決により類似概念（例：「LLM」と「大規模言語モデル」）を統合する
- 抽出されたエンティティを保持するノードを全て記録しマッピングを作成する BookIndexの構築プロセス

（再掲）BookRAG: 現実世界の「本」に RAGを適用する BookRAGによる解決 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 => 両者を相互に関連付けるBookIndexを構築する 2. 固定的なクエリワークフロー
=> 動的なエージェントベース検索フローを構築する

検索ワークフロー Planning: クエリを分類し実行計画を立てる。計画はクエリタイプごとに異なるエージェントベースの検索 Information Foraging Theory BookRAGの検索手法は人間が調査を行う際の行動を模倣した情報採餌理論（Information
Foraging Theory）に基づく Retrieval: 実行計画に基づきBookIndexから情報を取得する Generation: 取得した情報を統合し回答を生成する • 情報の匂い (Information Scent): 質問に含まれるキーワードやエンティティを「匂い」として、グラフ上を辿る • 情報パッチ (Information Patch): 匂いの先に繋がっているツリー上の特定のセクション（パッチ）を特定

Single-hop クエリからエンティティ抽出 → GTリンク経由でツリー内の位置を特定 → 検索 → 回答生成 Multi-hop クエリをサブ質問に分解
→ マップ → 検索 → リデュース → 回答を統合し、最終的な回答生成 Global Aggregation ドキュメント全体にフィルタを適用（例：「すべての表を探す」） → マップ（情報抽出） → リデュース（要約/カウント） → 回答生成クエリタイプと実行計画 • 大規模言語モデルの定義はなんですか？ • TransformerとRNNにおける長距離依存関係の処理はどのように違いますか？ • Section 4 にRNNに関する図表はいくつふくまれますか？

BookRAG achieves state-of-the-art performance, signiﬁcantly outperforming existing baselines in complex
document QA tasks. Performance: Exact Match (M3DocVQA) 10x Token Reduction Compared to DocETL (<5M vs 53M) MMLongBench 2x Faster Speed Compared to DocETL MMLongBench

Error Response analysis • 検索（Retrieval）と生成（Generation）の精度: ◦ エラー分析の結果、最も支配的な失敗は「検索エラー」、次いで「生成エラー」 ◦ 特に、マルチモーダルなテキスト、図、表が混在する情報の特定と統合には、依然として課題が残る •
プランニング（計画）の過剰な複雑化: ◦ エージェントによるクエリプランニングにおいて、詳細なシングルホップな質問を、不必要にマルチホップなサブタスクに分解するパターンが確認された ◦ 検索経路が断片化し、最終的に一貫した回答生成の邪魔になる • PDF解析への依存: ◦ レイアウト解析（PDFパース）の段階でエラーが発生すると、対象のブロックが候補から失われ、検索リコールが0になる

Conclusion • BookRAGは文書の構造とその中のエンティティをベースにハイブリッドなBookIndexを構築する手法 • エージェントが自律的に情報取得を計画することで、複雑な質問にも高い精度で対応できることが示された • 今後の展望: データ整形から高度なクエリまでを一体化した、文書ネイティブなデータベースシステムへの進化

Reference • Shu Wang, Yingli Zhou, Yixiang Fang (2025) BookRAG:
A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents　https://arxiv.org/abs/2512.03413 • Qinggang Zhang, Shengyuan Chen, Yuanchen Bei, Zheng Yuan, Huachi Zhou, Zijin Hong, Hao Chen, Yilin Xiao, Chuang Zhou, Junnan Dong, Yi Chang, Xiao Huang (2025) A Survey of Graph Retrieval-Augmented Generation for Customized Large Language Models https://arxiv.org/abs/2501.13958 • sam234990/BookRAG https://github.com/sam234990/BookRAG

AI BASE #3.5 GraphRAG & BookRAG

AI BASE #3.5 GraphRAG & BookRAG

t2hnd

More Decks by t2hnd

Featured

Transcript

GraphRAG & BookRAG 複雑なドキュメントに特化した検索拡張生成（RAG） Tatsuro HANDA (@t2hnd) AI BASE #3.5

• 専門分野における複雑なクエリの理解が困難 : 多段階（マルチホップ）の推論や専門用語の扱いに苦労し、情報の間の重要なつながりを見落とすことが多い • 分散したソースにまたがる知識の統合が難しい : チャンキ

従来のGraphRAG手法の限界 Text-based RAG (GraphRAG, RAPTOR): OCRを使いテキストを抽出してセマンティクスを構築するが、入れ子構造になった表やセクションなどの構造的な依存関係を捉えることができない Layout based

BookRAG: 現実世界の「本」に RAGを適用する • 大規模言語モデルの定義はなんですか？　-> ◯？ • TransformerとRNNにおける長距離依存関係の処理はどのように違いますか？ ->

BookRAG: 現実世界の「本」に RAGを適用する BookRAGによる解決 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 => 両者を相互に関連付けるBookIndexを構築する 2. 固定的なクエリワークフロー

Tree 構築 - Layout Parsing & Filtering: VLM（視覚言語モデル）を使用してタイトル、テキスト、画像を識別し、レイアウトを解析・フィルタリングする -

Graph 構築 - Entity Extraction & Resolution: ツリーのノードからエンティティを抽出する - 勾配ベースエンティティ解決により類似概念（例：「LLM」と「大規模言語モデル」）を統合する

（再掲）BookRAG: 現実世界の「本」に RAGを適用する BookRAGによる解決 1. 文書構造とセマンティクス(意味体系)の深い接続の欠如 => 両者を相互に関連付けるBookIndexを構築する 2. 固定的なクエリワークフロー

Single-hop クエリからエンティティ抽出 → GTリンク経由でツリー内の位置を特定 → 検索 → 回答生成 Multi-hop クエリをサブ質問に分解

BookRAG achieves state-of-the-art performance, signiﬁcantly outperforming existing baselines in complex

Reference • Shu Wang, Yingli Zhou, Yixiang Fang (2025) BookRAG: