[論文解説] mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding aAlibaba Group,
Renmin University of China ACL 2025 URL:https://aclanthology.org/2025.acl-long.291/ 発表者：M2 梶川怜恩

視覚文書理解に特化したMLLM（mPLUG-DocOwl2 [1]） • 高解像度の文書画像のトークン数を圧縮するアーキテクチャの開発 • 視覚文書理解ベンチにおいて、視覚トークン数を削減しつつ、高性能を確認 1 Overview [1] https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2

文書解析をMLLMに行わせる流れが来ている • 質問応答、文献調査、OCR処理など • OCR-freeなので、OCRエラーによる性能劣化がないのが魅力 2 マルチモーダル大規模言語モデル（MLLM）× 文書解析

高解像度な画像にも対応できるようになったため • ViT（224×224）→ LLaVA（336×336）→ 現行（Higher resolution） • 文書画像は自然画像に比べて情報量が多い（高解像度な画像は細かな情報を表示可能） 3 なぜこの流れが生まれたか？
文書画像自然画像猫が壁から顔出ししている愛媛大学工学部「コンピュータ科学コース」の紹介ページ。このコースは、AIとIoT技術を学ぶことに焦点を当てている。学習内容として、…

• 高解像度な画像入力は視覚トークンを多く生成することで成立する • 推論時間の増大・メモリの過剰消費による入力画像数の制限が課題 4 長いトークン列は入力画像数の制限につながる

手法A • 文書画像をサブ画像に分割し、各画像に対してトークン圧縮 • 連結後のトークン長はそこまで削減されない 5 Related Works: 視覚特徴の圧縮

手法A • 文書画像をサブ画像に分割し、各画像に対してトークン圧縮 • 連結後のトークン長はそこまで削減されない手法B • 文書画像内の特定のトークン or 学習可能なクエリを使用する
• 得られるトークン列は、文書のレイアウト情報を保持する保証なし 6 Related Works: 視覚特徴の圧縮

本手法 • 画像のグローバルな特徴をクエリとして利用 • トークン数の削減・レイアウト情報の保持を実現 DocOwl2 文書画像の新しい圧縮モジュールを適用したMLLM 7 Our Methods:
High-resolution DocCompressor

提案手法 8

視覚エンコーダと圧縮モジュールを用いて、各画像を独立にエンコード、LLMに入力 9 The Architecture of DocOwl2 1. 画像の分割、視覚特徴の抽出・整合 2.
視覚特徴の圧縮 3. 圧縮した複数の視覚特徴を LLMに入力 0. 高解像度な文書画像の入力

高解像度な画像をエンコード（画像の分割） 1. 画像IをR×Cのサブ画像𝐼𝑠 に分割（R, Cは元画像の解像度に依存） 2. 画像をリサイズしたグローバル画像𝐼𝑔 を生成（レイアウト情報の保持） 10 1.
High-resolution Visual Encoding

高解像度な画像をエンコード（視覚特徴の抽出・整合） 3. ViTを用いて各サブ画像・グローバル画像の視覚特徴を抽出 4. 各サブ画像・グローバル画像に対して、vision-to-textモジュール（H-Reducer）を適用畳み込み層→全結合層で視覚特徴をLLMのテキスト特徴空間に整合する 11 1. High-resolution Visual
Encoding ෠ 𝑉はh×(w/4)× መ 𝑑 መ 𝑑はLLMのhidden state次元

サブ画像特徴：文書画像一部の密な情報グローバル画像特徴：文書画像全体の浅い情報 → 2つの視覚特徴は、元画像が同じなので対応関係あり • サブ画像の視覚特徴෠ 𝑉 𝑥𝑦 𝑠
を元画像の位置に基づいて統合、完全な視覚特徴 ෠ 𝑉𝑠を構築 • グローバル画像の視覚特徴 ෠ 𝑉𝑔について、 ෠ 𝑉𝑠の視覚トークンをkey-valueとして収集 • Cross-attentionを計算（視覚特徴の次元数の削減） 12 2. High-resolution DocCompressor （R×C+1）×h×(w/4)から h×(w/4)へとトークン長が削減

LLMに複数文書画像を入力する • 視覚特徴に順序トークン<img num>を結合 → LLMが画像の視覚特徴を区別し、画像の入力順序を理解しやすくする目的複数画像に対するLLMのデコード処理 13 3. Multi-image
Modeling with LLM • [… , … ]: 結合操作 • 𝑛: 画像枚数 • 𝑃𝑥 (1 ≤ 𝑥 ≤ 𝑛): 順序トークンのベクトル • ෠ 𝑉 𝑥 : 各画像の視覚特徴 • 𝑌: 出力文

3段階の学習 1. 単一画像を用いた事前学習 • 圧縮後の視覚特徴が文書の構造認識を十分にエンコード（捉えられる）ようにする • 文書解析（図表、画像のparsing） 2. 複数画像の継続事前学習 •
画像間の関連付け力を身につける • i. Multi-page Text Parsing: 文書中の連続ページを入力し、指定したページ番号のテキストを解析 • ii. Multi-page Text Lookup: 1,2ページ分のテキストを入力し、テキストが含まれる該当ページを予測 3. マルチタスク追加学習 • 単一、複数ページを入力とした、視覚文書理解タスクの指示チューニング • 通常のVQA, 説明付きVQA 14 4. Model Training

評価実験 15

学習データ • 学習1. DocStruct4M（画像から文書構造を認識） • 学習2. MP-DocStruct1M（複数画像から文書構造を認識）、DocStruct4M（破滅的な忘却の対策） • 学習3. DocDownstream-1.0（複数のVQAデータ）、DocReason25K（説明付きVQA）
評価方法 • 文書画像、ビデオを対象とした視覚文書理解ベンチマーク（情報抽出、VQA） • 単一・複数ページでそれぞれ評価ああああああ 16 Experiments settings

• 全てのベンチマークにおいて、SOTAまたは同等の性能を確認 • 1k以上の視覚トークンを利用するモデルにおいて、本モデルは20%未満のトークンで同等の性能 • 圧縮モデル（TextMonkey, TokenPacker）よりも高い性能を確認 17 Main Results:
Single-image Document Understanding

性能（ANLS）と処理速度（FTL）において、SOTAを確認 → 本モデルが視覚文書理解力とトークン効率性の両立に優れている 18 Main Results: Multi-page/Video Document Understanding

• r1: DocVQA、MP-DocVQA（1 page）において良好な性能だが、ページ数が多くなるにつれ苦戦する • r2, 3: 複数画像の理解力が向上。10ページを超える文書で顕著な向上を確認 •
r4: 全てのページ数において、最高性能を確認 19 Ablation Study: Three-stage Training

DocCompressorとMLPとの学習におけるVRAM消費を比較 • DocCompressorはLLMへの入力長を圧縮するため、LLM側のActを大幅削減 • 最終的な消費量はMLPと比べて大幅に少ない 20 Analyses: VRAM Consumption of
DocCompressor ※ Act: モデルの計算中に発生するベクトルであり、一時的なメモリコストとなる

Conclusion • 効率的なOCR-freeの視覚文書理解MLLM（DocOwl2）を開発 • DocCompressorにより、メモリ効率を維持しながら複数ページのタスクで高い性能を確認 Limitation • DocCompressorは、追加学習が必要になる • vision-to-textモジュールとLLMの間に位置するため
• 別のモジュール、モデルで学習する際に、同様に学習しなければならない → DocCompressorの追加学習のコストを削減する手法を確立させる必要がある 21 Conclusion & Limitation

[論文解説] mPLUG-DocOwl2: High-resolution Compressi...

[論文解説] mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

Reon Kajikawa

More Decks by Reon Kajikawa

Featured

Transcript

mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding aAlibaba Group,

文書解析をMLLMに行わせる流れが来ている • 質問応答、文献調査、OCR処理など • OCR-freeなので、OCRエラーによる性能劣化がないのが魅力 2 マルチモーダル大規模言語モデル（MLLM）× 文書解析

• 高解像度な画像入力は視覚トークンを多く生成することで成立する • 推論時間の増大・メモリの過剰消費による入力画像数の制限が課題 4 長いトークン列は入力画像数の制限につながる

手法A • 文書画像をサブ画像に分割し、各画像に対してトークン圧縮 • 連結後のトークン長はそこまで削減されない 5 Related Works: 視覚特徴の圧縮

手法A • 文書画像をサブ画像に分割し、各画像に対してトークン圧縮 • 連結後のトークン長はそこまで削減されない手法B • 文書画像内の特定のトークン or 学習可能なクエリを使用する

本手法 • 画像のグローバルな特徴をクエリとして利用 • トークン数の削減・レイアウト情報の保持を実現 DocOwl2 文書画像の新しい圧縮モジュールを適用したMLLM 7 Our Methods:

提案手法 8

視覚エンコーダと圧縮モジュールを用いて、各画像を独立にエンコード、LLMに入力 9 The Architecture of DocOwl2 1. 画像の分割、視覚特徴の抽出・整合 2.

高解像度な画像をエンコード（画像の分割） 1. 画像IをR×Cのサブ画像𝐼𝑠 に分割（R, Cは元画像の解像度に依存） 2. 画像をリサイズしたグローバル画像𝐼𝑔 を生成（レイアウト情報の保持） 10 1.

サブ画像特徴：文書画像一部の密な情報グローバル画像特徴：文書画像全体の浅い情報 → 2つの視覚特徴は、元画像が同じなので対応関係あり • サブ画像の視覚特徴෠ 𝑉 𝑥𝑦 𝑠

LLMに複数文書画像を入力する • 視覚特徴に順序トークン<img num>を結合 → LLMが画像の視覚特徴を区別し、画像の入力順序を理解しやすくする目的複数画像に対するLLMのデコード処理 13 3. Multi-image

3段階の学習 1. 単一画像を用いた事前学習 • 圧縮後の視覚特徴が文書の構造認識を十分にエンコード（捉えられる）ようにする • 文書解析（図表、画像のparsing） 2. 複数画像の継続事前学習 •

評価実験 15

学習データ • 学習1. DocStruct4M（画像から文書構造を認識） • 学習2. MP-DocStruct1M（複数画像から文書構造を認識）、DocStruct4M（破滅的な忘却の対策） • 学習3. DocDownstream-1.0（複数のVQAデータ）、DocReason25K（説明付きVQA）

性能（ANLS）と処理速度（FTL）において、SOTAを確認 → 本モデルが視覚文書理解力とトークン効率性の両立に優れている 18 Main Results: Multi-page/Video Document Understanding

• r1: DocVQA、MP-DocVQA（1 page）において良好な性能だが、ページ数が多くなるにつれ苦戦する • r2, 3: 複数画像の理解力が向上。10ページを超える文書で顕著な向上を確認 •

DocCompressorとMLPとの学習におけるVRAM消費を比較 • DocCompressorはLLMへの入力長を圧縮するため、LLM側のActを大幅削減 • 最終的な消費量はMLPと比べて大幅に少ない 20 Analyses: VRAM Consumption of