Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

[論文解説] mPLUG-DocOwl2: High-resolution Compressi...

Avatar for Reon Kajikawa Reon Kajikawa
November 30, 2025
0

[論文解説] mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding

複数の文書画像を効率よく扱うMLLM(DocOwl2)を紹介する

Avatar for Reon Kajikawa

Reon Kajikawa

November 30, 2025
Tweet

More Decks by Reon Kajikawa

Transcript

  1. mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding aAlibaba Group,

    Renmin University of China ACL 2025 URL:https://aclanthology.org/2025.acl-long.291/ 発表者:M2 梶川 怜恩
  2. 高解像度な画像にも対応できるようになったため • ViT(224×224)→ LLaVA(336×336)→ 現行(Higher resolution) • 文書画像は自然画像に比べて情報量が多い(高解像度な画像は細かな情報を表示可能) 3 なぜこの流れが生まれたか?

    文書画像 自然画像 猫が壁から 顔出ししている 愛媛大学工学部「コン ピュータ科学コース」の 紹介ページ。このコース は、AIとIoT技術を学ぶ ことに焦点を当てている。 学習内容として、…
  3. サブ画像特徴 :文書画像一部の密な情報 グローバル画像特徴:文書画像全体の浅い情報 → 2つの視覚特徴は、元画像が同じなので対応関係あり • サブ画像の視覚特徴෠ 𝑉 𝑥𝑦 𝑠

    を元画像の位置に基づいて統合、完全な視覚特徴 ෠ 𝑉𝑠を構築 • グローバル画像の視覚特徴 ෠ 𝑉𝑔について、 ෠ 𝑉𝑠の視覚トークンをkey-valueとして収集 • Cross-attentionを計算(視覚特徴の次元数の削減) 12 2. High-resolution DocCompressor (R×C+1)×h×(w/4)から h×(w/4)へとトークン長が削減
  4. LLMに複数文書画像を入力する • 視覚特徴に順序トークン<img num>を結合 → LLMが画像の視覚特徴を区別し、画像の入力順序を理解しやすくする目的 複数画像に対するLLMのデコード処理 13 3. Multi-image

    Modeling with LLM • [… , … ]: 結合操作 • 𝑛: 画像枚数 • 𝑃𝑥 (1 ≤ 𝑥 ≤ 𝑛): 順序トークンのベクトル • ෠ 𝑉 𝑥 : 各画像の視覚特徴 • 𝑌: 出力文
  5. 3段階の学習 1. 単一画像を用いた事前学習 • 圧縮後の視覚特徴が文書の構造認識を十分にエンコード(捉えられる)ようにする • 文書解析(図表、画像のparsing) 2. 複数画像の継続事前学習 •

    画像間の関連付け力を身につける • i. Multi-page Text Parsing: 文書中の連続ページを入力し、指定したページ番号のテキストを解析 • ii. Multi-page Text Lookup: 1,2ページ分のテキストを入力し、テキストが含まれる該当ページを予測 3. マルチタスク追加学習 • 単一、複数ページを入力とした、視覚文書理解タスクの指示チューニング • 通常のVQA, 説明付きVQA 14 4. Model Training
  6. 学習データ • 学習1. DocStruct4M(画像から文書構造を認識) • 学習2. MP-DocStruct1M(複数画像から文書構造を認識)、DocStruct4M(破滅的な忘却の対策) • 学習3. DocDownstream-1.0(複数のVQAデータ)、DocReason25K(説明付きVQA)

    評価方法 • 文書画像、ビデオを対象とした視覚文書理解ベンチマーク(情報抽出、VQA) • 単一・複数ページでそれぞれ評価 ああ あ あ あ あ 16 Experiments settings
  7. Conclusion • 効率的なOCR-freeの視覚文書理解MLLM(DocOwl2)を開発 • DocCompressorにより、メモリ効率を維持しながら複数ページのタスクで高い性能を確認 Limitation • DocCompressorは、追加学習が必要になる • vision-to-textモジュールとLLMの間に位置するため

    • 別のモジュール、モデルで学習する際に、同様に学習しなければならない → DocCompressorの追加学習のコストを削減する手法を確立させる必要がある 21 Conclusion & Limitation