Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥

[CVPR 2023 論文紹介] Unifying Vision, Text, and Lay...

shimacos
August 26, 2023

[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

第59回 コンピュータビジョン勉強会@関東(後編)の発表資料です。
https://kantocv.connpass.com/event/288902/

Microsoftが発表したDocument AIのモデルである「Universal Document Processing (UDOP)」を紹介しています。
Image, Text, Layoutを効率よくモデルに理解させることで、さまざまなTaskとさまざまなドメインに渡る8つのデータセットでSoTAを達成しました。

shimacos

August 26, 2023
Tweet

More Decks by shimacos

Other Decks in Research

Transcript

  1. © 2023 LayerX Inc. Unifying Vision, Text, and Layout for

    Universal Document Processing 第59回 コンピュータビジョン勉強会@関東(後編) Naoto Shimakoshi (株式会社 LayerX)
  2. 自己紹介 島越 直人 よくトリゴエと間違えられますがシマコシです • 経歴 ◦ 京都大学 機械理工学専攻 卒業

    ◦ 2019/04 ~ 2023/04 DeNA Data Scientist ▪ (2020/04 ~ 2022/03) GO株式会社に出向 ◦ 2023/04 ~ LayerX 機械学習エンジニア • Kaggle ◦ Kaggle Competitions Grandmaster ◦ 色々なドメインのデータに触れるのが好きな ので色々やってます @nt_4o54 @shimacos
  3. © 2023 LayerX Inc. 4 本日の紹介論文 背景 Unifying Vision, Text,

    and Layout for Universal Document Processing (by           ) Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelである Universal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。
  4. © 2023 LayerX Inc. 8 Document AIのTaskは幅広い 背景 • Document

    Classification ◦ 書類種別は何か? • Document QA ◦ 請求金額はいくら? • Layout Detection ◦ 明細テーブルはどこ? • Information Extraction ◦ 取引先名:株式会社東日本橋 + bboxの位置 自然画像よりも位置情報や画像情報が重要になる
  5. © 2023 LayerX Inc. 9 先行研究のSoTA | LayoutLMv3[4] 背景 •

    Image, Textを別々にEmbedding化しconcat ◦ Text: RoBERTa ◦ Image: patch分割しLinear • 2D Embedding ◦ Text: ある程度のSegmentごとにbboxを Embedding化 ◦ Image: patchのindex毎にEmbedding • 事前学習 ◦ MLM: [MASK]されたtext tokenを予測 ◦ MIM: [MASK]されたimage tokenを予測 ▪ DiTのimage tokenizer ◦ WPA: text tokenとpatch imageの位置合 わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。
  6. © 2023 LayerX Inc. 10 先行研究のSoTA | LayoutLMv3[4] 背景 •

    Image, Textを別々にEmbedding化しconcat ◦ Text: RoBERTa ◦ Image: patch分割しLinear • 2D Embedding ◦ Text: ある程度のSegmentごとにbboxを Embedding化 ◦ Image: patchのindex毎にEmbedding • 事前学習 ◦ MLM: [MASK]されたtext tokenを予測 ◦ MIM: [MASK]されたimage tokenを予測 ▪ DiTのimage tokenizer ◦ WPA: text tokenとpatch imageの位置合 わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。 単一のモダリティでしか学習できていない ImageとTextの対応関係を学習しているのがこの部分 だけで、十分相関関係を学習できていない?
  7. © 2023 LayerX Inc. 11 本論文における貢献 背景 • 既存研究よりもImage, Text,

    Layoutのモダリティ の相関を考慮できるアーキテクチャの提案 ◦ Unified Encoder ◦ Text-Layout Decoder ◦ Image Decoder • 全てのDocument AIタスクを、Seq2Seqの 生成モデルの枠組みで統一化した • 新しい事前学習の提案 ◦ 自己教師あり学習 + 教師あり学習 • Image, Text, Layoutを全て入力として扱い、同時 に出力もできる初めてのモデル • Document AIにおける8つのタスクでSoTAを達成
  8. © 2023 LayerX Inc. 13 Vision-Text-Layout Transformer UDOPのモデル構造 • 基本はT5のようなEncoder-Decoderモデル

    • Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-Layout Decoder、Imageを生成するVision Decoderの3つから成り立つ ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提
  9. © 2023 LayerX Inc. 15 変数定義 UDOPのモデル構造 Document Image: Text

    tokens: Bounding Box:               (左上と右下の座標)   個のText tokenがあるとすると Input:
  10. © 2023 LayerX Inc. 16 Unified Encoder UDOPのモデル構造 Preprocess •

    ImageをP個のPatchに分割し、 各PatchをD次元のベクトルにEncode ◦                      のベクトルを得る ◦ ViT-MAEで学習されたPatch Embeddingを使用 • TextはWord EmbeddingによりD次元のベクトルに Encodeする ◦ T5で事前学習されたWord Embeddingを使用
  11. © 2023 LayerX Inc. 17 Unified Encoder UDOPのモデル構造 Layout-Induced Vision-Text

    Embedding • bboxの中心がPatchに含まれている場合 • 含まれていない場合 • 更に、bboxを離散化して、Layout Embeddingを作成し、 に対して単純に足す ◦ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化 例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>
  12. © 2023 LayerX Inc. 18 Vision-Text-Layout Decoder UDOPのモデル構造 • Text-Layout

    Decoder ◦ Textを生成 ◦ Layout (bbox token)を生成 ◦ Text + Layoutを生成 • Vision Decoder ◦ Imageを生成 ◦ 指示を与えると、編集された画像を 生成できたりする
  13. © 2023 LayerX Inc. 19 事前学習タスク 事前学習 • Self-Supervised Pretraining

    Tasks ◦ Joint Text-Layout Reconstruction ◦ Layout Modeling ◦ Visual Text Recognition ◦ Masked Image Reconstruction with Text and Layout ▪ Cross-Attention with Character Embeddings ▪ Image Decoding • Supervised Pretraining Tasks ◦ Document Classification ◦ Layout Analysis ◦ Information Extraction ◦ Question Answering ◦ Document Natural Language Inference (Document NLI)
  14. © 2023 LayerX Inc. 20 Self-Supervised Tasks 事前学習 • 上3つはMLMと似たような事前学習手法

    ◦ <layout_*>や<text_*>、<text_layout_*>といったSpecial Tokenを導入し、それぞれTextを隠した時 にLayout、Image情報からそれを予測できるかといったタスクを解かせている • Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述
  15. © 2023 LayerX Inc. 21 Masked Image Reconstruction 事前学習 •

    オリジナルのMAEから工夫した点が二点 • 文字Embeddingの追加 ◦ token単位ではなく、文字単位の情報が重要 ◦ 文字EmbeddingはEncoderとは別に学習可 能なパラメータとして持つ ◦ 画像生成性能が飛躍的に向上した • Image Decoder ◦ MASKされていないPatchのみをEncoderに 入力するので、単純にEncoderの出力を Decoderに渡せない ◦ 学習可能なEmbeddingをDecoderに入力 し、Encoderの出力とのCross-Attentionを 取ることで解決した 学習可能なEmbedding
  16. © 2023 LayerX Inc. 22 Masked Image Reconstruction 事前学習 •

    75%maskされたような画像でも 正確に再構成できている
  17. © 2023 LayerX Inc. 23 Supervised Pretraining Tasks 事前学習 •

    以下のような教師ありTaskを生成Taskとして解く • このデータセットはSelf-Supervised Pretrainingには使わない • もちろん、下流タスクの検証データやテストデータは使っていない • Taskに対応するpromptの後に本文などを挿入する
  18. © 2023 LayerX Inc. 24 モデルの設定 実験設定 • Architecture ◦

    Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用 ◦ Image Decoderは vit-mae-largeのDecoderを使用 ◦ tokenizerはT5のものを用い、<text_*>などの特殊なTokenを追加した • データサイズ ◦ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0) ◦ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用 • Curriculum Learning ◦ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった ◦ それぞれ1epoch毎に大きくした
  19. © 2023 LayerX Inc. 25 DUE-Benchmarkの結果 評価 • V =Vision,

    T = Text, L = Layout • 全てのデータセットにおいて、既存のSoTAモデルであったLayoutLMv3を上回る • 224の画像サイズの時点でSoTAを達成していた
  20. © 2023 LayerX Inc. 26 FUNSD, CORD, RVL-CDIPでの結果 評価 •

    CORDではSoTAを達成。 • 他のモデルはそのタスクに特化したネットワークを使っているが、統一的なモデルで全て取り扱え、更に精度も高いのは 注目に値する。
  21. © 2023 LayerX Inc. 29 Ablation Study Analysis 事前学習の有効性 •

    BaselineはMLMをしたBERT • Supervised PretrainingはしなくてもSoTAは達 成できていた Image Modalityの重要性 • InfoVQAのようなvisually-richな文書だと 性能の差が大きくなった [6]
  22. © 2023 LayerX Inc. 31 まとめ • Microsoftチームが提案したUDOPの紹介 • 生成タスクとして統一的にDocument

    AIのタスクを解くT5 likeなモデル構造を提案 ◦ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder • 生成タスクとして、既存研究とは異なる事前学習の方法を提案 • 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成 • 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた • コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている (MITライセンス) まとめと感想
  23. © 2023 LayerX Inc. 32 感想 • 既存手法に比べてEncoderの構造が直感的で分かりやすい ◦ 既存のものはImageとTextをSequence方向に連結するものが多い

    • 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう • 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう ◦ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい ◦ 文書データのFoundation Modelとなり得る • 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたい まとめと感想
  24. © 2023 LayerX Inc. 33 参考文献 [1] https://github.com/JaidedAI/EasyOCR [2] PubLayNet:

    largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836 [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609 [4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387 [5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683 [6] InfographicVQA, https://arxiv.org/abs/2104.12756