[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

© 2023 LayerX Inc. Unifying Vision, Text, and Layout for
Universal Document Processing 第59回コンピュータビジョン勉強会＠関東（後編） Naoto Shimakoshi (株式会社 LayerX)

自己紹介島越直人よくトリゴエと間違えられますがシマコシです • 経歴 ◦ 京都大学機械理工学専攻卒業
◦ 2019/04 ~ 2023/04 DeNA Data Scientist ▪ (2020/04 ~ 2022/03) GO株式会社に出向 ◦ 2023/04 ~ LayerX 機械学習エンジニア • Kaggle ◦ Kaggle Competitions Grandmaster ◦ 色々なドメインのデータに触れるのが好きなので色々やってます @nt_4o54 @shimacos

※特に注釈がなければ資料内の画像等は論文内のものを使用しています

© 2023 LayerX Inc. 4 本日の紹介論文背景 Unifying Vision, Text,
and Layout for Universal Document Processing (by 　　　　　　　　　 ) Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelである Universal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。

目次 Agenda • 背景 • 論文手法 • まとめ

背景

© 2023 LayerX Inc. 7 Document AIとは背景文書を読み取り、分析し、理解するといったタスクを解くAI技術 OCR[1]
Layout Analysis[2] DocVQA[3]

© 2023 LayerX Inc. 8 Document AIのTaskは幅広い背景 • Document
Classification ◦ 書類種別は何か？ • Document QA ◦ 請求金額はいくら？ • Layout Detection ◦ 明細テーブルはどこ？ • Information Extraction ◦ 取引先名：株式会社東日本橋 + bboxの位置自然画像よりも位置情報や画像情報が重要になる

© 2023 LayerX Inc. 9 先行研究のSoTA | LayoutLMv3[4] 背景 •
Image, Textを別々にEmbedding化しconcat ◦ Text: RoBERTa ◦ Image: patch分割しLinear • 2D Embedding ◦ Text: ある程度のSegmentごとにbboxを Embedding化 ◦ Image: patchのindex毎にEmbedding • 事前学習 ◦ MLM: [MASK]されたtext tokenを予測 ◦ MIM: [MASK]されたimage tokenを予測 ▪ DiTのimage tokenizer ◦ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。

© 2023 LayerX Inc. 10 先行研究のSoTA | LayoutLMv3[4] 背景 •
Image, Textを別々にEmbedding化しconcat ◦ Text: RoBERTa ◦ Image: patch分割しLinear • 2D Embedding ◦ Text: ある程度のSegmentごとにbboxを Embedding化 ◦ Image: patchのindex毎にEmbedding • 事前学習 ◦ MLM: [MASK]されたtext tokenを予測 ◦ MIM: [MASK]されたimage tokenを予測 ▪ DiTのimage tokenizer ◦ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。単一のモダリティでしか学習できていない ImageとTextの対応関係を学習しているのがこの部分だけで、十分相関関係を学習できていない？

© 2023 LayerX Inc. 11 本論文における貢献背景 • 既存研究よりもImage, Text,
Layoutのモダリティの相関を考慮できるアーキテクチャの提案 ◦ Unified Encoder ◦ Text-Layout Decoder ◦ Image Decoder • 全てのDocument AIタスクを、Seq2Seqの生成モデルの枠組みで統一化した • 新しい事前学習の提案 ◦ 自己教師あり学習 + 教師あり学習 • Image, Text, Layoutを全て入力として扱い、同時に出力もできる初めてのモデル • Document AIにおける8つのタスクでSoTAを達成

論文手法

© 2023 LayerX Inc. 13 Vision-Text-Layout Transformer UDOPのモデル構造 • 基本はT5のようなEncoder-Decoderモデル
• Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-Layout Decoder、Imageを生成するVision Decoderの3つから成り立つ ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提

© 2023 LayerX Inc. 14 T5[5] にめっちゃ似てる UDOPのモデル構造 • 一般的なTransformerのEncoder-Decoder構造を持つ
• Postional EncodingはRelative Position Embeddingを使っていたりする

© 2023 LayerX Inc. 15 変数定義 UDOPのモデル構造 Document Image: Text
tokens: Bounding Box: 　　　　　　　　　　　　　　(左上と右下の座標) 　個のText tokenがあるとすると Input:

© 2023 LayerX Inc. 16 Unified Encoder UDOPのモデル構造 Preprocess •
ImageをP個のPatchに分割し、各PatchをD次元のベクトルにEncode ◦ 　　　　　　　　　　　　　　　　　　　　　のベクトルを得る ◦ ViT-MAEで学習されたPatch Embeddingを使用 • TextはWord EmbeddingによりD次元のベクトルに Encodeする ◦ T5で事前学習されたWord Embeddingを使用

© 2023 LayerX Inc. 17 Unified Encoder UDOPのモデル構造 Layout-Induced Vision-Text
Embedding • bboxの中心がPatchに含まれている場合 • 含まれていない場合 • 更に、bboxを離散化して、Layout Embeddingを作成し、に対して単純に足す ◦ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>

© 2023 LayerX Inc. 18 Vision-Text-Layout Decoder UDOPのモデル構造 • Text-Layout
Decoder ◦ Textを生成 ◦ Layout (bbox token)を生成 ◦ Text + Layoutを生成 • Vision Decoder ◦ Imageを生成 ◦ 指示を与えると、編集された画像を生成できたりする

© 2023 LayerX Inc. 19 事前学習タスク事前学習 • Self-Supervised Pretraining
Tasks ◦ Joint Text-Layout Reconstruction ◦ Layout Modeling ◦ Visual Text Recognition ◦ Masked Image Reconstruction with Text and Layout ▪ Cross-Attention with Character Embeddings ▪ Image Decoding • Supervised Pretraining Tasks ◦ Document Classification ◦ Layout Analysis ◦ Information Extraction ◦ Question Answering ◦ Document Natural Language Inference (Document NLI)

© 2023 LayerX Inc. 20 Self-Supervised Tasks 事前学習 • 上3つはMLMと似たような事前学習手法
◦ <layout_*>や<text_*>、<text_layout_*>といったSpecial Tokenを導入し、それぞれTextを隠した時にLayout、Image情報からそれを予測できるかといったタスクを解かせている • Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述

© 2023 LayerX Inc. 21 Masked Image Reconstruction 事前学習 •
オリジナルのMAEから工夫した点が二点 • 文字Embeddingの追加 ◦ token単位ではなく、文字単位の情報が重要 ◦ 文字EmbeddingはEncoderとは別に学習可能なパラメータとして持つ ◦ 画像生成性能が飛躍的に向上した • Image Decoder ◦ MASKされていないPatchのみをEncoderに入力するので、単純にEncoderの出力を Decoderに渡せない ◦ 学習可能なEmbeddingをDecoderに入力し、Encoderの出力とのCross-Attentionを取ることで解決した学習可能なEmbedding

© 2023 LayerX Inc. 22 Masked Image Reconstruction 事前学習 •
75%maskされたような画像でも正確に再構成できている

© 2023 LayerX Inc. 23 Supervised Pretraining Tasks 事前学習 •
以下のような教師ありTaskを生成Taskとして解く • このデータセットはSelf-Supervised Pretrainingには使わない • もちろん、下流タスクの検証データやテストデータは使っていない • Taskに対応するpromptの後に本文などを挿入する

© 2023 LayerX Inc. 24 モデルの設定実験設定 • Architecture ◦
Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用 ◦ Image Decoderは　vit-mae-largeのDecoderを使用 ◦ tokenizerはT5のものを用い、<text_*>などの特殊なTokenを追加した • データサイズ ◦ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0) ◦ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用 • Curriculum Learning ◦ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった ◦ それぞれ1epoch毎に大きくした

© 2023 LayerX Inc. 25 DUE-Benchmarkの結果評価 • V =Vision,
T = Text, L = Layout • 全てのデータセットにおいて、既存のSoTAモデルであったLayoutLMv3を上回る • 224の画像サイズの時点でSoTAを達成していた

© 2023 LayerX Inc. 26 FUNSD, CORD, RVL-CDIPでの結果評価 •
CORDではSoTAを達成。 • 他のモデルはそのタスクに特化したネットワークを使っているが、統一的なモデルで全て取り扱え、更に精度も高いのは注目に値する。

© 2023 LayerX Inc. 29 Ablation Study Analysis 事前学習の有効性 •
BaselineはMLMをしたBERT • Supervised PretrainingはしなくてもSoTAは達成できていた Image Modalityの重要性 • InfoVQAのようなvisually-richな文書だと性能の差が大きくなった [6]

まとめ

© 2023 LayerX Inc. 31 まとめ • Microsoftチームが提案したUDOPの紹介 • 生成タスクとして統一的にDocument
AIのタスクを解くT5 likeなモデル構造を提案 ◦ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder • 生成タスクとして、既存研究とは異なる事前学習の方法を提案 • 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成 • 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた • コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている (MITライセンス) まとめと感想

© 2023 LayerX Inc. 32 感想 • 既存手法に比べてEncoderの構造が直感的で分かりやすい ◦ 既存のものはImageとTextをSequence方向に連結するものが多い
• 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう • 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう ◦ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい ◦ 文書データのFoundation Modelとなり得る • 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたいまとめと感想

© 2023 LayerX Inc. 33 参考文献 [1] https://github.com/JaidedAI/EasyOCR [2] PubLayNet:
largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836 [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609 [4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387 [5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683 [6] InfographicVQA, https://arxiv.org/abs/2104.12756

ご清聴ありがとうございました

[CVPR 2023 論文紹介] Unifying Vision, Text, and Lay...

[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

More Decks by shimacos

Other Decks in Research

Featured

Transcript