[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介島越直人よくトリゴエと間違えられますがシマコシです ● 経歴 ○ 京都大学機械理工学専攻卒業 ○ 2019/04 ~ 2023/04 DeNA Data Scientist ■ (2020/04 ~ 2022/03) GO株式会社に出向 ○ 2023/04 ~ LayerX 機械学習エンジニア ● Kaggle ○ Kaggle Competitions Grandmaster ○ 色々なドメインのデータに触れるのが好きなので色々やってます @nt_4o54 @shimacos

Slide 3

Slide 3 text

※特に注釈がなければ資料内の画像等は論文内のものを使用しています

Slide 4

Slide 4 text

© 2023 LayerX Inc. 4 本日の紹介論文背景 Unifying Vision, Text, and Layout for Universal Document Processing (by 　　　　　　　　　 ) Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelである Universal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。

Slide 5

Slide 5 text

目次 Agenda ● 背景 ● 論文手法 ● まとめ

Slide 6

Slide 6 text

背景

Slide 7

Slide 7 text

Slide 8

Slide 8 text

© 2023 LayerX Inc. 8 Document AIのTaskは幅広い背景 ● Document Classification ○ 書類種別は何か？ ● Document QA ○ 請求金額はいくら？ ● Layout Detection ○ 明細テーブルはどこ？ ● Information Extraction ○ 取引先名：株式会社東日本橋 + bboxの位置自然画像よりも位置情報や画像情報が重要になる

Slide 9

Slide 9 text

© 2023 LayerX Inc. 9 先行研究のSoTA | LayoutLMv3[4] 背景 ● Image, Textを別々にEmbedding化しconcat ○ Text: RoBERTa ○ Image: patch分割しLinear ● 2D Embedding ○ Text: ある程度のSegmentごとにbboxを Embedding化 ○ Image: patchのindex毎にEmbedding ● 事前学習 ○ MLM: [MASK]されたtext tokenを予測 ○ MIM: [MASK]されたimage tokenを予測 ■ DiTのimage tokenizer ○ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。

Slide 10

Slide 10 text

© 2023 LayerX Inc. 10 先行研究のSoTA | LayoutLMv3[4] 背景 ● Image, Textを別々にEmbedding化しconcat ○ Text: RoBERTa ○ Image: patch分割しLinear ● 2D Embedding ○ Text: ある程度のSegmentごとにbboxを Embedding化 ○ Image: patchのindex毎にEmbedding ● 事前学習 ○ MLM: [MASK]されたtext tokenを予測 ○ MIM: [MASK]されたimage tokenを予測 ■ DiTのimage tokenizer ○ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。単一のモダリティでしか学習できていない ImageとTextの対応関係を学習しているのがこの部分だけで、十分相関関係を学習できていない？

Slide 11

Slide 11 text

© 2023 LayerX Inc. 11 本論文における貢献背景 ● 既存研究よりもImage, Text, Layoutのモダリティの相関を考慮できるアーキテクチャの提案 ○ Unified Encoder ○ Text-Layout Decoder ○ Image Decoder ● 全てのDocument AIタスクを、Seq2Seqの生成モデルの枠組みで統一化した ● 新しい事前学習の提案 ○ 自己教師あり学習 + 教師あり学習 ● Image, Text, Layoutを全て入力として扱い、同時に出力もできる初めてのモデル ● Document AIにおける8つのタスクでSoTAを達成

Slide 12

Slide 12 text

論文手法

Slide 13

Slide 13 text

© 2023 LayerX Inc. 13 Vision-Text-Layout Transformer UDOPのモデル構造 ● 基本はT5のようなEncoder-Decoderモデル ● Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-Layout Decoder、Imageを生成するVision Decoderの3つから成り立つ ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提

Slide 14

Slide 14 text

Slide 15

Slide 15 text

Slide 16

Slide 16 text

© 2023 LayerX Inc. 16 Unified Encoder UDOPのモデル構造 Preprocess ● ImageをP個のPatchに分割し、各PatchをD次元のベクトルにEncode ○ 　　　　　　　　　　　　　　　　　　　　　のベクトルを得る ○ ViT-MAEで学習されたPatch Embeddingを使用 ● TextはWord EmbeddingによりD次元のベクトルに Encodeする ○ T5で事前学習されたWord Embeddingを使用

Slide 17

Slide 17 text

© 2023 LayerX Inc. 17 Unified Encoder UDOPのモデル構造 Layout-Induced Vision-Text Embedding ● bboxの中心がPatchに含まれている場合 ● 含まれていない場合 ● 更に、bboxを離散化して、Layout Embeddingを作成し、に対して単純に足す ○ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>

Slide 18

Slide 18 text

Slide 19

Slide 19 text

© 2023 LayerX Inc. 19 事前学習タスク事前学習 ● Self-Supervised Pretraining Tasks ○ Joint Text-Layout Reconstruction ○ Layout Modeling ○ Visual Text Recognition ○ Masked Image Reconstruction with Text and Layout ■ Cross-Attention with Character Embeddings ■ Image Decoding ● Supervised Pretraining Tasks ○ Document Classification ○ Layout Analysis ○ Information Extraction ○ Question Answering ○ Document Natural Language Inference (Document NLI)

Slide 20

Slide 20 text

© 2023 LayerX Inc. 20 Self-Supervised Tasks 事前学習 ● 上3つはMLMと似たような事前学習手法 ○ や、といったSpecial Tokenを導入し、それぞれTextを隠した時にLayout、Image情報からそれを予測できるかといったタスクを解かせている ● Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述

Slide 21

Slide 21 text

© 2023 LayerX Inc. 21 Masked Image Reconstruction 事前学習 ● オリジナルのMAEから工夫した点が二点 ● 文字Embeddingの追加 ○ token単位ではなく、文字単位の情報が重要 ○ 文字EmbeddingはEncoderとは別に学習可能なパラメータとして持つ ○ 画像生成性能が飛躍的に向上した ● Image Decoder ○ MASKされていないPatchのみをEncoderに入力するので、単純にEncoderの出力を Decoderに渡せない ○ 学習可能なEmbeddingをDecoderに入力し、Encoderの出力とのCross-Attentionを取ることで解決した学習可能なEmbedding

Slide 22

Slide 22 text

Slide 23

Slide 23 text

Slide 24

Slide 24 text

© 2023 LayerX Inc. 24 モデルの設定実験設定 ● Architecture ○ Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用 ○ Image Decoderは　vit-mae-largeのDecoderを使用 ○ tokenizerはT5のものを用い、などの特殊なTokenを追加した ● データサイズ ○ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0) ○ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用 ● Curriculum Learning ○ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった ○ それぞれ1epoch毎に大きくした

Slide 25

Slide 25 text

Slide 26

Slide 26 text

Slide 27

Slide 27 text

Slide 28

Slide 28 text

Slide 29

Slide 29 text

Slide 30

Slide 30 text

まとめ

Slide 31

Slide 31 text

© 2023 LayerX Inc. 31 まとめ ● Microsoftチームが提案したUDOPの紹介 ● 生成タスクとして統一的にDocument AIのタスクを解くT5 likeなモデル構造を提案 ○ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder ● 生成タスクとして、既存研究とは異なる事前学習の方法を提案 ● 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成 ● 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた ● コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている (MITライセンス) まとめと感想

Slide 32

Slide 32 text

© 2023 LayerX Inc. 32 感想 ● 既存手法に比べてEncoderの構造が直感的で分かりやすい ○ 既存のものはImageとTextをSequence方向に連結するものが多い ● 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう ● 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう ○ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい ○ 文書データのFoundation Modelとなり得る ● 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたいまとめと感想

Slide 33

Slide 33 text

© 2023 LayerX Inc. 33 参考文献 [1] https://github.com/JaidedAI/EasyOCR [2] PubLayNet: largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836 [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609 [4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387 [5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683 [6] InfographicVQA, https://arxiv.org/abs/2104.12756

Slide 34

Slide 34 text

ご清聴ありがとうございました