Slide 1

Slide 1 text

© 2023 LayerX Inc. Unifying Vision, Text, and Layout for Universal Document Processing 第59回 コンピュータビジョン勉強会@関東(後編) Naoto Shimakoshi (株式会社 LayerX)

Slide 2

Slide 2 text

自己紹介 島越 直人 よくトリゴエと間違えられますがシマコシです ● 経歴 ○ 京都大学 機械理工学専攻 卒業 ○ 2019/04 ~ 2023/04 DeNA Data Scientist ■ (2020/04 ~ 2022/03) GO株式会社に出向 ○ 2023/04 ~ LayerX 機械学習エンジニア ● Kaggle ○ Kaggle Competitions Grandmaster ○ 色々なドメインのデータに触れるのが好きな ので色々やってます @nt_4o54 @shimacos

Slide 3

Slide 3 text

※特に注釈がなければ 資料内の画像等は論文内のものを使用しています

Slide 4

Slide 4 text

© 2023 LayerX Inc. 4 本日の紹介論文 背景 Unifying Vision, Text, and Layout for Universal Document Processing (by           ) Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelである Universal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。

Slide 5

Slide 5 text

目次 Agenda ● 背景 ● 論文手法 ● まとめ

Slide 6

Slide 6 text

背景

Slide 7

Slide 7 text

© 2023 LayerX Inc. 7 Document AIとは 背景 文書を読み取り、分析し、理解するといったタスクを解くAI技術 OCR[1] Layout Analysis[2] DocVQA[3]

Slide 8

Slide 8 text

© 2023 LayerX Inc. 8 Document AIのTaskは幅広い 背景 ● Document Classification ○ 書類種別は何か? ● Document QA ○ 請求金額はいくら? ● Layout Detection ○ 明細テーブルはどこ? ● Information Extraction ○ 取引先名:株式会社東日本橋 + bboxの位置 自然画像よりも位置情報や画像情報が重要になる

Slide 9

Slide 9 text

© 2023 LayerX Inc. 9 先行研究のSoTA | LayoutLMv3[4] 背景 ● Image, Textを別々にEmbedding化しconcat ○ Text: RoBERTa ○ Image: patch分割しLinear ● 2D Embedding ○ Text: ある程度のSegmentごとにbboxを Embedding化 ○ Image: patchのindex毎にEmbedding ● 事前学習 ○ MLM: [MASK]されたtext tokenを予測 ○ MIM: [MASK]されたimage tokenを予測 ■ DiTのimage tokenizer ○ WPA: text tokenとpatch imageの位置合 わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。

Slide 10

Slide 10 text

© 2023 LayerX Inc. 10 先行研究のSoTA | LayoutLMv3[4] 背景 ● Image, Textを別々にEmbedding化しconcat ○ Text: RoBERTa ○ Image: patch分割しLinear ● 2D Embedding ○ Text: ある程度のSegmentごとにbboxを Embedding化 ○ Image: patchのindex毎にEmbedding ● 事前学習 ○ MLM: [MASK]されたtext tokenを予測 ○ MIM: [MASK]されたimage tokenを予測 ■ DiTのimage tokenizer ○ WPA: text tokenとpatch imageの位置合 わせを学習。text tokenに対応するpatchが [MASK]されているかどうかを予測。 単一のモダリティでしか学習できていない ImageとTextの対応関係を学習しているのがこの部分 だけで、十分相関関係を学習できていない?

Slide 11

Slide 11 text

© 2023 LayerX Inc. 11 本論文における貢献 背景 ● 既存研究よりもImage, Text, Layoutのモダリティ の相関を考慮できるアーキテクチャの提案 ○ Unified Encoder ○ Text-Layout Decoder ○ Image Decoder ● 全てのDocument AIタスクを、Seq2Seqの 生成モデルの枠組みで統一化した ● 新しい事前学習の提案 ○ 自己教師あり学習 + 教師あり学習 ● Image, Text, Layoutを全て入力として扱い、同時 に出力もできる初めてのモデル ● Document AIにおける8つのタスクでSoTAを達成

Slide 12

Slide 12 text

論文手法

Slide 13

Slide 13 text

© 2023 LayerX Inc. 13 Vision-Text-Layout Transformer UDOPのモデル構造 ● 基本はT5のようなEncoder-Decoderモデル ● Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-Layout Decoder、Imageを生成するVision Decoderの3つから成り立つ ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提

Slide 14

Slide 14 text

© 2023 LayerX Inc. 14 T5[5] にめっちゃ似てる UDOPのモデル構造 ● 一般的なTransformerのEncoder-Decoder構造を持つ ● Postional EncodingはRelative Position Embeddingを使っていたりする

Slide 15

Slide 15 text

© 2023 LayerX Inc. 15 変数定義 UDOPのモデル構造 Document Image: Text tokens: Bounding Box:               (左上と右下の座標)   個のText tokenがあるとすると Input:

Slide 16

Slide 16 text

© 2023 LayerX Inc. 16 Unified Encoder UDOPのモデル構造 Preprocess ● ImageをP個のPatchに分割し、 各PatchをD次元のベクトルにEncode ○                      のベクトルを得る ○ ViT-MAEで学習されたPatch Embeddingを使用 ● TextはWord EmbeddingによりD次元のベクトルに Encodeする ○ T5で事前学習されたWord Embeddingを使用

Slide 17

Slide 17 text

© 2023 LayerX Inc. 17 Unified Encoder UDOPのモデル構造 Layout-Induced Vision-Text Embedding ● bboxの中心がPatchに含まれている場合 ● 含まれていない場合 ● 更に、bboxを離散化して、Layout Embeddingを作成し、 に対して単純に足す ○ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化 例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>

Slide 18

Slide 18 text

© 2023 LayerX Inc. 18 Vision-Text-Layout Decoder UDOPのモデル構造 ● Text-Layout Decoder ○ Textを生成 ○ Layout (bbox token)を生成 ○ Text + Layoutを生成 ● Vision Decoder ○ Imageを生成 ○ 指示を与えると、編集された画像を 生成できたりする

Slide 19

Slide 19 text

© 2023 LayerX Inc. 19 事前学習タスク 事前学習 ● Self-Supervised Pretraining Tasks ○ Joint Text-Layout Reconstruction ○ Layout Modeling ○ Visual Text Recognition ○ Masked Image Reconstruction with Text and Layout ■ Cross-Attention with Character Embeddings ■ Image Decoding ● Supervised Pretraining Tasks ○ Document Classification ○ Layout Analysis ○ Information Extraction ○ Question Answering ○ Document Natural Language Inference (Document NLI)

Slide 20

Slide 20 text

© 2023 LayerX Inc. 20 Self-Supervised Tasks 事前学習 ● 上3つはMLMと似たような事前学習手法 ○ や、といったSpecial Tokenを導入し、それぞれTextを隠した時 にLayout、Image情報からそれを予測できるかといったタスクを解かせている ● Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述

Slide 21

Slide 21 text

© 2023 LayerX Inc. 21 Masked Image Reconstruction 事前学習 ● オリジナルのMAEから工夫した点が二点 ● 文字Embeddingの追加 ○ token単位ではなく、文字単位の情報が重要 ○ 文字EmbeddingはEncoderとは別に学習可 能なパラメータとして持つ ○ 画像生成性能が飛躍的に向上した ● Image Decoder ○ MASKされていないPatchのみをEncoderに 入力するので、単純にEncoderの出力を Decoderに渡せない ○ 学習可能なEmbeddingをDecoderに入力 し、Encoderの出力とのCross-Attentionを 取ることで解決した 学習可能なEmbedding

Slide 22

Slide 22 text

© 2023 LayerX Inc. 22 Masked Image Reconstruction 事前学習 ● 75%maskされたような画像でも 正確に再構成できている

Slide 23

Slide 23 text

© 2023 LayerX Inc. 23 Supervised Pretraining Tasks 事前学習 ● 以下のような教師ありTaskを生成Taskとして解く ● このデータセットはSelf-Supervised Pretrainingには使わない ● もちろん、下流タスクの検証データやテストデータは使っていない ● Taskに対応するpromptの後に本文などを挿入する

Slide 24

Slide 24 text

© 2023 LayerX Inc. 24 モデルの設定 実験設定 ● Architecture ○ Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用 ○ Image Decoderは vit-mae-largeのDecoderを使用 ○ tokenizerはT5のものを用い、などの特殊なTokenを追加した ● データサイズ ○ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0) ○ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用 ● Curriculum Learning ○ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった ○ それぞれ1epoch毎に大きくした

Slide 25

Slide 25 text

© 2023 LayerX Inc. 25 DUE-Benchmarkの結果 評価 ● V =Vision, T = Text, L = Layout ● 全てのデータセットにおいて、既存のSoTAモデルであったLayoutLMv3を上回る ● 224の画像サイズの時点でSoTAを達成していた

Slide 26

Slide 26 text

© 2023 LayerX Inc. 26 FUNSD, CORD, RVL-CDIPでの結果 評価 ● CORDではSoTAを達成。 ● 他のモデルはそのタスクに特化したネットワークを使っているが、統一的なモデルで全て取り扱え、更に精度も高いのは 注目に値する。

Slide 27

Slide 27 text

© 2023 LayerX Inc. 27 ● Document AIにおいて始めて制御可能な文書生成・編集が可能になった ○ Azure APIにて提供予定らしい 文書生成・編集 Analysis

Slide 28

Slide 28 text

© 2023 LayerX Inc. 28 ● レイアウトの編集も可能 文書生成・編集 Analysis

Slide 29

Slide 29 text

© 2023 LayerX Inc. 29 Ablation Study Analysis 事前学習の有効性 ● BaselineはMLMをしたBERT ● Supervised PretrainingはしなくてもSoTAは達 成できていた Image Modalityの重要性 ● InfoVQAのようなvisually-richな文書だと 性能の差が大きくなった [6]

Slide 30

Slide 30 text

まとめ

Slide 31

Slide 31 text

© 2023 LayerX Inc. 31 まとめ ● Microsoftチームが提案したUDOPの紹介 ● 生成タスクとして統一的にDocument AIのタスクを解くT5 likeなモデル構造を提案 ○ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder ● 生成タスクとして、既存研究とは異なる事前学習の方法を提案 ● 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成 ● 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた ● コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている (MITライセンス) まとめと感想

Slide 32

Slide 32 text

© 2023 LayerX Inc. 32 感想 ● 既存手法に比べてEncoderの構造が直感的で分かりやすい ○ 既存のものはImageとTextをSequence方向に連結するものが多い ● 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう ● 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう ○ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい ○ 文書データのFoundation Modelとなり得る ● 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたい まとめと感想

Slide 33

Slide 33 text

© 2023 LayerX Inc. 33 参考文献 [1] https://github.com/JaidedAI/EasyOCR [2] PubLayNet: largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836 [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609 [4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387 [5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683 [6] InfographicVQA, https://arxiv.org/abs/2104.12756

Slide 34

Slide 34 text

ご清聴ありがとうございました