$30 off During Our Annual Pro Sale. View Details »

[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

shimacos
August 26, 2023

[CVPR 2023 論文紹介] Unifying Vision, Text, and Layout for Universal Document Processing / kanto-cv-59-udop

第59回 コンピュータビジョン勉強会@関東(後編)の発表資料です。
https://kantocv.connpass.com/event/288902/

Microsoftが発表したDocument AIのモデルである「Universal Document Processing (UDOP)」を紹介しています。
Image, Text, Layoutを効率よくモデルに理解させることで、さまざまなTaskとさまざまなドメインに渡る8つのデータセットでSoTAを達成しました。

shimacos

August 26, 2023
Tweet

More Decks by shimacos

Other Decks in Research

Transcript

  1. © 2023 LayerX Inc.
    Unifying Vision, Text, and Layout
    for Universal Document Processing
    第59回 コンピュータビジョン勉強会@関東(後編)
    Naoto Shimakoshi (株式会社 LayerX)

    View Slide

  2. 自己紹介
    島越 直人
    よくトリゴエと間違えられますがシマコシです
    ● 経歴
    ○ 京都大学 機械理工学専攻 卒業
    ○ 2019/04 ~ 2023/04 DeNA
    Data Scientist
    ■ (2020/04 ~ 2022/03)
    GO株式会社に出向
    ○ 2023/04 ~ LayerX 機械学習エンジニア
    ● Kaggle
    ○ Kaggle Competitions Grandmaster
    ○ 色々なドメインのデータに触れるのが好きな
    ので色々やってます
    @nt_4o54
    @shimacos

    View Slide

  3. ※特に注釈がなければ
    資料内の画像等は論文内のものを使用しています

    View Slide

  4. © 2023 LayerX Inc. 4
    本日の紹介論文
    背景
    Unifying Vision, Text, and Layout for Universal Document Processing (by           )
    Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelである
    Universal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。

    View Slide

  5. 目次
    Agenda
    ● 背景
    ● 論文手法
    ● まとめ

    View Slide

  6. 背景

    View Slide

  7. © 2023 LayerX Inc. 7
    Document AIとは
    背景
    文書を読み取り、分析し、理解するといったタスクを解くAI技術
    OCR[1] Layout Analysis[2] DocVQA[3]

    View Slide

  8. © 2023 LayerX Inc. 8
    Document AIのTaskは幅広い
    背景
    ● Document Classification
    ○ 書類種別は何か?
    ● Document QA
    ○ 請求金額はいくら?
    ● Layout Detection
    ○ 明細テーブルはどこ?
    ● Information Extraction
    ○ 取引先名:株式会社東日本橋 + bboxの位置
    自然画像よりも位置情報や画像情報が重要になる

    View Slide

  9. © 2023 LayerX Inc. 9
    先行研究のSoTA | LayoutLMv3[4]
    背景
    ● Image, Textを別々にEmbedding化しconcat
    ○ Text: RoBERTa
    ○ Image: patch分割しLinear
    ● 2D Embedding
    ○ Text: ある程度のSegmentごとにbboxを
    Embedding化
    ○ Image: patchのindex毎にEmbedding
    ● 事前学習
    ○ MLM: [MASK]されたtext tokenを予測
    ○ MIM: [MASK]されたimage tokenを予測
    ■ DiTのimage tokenizer
    ○ WPA: text tokenとpatch imageの位置合
    わせを学習。text tokenに対応するpatchが
    [MASK]されているかどうかを予測。

    View Slide

  10. © 2023 LayerX Inc. 10
    先行研究のSoTA | LayoutLMv3[4]
    背景
    ● Image, Textを別々にEmbedding化しconcat
    ○ Text: RoBERTa
    ○ Image: patch分割しLinear
    ● 2D Embedding
    ○ Text: ある程度のSegmentごとにbboxを
    Embedding化
    ○ Image: patchのindex毎にEmbedding
    ● 事前学習
    ○ MLM: [MASK]されたtext tokenを予測
    ○ MIM: [MASK]されたimage tokenを予測
    ■ DiTのimage tokenizer
    ○ WPA: text tokenとpatch imageの位置合
    わせを学習。text tokenに対応するpatchが
    [MASK]されているかどうかを予測。
    単一のモダリティでしか学習できていない
    ImageとTextの対応関係を学習しているのがこの部分
    だけで、十分相関関係を学習できていない?

    View Slide

  11. © 2023 LayerX Inc. 11
    本論文における貢献
    背景
    ● 既存研究よりもImage, Text, Layoutのモダリティ
    の相関を考慮できるアーキテクチャの提案
    ○ Unified Encoder
    ○ Text-Layout Decoder
    ○ Image Decoder
    ● 全てのDocument AIタスクを、Seq2Seqの
    生成モデルの枠組みで統一化した
    ● 新しい事前学習の提案
    ○ 自己教師あり学習 + 教師あり学習
    ● Image, Text, Layoutを全て入力として扱い、同時
    に出力もできる初めてのモデル
    ● Document AIにおける8つのタスクでSoTAを達成

    View Slide

  12. 論文手法

    View Slide

  13. © 2023 LayerX Inc. 13
    Vision-Text-Layout Transformer
    UDOPのモデル構造
    ● 基本はT5のようなEncoder-Decoderモデル
    ● Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-Layout
    Decoder、Imageを生成するVision Decoderの3つから成り立つ
    ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提

    View Slide

  14. © 2023 LayerX Inc. 14
    T5[5]
    にめっちゃ似てる
    UDOPのモデル構造
    ● 一般的なTransformerのEncoder-Decoder構造を持つ
    ● Postional EncodingはRelative Position Embeddingを使っていたりする

    View Slide

  15. © 2023 LayerX Inc. 15
    変数定義
    UDOPのモデル構造
    Document Image:
    Text tokens:
    Bounding Box:               (左上と右下の座標)
      個のText tokenがあるとすると
    Input:

    View Slide

  16. © 2023 LayerX Inc. 16
    Unified Encoder
    UDOPのモデル構造
    Preprocess
    ● ImageをP個のPatchに分割し、
    各PatchをD次元のベクトルにEncode
    ○                      のベクトルを得る
    ○ ViT-MAEで学習されたPatch Embeddingを使用
    ● TextはWord EmbeddingによりD次元のベクトルに
    Encodeする
    ○ T5で事前学習されたWord Embeddingを使用

    View Slide

  17. © 2023 LayerX Inc. 17
    Unified Encoder
    UDOPのモデル構造
    Layout-Induced Vision-Text Embedding
    ● bboxの中心がPatchに含まれている場合
    ● 含まれていない場合
    ● 更に、bboxを離散化して、Layout Embeddingを作成し、
    に対して単純に足す
    ○ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化
    例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>

    View Slide

  18. © 2023 LayerX Inc. 18
    Vision-Text-Layout Decoder
    UDOPのモデル構造
    ● Text-Layout Decoder
    ○ Textを生成
    ○ Layout (bbox token)を生成
    ○ Text + Layoutを生成
    ● Vision Decoder
    ○ Imageを生成
    ○ 指示を与えると、編集された画像を
    生成できたりする

    View Slide

  19. © 2023 LayerX Inc. 19
    事前学習タスク
    事前学習
    ● Self-Supervised Pretraining Tasks
    ○ Joint Text-Layout Reconstruction
    ○ Layout Modeling
    ○ Visual Text Recognition
    ○ Masked Image Reconstruction with Text and Layout
    ■ Cross-Attention with Character Embeddings
    ■ Image Decoding
    ● Supervised Pretraining Tasks
    ○ Document Classification
    ○ Layout Analysis
    ○ Information Extraction
    ○ Question Answering
    ○ Document Natural Language Inference (Document NLI)

    View Slide

  20. © 2023 LayerX Inc. 20
    Self-Supervised Tasks
    事前学習
    ● 上3つはMLMと似たような事前学習手法
    ○ や、といったSpecial Tokenを導入し、それぞれTextを隠した時
    にLayout、Image情報からそれを予測できるかといったタスクを解かせている
    ● Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述

    View Slide

  21. © 2023 LayerX Inc. 21
    Masked Image Reconstruction
    事前学習
    ● オリジナルのMAEから工夫した点が二点
    ● 文字Embeddingの追加
    ○ token単位ではなく、文字単位の情報が重要
    ○ 文字EmbeddingはEncoderとは別に学習可
    能なパラメータとして持つ
    ○ 画像生成性能が飛躍的に向上した
    ● Image Decoder
    ○ MASKされていないPatchのみをEncoderに
    入力するので、単純にEncoderの出力を
    Decoderに渡せない
    ○ 学習可能なEmbeddingをDecoderに入力
    し、Encoderの出力とのCross-Attentionを
    取ることで解決した
    学習可能なEmbedding

    View Slide

  22. © 2023 LayerX Inc. 22
    Masked Image Reconstruction
    事前学習
    ● 75%maskされたような画像でも
    正確に再構成できている

    View Slide

  23. © 2023 LayerX Inc. 23
    Supervised Pretraining Tasks
    事前学習
    ● 以下のような教師ありTaskを生成Taskとして解く
    ● このデータセットはSelf-Supervised Pretrainingには使わない
    ● もちろん、下流タスクの検証データやテストデータは使っていない
    ● Taskに対応するpromptの後に本文などを挿入する

    View Slide

  24. © 2023 LayerX Inc. 24
    モデルの設定
    実験設定
    ● Architecture
    ○ Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用
    ○ Image Decoderは vit-mae-largeのDecoderを使用
    ○ tokenizerはT5のものを用い、などの特殊なTokenを追加した
    ● データサイズ
    ○ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0)
    ○ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用
    ● Curriculum Learning
    ○ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった
    ○ それぞれ1epoch毎に大きくした

    View Slide

  25. © 2023 LayerX Inc. 25
    DUE-Benchmarkの結果
    評価
    ● V =Vision, T = Text, L = Layout
    ● 全てのデータセットにおいて、既存のSoTAモデルであったLayoutLMv3を上回る
    ● 224の画像サイズの時点でSoTAを達成していた

    View Slide

  26. © 2023 LayerX Inc. 26
    FUNSD, CORD, RVL-CDIPでの結果
    評価
    ● CORDではSoTAを達成。
    ● 他のモデルはそのタスクに特化したネットワークを使っているが、統一的なモデルで全て取り扱え、更に精度も高いのは
    注目に値する。

    View Slide

  27. © 2023 LayerX Inc. 27
    ● Document AIにおいて始めて制御可能な文書生成・編集が可能になった
    ○ Azure APIにて提供予定らしい
    文書生成・編集
    Analysis

    View Slide

  28. © 2023 LayerX Inc. 28
    ● レイアウトの編集も可能
    文書生成・編集
    Analysis

    View Slide

  29. © 2023 LayerX Inc. 29
    Ablation Study
    Analysis
    事前学習の有効性
    ● BaselineはMLMをしたBERT
    ● Supervised PretrainingはしなくてもSoTAは達
    成できていた
    Image Modalityの重要性
    ● InfoVQAのようなvisually-richな文書だと
    性能の差が大きくなった
    [6]

    View Slide

  30. まとめ

    View Slide

  31. © 2023 LayerX Inc. 31
    まとめ
    ● Microsoftチームが提案したUDOPの紹介
    ● 生成タスクとして統一的にDocument AIのタスクを解くT5 likeなモデル構造を提案
    ○ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder
    ● 生成タスクとして、既存研究とは異なる事前学習の方法を提案
    ● 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成
    ● 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた
    ● コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている
    (MITライセンス)
    まとめと感想

    View Slide

  32. © 2023 LayerX Inc. 32
    感想
    ● 既存手法に比べてEncoderの構造が直感的で分かりやすい
    ○ 既存のものはImageとTextをSequence方向に連結するものが多い
    ● 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう
    ● 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう
    ○ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい
    ○ 文書データのFoundation Modelとなり得る
    ● 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたい
    まとめと感想

    View Slide

  33. © 2023 LayerX Inc. 33
    参考文献
    [1] https://github.com/JaidedAI/EasyOCR
    [2] PubLayNet: largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836
    [3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609
    [4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387
    [5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683
    [6] InfographicVQA, https://arxiv.org/abs/2104.12756

    View Slide

  34. ご清聴ありがとうございました

    View Slide