第59回 コンピュータビジョン勉強会@関東(後編)の発表資料です。 https://kantocv.connpass.com/event/288902/
Microsoftが発表したDocument AIのモデルである「Universal Document Processing (UDOP)」を紹介しています。 Image, Text, Layoutを効率よくモデルに理解させることで、さまざまなTaskとさまざまなドメインに渡る8つのデータセットでSoTAを達成しました。
© 2023 LayerX Inc.Unifying Vision, Text, and Layoutfor Universal Document Processing第59回 コンピュータビジョン勉強会@関東(後編)Naoto Shimakoshi (株式会社 LayerX)
View Slide
自己紹介島越 直人よくトリゴエと間違えられますがシマコシです● 経歴○ 京都大学 機械理工学専攻 卒業○ 2019/04 ~ 2023/04 DeNAData Scientist■ (2020/04 ~ 2022/03)GO株式会社に出向○ 2023/04 ~ LayerX 機械学習エンジニア● Kaggle○ Kaggle Competitions Grandmaster○ 色々なドメインのデータに触れるのが好きなので色々やってます@nt_4o54@shimacos
※特に注釈がなければ資料内の画像等は論文内のものを使用しています
© 2023 LayerX Inc. 4本日の紹介論文背景Unifying Vision, Text, and Layout for Universal Document Processing (by )Image, Text, Layoutをさまざまなタスクに対して統一的に扱うmodelであるUniversal Document Processing (UDOP)を提案し、さまざまなDocument AIタスクにおいてSoTAを達成した。
目次Agenda● 背景● 論文手法● まとめ
背景
© 2023 LayerX Inc. 7Document AIとは背景文書を読み取り、分析し、理解するといったタスクを解くAI技術OCR[1] Layout Analysis[2] DocVQA[3]
© 2023 LayerX Inc. 8Document AIのTaskは幅広い背景● Document Classification○ 書類種別は何か?● Document QA○ 請求金額はいくら?● Layout Detection○ 明細テーブルはどこ?● Information Extraction○ 取引先名:株式会社東日本橋 + bboxの位置自然画像よりも位置情報や画像情報が重要になる
© 2023 LayerX Inc. 9先行研究のSoTA | LayoutLMv3[4]背景● Image, Textを別々にEmbedding化しconcat○ Text: RoBERTa○ Image: patch分割しLinear● 2D Embedding○ Text: ある程度のSegmentごとにbboxをEmbedding化○ Image: patchのindex毎にEmbedding● 事前学習○ MLM: [MASK]されたtext tokenを予測○ MIM: [MASK]されたimage tokenを予測■ DiTのimage tokenizer○ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが[MASK]されているかどうかを予測。
© 2023 LayerX Inc. 10先行研究のSoTA | LayoutLMv3[4]背景● Image, Textを別々にEmbedding化しconcat○ Text: RoBERTa○ Image: patch分割しLinear● 2D Embedding○ Text: ある程度のSegmentごとにbboxをEmbedding化○ Image: patchのindex毎にEmbedding● 事前学習○ MLM: [MASK]されたtext tokenを予測○ MIM: [MASK]されたimage tokenを予測■ DiTのimage tokenizer○ WPA: text tokenとpatch imageの位置合わせを学習。text tokenに対応するpatchが[MASK]されているかどうかを予測。単一のモダリティでしか学習できていないImageとTextの対応関係を学習しているのがこの部分だけで、十分相関関係を学習できていない?
© 2023 LayerX Inc. 11本論文における貢献背景● 既存研究よりもImage, Text, Layoutのモダリティの相関を考慮できるアーキテクチャの提案○ Unified Encoder○ Text-Layout Decoder○ Image Decoder● 全てのDocument AIタスクを、Seq2Seqの生成モデルの枠組みで統一化した● 新しい事前学習の提案○ 自己教師あり学習 + 教師あり学習● Image, Text, Layoutを全て入力として扱い、同時に出力もできる初めてのモデル● Document AIにおける8つのタスクでSoTAを達成
論文手法
© 2023 LayerX Inc. 13Vision-Text-Layout TransformerUDOPのモデル構造● 基本はT5のようなEncoder-Decoderモデル● Image, Text, Layoutを同時に入力するUnified Encoder、Text + Layout情報を生成するText-LayoutDecoder、Imageを生成するVision Decoderの3つから成り立つ※ このモデルの前段に文書にOCRをかけて、TextとそのTextが存在するbboxを取得できていることが前提
© 2023 LayerX Inc. 14T5[5]にめっちゃ似てるUDOPのモデル構造● 一般的なTransformerのEncoder-Decoder構造を持つ● Postional EncodingはRelative Position Embeddingを使っていたりする
© 2023 LayerX Inc. 15変数定義UDOPのモデル構造Document Image:Text tokens:Bounding Box: (左上と右下の座標) 個のText tokenがあるとするとInput:
© 2023 LayerX Inc. 16Unified EncoderUDOPのモデル構造Preprocess● ImageをP個のPatchに分割し、各PatchをD次元のベクトルにEncode○ のベクトルを得る○ ViT-MAEで学習されたPatch Embeddingを使用● TextはWord EmbeddingによりD次元のベクトルにEncodeする○ T5で事前学習されたWord Embeddingを使用
© 2023 LayerX Inc. 17Unified EncoderUDOPのモデル構造Layout-Induced Vision-Text Embedding● bboxの中心がPatchに含まれている場合● 含まれていない場合● 更に、bboxを離散化して、Layout Embeddingを作成し、に対して単純に足す○ bboxを[0, 1]で正規化した後にレイアウトの語彙数で離散化例) (0,1, 0.2, 0.5, 0.6) → <50><100><250><300>
© 2023 LayerX Inc. 18Vision-Text-Layout DecoderUDOPのモデル構造● Text-Layout Decoder○ Textを生成○ Layout (bbox token)を生成○ Text + Layoutを生成● Vision Decoder○ Imageを生成○ 指示を与えると、編集された画像を生成できたりする
© 2023 LayerX Inc. 19事前学習タスク事前学習● Self-Supervised Pretraining Tasks○ Joint Text-Layout Reconstruction○ Layout Modeling○ Visual Text Recognition○ Masked Image Reconstruction with Text and Layout■ Cross-Attention with Character Embeddings■ Image Decoding● Supervised Pretraining Tasks○ Document Classification○ Layout Analysis○ Information Extraction○ Question Answering○ Document Natural Language Inference (Document NLI)
© 2023 LayerX Inc. 20Self-Supervised Tasks事前学習● 上3つはMLMと似たような事前学習手法○ や、といったSpecial Tokenを導入し、それぞれTextを隠した時にLayout、Image情報からそれを予測できるかといったタスクを解かせている● Masked Image Reconstructionは基本的にはMasked Auto Encoderだがややこしいので後述
© 2023 LayerX Inc. 21Masked Image Reconstruction事前学習● オリジナルのMAEから工夫した点が二点● 文字Embeddingの追加○ token単位ではなく、文字単位の情報が重要○ 文字EmbeddingはEncoderとは別に学習可能なパラメータとして持つ○ 画像生成性能が飛躍的に向上した● Image Decoder○ MASKされていないPatchのみをEncoderに入力するので、単純にEncoderの出力をDecoderに渡せない○ 学習可能なEmbeddingをDecoderに入力し、Encoderの出力とのCross-Attentionを取ることで解決した学習可能なEmbedding
© 2023 LayerX Inc. 22Masked Image Reconstruction事前学習● 75%maskされたような画像でも正確に再構成できている
© 2023 LayerX Inc. 23Supervised Pretraining Tasks事前学習● 以下のような教師ありTaskを生成Taskとして解く● このデータセットはSelf-Supervised Pretrainingには使わない● もちろん、下流タスクの検証データやテストデータは使っていない● Taskに対応するpromptの後に本文などを挿入する
© 2023 LayerX Inc. 24モデルの設定実験設定● Architecture○ Unified-EncoderとText-Layout DecoderはT5-largeの構造を使用○ Image Decoderは vit-mae-largeのDecoderを使用○ tokenizerはT5のものを用い、などの特殊なTokenを追加した● データサイズ○ Self-supervised Learning: 11Mの文書データを使用 (IIT-CDIP Test Collection 1.0)○ Supervised Learning: 11個のデータセットから1.8Mの文書データを使用● Curriculum Learning○ 224の画像サイズから始めて、512 -> 1024と徐々に大きくしていった○ それぞれ1epoch毎に大きくした
© 2023 LayerX Inc. 25DUE-Benchmarkの結果評価● V =Vision, T = Text, L = Layout● 全てのデータセットにおいて、既存のSoTAモデルであったLayoutLMv3を上回る● 224の画像サイズの時点でSoTAを達成していた
© 2023 LayerX Inc. 26FUNSD, CORD, RVL-CDIPでの結果評価● CORDではSoTAを達成。● 他のモデルはそのタスクに特化したネットワークを使っているが、統一的なモデルで全て取り扱え、更に精度も高いのは注目に値する。
© 2023 LayerX Inc. 27● Document AIにおいて始めて制御可能な文書生成・編集が可能になった○ Azure APIにて提供予定らしい文書生成・編集Analysis
© 2023 LayerX Inc. 28● レイアウトの編集も可能文書生成・編集Analysis
© 2023 LayerX Inc. 29Ablation StudyAnalysis事前学習の有効性● BaselineはMLMをしたBERT● Supervised PretrainingはしなくてもSoTAは達成できていたImage Modalityの重要性● InfoVQAのようなvisually-richな文書だと性能の差が大きくなった[6]
まとめ
© 2023 LayerX Inc. 31まとめ● Microsoftチームが提案したUDOPの紹介● 生成タスクとして統一的にDocument AIのタスクを解くT5 likeなモデル構造を提案○ 既存研究に比べて直感的にImage, Text, Layoutの情報を考慮したUnified Encoder● 生成タスクとして、既存研究とは異なる事前学習の方法を提案● 結果として、幅広いタスクに別れた8個のデータセットでSoTAを達成● 副次的に、Textで制御して画像編集を行えるImage Decoderも学習できた● コードと重みはhttps://github.com/microsoft/i-Code/tree/main/i-Code-Docで公開されている(MITライセンス)まとめと感想
© 2023 LayerX Inc. 32感想● 既存手法に比べてEncoderの構造が直感的で分かりやすい○ 既存のものはImageとTextをSequence方向に連結するものが多い● 生成系のモデルは、Token Classificationなどに比べると実務に使うとなるとエラー分析が難しそう● 日本語モデルでもこういうものが出てくれば、企業における文書活用がどんどん進んでいきそう○ 11Mの文書データで事前学習しているので、コストはかかるが挑戦していきたい○ 文書データのFoundation Modelとなり得る● 最近はLLMが台頭してきているが、このような手法の実用性はまだまだ高く、今後も追っていきたいまとめと感想
© 2023 LayerX Inc. 33参考文献[1] https://github.com/JaidedAI/EasyOCR[2] PubLayNet: largest dataset ever for document layout analysis, https://arxiv.org/abs/1908.07836[3] Document AI: Benchmarks, Models and Applications, https://arxiv.org/abs/2111.08609[4] LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking, https://arxiv.org/abs/2204.08387[5] Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, https://arxiv.org/abs/1910.10683[6] InfographicVQA, https://arxiv.org/abs/2104.12756
ご清聴ありがとうございました