Slide 15
Slide 15 text
Unifying Vision, Text, and Layout for Universal Document Processing
• 事前学習
– テキストはT5-large [Raffel+, JMLR 2020]、画像はMAE-large [He+, CVPR 2022]
– IIT-CDIP Test Collection 1.0(1100万スキャン文書)で更に自己教師あり学習
• ダウンストリームタスク
– ドキュメント分類、レイアウト解析、情報抽出、質問応答、含意関係性認識
– LayoutLMv3large
[Huang+, ACM MM 2022]
等を上回る精度
[Tang+, CVPR 2023]