Slide 21
Slide 21 text
Visually-Rich Document Understanding (VRDU)
• 自然言語処理、コンピュータビジョン、文書解析 (ICDARなど) で発表
• 従来のアプローチは
– 画像ベース [Soto+Yoo, EMNLP’19][Schreiber+, ICDAR’17][Katti+, EMNLP’18]
– テキストベース [Garncarek+, ICDAR’21]
– グラフベース [Liu+, NAACL’19]
• 例によってTransformerによる手法が増えてきた
– SelfDoc [Li+, CVPR’21]
– DocFormer [Appalaraju+, ICCV’21]
– StructuralLM [Li+, ACL’21]
– LayoutLM [Xu+, KDD’20], v2 [Xu+, ACL’21]
– LayoutXLM [Xu+, 2021]
• ただし、2つの問題がある
1. 読む順が分からないまま処理している
座標の相対的な位置埋め込みだけでは不十分
2. 学習サンプルより長い系列に対応できない