文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

⽂書画像に対する質問応答技術の最新動向⽥中涼太 NTT⼈間情報研究所，⽇本電信電話株式会社 2022/3/11 第2回 AI王 -クイズAI⽇本⼀決定戦- [email protected]

⾃⼰紹介 n ⽥中涼太 (たなかりょうた) l 社員，NTT⼈間情報研究所 n 2020年
3⽉名古屋⼯業⼤学修⼠ (情報⼯学) l 李研究室で「Knowledgeに基づく対話⽣成」の研究に従事 l 対話システムの性能を測る国際コンペ (DSTC7) で世界⼆位 n 2020年 4⽉ NTT⼊社 l Vision & Language 機械読解の研究開発をスタート l AAAI21採択，NLP21最優秀賞，InfographicVQAコンペ世界⼆位 1

⽬次 n 背景 l テキストベース質問応答 l テキストベースの限界 n ⽂書画像に対する質問応答の動向 l
問題設定 l 処理プロセスとモデル l データセット n 視覚的読解の精度を競うコンペティション l 我々が参加した InfographicVQAコンペティションについて l 上位チームが⾏った正解率向上のためのテクニック n 今後の展望とまとめ 2

テキストベース質問応答 (機械読解) n テキストで記述された⽂書を知識源とし，質問に対して回答を⾏う l Input: 質問，テキストベースの⽂書 l Output: 回答
3 ⾔語処理AI あんしん保険の弁護⼠費⽤特約はどのような場合に対象外になりますか︖ 相⼿の⽅に法律上の損害賠償を⾏うことができないとき保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得たうえで⽀出された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に法律上の損害賠償請求を⾏うことができないときは，本特約は対象外となりますのでご注意ください。質問回答テキストベースの⽂書

⼤規模テキストを⽤いた事前学習モデル n 巨⼤なモデルで⼤規模なテキストコーパスで事前学習を⾏った BERTの登場により，⼀部の機械読解タスクにおいて，⼈間のパフォーマンスを超える精度を達成 4 https://aclanthology.org/N19-1423/

我々が普段扱う⽂書の例 5 Webページ https://en.wikinews.org/wiki/2007_Ig_Nobel_Prize_winners_announced インフォグラフィックフォーム https://rrc.cvc.uab.es/?ch=17 https://guillaumejaume.github.io/FUNSD/ https://rrc.cvc.uab.es/?ch=13&com=tasks レシート
スライドなど．．

Q&A n このテキストを読んで，質問に答えられるでしょうか︖ 6 フレッツ光ネクスト（FTTHアクセスサービス）ファミリー・スーパーハイスピード隼上限料⾦ 5610円/⽉ 4730円/⽉「光
はじめ割」 ( 1 ・ 2 年⽬ ) ※ 1 適⽤時 < 解約⾦あり > 基本料⾦ 2530円/⽉ 3 2 0 M B 基本料⾦従量料⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B 1329MB 基本料⾦ 5610円/⽉利⽤量/⽉「光はじめ割」について本割引を解約された場合は解約⾦（⼀律11,000円）が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、翌々⽉に解約される場合は、本割引の解約⾦は発⽣しません。その他、解約⾦に関しましては、こちらをご確認ください。 1ヵ⽉の利⽤量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げにて計算します。 https://flets-w.com/limited/lightwari/ 事前知識がない限り，テキストを読んでも，おそらく答えられない．．︖ 質問: ⽉の利⽤量が2000MBの場合，光ライトの⽉額の基本料⾦はいくらになりますか︖ テキスト

Q&A n それでは，この画像を⾒て，質問に答えられるでしょうか︖ 7 https://flets-w.com/limited/lightwari/ 質問: ⽉の利⽤量が2000MBの場合，光ライトの⽉額の基本料⾦はいくらになりますか︖ 正解: 5610円

テキストベースの限界 n BERTをはじめとする従来の機械読解モデルは，我々が普段扱う⽂書が持つ視覚的な情報を⾃然⾔語と併せて理解できない 8 フレッツ光ネクスト（FTTHアクセスサービス）ファミリー・スーパーハイスピード隼上限料⾦ 5610円/⽉
4730円/⽉「光はじめ割」 ( 1 ・ 2 年⽬ ) ※ 1 適⽤時 < 解約⾦あり > 基本料⾦ 2530円/⽉ 3 2 0 M B 基本料⾦従量料⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B 1329MB 基本料⾦ 5610円/⽉利⽤量/⽉「光はじめ割」について本割引を解約された場合は解約⾦（⼀律11,000 円）が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、翌々⽉に解約される場合は、本割引の解約⾦は発⽣しません。その他、解約⾦に関しましては、こちらをご確認ください。1ヵ⽉の利⽤量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げにて計算します。 HTMLやPDF形式等の⽂書 (契約書やマニュアル等) テキストデータテキスト抽出 (OCR) ⾔語処理AI 図・表やグラフ，⽂字の⾒た⽬，配置等の視覚的な情報を読み取ることができない⽂書中のテキスト情報のみを扱う

9 ⽂書画像に対する質問応答

アプローチとタスク設定 n ⽂書を画像と⾒做して，⽂書の視覚情報を基に質問応答を⾏う l メインタスク (視覚的読解) l サブタスク 10 Input:
質問⽂，⽂書画像 Output: 回答⽂書レイアウト解析 OCR 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." They were presented at Harvard University’s Sanders Theater. Ten awards have been presented, each given to a different field. The winners are: Medicine: Brian Witcombe, of Gloucestershire Royal NHS Foundation Trust, UK, and Dan Meyer, who studied the health consequences of sword swallowing. etc.

⼀般的な処理の流れ 1. ⽂書レイアウト解析: 関⼼領域の検出および分類 2. OCR: テキスト領域の検出とテキストの認識 3. その他: 読み順予測，⼀般物体認識など
4. 視覚的読解: ⽂書表現の獲得および質問応答 11 1. 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." 2. 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. 2007 Ig Nobel Prize winners announced The winners of the The awards are given to achievements that, "first make people laugh, and then make them think." 3. ⽂書レイアウト解析 OCR 読み順検出並び替え質問回答 4. 視覚的読解⾏わない/⼀部のみ⾏うケースがある etc. 前処理画像，OCRテキスト，レイアウト etc.

1. ⽂書レイアウト解析 n ⽂書画像内の関⼼領域を検出および分類するタスク l CNNベースのFaster-RCNNが⼀般的に⽤いられる l ⼤規模な学習データとして，正解領域やラベルが⾃動的に⼊⼿可能なデータ (LaTeXソースやXML/HTMLを基に⼊⼿可能) を扱うことが多い
12 XML XMLのパースにより得られたデータ Publaynet [Xu+, ICDAR19] Faster-RCNNを⽤いたレイアウト解析 [Soto+, EMNLP19] https://arxiv.org/abs/1908.07836 https://aclanthology.org/D19-1348/ ResNetなどの CNNが⽤いられる

2. OCR n テキスト領域の検出および領域内のテキストを認識 l OCRはオープンツールを使うことが⼀般的．フリーで使えるものとしては， Tesseract*が最も使われている印象 l 回転・湾曲・⼿書き⽂字の認識精度は⽐較的低く，活発に研究されている 13
テキスト 2007, Ig， Nobel， Prize， Winners， announced テキスト領域: Bounding box https://github.com/tesseract-ocr/tesseract *

OCRは前処理でほぼ必須の技術 n 従来のVQAモデルやキャプション⽣成モデルは，画像単体を⼊⼒しても，画像内のテキストを認識して理解することが難しいことが知られている [Singh+, CVPR19][Sidorov+, ECCV21] l OCRテキストを⼊⼒することで，性能が⾶躍的に向上することが実験で確認
l ⽂書画像においても，同様の現象が⾒られる [Tanaka&Nishida+, AAAI21] 14 キャプション⽣成 VQA VQAの性能評価 +5% OCRの追加

3. その他: 読み順予測 [Wang+, EMNLP21] n OCRで出⼒される系列を，⼈間が読むような系列順に修正する l 通常，OCR系列はLeft-to-right Top-to-downで出⼒されるのため，
複数カラムやテキストが複雑に配置されている場合，読み順を誤ってしまう 15 1 2 3 4 5 OCR 読み順予測 ReadingBank dataset https://aclanthology.org/2021.emnlp-main.389/

3. その他: ⼀般物体認識 n ⽂書中のアイコンや写真に含まれる物体の領域検出と意味を認識 l ⽂書レイアウト解析と同様にFaster-RCNNが⼀般的に⽤いられる l 近年の⽂書画像QAデータセットは，⼀般物体についても問われる 16
http://visdata.mit.edu/ ハムスターひまわりの種インフォグラフィックに対するアイコン検出 Webページのスクショに対する⼀般物体検出

⼀般的な処理の流れ 1. ⽂書レイアウト解析: 関⼼領域の検出および分類 2. OCR: テキスト領域の検出とテキストの認識 3. その他: 読み順予測，⼀般物体認識など
4. 視覚的読解: ⽂書表現の獲得および質問応答 17 1. 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." 2. 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. 2007 Ig Nobel Prize winners announced The winners of the The awards are given to achievements that, "first make people laugh, and then make them think." 3. ⽂書レイアウト解析 OCR 読み順予測並び替え質問回答 4. 視覚的読解⾏わない/⼀部のみ⾏うケースがある etc. 前処理画像，OCRテキスト，レイアウト etc.

4. 視覚的読解 n 質問⽂と，⽂書から得られるOCRテキスト，画像を系列化したデータを合わせてTransformerに⼊⼒し，回答を出⼒ l Encoderモデルでは，OCRテキストの中から回答スパンを抽出 l Encoder-DecoderモデルやPrefix-LMモデルでは，回答を⽣成 18
(Encoder， Encoder-Decoder，Prefix-LM) Transformer 回答質問⽂⽂書画像 OCRテキスト + レイアウト

視覚的読解モデルの動向 n ⽂書画像の表現獲得や事前学習に関する研究が盛ん l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖ l 画像特徴の系列化: どのように系列化して⼊⼒するか︖ l
事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 19 (Encoder， Encoder-Decoder，Prefix-LM) Transformer 回答質問⽂⽂書画像 OCRテキストレイアウト特徴の⼊⼒⽅法画像特徴の系列化事前学習タスクの出⼒事前学習の実施 + レイアウト

事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 20 (Encoder， Encoder-Decoder，Prefix-LM) Transformer 回答質問⽂⽂書画像 OCRテキストレイアウト特徴の⼊⼒⽅法 + レイアウト

レイアウト特徴として使⽤される情報 n ⽂書から取得される領域の座標や意味ラベル，構造データ l ⽂書領域やテキスト領域におけるbounding box (bbox) の座標 l ⽂書領域の意味ラベル
l HTML⽂書の構造データ (DOM Tree) 21 各ノードが⽂書内のオブジェクトを表す bboxは左上/右下の座標がよく⽤いられる bboxの座標と意味ラベル HTML⽂書の構造データ

Bounding boxを⽤いた⼊⼒埋め込み n ⼊⼒トークン埋め込みに対して，テキスト領域の座標を学習可能なパラメータ (Layout embeddings) として追加で⼊⼒ l 単語の⼤きさを明⽰的に表現するために，bounding
boxの幅，⾼さ，⾯積も⼊⼒する場合がある 22 https://dl.acm.org/doi/10.1145/3394486.3403172 Layout embeddings 座標が0-1000の値となるようになるように正規化 [Xu+, KDD20]

意味ラベルを⽤いた⼊⼒埋め込み n ⽂書レイアウト解析によって得られた意味ラベルをOCRトークン系列の途中に挿⼊ n ⽂書領域の意味を表すSegment embeddingとして⼊⼒埋め込みに追加 23 https://ojs.aaai.org/index.php/AAAI/article/view/17635
[Tanaka&Nishida+, AAAI21]

構造データを⽤いた⼊⼒埋め込み n HTMLソースからパースすることで⼊⼿できるDOM Treeの構造を⼊⼒埋め込みに追加 24 https://arxiv.org/abs/2201.10608 [Deng+, arxiv22]

Bounding boxを⽤いたSelf-attention n Bounding box間の距離をSelf-attentionのバイアス項に追加 l 座標間の距離を直接与えることで，x座標の距離が近いものがKey-Valueの関係性にあるなどの学習が効率的に進む 25 トークン数
× 𝑑!" Key Query Value トークン数 × トークン数 𝑊# 𝑊$ 𝑊% 距離バイアストークン数 × 𝑑&'( 𝑊&'( Attention Map [Hong+, AAAI22] softmax

事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 26 (Encoder， Encoder-Decoder，Prefix-LM) Transformer 回答質問⽂⽂書画像 OCRテキスト画像特徴の系列化 + レイアウト

画像特徴の系列化 n 主に3つの⽅法で，⽂書画像を系列化する 27 CNN Region proposal CNN+Linear Linear テキスト/画像領域
ベースグリッドベースパッチベース物体の個数や関係性を問う質問に対して有効物体検出器が必要前処理が必要なため，低速領域ベースより⾼速に動作可能物体検出器が不要テキストとのアライメントが困難線形変換のみなので，最も⾼速に動作可能物体検出器が不要単純なパッチ分割では，物体の形状を理解するのが困難

テキスト/画像領域特徴の抽出⽅法 n OCRのテキスト領域や⽂書領域に対して，事前学習済みの物体検出モデル (Faster-RCNNなど) の特徴量を利⽤ l 2048次元のfc7とfc6の特徴量がよく⽤いられる l V+Lでよく⽤いられるテクニック:
fc6のパラメータを固定にして，fc7のみを Fine-tuneする 28 RPN Pooled Features fc6 ROI Pooling Faster-RCNN fc7 CNN

グリッドベースの抽出⽅法 n ⽂書画像全体を⼊⼒としてCNNとLinearによりエンコード l 学習時に，全てのピクセルを⽤いずに，ランダムにピックしたもののみを使うことで，学習の⾼速化とノイズに対してのロバストさが向上する [Huang+, arXiv20] 29 CNN
(ResNetなど) 3 × h × w チャネル数 × ℎ) × 𝑤) CNN (1 × 1 conv) モデル次元数 × ℎ) × 𝑤) Linear ・・・モデル次元数 × 系列⻑ Docformer [Appalaraju, CVPR21] における画像特徴の抽出

パッチベースの抽出⽅法 n 画像をパッチに分割し，パッチに対して線形変換を⾏いエンコード l Encoderは3億枚以上の画像分類データで事前学習したVision Transformerやその亜種 (Swin Transformer [Liu+, ICCV21]
など) を使⽤ 30 https://arxiv.org/abs/2112.12494 線形変換

画像特徴の有効性 n ⽂書中のテキスト/視覚物体の⾒た⽬を考慮することで，実験的に性能が向上することを確認 [Xu+, KDD20][Xu+, ACL21][Tanaka&Nishida+, AAAI21] n テキストの⾒た⽬情報
(フォント，⽂字の太さなど) は，どのような時に/なぜ役⽴つのか︖ 31 Bold調になっているテキストは何でしょうか︖ 1 質問でテキストの⾒た⽬を直接，聞かれる場合 2 OCRエラーが発⽣した場合 2006 Ig ⾒た⽬を基に，モデル内部で修正して理解テキストを理解していなくても，⾒た⽬の理解のみで済む 3 様々なスタイルのテキストが配置されている場合⾒た⽬を基に，テキストの意味の区切りや役割を理解 Bold調がKeyで，その他がValue 例えば， OCR結果

事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 32 (Encoder， Encoder-Decoder，Prefix-LM) Transformer 回答質問⽂⽂書画像 OCRテキスト + レイアウト事前学習タスクの出⼒事前学習の実施

事前学習タスクの概要 n ⽂書画像とOCRテキストのペアを⼊⼒したTransformerに対して，主にMLM+αで事前学習を実施 l ⽂書画像のみ，OCRテキストのみを⼊⼒するケースもあり l ⼤規模テキストコーパスで事前学習を⾏なったモデルをFine-tuneのみで視覚的読解タスクに適⽤する⽅法でも，⼀定の効果がある 33
Model ⼊⼒事前学習タスク LayoutLM [Xu+, KDD20] OCRテキスト MLM LayoutLMv2 [Xu+, ACL21] OCRテキスト+画像 MLM + ITM + ITA LayoutT5 [Tanaka&Nishida+, AAAI21] OCRテキスト+画像なし StructualLM [Li+, ACL21] OCRテキスト MLM + CPC TILT [Rafal+, ICDAR21] OCRテキスト+画像 + (質問⽂など) Denoising + 教師あり学習 Donut [Kim+, arXiv21] 画像テキスト認識 BROS [Hong+, AAAI22] OCRテキスト Area-MLM

Masked Language Modeling (MLM) /Denoising n OCRテキストの⼀部をマスクして⽳埋め問題を解く l Denoising: Encoder-Decoderで⽳埋め問題を解く．Encoderにおける
⽳埋め箇所をDecoderで予測 34 Transformer ⽂書画像 OCRテキスト + レイアウト [Mask] [Mask] The man plays soccer with friends

Area-MLM [Hong+, AAAI22] n ⼤きさと座標がランダムなbboxを⽂書画像に貼り付けて，その範囲をマスクして⽳埋め問題を解く l ランダムな範囲でスパンを⾏うSpanBERT [Joshi+, TACL20]
の⽂書画像版 l マスク範囲の決定⽅法 35 (1) ランダムな2点を決めてから，(2) 2点でbboxを作成し，(3) bboxをランダムに伸縮してマスク Area-MLM MLM https://arxiv.org/abs/2108.04539

Image-Text Matching (ITM) n データセット中の画像とOCRテキストのペア (正例) と，ランダムサンプリングで作成した負例を識別 l 負例の場合でも，MLMは実施するケースが多い（もし，MLMを⾏わないと，
MLM⾏わない=Falseという単純な学習になってしまう︖） 36 Transformer ⽂書画像 OCRテキスト + レイアウト [Mask] [Mask] The plays with friends True/False データセットからランダムサンプリング

Image-Text Alignment (ITA) [Xu+, ACL21] n ⽂書画像のテキスト部分を⼀部マスクして，OCRテキストのどの部分がマスクされているかを予測 37 Transformer
⽂書画像 OCRテキスト + レイアウト soccer man The plays with friends Covered 画像の⼀部をマスク Covered

Cell Position Classification (CPC)[Li+, ACL21] n Bboxの座標を⼀部マスクして，正しい座標に対応するパッチ番号を予測 l マスク部分の座標は
(0, 0, 0, 0) に置換する l ⽂書を4×4にパッチ分割して，16クラスの分類問題を解く 38 0 0 0 0 40 25 45 13 20 20 30 10 20 15 25 50 40 55 55 55 40 50 45 soccer man The plays with friends Transformer レイアウト 30 x0 y0 x1 y1 5 OCR 5 1 2 3 4 1-16のクラスを予測

事前学習としてのテキスト認識 [Kim+, arixiv21] n テキスト認識タスクを事前学習で⾏うことで，前処理にOCRを⾏わずに済み，⽂書画像単体の⼊⼒のみでも⼀定の効果を確認 l OCRありモデルよりも推論速度が2~4倍⾼速 l OCRありモデルと⽐べると，QAタスクの精度は劣っているものの，⽂書画像
分類タスクではコンパラの精度．画像全体の雰囲気を掴むことには成功しているものの，⽂脈理解には改善の余地が⾒られる 39 テキスト検出は⾏わず，画像全体のテキスト認識を⾏う https://arxiv.org/abs/2111.15664

40 データセット

データセットの動向 n 視覚情報に含まれる⾔語情報の理解が，⽂脈理解が必要に n 視覚物体 (アイコンなど) とテキストとの融合理解が必要に n 演算や要約的に回答を⽣成するなど回答のスタイルは多様に n
複数⽂書に対する理解が必要に 41 Dataset Source 単語数視覚物体複数⽂書回答スタイル VQA [Agrawal+, ICCV15] ⽇常⾵景 ? 選択肢 Text-VQA [Singh+, CVPR19] ⽇常⾵景 12 ⽣成型 DocVQA [Mathew+, WACV21] ビジネス⽂書 182 抽出型 VisualMRC [Tanaka&Nishida+, AAAI21] Webスクショ 151 ⽣成型 WebSRC [Chen+, EMNLP21] Webスクショ ? 抽出型 InfographicVQA [Mathew+, WACV22] インフォグラフィック 218 抽出型+⽣成型+演算 DocCVQA [Tito+, arXiv21] ビジネス⽂書 ? 抽出型

VQA [Agrawal+, ICCV15] n ⽇常⾵景の写真を基に，質問応答 l 回答の多様性が低く、画像中に⾔語情報があまり含まれない 42 What color
are her eyes? Answer: Brown Is this a vegetarian pizza? Answer: No Does it appear to be rainy? Answer: No https://arxiv.org/abs/1505.00468

Text-based VQA [Singh+, CVPR19] n 画像中のテキストを含めたVQAタスク l 画像中に含まれる単語数 (平均約10単語) は⾮常に少ないため，単語レ
ベルの⾔語理解で⼗分 43 What does the white sign say? Answer: Tokyo Station What is the top oz? Answer: 16 What edition is this? Answer: embossed https://arxiv.org/abs/1904.08920

DocVQA [Mathew+, WACV21] n ビジネス⽂書画像を対象とした質問応答 l 画像中に含まれる単語数は約180単語であり，⽂脈理解が必要 l 回答は画像中のテキストから抽出 l
対象⽂書の多くは，1960年代くらいの古い⽂書 44 Mention the ZIP code written? Answer: 80202 What is the date given at the top left? Answer: 03/17/98 What is the Extension Number as per the voucher? Answer: (910) 741-0673 https://arxiv.org/abs/2007.00398

DocVQAリーダボード (ʻ22/3/11時点) n ⼈間のスコアとは開きあり l 特に，Figure/DiagramやImage/Photoにおける精度が課題 45 ANLSスコア: モデルの予測と正解回答集合との平均編集距離
https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1

VisualMRC [Tanaka&Nishida+, AAAI21] n Webページのスクリーンショット画像に関する質問応答 l 現代の多様なWeb⽂書画像に基づく⼤規模QAデータ l ⽂書の領域 (Region-Of-Interest)を全て⼈⼿でアノテーション
l ⽣成（要約）型のQAデータ 46 https://ojs.aaai.org/index.php/AAAI/article/view/17635

VisualMRCのデータ公開中︕ 47 https://github.com/nttmdlab-nlp/VisualMRC VisualMRC github

WebSRC [Chen+, EMNLP21] n Webページのスクリーショット画像に関する質問応答 l Key-value，⽐較，表に関するWebページが対象 l メタデータとして，HTMLソースが利⽤可能 l
回答はテキストの中から抽出 48 Webページのスクリーショット HTMLソース OCRテキスト QA https://aclanthology.org/2021.emnlp-main.343/

InfographicVQA [Mathew+, WACV22] n インフォグラフィック (アイコンや図などで表現された⽂書画像) に対する質問応答 l 従来のデータと⽐べて，視覚物体とテキストとの融合理解が最も問われる
l 演算を含む様々なスタイルでの回答が必要 49 How many females are affected by diabetes? single span Which all are the benefits of inve sting in real estate? multi-span What percentage of recruiters do "not" react negatively to poor spellings and punctuation errors? number (non-span) Answer: 3.6% Answer: 35% *(100 – 65) Answer: tax, tangibility, cash returns

Document Collection VQA [Tito+, arXiv21] n 複数の⽂書画像を⼊⼒として，質問に関連する⽂書を検索し，質問応答を⾏うタスク l ⽂書候補は14,362件，QAペアが20件
(train: 8件，test: 12件) l データ規模が影響し，ルールベースやSQLベースの⼿法が善戦 50 https://arxiv.org/abs/2111.05547

関連: DUE [Borchman+, NeurIPS21] n 質問応答タスクを含めた汎⽤的な⽂書画像理解に向けたベンチマークデータセット l ⽂書画像に対する質問応答，情報抽出，⾔語推論タスクをカバー l
最終的な精度に⼤きく影響の与えるOCR出⼒結果も提供 51 https://duebenchmark.com/leaderboard 質問応答情報抽出⾔語推論

52 視覚的読解の精度を競うコンペティション

Document VQA Challenge n AmazonやIIT-Hyderabadに所属する研究者が主催となって⾏なっている⽂書画像に対する質問応答の精度を競う⼤会 l ʼ20年の⼤会: (a) Single
Document VQAタスク l ʼ21年の⼤会: (b) DocCVQAタスク，(c) InfographicVQAタスク u InfographicVQAには，Naver，北京⼤など18チーム337投稿 53 https://arxiv.org/abs/2111.05547 我々が参加したタスク

InfographicVQAタスクの難しさ 1. 視覚物体とテキストとの融合理解の能⼒を獲得・強化するには︖ 2. モデルが算術演算の能⼒を獲得・強化するには︖ 54 ⼥性のアイコンとテキストを理解 100-60=40の
演算が必要 Q: How many females are affected by diabetes? A: 3.6% Q: What percentage of cases can not be prevented? A: 40% (⼥性の糖尿病患者の割合は︖) (糖尿病を予防できないケースの割合は︖)

IG-BERT: 演算の過程と視覚物体が理解可能なモデル 55 n 提案⼿法のポイント 1. 物体検出器を利⽤して視覚物体の領域𝑣!"#，意味クラスラベル𝑤!"# を追加⼊⼒し，視覚物体の役割を理解 2.
⽳埋め事前学習 (MLM) により，テキストと視覚物体との対応づけが可能 3. 演算の過程を⽣成配置情報トークン位置情報セグメントポイント2 キャプション質問⽂と回答ポイント3 ポイント1 40(100-60)

演算過程を学習可能なデータ拡張 n 演算の過程を学習可能な新たなデータ拡張⼿法を提案 56 回答正解データ: 40% 4.3% 3.6% 1 10
$6 60% 1. ⽂書から数値データの抽出 2. 事前に⽤意した演算テンプレートに代⼊「60% + 4.3% = 64.3%」「100% - 60% = 40%」 3. 回答正解データと⼀致するならデータに加える．．． 100% - 60% 100-60=40の演算が必要 Q: What percentage of cases can not be prevented? (糖尿病を予防できないケースの割合は︖)

事前学習データの収集 n 視覚物体とテキストとの融合理解のための⼤規模⽂書データは存在しない n インフォグラフィックとキャプションの0.5Mペアを独⾃に収集 1. Crawl: インフォグラフィックのWebページを対象に0.6Mページ，クロール 2. Extract:
HTMLソース中の<alt>，<title>のテキストをキャプションとして抽出 3. Filter: 3単語未満のキャプションの削除，infographicVQAに出現する画像の削除 57 https://dailyinfographic.com/fathers-day-facts (IIT-CDIP) https://www.cs.cmu.edu/~aharley/rvl-cdip/ 従来の事前学習データセット我々の事前学習データセット Fatherʼs day facts for underappreciated dads グレースケールのビジネス⽂書，ドメインが6つに限定視覚物体を含むカラー画像，オープンドメイン

n ⽂書テキストのみを使⽤するBERTと⽐べて，⼤幅な性能向上 n 事前学習，データ拡張が性能向上に⼤きく寄与 Ablation Study 58 Model モダール ANLS
ANUM IG-BERT テキスト+視覚 0.275 0.166 BERT テキスト 0.206 0.161 BERT w/o データ拡張テキスト 0.199 0.156 IG-BERT w/o 事前学習テキスト+視覚 0.176 0.123 IG-BERT w/o データ拡張テキスト＋視覚 0.271 0.159 正解集合との編集距離演算を必要とする正解集合との編集距離

提案法の⽣成例 59 質問: How many patients out pf 3, dose
not use social media to seek out health information ? (3⼈の患者の内，健康情報を調べるためにsocial mediaを使⽤しないのは何⼈︖) BERT: 1 LayoutLM: 3 提案法: 2 (3-1) 正解，提案法: 2 LayoutLM: 3 モデルが予測した演算過程 BERT: 1

コンぺティションでの結果 (上位チーム抜粋) 60 n 同程度のモデルサイズの中で最⾼精度を達成 l 18チーム337投稿中2位の精度を達成 l データ量，モデルスケールによる差が⼀位との精度差の⼤きな要因
参加チーム事前学習⽂書数教師あり追加学習サンプル数パラメータ数 ANLS Applica AI 1.0M+ 0.22M 780M 0.612 NTT 0.5M 0 342M 0.385 Naver 11M 0.12M NA 0.322 Huawei合同 NA 0.2M NA 0.285 北京⼤ - NA 340M 0.208

n どの⽂書領域に対して，⼈間とは⼤きな精度の開きがある l ⽂書中のテキスト以外の視覚物体に関する質問に対して，精度が低い 61 ⽂書領域ごとの性能分析 https://arxiv.org/abs/2111.05547 Human Applica AI
NTT

性能改善テクニック: データ拡張 n Case Augmentation l ⽅法: OCRテキスト中の単語をランダムに⼤⽂字に変換して⼊⼒ l モチベーション:
⼤⽂字の単語 (ex. CUTE) を含む⽂の理解に関する精度が劣化することが知られている [Powalski+, arXiv20] n Spatial Augmentation l ⽅法: bboxの幅，⾼さをランダムに伸縮させて⼊⼒ l モチベーション: 推論時に，様々な⼤きさのbboxに対応できる 62

性能改善テクニック: 教師データの活⽤ n ⽂書画像を対象としていなくても，質問応答タスクに関連するタスクであれば，教師データとして追加事前学習を⾏う 63 https://arxiv.org/abs/2102.09550 ⼀位のチームが試した教師ありデータ

宣伝: NLP22で発展版を発表します n 3/15 (⽕) 11:00-12:20の C1-3: 質問応答 (1) 64
https://www.anlp.jp/nlp2022/program.html#session_table

65 今後の展望とまとめ

今後の展望 n OCRや物体検出などの前処理が不要な視覚的読解モデル n 多⾔語対応可能な視覚的読解モデル 66 ⾔語を超えたレイアウトの共通概念は獲得できる︖ OCR 物体検出
など視覚的読解モデル⾼速化や汎⽤な物体理解には限界英語中国語

本技術により拡がる可能性 n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理解できることで，オフィスDXに資する重要技術となり得る 67 ⾃然⾔語指⽰による作業⾃動化専⾨調査レポート AI 業界紙論⽂
医薬情報提供ページレポート A薬の症例について教えて⾒積書を帳票に⼊⼒してカスタマーサポート契約プランを変更したいのですが顧客データベーススーパーバイザ相談操作違約⾦がかかってしまいますがよろしいでしょうか… ⾒積書帳票 AIと⼈のリアルタイムペアワークその選択肢，エラーがありそうですよマニュアルマニュアルと違いが無いかチェックしてね

まとめ n ⽂書画像に対する質問応答 l タスク設定: ⽂書を画像とし⾒做して，視覚的に理解し，QAを⾏う l 処理プロセス: ⽂書レイアウト解析，OCR，読み順解析など，視覚的読解 n
視覚的読解モデルとデータセットの動向 l モデル: レイアウト特徴の⼊⼒⽅法，画像特徴の系列化，事前学習の実施 l データセット: 画像内のテキストの⽂脈理解，視覚物体との融合理解，回答スタイルの多様化，複数⽂書化 n 今後の展望 l OCRなどの前処理が不要な視覚的読解モデル l 多⾔語に対応可能な視覚的読解モデル 68

参考⽂献 (視覚的読解モデル) n Yiheng Xu, Minghao Li, Lei Cui, Shaohan
Huang, Furu Wei, Ming Zhou, “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”, in KDD20 n Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, “LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding”, in ACL21 n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on Document Images”, in AAAI21 n Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park, “BROS: A Pre- trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents”, in AAAI22 n Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si, “StructuralLM: Structural Pre-training for Form Understanding”, in ACL21 n Geewook Kim, Teakgyu Hong, Moonbin Yim, Jinyoung Park†, Jinyeong Yim, Wonseok Hwang†, Sangdoo Yun, Dongyoon Han, Seunghyun Park, “Donut : Document Understanding Transformer without OCR”, in arXiv21111.15664 n Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha, “DocFormer: End-to- End Transformer for Document Understanding”, in CVPR21 n Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka, ” Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer”, in ICDAR21 n Xiang Deng, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Huan Sun, “DOM-LM: Learning Generalizable Representations for HTML Documents”, in arXiv:2201.10608 69

参考⽂献 (視覚的読解データセット) n Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret
Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, “Visual Question Answering”, in ICCV15 n Singh, Amanpreet and Natarjan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Parikh, Devi and Rohrbach, Marcus, “Towards VQA Models That Can Read”, in CVPR19 n Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V., “DocVQA: A Dataset for VQA on Document Images”, in WACV21 n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on Document Images”, in AAAI21 n Minesh Mathew and Viraj Bagal and Rubèn Pérez Tito and Dimosthenis Karatzas and Ernest Valveny and C. V Jawahar, “InfographicVQA”, in WACV22 n Ruben Tito, Dimonsthenis Karazas, Ernest Valveny, “Document Collection Visual Question Answering”, in arXiv: 2104.14336 n Xingyu Chen, Zihan Zhao, Lu Chen∗ , Jiabao JI, Danyang Zhang, Ao Luo, Yuxuan Xiong and Kai Yu, “WebSRC: A Dataset for Web-Based Structural Reading Comprehension”, in EMNLP21 n Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei, “LayoutReader: Pre-training of Text and Layout for Reading Order Detection”, in EMNLP21 n Łukasz Borchmann, Michał Pietruszka, Tomasz Stanislawek, Dawid Jurkiewicz, Michał Turski, Karolina Szyndler, Filip Graliński, “DUE: End-to-End Document Understanding Benchmark”, in NeurIPS21 dataset track 70

参考⽂献 (その他) n Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet
Singh, “TextCaps: a Dataset for Image Captioning with Reading Comprehension”, in ECCV20 n Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, in arXiv:1506.01497 n Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo, “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, in ICCV21 n Alexey Dosovitskiy · Lucas Beyer · Alexander Kolesnikov · Dirk Weissenborn · Xiaohua Zhai · Thomas Unterthiner · Mostafa Dehghani · Matthias Minderer · Georg Heigold · Sylvain Gelly · Jakob Uszkoreit · Neil Houlsby, “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, in ICLR21 n Carlos Soto, Shinjae Yoo, “Visual Detection with Context for Document Layout Analysis”, in EMNLP19 n Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, in NAACL19 n Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy, “SpanBERT: Improving Pre-training by Representing and Predicting Spans”, in TACL21 n Xu Zhong, Jianbin Tang, Antonio Jimeno Yepes, “PubLayNet: largest dataset ever for document layout analysis”, in ICDAR19 71

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document ...

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

More Decks by Ryota Tanaka

Other Decks in Technology

Featured

Transcript