Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

第2回 AI王 クイズAI日本一決定戦 招待講演資料

A40c18fee52fa535f51a31bc838f8c81?s=128

Ryota Tanaka

March 11, 2022
Tweet

Other Decks in Technology

Transcript

  1. ⽂書画像に対する 質問応答技術の最新動向 ⽥中 涼太 NTT⼈間情報研究所,⽇本電信電話株式会社 2022/3/11 第2回 AI王 -クイズAI⽇本⼀決定戦- ryouta.tanaka.rg@hco.ntt.co.jp

  2. ⾃⼰紹介 n ⽥中 涼太 (たなか りょうた) l 社員,NTT⼈間情報研究所 n 2020年

    3⽉ 名古屋⼯業⼤学 修⼠ (情報⼯学) l 李研究室で「Knowledgeに基づく対話⽣成」の研究に従事 l 対話システムの性能を測る国際コンペ (DSTC7) で世界⼆位 n 2020年 4⽉ NTT⼊社 l Vision & Language 機械読解の研究開発をスタート l AAAI21採択,NLP21最優秀賞,InfographicVQAコンペ 世界⼆位 1
  3. ⽬次 n 背景 l テキストベース質問応答 l テキストベースの限界 n ⽂書画像に対する質問応答の動向 l

    問題設定 l 処理プロセスとモデル l データセット n 視覚的読解の精度を競うコンペティション l 我々が参加した InfographicVQAコンペティションについて l 上位チームが⾏った正解率向上のためのテクニック n 今後の展望とまとめ 2
  4. テキストベース質問応答 (機械読解) n テキストで記述された⽂書を知識源とし,質問に対して回答を⾏う l Input: 質問,テキストベースの⽂書 l Output: 回答

    3 ⾔語処理AI あんしん保険の弁護⼠費⽤特約は どのような場合に対象外になりますか︖ 相⼿の⽅に法律上の損害賠償を ⾏うことができないとき 保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得たうえで⽀出 された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に 法律上の損害賠償請求を⾏うことができないときは,本特約は対象外となりま すのでご注意ください。 質問 回答 テキストベースの⽂書
  5. ⼤規模テキストを⽤いた事前学習モデル n 巨⼤なモデルで⼤規模なテキストコーパスで事前学習を⾏った BERTの登場により,⼀部の機械読解タスクにおいて,⼈間の パフォーマンスを超える精度を達成 4 https://aclanthology.org/N19-1423/

  6. 我々が普段扱う⽂書の例 5 Webページ https://en.wikinews.org/wiki/2007_Ig_Nobel_Prize_winners_announced インフォグラフィック フォーム https://rrc.cvc.uab.es/?ch=17 https://guillaumejaume.github.io/FUNSD/ https://rrc.cvc.uab.es/?ch=13&com=tasks レシート

    スライド など..
  7. Q&A n このテキストを読んで,質問に答えられるでしょうか︖ 6 フレッツ光ネクスト(FTTHアクセスサービス) ファミリー・スーパーハイスピード隼 上限料⾦ 5610円/⽉ 4730円/⽉「 光

    は じ め 割 」 ( 1 ・ 2 年 ⽬ ) ※ 1 適 ⽤ 時 < 解 約 ⾦ あ り > 基 本 料 ⾦ 2530円/⽉ 3 2 0 M B 基 本 料 ⾦ 従量料 ⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B 1329MB 基本料⾦ 5610円/⽉ 利⽤量/⽉ 「光はじめ割」について本割引を解約された場合は 解約⾦(⼀律11,000円)が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、翌々⽉に解約さ れる場合は、本割引の解約⾦は発⽣しません。その他、解約⾦に関しましては、こちらをご確認ください。 1ヵ⽉の利⽤量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げにて計算します。 https://flets-w.com/limited/lightwari/ 事前知識がない限り,テキストを読んでも,おそらく答えられない..︖ 質問: ⽉の利⽤量が2000MBの場合,光ライトの⽉額の基本料⾦はいくらになりますか︖ テキスト
  8. Q&A n それでは,この画像を⾒て,質問に答えられるでしょうか︖ 7 https://flets-w.com/limited/lightwari/ 質問: ⽉の利⽤量が2000MBの場合,光ライトの⽉額の基本料⾦はいくらになりますか︖ 正解: 5610円

  9. テキストベースの限界 n BERTをはじめとする従来の機械読解モデルは,我々が普段扱う ⽂書が持つ視覚的な情報を⾃然⾔語と併せて理解できない 8 フレッツ光ネクスト(FTTHアクセスサービス) ファミリー・スーパーハ イスピード隼 上限料⾦ 5610円/⽉

    4730円/⽉ 「 光 は じ め 割 」 ( 1 ・ 2 年 ⽬ ) ※ 1 適 ⽤ 時 < 解 約 ⾦ あ り > 基 本 料 ⾦ 2530円/⽉ 3 2 0 M B 基 本 料 ⾦ 従量料 ⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B 1329MB 基本料⾦ 5610円/⽉ 利⽤量/⽉ 「光はじめ 割」について本割引を解約された場合は解約⾦(⼀律11,000 円)が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、 翌々⽉に解約される場合は、本割引の解約⾦は発⽣しません。そ の他、解約⾦に関しましては、こちらをご確認ください。1ヵ⽉の利⽤ 量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げ にて計算します。 HTMLやPDF形式等の⽂書 (契約書やマニュアル等) テキストデータ テキスト抽出 (OCR) ⾔語処理AI 図・表やグラフ,⽂字の⾒た⽬,配置等の 視覚的な情報を読み取ることができない ⽂書中のテキスト 情報のみを扱う
  10. 9 ⽂書画像に対する質問応答

  11. アプローチとタスク設定 n ⽂書を画像と⾒做して,⽂書の視覚情報を基に質問応答を⾏う l メインタスク (視覚的読解) l サブタスク 10 Input:

    質問⽂,⽂書画像 Output: 回答 ⽂書レイアウト解析 OCR 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." They were presented at Harvard University’s Sanders Theater. Ten awards have been presented, each given to a different field. The winners are: Medicine: Brian Witcombe, of Gloucestershire Royal NHS Foundation Trust, UK, and Dan Meyer, who studied the health consequences of sword swallowing. etc.
  12. ⼀般的な処理の流れ 1. ⽂書レイアウト解析: 関⼼領域の検出および分類 2. OCR: テキスト領域の検出とテキストの認識 3. その他: 読み順予測,⼀般物体認識など

    4. 視覚的読解: ⽂書表現の獲得および質問応答 11 1. 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." 2. 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. 2007 Ig Nobel Prize winners announced The winners of the The awards are given to achievements that, "first make people laugh, and then make them think." 3. ⽂書レイアウト解析 OCR 読み順検出 並び替え 質問 回答 4. 視覚的読解 ⾏わない/⼀部のみ⾏う ケースがある etc. 前処理 画像,OCRテキスト,レイアウト etc.
  13. 1. ⽂書レイアウト解析 n ⽂書画像内の関⼼領域を検出および分類するタスク l CNNベースのFaster-RCNNが⼀般的に⽤いられる l ⼤規模な学習データとして,正解領域やラベルが⾃動的に⼊⼿可能なデータ (LaTeXソースやXML/HTMLを基に⼊⼿可能) を扱うことが多い

    12 XML XMLのパースにより得られたデータ Publaynet [Xu+, ICDAR19] Faster-RCNNを⽤いたレイアウト解析 [Soto+, EMNLP19] https://arxiv.org/abs/1908.07836 https://aclanthology.org/D19-1348/ ResNetなどの CNNが⽤いられる
  14. 2. OCR n テキスト領域の検出および領域内のテキストを認識 l OCRはオープンツールを使うことが⼀般的.フリーで使えるものとしては, Tesseract*が最も使われている印象 l 回転・湾曲・⼿書き⽂字の認識精度は⽐較的低く,活発に研究されている 13

    テキスト 2007, Ig, Nobel, Prize, Winners, announced テキスト領域: Bounding box https://github.com/tesseract-ocr/tesseract *
  15. OCRは前処理でほぼ必須の技術 n 従来のVQAモデルやキャプション⽣成モデルは,画像単体を⼊⼒し ても,画像内のテキストを認識して理解することが難しいことが知ら れている [Singh+, CVPR19][Sidorov+, ECCV21] l OCRテキストを⼊⼒することで,性能が⾶躍的に向上することが実験で確認

    l ⽂書画像においても,同様の現象が⾒られる [Tanaka&Nishida+, AAAI21] 14 キャプション⽣成 VQA VQAの性能評価 +5% OCRの追加
  16. 3. その他: 読み順予測 [Wang+, EMNLP21] n OCRで出⼒される系列を,⼈間が読むような系列順に修正する l 通常,OCR系列はLeft-to-right Top-to-downで出⼒されるのため,

    複数カラムやテキストが複雑に配置されている場合,読み順を誤ってしまう 15 1 2 3 4 5 OCR 読み順 予測 ReadingBank dataset https://aclanthology.org/2021.emnlp-main.389/
  17. 3. その他: ⼀般物体認識 n ⽂書中のアイコンや写真に含まれる物体の領域検出と意味を認識 l ⽂書レイアウト解析と同様にFaster-RCNNが⼀般的に⽤いられる l 近年の⽂書画像QAデータセットは,⼀般物体についても問われる 16

    http://visdata.mit.edu/ ハムスター ひまわりの種 インフォグラフィックに対するアイコン検出 Webページのスクショに対する⼀般物体検出
  18. ⼀般的な処理の流れ 1. ⽂書レイアウト解析: 関⼼領域の検出および分類 2. OCR: テキスト領域の検出とテキストの認識 3. その他: 読み順予測,⼀般物体認識など

    4. 視覚的読解: ⽂書表現の獲得および質問応答 17 1. 2007 Ig Nobel Prize winners announced The winners of the 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. The awards are given to achievements that, "first make people laugh, and then make them think." 2. 2007 Ig Nobel have been announced. The awards, given out every early October since 1991 by the Annals of Improbable Research, are a parody of the Nobel Prize, which are awards given out in several fields. 2007 Ig Nobel Prize winners announced The winners of the The awards are given to achievements that, "first make people laugh, and then make them think." 3. ⽂書レイアウト解析 OCR 読み順予測 並び替え 質問 回答 4. 視覚的読解 ⾏わない/⼀部のみ⾏う ケースがある etc. 前処理 画像,OCRテキスト,レイアウト etc.
  19. 4. 視覚的読解 n 質問⽂と,⽂書から得られるOCRテキスト,画像を系列化した データを合わせてTransformerに⼊⼒し,回答を出⼒ l Encoderモデルでは,OCRテキストの中から回答スパンを抽出 l Encoder-DecoderモデルやPrefix-LMモデルでは,回答を⽣成 18

    (Encoder, Encoder-Decoder,Prefix-LM) Transformer 回答 質問⽂ ⽂書画像 OCRテキスト + レイアウト
  20. 視覚的読解モデルの動向 n ⽂書画像の表現獲得や事前学習に関する研究が盛ん l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖ l 画像特徴の系列化: どのように系列化して⼊⼒するか︖ l

    事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 19 (Encoder, Encoder-Decoder,Prefix-LM) Transformer 回答 質問⽂ ⽂書画像 OCRテキスト レイアウト特徴の⼊⼒⽅法 画像特徴の系列化 事前学習タスク の出⼒ 事前学習の実施 + レイアウト
  21. 視覚的読解モデルの動向 n ⽂書画像の表現獲得や事前学習に関する研究が盛ん l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖ l 画像特徴の系列化: どのように系列化して⼊⼒するか︖ l

    事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 20 (Encoder, Encoder-Decoder,Prefix-LM) Transformer 回答 質問⽂ ⽂書画像 OCRテキスト レイアウト特徴の⼊⼒⽅法 + レイアウト
  22. レイアウト特徴として使⽤される情報 n ⽂書から取得される領域の座標や意味ラベル,構造データ l ⽂書領域やテキスト領域におけるbounding box (bbox) の座標 l ⽂書領域の意味ラベル

    l HTML⽂書の構造データ (DOM Tree) 21 各ノードが⽂書内の オブジェクトを表す bboxは左上/右下 の座標がよく⽤いられる bboxの座標と意味ラベル HTML⽂書の構造データ
  23. Bounding boxを⽤いた⼊⼒埋め込み n ⼊⼒トークン埋め込みに対して,テキスト領域の座標を学習可能 なパラメータ (Layout embeddings) として追加で⼊⼒ l 単語の⼤きさを明⽰的に表現するために,bounding

    boxの幅,⾼さ,⾯ 積も⼊⼒する場合がある 22 https://dl.acm.org/doi/10.1145/3394486.3403172 Layout embeddings 座標が0-1000の値 となるようになるように 正規化 [Xu+, KDD20]
  24. 意味ラベルを⽤いた⼊⼒埋め込み n ⽂書レイアウト解析によって得られた意味ラベルをOCRトークン系列 の途中に挿⼊ n ⽂書領域の意味を表すSegment embeddingとして⼊⼒埋め 込みに追加 23 https://ojs.aaai.org/index.php/AAAI/article/view/17635

    [Tanaka&Nishida+, AAAI21]
  25. 構造データを⽤いた⼊⼒埋め込み n HTMLソースからパースすることで⼊⼿できるDOM Treeの構造を ⼊⼒埋め込みに追加 24 https://arxiv.org/abs/2201.10608 [Deng+, arxiv22]

  26. Bounding boxを⽤いたSelf-attention n Bounding box間の距離をSelf-attentionのバイアス項に追加 l 座標間の距離を直接与えることで,x座標の距離が近いものがKey-Valueの 関係性にあるなどの学習が効率的に進む 25 トークン数

    × 𝑑!" Key Query Value トークン数 × トークン数 𝑊# 𝑊$ 𝑊% 距離バイアス トークン数 × 𝑑&'( 𝑊&'( Attention Map [Hong+, AAAI22] softmax
  27. 視覚的読解モデルの動向 n ⽂書画像の表現獲得や事前学習に関する研究が盛ん l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖ l 画像特徴の系列化: どのように系列化して⼊⼒するか︖ l

    事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 26 (Encoder, Encoder-Decoder,Prefix-LM) Transformer 回答 質問⽂ ⽂書画像 OCRテキスト 画像特徴の系列化 + レイアウト
  28. 画像特徴の系列化 n 主に3つの⽅法で,⽂書画像を系列化する 27 CNN Region proposal CNN+Linear Linear テキスト/画像領域

    ベース グリッドベース パッチベース 物体の個数や関係性を問う 質問に対して有効 物体検出器が必要 前処理が必要なため,低速 領域ベースより⾼速に動作可能 物体検出器が不要 テキストとのアライメントが困難 線形変換のみなので,最も ⾼速に動作可能 物体検出器が不要 単純なパッチ分割では,物体の 形状を理解するのが困難
  29. テキスト/画像領域特徴の抽出⽅法 n OCRのテキスト領域や⽂書領域に対して,事前学習済みの物体 検出モデル (Faster-RCNNなど) の特徴量を利⽤ l 2048次元のfc7とfc6の特徴量がよく⽤いられる l V+Lでよく⽤いられるテクニック:

    fc6のパラメータを固定にして,fc7のみを Fine-tuneする 28 RPN Pooled Features fc6 ROI Pooling Faster-RCNN fc7 CNN
  30. グリッドベースの抽出⽅法 n ⽂書画像全体を⼊⼒としてCNNとLinearによりエンコード l 学習時に,全てのピクセルを⽤いずに,ランダムにピックしたもののみを使うこと で,学習の⾼速化とノイズに対してのロバストさが向上する [Huang+, arXiv20] 29 CNN

    (ResNetなど) 3 × h × w チャネル数 × ℎ) × 𝑤) CNN (1 × 1 conv) モデル次元数 × ℎ) × 𝑤) Linear ・・・ モデル次元数 × 系列⻑ Docformer [Appalaraju, CVPR21] における画像特徴の抽出
  31. パッチベースの抽出⽅法 n 画像をパッチに分割し,パッチに対して線形変換を⾏いエンコード l Encoderは3億枚以上の画像分類データで事前学習したVision Transformerやその亜種 (Swin Transformer [Liu+, ICCV21]

    など) を使⽤ 30 https://arxiv.org/abs/2112.12494 線形変換
  32. 画像特徴の有効性 n ⽂書中のテキスト/視覚物体の⾒た⽬を考慮することで,実験的に性 能が向上することを確認 [Xu+, KDD20][Xu+, ACL21][Tanaka&Nishida+, AAAI21] n テキストの⾒た⽬情報

    (フォント,⽂字の太さなど) は,どのような時 に/なぜ役⽴つのか︖ 31 Bold調になっているテキ ストは何でしょうか︖ 1 質問でテキストの⾒た⽬ を直接,聞かれる場合 2 OCRエラーが発⽣ した場合 2006 Ig ⾒た⽬を基に,モデル内 部で修正して理解 テキストを理解していなくても, ⾒た⽬の理解のみで済む 3 様々なスタイルのテキスト が配置されている場合 ⾒た⽬を基に,テキストの意味の 区切りや役割を理解 Bold調がKeyで, その他がValue 例えば, OCR結果
  33. 視覚的読解モデルの動向 n ⽂書画像の表現獲得や事前学習に関する研究が盛ん l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖ l 画像特徴の系列化: どのように系列化して⼊⼒するか︖ l

    事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖ 32 (Encoder, Encoder-Decoder,Prefix-LM) Transformer 回答 質問⽂ ⽂書画像 OCRテキスト + レイアウト 事前学習タスク の出⼒ 事前学習の実施
  34. 事前学習タスクの概要 n ⽂書画像とOCRテキストのペアを⼊⼒したTransformerに対して, 主にMLM+αで事前学習を実施 l ⽂書画像のみ,OCRテキストのみを⼊⼒するケースもあり l ⼤規模テキストコーパスで事前学習を⾏なったモデルをFine-tuneのみで視覚 的読解タスクに適⽤する⽅法でも,⼀定の効果がある 33

    Model ⼊⼒ 事前学習タスク LayoutLM [Xu+, KDD20] OCRテキスト MLM LayoutLMv2 [Xu+, ACL21] OCRテキスト+画像 MLM + ITM + ITA LayoutT5 [Tanaka&Nishida+, AAAI21] OCRテキスト+画像 なし StructualLM [Li+, ACL21] OCRテキスト MLM + CPC TILT [Rafal+, ICDAR21] OCRテキスト+画像 + (質問⽂など) Denoising + 教師あり学習 Donut [Kim+, arXiv21] 画像 テキスト認識 BROS [Hong+, AAAI22] OCRテキスト Area-MLM
  35. Masked Language Modeling (MLM) /Denoising n OCRテキストの⼀部をマスクして⽳埋め問題を解く l Denoising: Encoder-Decoderで⽳埋め問題を解く.Encoderにおける

    ⽳埋め箇所をDecoderで予測 34 Transformer ⽂書画像 OCRテキスト + レイアウト [Mask] [Mask] The man plays soccer with friends
  36. Area-MLM [Hong+, AAAI22] n ⼤きさと座標がランダムなbboxを⽂書画像に貼り付けて,その範 囲をマスクして⽳埋め問題を解く l ランダムな範囲でスパンを⾏うSpanBERT [Joshi+, TACL20]

    の⽂書画像版 l マスク範囲の決定⽅法 35 (1) ランダムな2点を決めてから,(2) 2点でbboxを作成し,(3) bboxをランダムに伸縮してマスク Area-MLM MLM https://arxiv.org/abs/2108.04539
  37. Image-Text Matching (ITM) n データセット中の画像とOCRテキストのペア (正例) と,ランダムサン プリングで作成した負例を識別 l 負例の場合でも,MLMは実施するケースが多い(もし,MLMを⾏わないと,

    MLM⾏わない=Falseという単純な学習になってしまう︖) 36 Transformer ⽂書画像 OCRテキスト + レイアウト [Mask] [Mask] The plays with friends True/False データセットから ランダムサンプリング
  38. Image-Text Alignment (ITA) [Xu+, ACL21] n ⽂書画像のテキスト部分を⼀部マスクして,OCRテキストのどの部 分がマスクされているかを予測 37 Transformer

    ⽂書画像 OCRテキスト + レイアウト soccer man The plays with friends Covered 画像の⼀部をマスク Covered
  39. Cell Position Classification (CPC)[Li+, ACL21] n Bboxの座標を⼀部マスクして,正しい座標に対応するパッチ番号 を予測 l マスク部分の座標は

    (0, 0, 0, 0) に置換する l ⽂書を4×4にパッチ分割して,16クラスの分類問題を解く 38 0 0 0 0 40 25 45 13 20 20 30 10 20 15 25 50 40 55 55 55 40 50 45 soccer man The plays with friends Transformer レイアウト 30 x0 y0 x1 y1 5 OCR 5 1 2 3 4 1-16のクラスを予測
  40. 事前学習としてのテキスト認識 [Kim+, arixiv21] n テキスト認識タスクを事前学習で⾏うことで,前処理にOCRを⾏わ ずに済み,⽂書画像単体の⼊⼒のみでも⼀定の効果を確認 l OCRありモデルよりも推論速度が2~4倍⾼速 l OCRありモデルと⽐べると,QAタスクの精度は劣っているものの,⽂書画像

    分類タスクではコンパラの精度.画像全体の雰囲気を掴むことには成功してい るものの,⽂脈理解には改善の余地が⾒られる 39 テキスト検出は⾏わず,画像 全体のテキスト認識を⾏う https://arxiv.org/abs/2111.15664
  41. 40 データセット

  42. データセットの動向 n 視覚情報に含まれる⾔語情報の理解が,⽂脈理解が必要に n 視覚物体 (アイコンなど) とテキストとの融合理解が必要に n 演算や要約的に回答を⽣成するなど回答のスタイルは多様に n

    複数⽂書に対する理解が必要に 41 Dataset Source 単語数 視覚物体 複数⽂書 回答スタイル VQA [Agrawal+, ICCV15] ⽇常⾵景 ? 選択肢 Text-VQA [Singh+, CVPR19] ⽇常⾵景 12 ⽣成型 DocVQA [Mathew+, WACV21] ビジネス⽂書 182 抽出型 VisualMRC [Tanaka&Nishida+, AAAI21] Webスクショ 151 ⽣成型 WebSRC [Chen+, EMNLP21] Webスクショ ? 抽出型 InfographicVQA [Mathew+, WACV22] インフォグラフィック 218 抽出型+⽣成 型+演算 DocCVQA [Tito+, arXiv21] ビジネス⽂書 ? 抽出型
  43. VQA [Agrawal+, ICCV15] n ⽇常⾵景の写真を基に,質問応答 l 回答の多様性が低く、画像中に⾔語情報があまり含まれない 42 What color

    are her eyes? Answer: Brown Is this a vegetarian pizza? Answer: No Does it appear to be rainy? Answer: No https://arxiv.org/abs/1505.00468
  44. Text-based VQA [Singh+, CVPR19] n 画像中のテキストを含めたVQAタスク l 画像中に含まれる単語数 (平均約10単語) は⾮常に少ないため,単語レ

    ベルの⾔語理解で⼗分 43 What does the white sign say? Answer: Tokyo Station What is the top oz? Answer: 16 What edition is this? Answer: embossed https://arxiv.org/abs/1904.08920
  45. DocVQA [Mathew+, WACV21] n ビジネス⽂書画像を対象とした質問応答 l 画像中に含まれる単語数は約180単語であり,⽂脈理解が必要 l 回答は画像中のテキストから抽出 l

    対象⽂書の多くは,1960年代くらいの古い⽂書 44 Mention the ZIP code written? Answer: 80202 What is the date given at the top left? Answer: 03/17/98 What is the Extension Number as per the voucher? Answer: (910) 741-0673 https://arxiv.org/abs/2007.00398
  46. DocVQAリーダボード (ʻ22/3/11時点) n ⼈間のスコアとは開きあり l 特に,Figure/DiagramやImage/Photoにおける精度が課題 45 ANLSスコア: モデルの予測と正解回 答集合との平均編集距離

    https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1
  47. VisualMRC [Tanaka&Nishida+, AAAI21] n Webページのスクリーンショット画像に関する質問応答 l 現代の多様なWeb⽂書画像に基づく⼤規模QAデータ l ⽂書の領域 (Region-Of-Interest)を全て⼈⼿でアノテーション

    l ⽣成(要約)型のQAデータ 46 https://ojs.aaai.org/index.php/AAAI/article/view/17635
  48. VisualMRCのデータ公開中︕ 47 https://github.com/nttmdlab-nlp/VisualMRC VisualMRC github

  49. WebSRC [Chen+, EMNLP21] n Webページのスクリーショット画像に関する質問応答 l Key-value,⽐較,表に関するWebページが対象 l メタデータとして,HTMLソースが利⽤可能 l

    回答はテキストの中から抽出 48 Webページのスクリーショット HTMLソース OCRテキスト QA https://aclanthology.org/2021.emnlp-main.343/
  50. InfographicVQA [Mathew+, WACV22] n インフォグラフィック (アイコンや図などで表現された⽂書画像) に対 する質問応答 l 従来のデータと⽐べて,視覚物体とテキストとの融合理解が最も問われる

    l 演算を含む様々なスタイルでの回答が必要 49 How many females are affected by diabetes? single span Which all are the benefits of inve sting in real estate? multi-span What percentage of recruiters do "not" react negatively to poor spellings and punctuation errors? number (non-span) Answer: 3.6% Answer: 35% *(100 – 65) Answer: tax, tangibility, cash returns
  51. Document Collection VQA [Tito+, arXiv21] n 複数の⽂書画像を⼊⼒として,質問に関連する⽂書を検索し, 質問応答を⾏うタスク l ⽂書候補は14,362件,QAペアが20件

    (train: 8件,test: 12件) l データ規模が影響し,ルールベースやSQLベースの⼿法が善戦 50 https://arxiv.org/abs/2111.05547
  52. 関連: DUE [Borchman+, NeurIPS21] n 質問応答タスクを含めた汎⽤的な⽂書画像理解に向けた ベンチマークデータセット l ⽂書画像に対する質問応答,情報抽出,⾔語推論タスクをカバー l

    最終的な精度に⼤きく影響の与えるOCR出⼒結果も提供 51 https://duebenchmark.com/leaderboard 質問応答 情報抽出 ⾔語推論
  53. 52 視覚的読解の精度を競うコンペティション

  54. Document VQA Challenge n AmazonやIIT-Hyderabadに所属する研究者が主催となって⾏ なっている⽂書画像に対する質問応答の精度を競う⼤会 l ʼ20年の⼤会: (a) Single

    Document VQAタスク l ʼ21年の⼤会: (b) DocCVQAタスク,(c) InfographicVQAタスク u InfographicVQAには,Naver,北京⼤など18チーム337投稿 53 https://arxiv.org/abs/2111.05547 我々が参加したタスク
  55. InfographicVQAタスクの難しさ 1. 視覚物体とテキストとの融合理解の能⼒を獲得・強化するには︖ 2. モデルが算術演算の能⼒を獲得・強化するには︖ 54 ⼥性のアイコ ンとテキスト を理解 100-60=40の

    演算が必要 Q: How many females are affected by diabetes? A: 3.6% Q: What percentage of cases can not be prevented? A: 40% (⼥性の糖尿病患者の割合は︖) (糖尿病を予防できないケースの割合は︖)
  56. IG-BERT: 演算の過程と視覚物体が理解可能なモデル 55 n 提案⼿法のポイント 1. 物体検出器を利⽤して視覚物体の領域𝑣!"#,意味クラスラベル𝑤!"# を 追加⼊⼒し,視覚物体の役割を理解 2.

    ⽳埋め事前学習 (MLM) により,テキストと視覚物体との対応づけが可能 3. 演算の過程を⽣成 配置情報 トークン 位置情報 セグメント ポイント2 キャプション 質問⽂と回答 ポイント3 ポイント1 40(100-60)
  57. 演算過程を学習可能なデータ拡張 n 演算の過程を学習可能な新たなデータ拡張⼿法を提案 56 回答正解データ: 40% 4.3% 3.6% 1 10

    $6 60% 1. ⽂書から数値データの抽出 2. 事前に⽤意した演算テンプレートに代⼊ 「60% + 4.3% = 64.3%」 「100% - 60% = 40%」 3. 回答正解データと⼀致するならデータに加える . . . 100% - 60% 100-60=40の 演算が必要 Q: What percentage of cases can not be prevented? (糖尿病を予防できないケースの割合は︖)
  58. 事前学習データの収集 n 視覚物体とテキストとの融合理解のための⼤規模⽂書データは存在しない n インフォグラフィックとキャプションの0.5Mペアを独⾃に収集 1. Crawl: インフォグラフィックのWebページを対象に0.6Mページ,クロール 2. Extract:

    HTMLソース中の<alt>,<title>のテキストをキャプションとして抽出 3. Filter: 3単語未満のキャプションの削除,infographicVQAに出現する画像の削除 57 https://dailyinfographic.com/fathers-day-facts (IIT-CDIP) https://www.cs.cmu.edu/~aharley/rvl-cdip/ 従来の事前学習データセット 我々の事前学習データセット Fatherʼs day facts for underappreciated dads グレースケールのビジネス⽂書, ドメインが6つに限定 視覚物体を含むカラー画像, オープンドメイン
  59. n ⽂書テキストのみを使⽤するBERTと⽐べて,⼤幅な性能向上 n 事前学習,データ拡張が性能向上に⼤きく寄与 Ablation Study 58 Model モダール ANLS

    ANUM IG-BERT テキスト+視覚 0.275 0.166 BERT テキスト 0.206 0.161 BERT w/o データ拡張 テキスト 0.199 0.156 IG-BERT w/o 事前学習 テキスト+視覚 0.176 0.123 IG-BERT w/o データ拡張 テキスト+視覚 0.271 0.159 正解集合との編集距離 演算を必要とする正解集合 との編集距離
  60. 提案法の⽣成例 59 質問: How many patients out pf 3, dose

    not use social media to seek out health information ? (3⼈の患者の内,健康情報を調べるためにsocial mediaを使⽤しないのは何⼈︖) BERT: 1 LayoutLM: 3 提案法: 2 (3-1) 正解,提案法: 2 LayoutLM: 3 モデルが予測した演算過程 BERT: 1
  61. コンぺティションでの結果 (上位チーム抜粋) 60 n 同程度のモデルサイズの中で最⾼精度を達成 l 18チーム337投稿 中2位の精度を達成 l データ量,モデルスケールによる差が⼀位との精度差の⼤きな要因

    参加チーム 事前学習⽂書数 教師あり追加学習 サンプル数 パラメータ数 ANLS Applica AI 1.0M+ 0.22M 780M 0.612 NTT 0.5M 0 342M 0.385 Naver 11M 0.12M NA 0.322 Huawei合同 NA 0.2M NA 0.285 北京⼤ - NA 340M 0.208
  62. n どの⽂書領域に対して,⼈間とは⼤きな精度の開きがある l ⽂書中のテキスト以外の視覚物体に関する質問に対して,精度が低い 61 ⽂書領域ごとの性能分析 https://arxiv.org/abs/2111.05547 Human Applica AI

    NTT
  63. 性能改善テクニック: データ拡張 n Case Augmentation l ⽅法: OCRテキスト中の単語をランダムに⼤⽂字に変換して⼊⼒ l モチベーション:

    ⼤⽂字の単語 (ex. CUTE) を含む⽂の理解に関する精度 が劣化することが知られている [Powalski+, arXiv20] n Spatial Augmentation l ⽅法: bboxの幅,⾼さをランダムに伸縮させて⼊⼒ l モチベーション: 推論時に,様々な⼤きさのbboxに対応できる 62
  64. 性能改善テクニック: 教師データの活⽤ n ⽂書画像を対象としていなくても,質問応答タスクに関連するタス クであれば,教師データとして追加事前学習を⾏う 63 https://arxiv.org/abs/2102.09550 ⼀位のチームが試した教師ありデータ

  65. 宣伝: NLP22で発展版を発表します n 3/15 (⽕) 11:00-12:20の C1-3: 質問応答 (1) 64

    https://www.anlp.jp/nlp2022/program.html#session_table
  66. 65 今後の展望とまとめ

  67. 今後の展望 n OCRや物体検出などの前処理が不要な視覚的読解モデル n 多⾔語対応可能な視覚的読解モデル 66 ⾔語を超えたレイアウトの 共通概念は獲得できる︖ OCR 物体検出

    など 視覚的読解 モデル ⾼速化や汎⽤な物体 理解には限界 英語 中国語
  68. 本技術により拡がる可能性 n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理 解できることで,オフィスDXに資する重要技術となり得る 67 ⾃然⾔語指⽰による作業⾃動化 専⾨調査レポート AI 業界紙 論⽂

    医薬情報提供 ページ レポート A薬の症例に ついて教えて ⾒積書を 帳票に⼊⼒して カスタマーサポート 契約プランを変更 したいのですが 顧客 データベース スーパーバイザ 相談 操作 違約⾦が かかってしまいますが よろしいでしょうか… ⾒積書 帳票 AIと⼈のリアルタイムペアワーク その選択肢, エラーがありそうですよ マニュアル マニュアルと 違いが無いか チェックしてね
  69. まとめ n ⽂書画像に対する質問応答 l タスク設定: ⽂書を画像とし⾒做して,視覚的に理解し,QAを⾏う l 処理プロセス: ⽂書レイアウト解析,OCR,読み順解析など,視覚的読解 n

    視覚的読解モデルとデータセットの動向 l モデル: レイアウト特徴の⼊⼒⽅法,画像特徴の系列化,事前学習の実施 l データセット: 画像内のテキストの⽂脈理解,視覚物体との融合理解,回 答スタイルの多様化,複数⽂書化 n 今後の展望 l OCRなどの前処理が不要な視覚的読解モデル l 多⾔語に対応可能な視覚的読解モデル 68
  70. 参考⽂献 (視覚的読解モデル) n Yiheng Xu, Minghao Li, Lei Cui, Shaohan

    Huang, Furu Wei, Ming Zhou, “LayoutLM: Pre-training of Text and Layout for Document Image Understanding”, in KDD20 n Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, “LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding”, in ACL21 n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on Document Images”, in AAAI21 n Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park, “BROS: A Pre- trained Language Model Focusing on Text and Layout for Better Key Information Extraction from Documents”, in AAAI22 n Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si, “StructuralLM: Structural Pre-training for Form Understanding”, in ACL21 n Geewook Kim, Teakgyu Hong, Moonbin Yim, Jinyoung Park†, Jinyeong Yim, Wonseok Hwang†, Sangdoo Yun, Dongyoon Han, Seunghyun Park, “Donut : Document Understanding Transformer without OCR”, in arXiv21111.15664 n Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha, “DocFormer: End-to- End Transformer for Document Understanding”, in CVPR21 n Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka, ” Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer”, in ICDAR21 n Xiang Deng, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Huan Sun, “DOM-LM: Learning Generalizable Representations for HTML Documents”, in arXiv:2201.10608 69
  71. 参考⽂献 (視覚的読解データセット) n Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret

    Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi Parikh, “Visual Question Answering”, in ICCV15 n Singh, Amanpreet and Natarjan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Parikh, Devi and Rohrbach, Marcus, “Towards VQA Models That Can Read”, in CVPR19 n Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V., “DocVQA: A Dataset for VQA on Document Images”, in WACV21 n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on Document Images”, in AAAI21 n Minesh Mathew and Viraj Bagal and Rubèn Pérez Tito and Dimosthenis Karatzas and Ernest Valveny and C. V Jawahar, “InfographicVQA”, in WACV22 n Ruben Tito, Dimonsthenis Karazas, Ernest Valveny, “Document Collection Visual Question Answering”, in arXiv: 2104.14336 n Xingyu Chen, Zihan Zhao, Lu Chen∗ , Jiabao JI, Danyang Zhang, Ao Luo, Yuxuan Xiong and Kai Yu, “WebSRC: A Dataset for Web-Based Structural Reading Comprehension”, in EMNLP21 n Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei, “LayoutReader: Pre-training of Text and Layout for Reading Order Detection”, in EMNLP21 n Łukasz Borchmann, Michał Pietruszka, Tomasz Stanislawek, Dawid Jurkiewicz, Michał Turski, Karolina Szyndler, Filip Graliński, “DUE: End-to-End Document Understanding Benchmark”, in NeurIPS21 dataset track 70
  72. 参考⽂献 (その他) n Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet

    Singh, “TextCaps: a Dataset for Image Captioning with Reading Comprehension”, in ECCV20 n Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”, in arXiv:1506.01497 n Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo, “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”, in ICCV21 n Alexey Dosovitskiy · Lucas Beyer · Alexander Kolesnikov · Dirk Weissenborn · Xiaohua Zhai · Thomas Unterthiner · Mostafa Dehghani · Matthias Minderer · Georg Heigold · Sylvain Gelly · Jakob Uszkoreit · Neil Houlsby, “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, in ICLR21 n Carlos Soto, Shinjae Yoo, “Visual Detection with Context for Document Layout Analysis”, in EMNLP19 n Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, in NAACL19 n Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy, “SpanBERT: Improving Pre-training by Representing and Predicting Spans”, in TACL21 n Xu Zhong, Jianbin Tang, Antonio Jimeno Yepes, “PubLayNet: largest dataset ever for document layout analysis”, in ICDAR19 71