Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

文書画像に対する質問応答技術の最新動向/ Recent Trends in Document Visual Question Answering

第2回 AI王 クイズAI日本一決定戦 招待講演資料

Ryota Tanaka

March 11, 2022
Tweet

More Decks by Ryota Tanaka

Other Decks in Technology

Transcript

  1. ⽂書画像に対する
    質問応答技術の最新動向
    ⽥中 涼太
    NTT⼈間情報研究所,⽇本電信電話株式会社
    2022/3/11 第2回 AI王 -クイズAI⽇本⼀決定戦-
    [email protected]

    View full-size slide

  2. ⾃⼰紹介
    n ⽥中 涼太 (たなか りょうた)
    l 社員,NTT⼈間情報研究所
    n 2020年 3⽉ 名古屋⼯業⼤学 修⼠ (情報⼯学)
    l 李研究室で「Knowledgeに基づく対話⽣成」の研究に従事
    l 対話システムの性能を測る国際コンペ (DSTC7) で世界⼆位
    n 2020年 4⽉ NTT⼊社
    l Vision & Language 機械読解の研究開発をスタート
    l AAAI21採択,NLP21最優秀賞,InfographicVQAコンペ 世界⼆位
    1

    View full-size slide

  3. ⽬次
    n 背景
    l テキストベース質問応答
    l テキストベースの限界
    n ⽂書画像に対する質問応答の動向
    l 問題設定
    l 処理プロセスとモデル
    l データセット
    n 視覚的読解の精度を競うコンペティション
    l 我々が参加した InfographicVQAコンペティションについて
    l 上位チームが⾏った正解率向上のためのテクニック
    n 今後の展望とまとめ
    2

    View full-size slide

  4. テキストベース質問応答 (機械読解)
    n テキストで記述された⽂書を知識源とし,質問に対して回答を⾏う
    l Input: 質問,テキストベースの⽂書
    l Output: 回答
    3
    ⾔語処理AI
    あんしん保険の弁護⼠費⽤特約は
    どのような場合に対象外になりますか︖
    相⼿の⽅に法律上の損害賠償を
    ⾏うことができないとき
    保険⾦のお⽀払い対象となる費⽤に関しては、当社の同意を得たうえで⽀出
    された費⽤に限ります。また、事故の相⼿が不明である場合など、相⼿の⽅に
    法律上の損害賠償請求を⾏うことができないときは,本特約は対象外となりま
    すのでご注意ください。
    質問 回答
    テキストベースの⽂書

    View full-size slide

  5. ⼤規模テキストを⽤いた事前学習モデル
    n 巨⼤なモデルで⼤規模なテキストコーパスで事前学習を⾏った
    BERTの登場により,⼀部の機械読解タスクにおいて,⼈間の
    パフォーマンスを超える精度を達成
    4
    https://aclanthology.org/N19-1423/

    View full-size slide

  6. 我々が普段扱う⽂書の例
    5
    Webページ
    https://en.wikinews.org/wiki/2007_Ig_Nobel_Prize_winners_announced
    インフォグラフィック
    フォーム
    https://rrc.cvc.uab.es/?ch=17
    https://guillaumejaume.github.io/FUNSD/ https://rrc.cvc.uab.es/?ch=13&com=tasks
    レシート
    スライド
    など..

    View full-size slide

  7. Q&A
    n このテキストを読んで,質問に答えられるでしょうか︖
    6
    フレッツ光ネクスト(FTTHアクセスサービス) ファミリー・スーパーハイスピード隼 上限料⾦ 5610円/⽉
    4730円/⽉「 光 は じ め 割 」 ( 1 ・ 2 年 ⽬ ) ※ 1 適 ⽤ 時 < 解 約 ⾦ あ り > 基 本 料 ⾦
    2530円/⽉ 3 2 0 M B 基 本 料 ⾦ 従量料 ⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B
    1329MB 基本料⾦ 5610円/⽉ 利⽤量/⽉ 「光はじめ割」について本割引を解約された場合は
    解約⾦(⼀律11,000円)が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、翌々⽉に解約さ
    れる場合は、本割引の解約⾦は発⽣しません。その他、解約⾦に関しましては、こちらをご確認ください。
    1ヵ⽉の利⽤量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げにて計算します。
    https://flets-w.com/limited/lightwari/
    事前知識がない限り,テキストを読んでも,おそらく答えられない..︖
    質問: ⽉の利⽤量が2000MBの場合,光ライトの⽉額の基本料⾦はいくらになりますか︖
    テキスト

    View full-size slide

  8. Q&A
    n それでは,この画像を⾒て,質問に答えられるでしょうか︖
    7
    https://flets-w.com/limited/lightwari/
    質問: ⽉の利⽤量が2000MBの場合,光ライトの⽉額の基本料⾦はいくらになりますか︖
    正解: 5610円

    View full-size slide

  9. テキストベースの限界
    n BERTをはじめとする従来の機械読解モデルは,我々が普段扱う
    ⽂書が持つ視覚的な情報を⾃然⾔語と併せて理解できない
    8
    フレッツ光ネクスト(FTTHアクセスサービス) ファミリー・スーパーハ
    イスピード隼 上限料⾦ 5610円/⽉ 4730円/⽉
    「 光 は じ め 割 」 ( 1 ・ 2 年 ⽬ ) ※ 1 適 ⽤ 時 < 解 約 ⾦
    あ り > 基 本 料 ⾦ 2530円/⽉ 3 2 0 M B 基 本 料 ⾦
    従量料 ⾦ 2530円/⽉ 30 . 8 円 / 10 M B 1030 M B
    1329MB 基本料⾦ 5610円/⽉ 利⽤量/⽉ 「光はじめ
    割」について本割引を解約された場合は解約⾦(⼀律11,000
    円)が必要です。ただし、割引適⽤期間の満了⽉とその翌⽉、
    翌々⽉に解約される場合は、本割引の解約⾦は発⽣しません。そ
    の他、解約⾦に関しましては、こちらをご確認ください。1ヵ⽉の利⽤
    量の合計のうち、10MB未満の利⽤量は、10MB単位の切り上げ
    にて計算します。
    HTMLやPDF形式等の⽂書 (契約書やマニュアル等) テキストデータ
    テキスト抽出
    (OCR)
    ⾔語処理AI
    図・表やグラフ,⽂字の⾒た⽬,配置等の
    視覚的な情報を読み取ることができない
    ⽂書中のテキスト
    情報のみを扱う

    View full-size slide

  10. 9
    ⽂書画像に対する質問応答

    View full-size slide

  11. アプローチとタスク設定
    n ⽂書を画像と⾒做して,⽂書の視覚情報を基に質問応答を⾏う
    l メインタスク (視覚的読解)
    l サブタスク
    10
    Input: 質問⽂,⽂書画像
    Output: 回答
    ⽂書レイアウト解析 OCR
    2007 Ig Nobel Prize winners announced The winners of
    the 2007 Ig Nobel have been announced. The awards,
    given out every early October since 1991 by the Annals of
    Improbable Research, are a parody of the Nobel Prize,
    which are awards given out in several fields. The awards
    are given to achievements that, "first make people laugh,
    and then make them think." They were presented at
    Harvard University’s Sanders Theater. Ten awards have
    been presented, each given to a different field. The
    winners are: Medicine: Brian Witcombe, of Gloucestershire
    Royal NHS Foundation Trust, UK, and Dan Meyer, who
    studied the health consequences of sword swallowing.
    etc.

    View full-size slide

  12. ⼀般的な処理の流れ
    1. ⽂書レイアウト解析: 関⼼領域の検出および分類
    2. OCR: テキスト領域の検出とテキストの認識
    3. その他: 読み順予測,⼀般物体認識など
    4. 視覚的読解: ⽂書表現の獲得および質問応答
    11
    1.
    2007 Ig Nobel Prize winners
    announced The winners of the
    2007 Ig Nobel have been announced.
    The awards, given out every early
    October since 1991 by the Annals of
    Improbable Research, are a parody
    of the Nobel Prize, which are awards
    given out in several fields. The
    awards are given to achievements
    that, "first make people laugh, and
    then make them think."
    2.
    2007 Ig Nobel have been announced.
    The awards, given out every early
    October since 1991 by the Annals of
    Improbable Research, are a parody
    of the Nobel Prize, which are awards
    given out in several fields. 2007 Ig
    Nobel Prize winners announced The
    winners of the The awards are given
    to achievements that, "first make
    people laugh, and then make them
    think."
    3.
    ⽂書レイアウト解析
    OCR 読み順検出
    並び替え
    質問 回答
    4.
    視覚的読解
    ⾏わない/⼀部のみ⾏う
    ケースがある
    etc.
    前処理
    画像,OCRテキスト,レイアウト etc.

    View full-size slide

  13. 1. ⽂書レイアウト解析
    n ⽂書画像内の関⼼領域を検出および分類するタスク
    l CNNベースのFaster-RCNNが⼀般的に⽤いられる
    l ⼤規模な学習データとして,正解領域やラベルが⾃動的に⼊⼿可能なデータ
    (LaTeXソースやXML/HTMLを基に⼊⼿可能) を扱うことが多い
    12
    XML XMLのパースにより得られたデータ
    Publaynet [Xu+, ICDAR19]
    Faster-RCNNを⽤いたレイアウト解析
    [Soto+, EMNLP19]
    https://arxiv.org/abs/1908.07836
    https://aclanthology.org/D19-1348/
    ResNetなどの
    CNNが⽤いられる

    View full-size slide

  14. 2. OCR
    n テキスト領域の検出および領域内のテキストを認識
    l OCRはオープンツールを使うことが⼀般的.フリーで使えるものとしては,
    Tesseract*が最も使われている印象
    l 回転・湾曲・⼿書き⽂字の認識精度は⽐較的低く,活発に研究されている
    13
    テキスト
    2007, Ig, Nobel, Prize, Winners, announced
    テキスト領域: Bounding box
    https://github.com/tesseract-ocr/tesseract
    *

    View full-size slide

  15. OCRは前処理でほぼ必須の技術
    n 従来のVQAモデルやキャプション⽣成モデルは,画像単体を⼊⼒し
    ても,画像内のテキストを認識して理解することが難しいことが知ら
    れている [Singh+, CVPR19][Sidorov+, ECCV21]
    l OCRテキストを⼊⼒することで,性能が⾶躍的に向上することが実験で確認
    l ⽂書画像においても,同様の現象が⾒られる [Tanaka&Nishida+, AAAI21]
    14
    キャプション⽣成
    VQA VQAの性能評価
    +5%
    OCRの追加

    View full-size slide

  16. 3. その他: 読み順予測 [Wang+, EMNLP21]
    n OCRで出⼒される系列を,⼈間が読むような系列順に修正する
    l 通常,OCR系列はLeft-to-right Top-to-downで出⼒されるのため,
    複数カラムやテキストが複雑に配置されている場合,読み順を誤ってしまう
    15
    1
    2
    3
    4
    5
    OCR 読み順
    予測
    ReadingBank dataset
    https://aclanthology.org/2021.emnlp-main.389/

    View full-size slide

  17. 3. その他: ⼀般物体認識
    n ⽂書中のアイコンや写真に含まれる物体の領域検出と意味を認識
    l ⽂書レイアウト解析と同様にFaster-RCNNが⼀般的に⽤いられる
    l 近年の⽂書画像QAデータセットは,⼀般物体についても問われる
    16
    http://visdata.mit.edu/
    ハムスター
    ひまわりの種
    インフォグラフィックに対するアイコン検出
    Webページのスクショに対する⼀般物体検出

    View full-size slide

  18. ⼀般的な処理の流れ
    1. ⽂書レイアウト解析: 関⼼領域の検出および分類
    2. OCR: テキスト領域の検出とテキストの認識
    3. その他: 読み順予測,⼀般物体認識など
    4. 視覚的読解: ⽂書表現の獲得および質問応答
    17
    1.
    2007 Ig Nobel Prize winners
    announced The winners of the
    2007 Ig Nobel have been announced.
    The awards, given out every early
    October since 1991 by the Annals of
    Improbable Research, are a parody
    of the Nobel Prize, which are awards
    given out in several fields. The
    awards are given to achievements
    that, "first make people laugh, and
    then make them think."
    2.
    2007 Ig Nobel have been announced.
    The awards, given out every early
    October since 1991 by the Annals of
    Improbable Research, are a parody
    of the Nobel Prize, which are awards
    given out in several fields. 2007 Ig
    Nobel Prize winners announced The
    winners of the The awards are given
    to achievements that, "first make
    people laugh, and then make them
    think."
    3.
    ⽂書レイアウト解析
    OCR 読み順予測
    並び替え
    質問 回答
    4.
    視覚的読解
    ⾏わない/⼀部のみ⾏う
    ケースがある
    etc.
    前処理
    画像,OCRテキスト,レイアウト etc.

    View full-size slide

  19. 4. 視覚的読解
    n 質問⽂と,⽂書から得られるOCRテキスト,画像を系列化した
    データを合わせてTransformerに⼊⼒し,回答を出⼒
    l Encoderモデルでは,OCRテキストの中から回答スパンを抽出
    l Encoder-DecoderモデルやPrefix-LMモデルでは,回答を⽣成
    18
    (Encoder, Encoder-Decoder,Prefix-LM)
    Transformer
    回答
    質問⽂ ⽂書画像 OCRテキスト
    + レイアウト

    View full-size slide

  20. 視覚的読解モデルの動向
    n ⽂書画像の表現獲得や事前学習に関する研究が盛ん
    l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖
    l 画像特徴の系列化: どのように系列化して⼊⼒するか︖
    l 事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖
    19
    (Encoder, Encoder-Decoder,Prefix-LM)
    Transformer
    回答
    質問⽂ ⽂書画像 OCRテキスト
    レイアウト特徴の⼊⼒⽅法
    画像特徴の系列化
    事前学習タスク
    の出⼒
    事前学習の実施
    + レイアウト

    View full-size slide

  21. 視覚的読解モデルの動向
    n ⽂書画像の表現獲得や事前学習に関する研究が盛ん
    l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖
    l 画像特徴の系列化: どのように系列化して⼊⼒するか︖
    l 事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖
    20
    (Encoder, Encoder-Decoder,Prefix-LM)
    Transformer
    回答
    質問⽂ ⽂書画像 OCRテキスト
    レイアウト特徴の⼊⼒⽅法
    + レイアウト

    View full-size slide

  22. レイアウト特徴として使⽤される情報
    n ⽂書から取得される領域の座標や意味ラベル,構造データ
    l ⽂書領域やテキスト領域におけるbounding box (bbox) の座標
    l ⽂書領域の意味ラベル
    l HTML⽂書の構造データ (DOM Tree)
    21
    各ノードが⽂書内の
    オブジェクトを表す
    bboxは左上/右下
    の座標がよく⽤いられる
    bboxの座標と意味ラベル HTML⽂書の構造データ

    View full-size slide

  23. Bounding boxを⽤いた⼊⼒埋め込み
    n ⼊⼒トークン埋め込みに対して,テキスト領域の座標を学習可能
    なパラメータ (Layout embeddings) として追加で⼊⼒
    l 単語の⼤きさを明⽰的に表現するために,bounding boxの幅,⾼さ,⾯
    積も⼊⼒する場合がある
    22
    https://dl.acm.org/doi/10.1145/3394486.3403172
    Layout embeddings
    座標が0-1000の値
    となるようになるように
    正規化
    [Xu+, KDD20]

    View full-size slide

  24. 意味ラベルを⽤いた⼊⼒埋め込み
    n ⽂書レイアウト解析によって得られた意味ラベルをOCRトークン系列
    の途中に挿⼊
    n ⽂書領域の意味を表すSegment embeddingとして⼊⼒埋め
    込みに追加
    23
    https://ojs.aaai.org/index.php/AAAI/article/view/17635
    [Tanaka&Nishida+, AAAI21]

    View full-size slide

  25. 構造データを⽤いた⼊⼒埋め込み
    n HTMLソースからパースすることで⼊⼿できるDOM Treeの構造を
    ⼊⼒埋め込みに追加
    24
    https://arxiv.org/abs/2201.10608
    [Deng+, arxiv22]

    View full-size slide

  26. Bounding boxを⽤いたSelf-attention
    n Bounding box間の距離をSelf-attentionのバイアス項に追加
    l 座標間の距離を直接与えることで,x座標の距離が近いものがKey-Valueの
    関係性にあるなどの学習が効率的に進む
    25
    トークン数 × 𝑑!"
    Key
    Query
    Value
    トークン数 × トークン数
    𝑊#
    𝑊$
    𝑊%
    距離バイアス
    トークン数 × 𝑑&'(
    𝑊&'(
    Attention Map
    [Hong+, AAAI22]
    softmax

    View full-size slide

  27. 視覚的読解モデルの動向
    n ⽂書画像の表現獲得や事前学習に関する研究が盛ん
    l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖
    l 画像特徴の系列化: どのように系列化して⼊⼒するか︖
    l 事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖
    26
    (Encoder, Encoder-Decoder,Prefix-LM)
    Transformer
    回答
    質問⽂ ⽂書画像 OCRテキスト
    画像特徴の系列化
    + レイアウト

    View full-size slide

  28. 画像特徴の系列化
    n 主に3つの⽅法で,⽂書画像を系列化する
    27
    CNN
    Region
    proposal
    CNN+Linear
    Linear
    テキスト/画像領域 ベース
    グリッドベース
    パッチベース
    物体の個数や関係性を問う
    質問に対して有効
    物体検出器が必要
    前処理が必要なため,低速
    領域ベースより⾼速に動作可能
    物体検出器が不要
    テキストとのアライメントが困難
    線形変換のみなので,最も
    ⾼速に動作可能
    物体検出器が不要
    単純なパッチ分割では,物体の
    形状を理解するのが困難

    View full-size slide

  29. テキスト/画像領域特徴の抽出⽅法
    n OCRのテキスト領域や⽂書領域に対して,事前学習済みの物体
    検出モデル (Faster-RCNNなど) の特徴量を利⽤
    l 2048次元のfc7とfc6の特徴量がよく⽤いられる
    l V+Lでよく⽤いられるテクニック: fc6のパラメータを固定にして,fc7のみを
    Fine-tuneする
    28
    RPN
    Pooled
    Features
    fc6
    ROI
    Pooling
    Faster-RCNN
    fc7
    CNN

    View full-size slide

  30. グリッドベースの抽出⽅法
    n ⽂書画像全体を⼊⼒としてCNNとLinearによりエンコード
    l 学習時に,全てのピクセルを⽤いずに,ランダムにピックしたもののみを使うこと
    で,学習の⾼速化とノイズに対してのロバストさが向上する [Huang+, arXiv20]
    29
    CNN
    (ResNetなど)
    3 × h × w
    チャネル数 ×
    ℎ)
    × 𝑤)
    CNN
    (1 × 1 conv)
    モデル次元数 ×
    ℎ)
    × 𝑤)
    Linear
    ・・・
    モデル次元数 × 系列⻑
    Docformer [Appalaraju, CVPR21] における画像特徴の抽出

    View full-size slide

  31. パッチベースの抽出⽅法
    n 画像をパッチに分割し,パッチに対して線形変換を⾏いエンコード
    l Encoderは3億枚以上の画像分類データで事前学習したVision
    Transformerやその亜種 (Swin Transformer [Liu+, ICCV21] など) を使⽤
    30
    https://arxiv.org/abs/2112.12494
    線形変換

    View full-size slide

  32. 画像特徴の有効性
    n ⽂書中のテキスト/視覚物体の⾒た⽬を考慮することで,実験的に性
    能が向上することを確認 [Xu+, KDD20][Xu+, ACL21][Tanaka&Nishida+, AAAI21]
    n テキストの⾒た⽬情報 (フォント,⽂字の太さなど) は,どのような時
    に/なぜ役⽴つのか︖
    31
    Bold調になっているテキ
    ストは何でしょうか︖
    1 質問でテキストの⾒た⽬
    を直接,聞かれる場合
    2 OCRエラーが発⽣
    した場合
    2006 Ig
    ⾒た⽬を基に,モデル内
    部で修正して理解
    テキストを理解していなくても,
    ⾒た⽬の理解のみで済む
    3
    様々なスタイルのテキスト
    が配置されている場合
    ⾒た⽬を基に,テキストの意味の
    区切りや役割を理解
    Bold調がKeyで,
    その他がValue
    例えば,
    OCR結果

    View full-size slide

  33. 視覚的読解モデルの動向
    n ⽂書画像の表現獲得や事前学習に関する研究が盛ん
    l レイアウト特徴の⼊⼒⽅法: どのようにレイアウト情報を与えるか︖
    l 画像特徴の系列化: どのように系列化して⼊⼒するか︖
    l 事前学習の実施: 良い⽂書画像表現を獲得のための学習タスクは︖
    32
    (Encoder, Encoder-Decoder,Prefix-LM)
    Transformer
    回答
    質問⽂ ⽂書画像 OCRテキスト
    + レイアウト
    事前学習タスク
    の出⼒
    事前学習の実施

    View full-size slide

  34. 事前学習タスクの概要
    n ⽂書画像とOCRテキストのペアを⼊⼒したTransformerに対して,
    主にMLM+αで事前学習を実施
    l ⽂書画像のみ,OCRテキストのみを⼊⼒するケースもあり
    l ⼤規模テキストコーパスで事前学習を⾏なったモデルをFine-tuneのみで視覚
    的読解タスクに適⽤する⽅法でも,⼀定の効果がある
    33
    Model ⼊⼒ 事前学習タスク
    LayoutLM [Xu+, KDD20] OCRテキスト MLM
    LayoutLMv2 [Xu+, ACL21] OCRテキスト+画像 MLM + ITM + ITA
    LayoutT5 [Tanaka&Nishida+, AAAI21] OCRテキスト+画像 なし
    StructualLM [Li+, ACL21] OCRテキスト MLM + CPC
    TILT [Rafal+, ICDAR21]
    OCRテキスト+画像
    + (質問⽂など)
    Denoising
    + 教師あり学習
    Donut [Kim+, arXiv21] 画像 テキスト認識
    BROS [Hong+, AAAI22] OCRテキスト Area-MLM

    View full-size slide

  35. Masked Language Modeling (MLM) /Denoising
    n OCRテキストの⼀部をマスクして⽳埋め問題を解く
    l Denoising: Encoder-Decoderで⽳埋め問題を解く.Encoderにおける
    ⽳埋め箇所をDecoderで予測
    34
    Transformer
    ⽂書画像 OCRテキスト
    + レイアウト
    [Mask]
    [Mask]
    The
    man
    plays
    soccer
    with friends

    View full-size slide

  36. Area-MLM [Hong+, AAAI22]
    n ⼤きさと座標がランダムなbboxを⽂書画像に貼り付けて,その範
    囲をマスクして⽳埋め問題を解く
    l ランダムな範囲でスパンを⾏うSpanBERT [Joshi+, TACL20]
    の⽂書画像版
    l マスク範囲の決定⽅法
    35
    (1) ランダムな2点を決めてから,(2) 2点でbboxを作成し,(3) bboxをランダムに伸縮してマスク
    Area-MLM
    MLM
    https://arxiv.org/abs/2108.04539

    View full-size slide

  37. Image-Text Matching (ITM)
    n データセット中の画像とOCRテキストのペア (正例) と,ランダムサン
    プリングで作成した負例を識別
    l 負例の場合でも,MLMは実施するケースが多い(もし,MLMを⾏わないと,
    MLM⾏わない=Falseという単純な学習になってしまう︖)
    36
    Transformer
    ⽂書画像 OCRテキスト
    + レイアウト
    [Mask]
    [Mask]
    The plays with friends
    True/False
    データセットから
    ランダムサンプリング

    View full-size slide

  38. Image-Text Alignment (ITA) [Xu+, ACL21]
    n ⽂書画像のテキスト部分を⼀部マスクして,OCRテキストのどの部
    分がマスクされているかを予測
    37
    Transformer
    ⽂書画像 OCRテキスト
    + レイアウト
    soccer
    man
    The plays with friends
    Covered
    画像の⼀部をマスク
    Covered

    View full-size slide

  39. Cell Position Classification (CPC)[Li+, ACL21]
    n Bboxの座標を⼀部マスクして,正しい座標に対応するパッチ番号
    を予測
    l マスク部分の座標は (0, 0, 0, 0) に置換する
    l ⽂書を4×4にパッチ分割して,16クラスの分類問題を解く
    38
    0
    0
    0
    0
    40
    25
    45
    13
    20
    20
    30
    10
    20
    15
    25
    50
    40
    55
    55
    55
    40
    50
    45
    soccer
    man
    The plays with friends
    Transformer
    レイアウト
    30
    x0
    y0
    x1
    y1
    5
    OCR
    5
    1 2 3 4
    1-16のクラスを予測

    View full-size slide

  40. 事前学習としてのテキスト認識 [Kim+, arixiv21]
    n テキスト認識タスクを事前学習で⾏うことで,前処理にOCRを⾏わ
    ずに済み,⽂書画像単体の⼊⼒のみでも⼀定の効果を確認
    l OCRありモデルよりも推論速度が2~4倍⾼速
    l OCRありモデルと⽐べると,QAタスクの精度は劣っているものの,⽂書画像
    分類タスクではコンパラの精度.画像全体の雰囲気を掴むことには成功してい
    るものの,⽂脈理解には改善の余地が⾒られる
    39
    テキスト検出は⾏わず,画像
    全体のテキスト認識を⾏う
    https://arxiv.org/abs/2111.15664

    View full-size slide

  41. 40
    データセット

    View full-size slide

  42. データセットの動向
    n 視覚情報に含まれる⾔語情報の理解が,⽂脈理解が必要に
    n 視覚物体 (アイコンなど) とテキストとの融合理解が必要に
    n 演算や要約的に回答を⽣成するなど回答のスタイルは多様に
    n 複数⽂書に対する理解が必要に
    41
    Dataset Source 単語数 視覚物体 複数⽂書 回答スタイル
    VQA [Agrawal+, ICCV15]
    ⽇常⾵景 ? 選択肢
    Text-VQA [Singh+, CVPR19]
    ⽇常⾵景 12 ⽣成型
    DocVQA [Mathew+, WACV21]
    ビジネス⽂書 182 抽出型
    VisualMRC [Tanaka&Nishida+, AAAI21]
    Webスクショ 151 ⽣成型
    WebSRC [Chen+, EMNLP21]
    Webスクショ ? 抽出型
    InfographicVQA [Mathew+, WACV22] インフォグラフィック 218 抽出型+⽣成
    型+演算
    DocCVQA [Tito+, arXiv21] ビジネス⽂書 ? 抽出型

    View full-size slide

  43. VQA [Agrawal+, ICCV15]
    n ⽇常⾵景の写真を基に,質問応答
    l 回答の多様性が低く、画像中に⾔語情報があまり含まれない
    42
    What color are her eyes?
    Answer: Brown
    Is this a vegetarian pizza?
    Answer: No
    Does it appear to be rainy?
    Answer: No
    https://arxiv.org/abs/1505.00468

    View full-size slide

  44. Text-based VQA [Singh+, CVPR19]
    n 画像中のテキストを含めたVQAタスク
    l 画像中に含まれる単語数 (平均約10単語) は⾮常に少ないため,単語レ
    ベルの⾔語理解で⼗分
    43
    What does the white sign say?
    Answer: Tokyo Station
    What is the top oz?
    Answer: 16
    What edition is this?
    Answer: embossed
    https://arxiv.org/abs/1904.08920

    View full-size slide

  45. DocVQA [Mathew+, WACV21]
    n ビジネス⽂書画像を対象とした質問応答
    l 画像中に含まれる単語数は約180単語であり,⽂脈理解が必要
    l 回答は画像中のテキストから抽出
    l 対象⽂書の多くは,1960年代くらいの古い⽂書
    44
    Mention the ZIP code written?
    Answer: 80202
    What is the date given at the
    top left?
    Answer: 03/17/98
    What is the Extension Number
    as per the voucher?
    Answer: (910) 741-0673
    https://arxiv.org/abs/2007.00398

    View full-size slide

  46. DocVQAリーダボード (ʻ22/3/11時点)
    n ⼈間のスコアとは開きあり
    l 特に,Figure/DiagramやImage/Photoにおける精度が課題
    45
    ANLSスコア: モデルの予測と正解回
    答集合との平均編集距離
    https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=1

    View full-size slide

  47. VisualMRC [Tanaka&Nishida+, AAAI21]
    n Webページのスクリーンショット画像に関する質問応答
    l 現代の多様なWeb⽂書画像に基づく⼤規模QAデータ
    l ⽂書の領域 (Region-Of-Interest)を全て⼈⼿でアノテーション
    l ⽣成(要約)型のQAデータ
    46
    https://ojs.aaai.org/index.php/AAAI/article/view/17635

    View full-size slide

  48. VisualMRCのデータ公開中︕
    47
    https://github.com/nttmdlab-nlp/VisualMRC
    VisualMRC github

    View full-size slide

  49. WebSRC [Chen+, EMNLP21]
    n Webページのスクリーショット画像に関する質問応答
    l Key-value,⽐較,表に関するWebページが対象
    l メタデータとして,HTMLソースが利⽤可能
    l 回答はテキストの中から抽出
    48
    Webページのスクリーショット
    HTMLソース
    OCRテキスト
    QA
    https://aclanthology.org/2021.emnlp-main.343/

    View full-size slide

  50. InfographicVQA [Mathew+, WACV22]
    n インフォグラフィック (アイコンや図などで表現された⽂書画像) に対
    する質問応答
    l 従来のデータと⽐べて,視覚物体とテキストとの融合理解が最も問われる
    l 演算を含む様々なスタイルでの回答が必要
    49
    How many females are affected
    by diabetes?
    single span
    Which all are the benefits of inve
    sting in real estate?
    multi-span
    What percentage of recruiters do "not"
    react negatively to poor spellings and
    punctuation errors?
    number (non-span)
    Answer: 3.6% Answer: 35% *(100 – 65)
    Answer: tax, tangibility, cash returns

    View full-size slide

  51. Document Collection VQA [Tito+, arXiv21]
    n 複数の⽂書画像を⼊⼒として,質問に関連する⽂書を検索し,
    質問応答を⾏うタスク
    l ⽂書候補は14,362件,QAペアが20件 (train: 8件,test: 12件)
    l データ規模が影響し,ルールベースやSQLベースの⼿法が善戦
    50
    https://arxiv.org/abs/2111.05547

    View full-size slide

  52. 関連: DUE [Borchman+, NeurIPS21]
    n 質問応答タスクを含めた汎⽤的な⽂書画像理解に向けた
    ベンチマークデータセット
    l ⽂書画像に対する質問応答,情報抽出,⾔語推論タスクをカバー
    l 最終的な精度に⼤きく影響の与えるOCR出⼒結果も提供
    51
    https://duebenchmark.com/leaderboard
    質問応答
    情報抽出
    ⾔語推論

    View full-size slide

  53. 52
    視覚的読解の精度を競うコンペティション

    View full-size slide

  54. Document VQA Challenge
    n AmazonやIIT-Hyderabadに所属する研究者が主催となって⾏
    なっている⽂書画像に対する質問応答の精度を競う⼤会
    l ʼ20年の⼤会: (a) Single Document VQAタスク
    l ʼ21年の⼤会: (b) DocCVQAタスク,(c) InfographicVQAタスク
    u InfographicVQAには,Naver,北京⼤など18チーム337投稿
    53
    https://arxiv.org/abs/2111.05547
    我々が参加したタスク

    View full-size slide

  55. InfographicVQAタスクの難しさ
    1. 視覚物体とテキストとの融合理解の能⼒を獲得・強化するには︖
    2. モデルが算術演算の能⼒を獲得・強化するには︖
    54
    ⼥性のアイコ
    ンとテキスト
    を理解
    100-60=40の
    演算が必要
    Q: How many females are affected by diabetes?
    A: 3.6%
    Q: What percentage of cases can not be prevented?
    A: 40%
    (⼥性の糖尿病患者の割合は︖)
    (糖尿病を予防できないケースの割合は︖)

    View full-size slide

  56. IG-BERT: 演算の過程と視覚物体が理解可能なモデル
    55
    n 提案⼿法のポイント
    1. 物体検出器を利⽤して視覚物体の領域𝑣!"#,意味クラスラベル𝑤!"# を
    追加⼊⼒し,視覚物体の役割を理解
    2. ⽳埋め事前学習 (MLM) により,テキストと視覚物体との対応づけが可能
    3. 演算の過程を⽣成
    配置情報
    トークン
    位置情報
    セグメント
    ポイント2
    キャプション
    質問⽂と回答
    ポイント3
    ポイント1
    40(100-60)

    View full-size slide

  57. 演算過程を学習可能なデータ拡張
    n 演算の過程を学習可能な新たなデータ拡張⼿法を提案
    56
    回答正解データ: 40%
    4.3% 3.6% 1 10 $6
    60%
    1. ⽂書から数値データの抽出
    2. 事前に⽤意した演算テンプレートに代⼊
    「60% + 4.3% = 64.3%」
    「100% - 60% = 40%」
    3. 回答正解データと⼀致するならデータに加える



    100% - 60%
    100-60=40の
    演算が必要
    Q: What percentage of cases can not be prevented?
    (糖尿病を予防できないケースの割合は︖)

    View full-size slide

  58. 事前学習データの収集
    n 視覚物体とテキストとの融合理解のための⼤規模⽂書データは存在しない
    n インフォグラフィックとキャプションの0.5Mペアを独⾃に収集
    1. Crawl: インフォグラフィックのWebページを対象に0.6Mページ,クロール
    2. Extract: HTMLソース中の,のテキストをキャプションとして抽出
    3. Filter: 3単語未満のキャプションの削除,infographicVQAに出現する画像の削除
    57
    https://dailyinfographic.com/fathers-day-facts
    (IIT-CDIP)
    https://www.cs.cmu.edu/~aharley/rvl-cdip/
    従来の事前学習データセット 我々の事前学習データセット
    Fatherʼs day facts for
    underappreciated dads
    グレースケールのビジネス⽂書,
    ドメインが6つに限定
    視覚物体を含むカラー画像,
    オープンドメイン

    View full-size slide

  59. n ⽂書テキストのみを使⽤するBERTと⽐べて,⼤幅な性能向上
    n 事前学習,データ拡張が性能向上に⼤きく寄与
    Ablation Study
    58
    Model モダール ANLS ANUM
    IG-BERT テキスト+視覚 0.275 0.166
    BERT テキスト 0.206 0.161
    BERT w/o データ拡張 テキスト 0.199 0.156
    IG-BERT w/o 事前学習 テキスト+視覚 0.176 0.123
    IG-BERT w/o データ拡張 テキスト+視覚 0.271 0.159
    正解集合との編集距離
    演算を必要とする正解集合
    との編集距離

    View full-size slide

  60. 提案法の⽣成例
    59
    質問: How many patients out pf 3, dose not use social media to seek out health information ?
    (3⼈の患者の内,健康情報を調べるためにsocial mediaを使⽤しないのは何⼈︖)
    BERT: 1
    LayoutLM: 3
    提案法: 2 (3-1)
    正解,提案法: 2
    LayoutLM: 3
    モデルが予測した演算過程
    BERT: 1

    View full-size slide

  61. コンぺティションでの結果 (上位チーム抜粋)
    60
    n 同程度のモデルサイズの中で最⾼精度を達成
    l 18チーム337投稿 中2位の精度を達成
    l データ量,モデルスケールによる差が⼀位との精度差の⼤きな要因
    参加チーム 事前学習⽂書数 教師あり追加学習
    サンプル数
    パラメータ数 ANLS
    Applica AI 1.0M+ 0.22M 780M 0.612
    NTT 0.5M 0 342M 0.385
    Naver 11M 0.12M NA 0.322
    Huawei合同 NA 0.2M NA 0.285
    北京⼤ - NA 340M 0.208

    View full-size slide

  62. n どの⽂書領域に対して,⼈間とは⼤きな精度の開きがある
    l ⽂書中のテキスト以外の視覚物体に関する質問に対して,精度が低い
    61
    ⽂書領域ごとの性能分析
    https://arxiv.org/abs/2111.05547
    Human Applica AI NTT

    View full-size slide

  63. 性能改善テクニック: データ拡張
    n Case Augmentation
    l ⽅法: OCRテキスト中の単語をランダムに⼤⽂字に変換して⼊⼒
    l モチベーション: ⼤⽂字の単語 (ex. CUTE) を含む⽂の理解に関する精度
    が劣化することが知られている [Powalski+, arXiv20]
    n Spatial Augmentation
    l ⽅法: bboxの幅,⾼さをランダムに伸縮させて⼊⼒
    l モチベーション: 推論時に,様々な⼤きさのbboxに対応できる
    62

    View full-size slide

  64. 性能改善テクニック: 教師データの活⽤
    n ⽂書画像を対象としていなくても,質問応答タスクに関連するタス
    クであれば,教師データとして追加事前学習を⾏う
    63
    https://arxiv.org/abs/2102.09550
    ⼀位のチームが試した教師ありデータ

    View full-size slide

  65. 宣伝: NLP22で発展版を発表します
    n 3/15 (⽕) 11:00-12:20の C1-3: 質問応答 (1)
    64
    https://www.anlp.jp/nlp2022/program.html#session_table

    View full-size slide

  66. 65
    今後の展望とまとめ

    View full-size slide

  67. 今後の展望
    n OCRや物体検出などの前処理が不要な視覚的読解モデル
    n 多⾔語対応可能な視覚的読解モデル
    66
    ⾔語を超えたレイアウトの
    共通概念は獲得できる︖
    OCR
    物体検出
    など
    視覚的読解
    モデル
    ⾼速化や汎⽤な物体
    理解には限界
    英語 中国語

    View full-size slide

  68. 本技術により拡がる可能性
    n オフィスシーンで多⽤される⽂書を⼈間のように視覚から情報を理
    解できることで,オフィスDXに資する重要技術となり得る
    67
    ⾃然⾔語指⽰による作業⾃動化
    専⾨調査レポート
    AI
    業界紙
    論⽂
    医薬情報提供
    ページ
    レポート
    A薬の症例に
    ついて教えて
    ⾒積書を
    帳票に⼊⼒して
    カスタマーサポート
    契約プランを変更
    したいのですが
    顧客
    データベース
    スーパーバイザ
    相談
    操作
    違約⾦が
    かかってしまいますが
    よろしいでしょうか…
    ⾒積書
    帳票
    AIと⼈のリアルタイムペアワーク
    その選択肢,
    エラーがありそうですよ
    マニュアル
    マニュアルと
    違いが無いか
    チェックしてね

    View full-size slide

  69. まとめ
    n ⽂書画像に対する質問応答
    l タスク設定: ⽂書を画像とし⾒做して,視覚的に理解し,QAを⾏う
    l 処理プロセス: ⽂書レイアウト解析,OCR,読み順解析など,視覚的読解
    n 視覚的読解モデルとデータセットの動向
    l モデル: レイアウト特徴の⼊⼒⽅法,画像特徴の系列化,事前学習の実施
    l データセット: 画像内のテキストの⽂脈理解,視覚物体との融合理解,回
    答スタイルの多様化,複数⽂書化
    n 今後の展望
    l OCRなどの前処理が不要な視覚的読解モデル
    l 多⾔語に対応可能な視覚的読解モデル
    68

    View full-size slide

  70. 参考⽂献 (視覚的読解モデル)
    n Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou, “LayoutLM: Pre-training of Text
    and Layout for Document Image Understanding”, in KDD20
    n Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, “LayoutLMv2: Multi-modal
    Pre-training for Visually-Rich Document Understanding”, in ACL21
    n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on
    Document Images”, in AAAI21
    n Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, Sungrae Park, “BROS: A Pre-
    trained Language Model Focusing on Text and Layout for Better Key Information Extraction from
    Documents”, in AAAI22
    n Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang, Luo Si, “StructuralLM: Structural
    Pre-training for Form Understanding”, in ACL21
    n Geewook Kim, Teakgyu Hong, Moonbin Yim, Jinyoung Park†, Jinyeong Yim, Wonseok Hwang†, Sangdoo
    Yun, Dongyoon Han, Seunghyun Park, “Donut : Document Understanding Transformer without OCR”, in
    arXiv21111.15664
    n Srikar Appalaraju, Bhavan Jasani, Bhargava Urala Kota, Yusheng Xie, R. Manmatha, “DocFormer: End-to-
    End Transformer for Document Understanding”, in CVPR21
    n Rafał Powalski, Łukasz Borchmann, Dawid Jurkiewicz, Tomasz Dwojak, Michał Pietruszka, Gabriela Pałka, ”
    Going Full-TILT Boogie on Document Understanding with Text-Image-Layout Transformer”, in
    ICDAR21
    n Xiang Deng, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Huan Sun, “DOM-LM: Learning
    Generalizable Representations for HTML Documents”, in arXiv:2201.10608
    69

    View full-size slide

  71. 参考⽂献 (視覚的読解データセット)
    n Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, Devi
    Parikh, “Visual Question Answering”, in ICCV15
    n Singh, Amanpreet and Natarjan, Vivek and Shah, Meet and Jiang, Yu and Chen, Xinlei and Parikh, Devi and
    Rohrbach, Marcus, “Towards VQA Models That Can Read”, in CVPR19
    n Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, C.V., “DocVQA: A Dataset for VQA on
    Document Images”, in WACV21
    n Ryota Tanaka, Kyosuke Nsihida, Shuichi Nishioka, “VisualMRC: Machine Reading Comprehension on
    Document Images”, in AAAI21
    n Minesh Mathew and Viraj Bagal and Rubèn Pérez Tito and Dimosthenis Karatzas and Ernest Valveny and C.
    V Jawahar, “InfographicVQA”, in WACV22
    n Ruben Tito, Dimonsthenis Karazas, Ernest Valveny, “Document Collection Visual Question Answering”,
    in arXiv: 2104.14336
    n Xingyu Chen, Zihan Zhao, Lu Chen∗ , Jiabao JI, Danyang Zhang, Ao Luo, Yuxuan Xiong and Kai Yu,
    “WebSRC: A Dataset for Web-Based Structural Reading Comprehension”, in EMNLP21
    n Zilong Wang, Yiheng Xu, Lei Cui, Jingbo Shang, Furu Wei, “LayoutReader: Pre-training of Text and
    Layout for Reading Order Detection”, in EMNLP21
    n Łukasz Borchmann, Michał Pietruszka, Tomasz Stanislawek, Dawid Jurkiewicz, Michał Turski, Karolina
    Szyndler, Filip Graliński, “DUE: End-to-End Document Understanding Benchmark”, in NeurIPS21
    dataset track
    70

    View full-size slide

  72. 参考⽂献 (その他)
    n Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh, “TextCaps: a Dataset for Image
    Captioning with Reading Comprehension”, in ECCV20
    n Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, “Faster R-CNN: Towards Real-Time Object
    Detection with Region Proposal Networks”, in arXiv:1506.01497
    n Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo, “Swin
    Transformer: Hierarchical Vision Transformer using Shifted Windows”, in ICCV21
    n Alexey Dosovitskiy · Lucas Beyer · Alexander Kolesnikov · Dirk Weissenborn · Xiaohua Zhai · Thomas
    Unterthiner · Mostafa Dehghani · Matthias Minderer · Georg Heigold · Sylvain Gelly · Jakob Uszkoreit · Neil
    Houlsby, “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”, in
    ICLR21
    n Carlos Soto, Shinjae Yoo, “Visual Detection with Context for Document Layout Analysis”, in EMNLP19
    n Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, “BERT: Pre-training of Deep
    Bidirectional Transformers for Language Understanding”, in NAACL19
    n Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy, “SpanBERT:
    Improving Pre-training by Representing and Predicting Spans”, in TACL21
    n Xu Zhong, Jianbin Tang, Antonio Jimeno Yepes, “PubLayNet: largest dataset ever for document layout
    analysis”, in ICDAR19
    71

    View full-size slide