Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語処理学会第27回年次大会(NLP2021)ワークショップ:AI王 〜クイズAI日本一決定戦〜 招待講演資料

Kyosuke Nishida

March 19, 2021
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. ⾔語と視覚に基づく
    質問応答の最新動向
    NTTメディアインテリジェンス研究所
    ⻄⽥京介
    2021年3⽉19⽇ @⾔語処理学会第27回年次⼤会(NLP2021)ワークショップ2
    AI王 〜クイズAI⽇本⼀決定戦〜

    View Slide

  2. • 2008年 博⼠(情報科学),北海道⼤学
    • 2009年 NTT⼊社
    – 2009〜2015︓SNS・位置情報マイニング
    – 2016〜︓⾃然⾔語処理,特に機械読解(QA)
    – 2020〜︓Vision & Language の研究開発を開始
    • 現在,NTT MD研 特別研究員
    ⾃⼰紹介︓⻄⽥京介
    GPSデータからの
    滞在POI推定
    [⻄⽥+, UbiComp14]
    読解&検索
    [⻄⽥+, CIKM18,ACL19]
    NLP18最優秀,NLP19優秀
    MS MARCO QA/NLG
    Vision-and-language 機械読解
    [Galvan(東北⼤), ⻄⽥+, LANTERN20]
    [⽥中, ⻄⽥+, AAAI21]
    NLP20優秀,NLP21最優秀
    2

    View Slide

  3. • あらゆる環境でAIが⼈と共⽣するためには,
    ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある
    3
    視覚情報に含まれる⾔語情報

    View Slide

  4. 検索
    FAQ集
    4
    ビジネスシーンの例︓コンタクトセンタAI
    お客様
    電話
    チャット
    コンタクトセンタ
    質問
    契約書・マニュアルなど
    検索+読解
    オペレータ
    応答
    質問
    ⽀援
    AI
    • QAの知識源として使いたい⽂書データは,殆どがプレーンテキ
    ストではなく,PDF⽂書やスライド形式になっている
    • より正確な理解のためには,表や図,イラストなど視覚情報を
    ⾔語と結びつけて理解しなければならない

    View Slide

  5. • 今のクイズゲームやクイズ番組はビジュアル要素が強い
    • テキストベースのQAでは太⼑打ちできない
    5
    クイズAIもVision-and-Languageへ︖
    クイズマジックアカデミー 軌跡の交叉 -Xross Voyage-
    画像の4択 回転する⽂字を認識 画像中の位置を選択

    View Slide

  6. • 私のモチベーション︓検索も含めたオープンドメインQAを
    Vision-and-Languageへ発展させていきたい
    • 本⽇の講演︓Vision-and-Languageの検索と読解のそれぞれ
    について,どのような取り組みがあるかを紹介します
    6
    QAのVision-and-Languageへの発展
    知識源
    質問(テキスト) 回答(テキスト)
    +エビデンス
    検索
    読解
    Top-K
    (テキスト&⽂書画像集合)

    View Slide

  7. 1. 事前学習モデルによるVQAと画像検索の動向
    – Vision-and-Language事前学習の概要
    – VQAへの適⽤
    – Image Retrievalへの適⽤
    2. 視覚情報の中の⾔語情報の理解
    – タスク・データの発展
    – 我々のデータセット VisualMRC のご紹介
    3. 今後のVision-and-Language事前学習モデルの⽅向性
    – 画像の系列表現に関して
    – OCRを組み込んだモデル
    – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒
    7
    ⽬次

    View Slide

  8. Vision-and-Language
    事前学習の概要

    View Slide

  9. 1. Webから⼤量の画像とキャプションのペアを収集
    2. 画像を系列データとして捉えて,テキストの単語系列と併
    せてTransformerエンコーダに⼊⼒
    3. 事前学習タスクはMasked LMとImage-Text Matchingが中⼼
    9
    V&L事前学習の概要
    Web
    店内でオレンジ
    ジュースをカップ
    に注いでいる⼥性
    ⼤量に収集
    https://cocodataset.org/#explore?id=306267
    Transformerエンコーダ
    [SEP] 店内 で オレンジ … ⼥性
    [CLS] …
    系列化
    ⼥性?
    [MASK]
    各トークンの
    ⽳埋め問題
    本当に存在する
    画像とキャプションのペアか︖
    True?

    View Slide

  10. • 画像とキャプションのペアのコーパスが最近⽴て続けに構
    築・利⽤されている
    • Conceptual CaptionsベースでWebから⼤量に収集する⽅式が
    主流.OpenAIは2.5億個のペアを収集.
    10
    1) 画像・テキストペアの⼤規模コーパス
    CC
    ベース
    公開 画像数 テキ
    スト数
    SBU Captions [Ordonez +,NIPS11] ○ 1M 1M
    COCO Captions [Lin+, ECCV14] ○ 106K 533K
    Visual Genome Dense Caption [Krishna+,IJCV17] ○ 108K 5.4M
    Conceptual Captions [Sharma+, ACL18] ✔ ○ 3.3M 3.3M
    OCR-CC [Yang+, arXiv’20/12] ✔ ×? 1.4M 1.4M
    Conceptual Captions 12M [Changpinyo+,arXiv’21/02] ✔ ○ 12.4M 12.4M
    OpenAI’s internal dataset [Ramesh+, arXiv’21/02] ✔ × 250M 250M
    WIT [Srinivasan+,arXiv’21/03] ○ 11.5M 37.6M

    View Slide

  11. • 300万件の(画像,キャプション)の組
    • WebからAlt-textと画像のペアをクロール.Alt-textの固有名
    詞について上位語に変換しConceptual Captionsを⾃動⽣成
    Conceptual Captions [Sharma(Google)+, ACL18]
    https://www.aclweb.org/anthology/P18-1238/
    11

    View Slide

  12. Conceptual Captions [Sharma(Google)+, ACL18]
    https://www.aclweb.org/anthology/P18-1238/
    12
    ⽐率が極端な
    物は✗
    前置詞・名詞・
    冠詞が無い物
    は✗
    Google APIで
    付与した物体
    ラベルとマッ
    チしない物は✗
    上位語に変換
    して⼀般的な
    キャプションへ

    View Slide

  13. 13
    CC12M [Changpinyo(Google)+,arXiv’21]
    • 事前学習⽤に量を優先し,フィルタリング条件を緩和して
    1200万件の(画像,キャプション)の組を獲得
    https://arxiv.org/abs/2102.08981
    • ⼈名を除き,上位語
    への変換を廃⽌
    • 画像の⽐率は2.5まで
    緩和(短い⽅が400ピ
    クセル以上)
    • 前置詞のフィルタは
    廃⽌
    • その他,テキストの
    フィルタを幾つか廃

    View Slide

  14. • 画像からFaster R-CNNなどによりオブジェクトを検出し,1
    つの系列に並べる
    • VQAではオブジェクトの種類や個数が問われる事が多いため,
    このアプローチが⼀般的
    14
    2) 画像を系列データとして扱う
    画像
    N個のオブジェクトの特徴ベクトル系列

    https://arxiv.org/abs/1908.03557
    ℝ!×#

    View Slide

  15. • BERTと同様に単語をマスクして⽳埋め問題を解く
    • 画像側のトークンをマスクした⽳埋め問題(特徴量の再現や
    オブジェクトのクラス分類)を解く場合もあり
    15
    3) 事前学習タスク: Masked Language/Region Modeling
    Transformerエンコーダ
    ⼥性
    [SEP] 店内 で オレンジ … ⼥性
    [CLS] … [MASK] [MASK]

    View Slide

  16. • データセットの中にあるペア(正例)とランダムサンプリン
    グで作った負例のペアを⾒分けるタスク
    • このタスクも⼤量にデータを⽤意できる
    16
    3) 事前学習タスク: Image-Text Matching
    Transformerエンコーダ
    Matching /
    Not-matching
    ランダムに⼊れ替え
    [SEP] ⾺ に 跨って …… いる 少年
    [CLS] …

    View Slide

  17. VQA / 画像検索への適⽤
    17

    View Slide

  18. • 画像に対する質問応答.頻出回答3129種を候補として分類
    問題として扱われる場合が多い.
    18
    VQA(Visual Question Answering)
    VQA 2.0 [Goyal(Virginia Tech)+, CVPR17] に含まれるサンプル
    https://ieeexplore.ieee.org/document/8100153

    View Slide

  19. 19
    ファインチューニング
    Transformerエンコーダ
    [SEP] How many children are in the bed ?
    2
    • 画像キャプションで事前学習したモデルを基に,
    QAデータを使って画像と質問⽂から回答を分類するタスク
    としてファインチューニング
    質問⽂
    回答(クロスエント
    ロピー損失で学習)
    画像(オブジェクト系列)

    View Slide

  20. • 2019/08頃からTransformerのV&L事前学習の応⽤が進む
    • RNN/CNNベース+V&L事前学習を使わないモデルも強い
    20
    VQA 2.0における性能の発展
    Pythia V0.1 (30 ensemble) 2018
    Up-down model (30 ensemble) 2017
    72.18
    70.34
    UNITER
    MCAN
    test-stdの精度
    VinVL
    Oscar
    VilBERT
    LXMERT
    VILLA ERNIE-vil
    Pixel-BERT
    MCAN+MoVie

    View Slide

  21. 21
    Image Retrieval
    • クエリをテキストとした画像検索(マッチング)タスク
    • MS-COCOやFlickr30k が評価に使われる
    モデル出⼒例
    (緑が正解)
    Flickr30k [Young+, TACL14]
    に対する結果の例
    https://openaccess.thecvf.com/content_ECCV_2018/html/
    Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.html

    View Slide

  22. 22
    ファインチューニング
    Transformerエンコーダ
    [SEP] A man riding a motorcycle is performing …
    0.05
    • VQAと同様に画像とクエリを1系列で⼊⼒
    • 損失にはranking / binary classification lossが使われる
    クエリ
    関連度
    画像(オブジェクト系列)

    View Slide

  23. • ⼤規模な検索の場合,全データに対してクエリとの関連度を
    計算する必要があるモデルは速度⾯で苦しい
    • そこで,クエリと⽂書を独⽴にベクトル化するデュアルエン
    コーダ形式の事前学習モデルが検討され始めた(テキスト検
    索のDPR [Karpukhin+, EMNLP20]と同じ形式)
    23
    デュアルエンコーダへの発展
    Cross-encoder
    質問⽂
    画像
    スコア
    質問⽂
    画像
    スコア
    Image
    encoder
    Text
    encoder
    クロスエンコーダ デュアルエンコーダ
    ベクトル ベクトル

    View Slide

  24. 24
    LightningDOT [Sun+ (Microsoft), NAACL’21]
    • デュアルエンコーダタイプの事前学習モデル
    • 内積のobjective(CMR)に加えて,クロスモーダル化した
    Masked Language/Region Modelingを実施
    • 密ベクトル検索にはFAISS [Johnson+, 2017] を利⽤.画像約
    12万枚からの検索時,クロスエンコーダタイプより23869倍
    ⾼速に検索
    https://arxiv.org/abs/2103.08784

    View Slide

  25. • 2019/08頃からクロスエンコーダタイプのV&L事前学習で
    ファインチューニング無しに⾼い性能を実現
    • デュアルエンコーダタイプのCLIPがSOTAを達成
    25
    Flickr30k(zero-shot)における性能の発展
    Visual N-grams [Li+, ICCV 2017]
    29.9
    UNITER
    Flickr30k [email protected] (Zero-shot)
    VilBERT
    Unicoder-VL
    CLIP

    View Slide

  26. 1. 事前学習モデルによるVQAと画像検索の動向
    – Vision-and-Language事前学習の概要
    – VQAへの適⽤
    – Image Retrievalへの適⽤
    2. 視覚情報の中の⾔語情報の理解
    – タスク・データの発展
    – 我々のデータセット VisualMRC のご紹介
    3. 今後のVision-and-Language事前学習モデルの⽅向性
    – 画像の系列表現に関して
    – OCRを組み込んだモデル
    – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒
    26
    ⽬次

    View Slide

  27. • あらゆる環境でAIが⼈と共⽣するためには,
    ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある
    27
    視覚情報に含まれる⾔語情報

    View Slide

  28. 28
    現在の動向(タスク・データ)
    これまでのVQAや画像検索
    ・キャプショニング
    画像中のテキストを
    考慮したタスクへ
    単語レベルから⽂・⽂書へ
    グラフや表なども併せた
    理解まで広がる
    • VQAやキャプショニングを発展させ,視覚情報に含まれる⾔
    語情報に着⽬したタスクやデータセットの整備が2019年頃か
    ら急速に進み始めた

    View Slide

  29. • ⽬の⾒えない⽅の撮影した写真および話し⾔葉によるVQA
    • 全体の20%程度にテキストが含まれている
    29
    VizWiz [Bigham+, UIST’10][Gurari+, CVPR’18]
    https://openaccess.thecvf.com/content_cvpr_2018/html/
    Gurari_VizWiz_Grand_Challenge_CVPR_2018_paper.html

    View Slide

  30. • 画像中のテキスト認識が必要なデータセット
    • 画像は⽇常光景,含まれる単語は少なめ(10単語程度)
    30
    TextVQA [Singh+(Facebook), CVPR’19]
    https://openaccess.thecvf.com/content_CVPR_2019/html/
    Singh_Towards_VQA_Models_That_Can_Read_CVPR_2019_paper.html

    View Slide

  31. • ⽂書画像に対するVQAデータセット
    • 含まれる単語数は多い(平均150単語程度),⽂書は古い
    31
    DocVQA [Mathew+ (IIIT Hyderabad), WACV’21]
    https://arxiv.org/abs/2007.00398

    View Slide

  32. • Key-value, ⽐較, 表の3種類のデータに対する視覚的な読解.
    • 画像と元になったHTMLソースを両⽅提供している.
    32
    WebSRC [Chen(Shanghai Jiao Tong U)+, arXiv’21/01]
    https://arxiv.org/abs/2101.09465

    View Slide

  33. • インフォグラフィックに対するVQA
    • これまでの物に⽐べてグラフやアイコンに対する理解が重要
    となる
    33
    Infographics VQA [Robust Reading Challenge, 2021]
    Q. How many females are affected by
    diabetes
    A. 3.6%
    Q. What percentage of cases can be
    prevented
    A. 60%
    Q. What could lead to blindness or
    stroke
    A. diabetes
    https://rrc.cvc.uab.es/?ch=17

    View Slide

  34. • Webページのスクリーンショットに基づく視覚的読解.
    • ⽂書レイアウト理解と⽣成型機械読解を統合した問題設定
    34
    VisualMRC [Tanaka & Nishida+ (NTT), AAAI’21, NLP’21]
    全ての領域をアノテーション︓
    9つの意味クラスに分類
    約30,000件のQAを作成
    回答は⽣成型
    https://arxiv.org/abs/2101.11272
    約10,000枚の画像を収集
    https://github.com/nttmdlabnlp/VisualMRC

    View Slide

  35. 35
    VisualMRCの構築フロー
    ドメイン選定
    スクリーンショット
    画像切り出し
    ROIアノテーション
    要約型のQA作成/
    回答根拠ROI選択
    94 workers
    45 workers
    495 workers
    10,197 画像,30,562QA
    クラウドワーカ作業
    • 35のドメインからWebページのスクリーンショットを取得し,
    クラウドソーシング(北⽶英語のネイティブスピーカー)により
    約10,000枚の画像と30,000件の質問応答データセットを作成

    View Slide

  36. 36
    Region-of-Interestのアノテーション
    • ⽂書中のROIを以下の9クラスに分類してアノテーション
    • ⽂書レイアウト理解と機械読解を統合したデータは
    VisualMRCのみ
    クラス 説明
    段落 本⽂となるテキスト
    タイトル
    サブタイトル 著者名も含む
    画像 写真やイラスト
    データ グラフやテーブル
    サブデータ データ内のテキスト
    キャプション データの説明⽂
    リスト 箇条書き
    その他
    ROIアノテーションツール

    View Slide

  37. • 画像中のテキストも含めたキャプショニングタスク
    • 既存のモデルは画像中のテキストを読めない
    37
    関連︓TextCaps [Sidorov+ (Facebook), ECCV’20]
    https://arxiv.org/abs/2003.12462

    View Slide

  38. • Android UIの要素に対するキャプション⽣成
    38
    関連︓Widget captioning [Li+, EMNLP’20]
    https://www.aclweb.org/anthology/2020.emnlp-main.443/

    View Slide

  39. • 論⽂PDFからスライドを⽣成(マルチモーダル要約)
    39
    関連︓DOC2PPT [Fu+ (UCSB, Microsoft), arXiv’21]
    https://arxiv.org/abs/2101.11796
    https://doc2ppt.github.io/

    View Slide

  40. 1. 事前学習モデルによるVQAと画像検索の動向
    – Vision-and-Language事前学習の概要
    – VQAへの適⽤
    – Image Retrievalへの適⽤
    2. 視覚情報の中の⾔語情報の理解
    – タスク・データの発展
    – 我々のデータセット VisualMRC のご紹介
    3. 今後のVision-and-Language事前学習モデルの⽅向性
    – 画像の系列表現に関して
    – OCR結果の組み込みに関して
    – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒
    40
    ⽬次

    View Slide

  41. 画像を系列としてどう扱うか
    41

    View Slide

  42. • 現在はオブジェクトの系列とするのが主流
    • すべての下流タスク・画像ドメインに対して効果的な⽅法は
    あるか︖
    42
    画像をどう扱うか
    グリッドベース
    分類など全体を理解する
    タスクではこちらが有効︖
    オブジェクトベース
    VQAなど,被写体の種類や
    個数が重要な場合に有効︖
    http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.htm

    View Slide

  43. • 画像パッチを単語とみなす632MのTransformerエンコーダ
    • 画像は最初にパッチに分割した後,線形変換で埋め込み
    • 3億枚以上の画像分類で事前学習し,ImageNet等でSOTA
    43
    Vision Transformer (ViT) [Dosovitskiy + (Google), ICLR’21]
    https://arxiv.org/abs/2010.11929
    位置は1D
    線形変換
    ℝ("!#$)×'
    パッチ
    ℝ"!#$
    14x14あるいは16x16 分割

    View Slide

  44. • ViTの画像系列表現は単純なパッチ系列(hard split)ベース
    のため,CNNで捉えられていたようなエッジや線,テクス
    チャは⼗分に捉えられていない
    44
    単純なパッチ分割で良いのか︖ [Yuan+ (NU Singapore)+, arXiv’21]
    https://arxiv.org/abs/2101.11986
    緑の特徴量はエッジ
    などの局所表現
    ゼロや⼤きな値などが特
    徴表現に⼊ってくる

    View Slide

  45. • 巨⼤な Transformerデコーダ によるText-to-imageモデル
    – パラメータ数は最⼤12B(ViTの約20倍)
    • ⼤量の画像・説明⽂ペアから学習,⽣成画像のレベルが⾼い
    • 画像は1024(32x32)のコード系列(8192種)として扱う
    45
    DALL·E [Radford+ (OpenAI), blog 2021/01]
    https://openai.com/blog/dall-e/

    View Slide

  46. • 画像は1024(32x32)のコード系列(8192種)として扱う
    • 画像óコード系列の変換器(discrete VAE)を別途⽤意
    – ⼊⼒画像は256x256,ダウンサンプリングを3回して32x32へ
    46
    DALL·E [Radford+ (OpenAI), blog 2021/01]
    an armchair … an avocado …

    armchair … an avocado
    テキストに続けて32x32のコード系列を⽣成 デコード

    画像説明⽂

    View Slide

  47. ⽅式
    処理
    (出⼒ベクトル)
    私⾒
    region
    Faster R-CNN等で𝑁個の物体検出 J VQA系で強い
    L 物体検出器が必要
    L 画像全体を捕えるの
    は弱い︖
    ℝ(×)
    grid
    ResNet等で𝐻×𝑊個の特徴ベクトルに変換 J ⾼速に動作
    J 物体検出器が不要
    L VQA系でやや弱い︖
    ℝ(*×+)×)
    patch
    1) 𝐻×𝑊個のパッチに分割 2) それぞれ
    線形変換
    J 最もシンプル(線形
    変換のみ)
    J 画像分類に強い
    L VQA系で弱い︖
    ℝ(*×+)×("×"×$) ℝ(*×+)×)
    code
    1) Discrete VAE等で
    𝐻×𝑊個の離散値に変換
    2) それぞれ
    線形変換
    J 物体検出器が不要
    J Transformerで⾔語と
    ⼀緒に扱いやすい︖
    L コード変換器が必要
    𝑉*×+ ℝ(*×+)×)
    47
    画像の系列化のまとめ

    View Slide

  48. OCR結果の組み込みに関して
    48

    View Slide

  49. • OCR(Scene Text Recognition)⾃体の研究も⾼度化が進んで
    おり,OCR結果をV&Lモデルに組み込む取り組みが進む
    49
    ⽂字認識(OCR/STR)の組み込み
    https://arxiv.org/abs/2005.03492

    View Slide

  50. • TextVQA⽤のベースラインモデル
    • 画像からOCR+物体検出して,マルチモーダルTransformer
    でエンコーディングし,Pointer-Generatorで説明⽂を⽣成
    • OCRトークンは座標情報および画像表現も考慮
    • 事前学習モデルは使っていない
    50
    M4C [Hu+ (Facebook), CVPR’20]
    https://openaccess.thecvf.com/content_CVPR_2020/papers/Hu_Iterative_Answer_Prediction_With_Pointer-
    Augmented_Multimodal_Transformers_for_TextVQA_CVPR_2020_paper.pdf

    View Slide

  51. • TextVQA, TextCaps⽤の事前学習モデル
    • OCRトークンでテキストを拡張しつつ,オブジェクトとOCR
    トークンの相対位置についても学習
    51
    TAP [Yang+ (Microsoft), CVPR21]

    View Slide

  52. • ⼤量の⽂書画像を基に,OCRトークン+座標情報の系列で事
    前学習(重みの初期値はBERTを利⽤)
    • ダウンストリームタスクではOCRトークンの画像表現も利⽤
    52
    LayoutLM [Xu+ (MSRA), KDD’20]
    https://dl.acm.org/doi/10.1145/3394486.3403172

    View Slide

  53. • ⼤量の⽂書画像を⽤いて事前学習,DocVQA等でSOTA
    • 各OCR単語の2次元の位置と,⽂書画像表現(7x7)を考慮
    53
    LayoutLMv2 [Xu+ (MSRA), arXiv’20]
    https://arxiv.org/abs/2012.14740
    7x7のグリッドベース画像表現

    View Slide

  54. • 事前学習済T5モデルを⽂書レイアウト解析とOCR結果で拡張
    • 領域の意味クラス,位置情報,画像情報を埋め込みに追加
    54
    LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21]
    https://arxiv.org/abs/2101.11272
    デコーダ
    エンコーダ
    OCR
    領域検出
    質問⽂
    質問⽂
    +⽂書画像
    +領域トークン +OCRトークン
    出⼒︓回答⽂
    領域クラス,領域座標,画像表現
    領域クラス,領域座標,画像表現
    1系列に
    連結
    ⼊⼒︓
    T5(事前学習済)

    View Slide

  55. 55
    LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21]
    https://arxiv.org/abs/2101.11272
    提案モデル: 77.3%.
    従来モデル: less than 1 percent.

    View Slide

  56. DALL·EやCLIPに学ぶ
    今後の⽅向性
    56

    View Slide

  57. • OCRを使っていないにも関わらず,ある程度⽂字を含む画像
    を⽣成できている
    • 8192種の「コード」の中で⽂字の表現を獲得できている︖
    57
    DALL·Eの⽣成
    https://openai.com/blog/dall-e/

    View Slide

  58. • 画像とテキストのマッチングを4億ペアから事前学習
    – DALL·Eの⽣成画像のリランキングにも使われている
    • 正しい画像・テキストペアを分類できるようにContrastive
    pre-trainingを⾏う(Masked LMは学習しない)
    58
    CLIP [OpenAI, tech. report 2021/01]
    画像とテキストをそ
    れぞれエンコーディ
    ングして内積を取る
    Vision Transformer
    やResNet
    (scratchから学習)
    Transformer(scratchから学習)
    https://cdn.openai.com/papers/Learning_Transferable_Visu
    al_Models_From_Natural_Language_Supervision.pdf

    View Slide

  59. • CLIPのvisual encoderとして使われたResNet50x4の最終層の
    畳み込み層のニューロンを調査
    • 各ニューロンが最も発⽕するような画像を最適化して獲得
    59
    CLIPのVisual neuronsの調査
    https://openai.com/blog/multimodal-neurons/
    https://microscope.openai.com/models/contrastive_4x/image_block_4_5_Add_6_0/865

    View Slide

  60. 60
    CLIPのVisual neuronsの調査
    https://distill.pub/2021/multimodal-neurons/
    • 画像中の⽂字を読みつつ,関連する特徴と結びつけてコー
    ディングされている

    View Slide

  61. 61
    Typographic Attacks
    https://distill.pub/2021/multimodal-neurons/
    • 画像中のテキストによって発⽕されるニューロンが制御でき
    る è 新しいAIへの攻撃に繋がる危険性がある
    • 画像分類の結果が⽂字の挿⼊により変わってしまった

    View Slide

  62. CLIPで商品ページ検索を試してみた
    Lenobo Chromebook MacBook Air M1 USB-C Adapter for
    MacBook Air M1
    What is the screen size of
    chromebook?
    What is the CPU chip of the
    latest macbook 13-inch?
    Is there a usb adapter that will
    work with MacBook Air M1?
    0.32 0.29 0.27
    0.26 0.31 0.28
    0.25 0.32 0.32
    モデルはCLIP ViT-B/32
    を利⽤
    https://github.com/o
    penai/CLIP
    63

    View Slide

  63. おわりに
    64

    View Slide

  64. • 我々は様々な視覚情報と結びつけて⾔語を理解している
    – 今後,視覚+⾔語のマルチモーダル事前学習モデルはますます重要視
    されていくであろう
    – NLPタスクにおいても,⾔語のみで事前学習したモデルを,⾔語+視
    覚で事前学習したモデルが超えていくかもしれない︖
    • 課題として,視覚情報の中の⾔語をどう理解するかが重要
    – オープンドメインQA関連はもちろん,⼈間・AI/ロボットの実世界で
    の共⽣,⾃動運転,などたくさんの重要分野に関わる
    – すべてをend-to-endにできるか︖サブタスクのモジュール化や,ナ
    レッジベースの利⽤とどう向き合っていくか︖
    – グラフや表の理解では数値演算も必要になるだろう
    • クイズAI王を作るために︓知識⼒の向上は今のV&L事前学習
    の⽅向性で良いのかもしれない.パズルやひらめき問題は解
    けるようになるか︖
    今後の展望
    65

    View Slide

  65. 参考⽂献
    66

    View Slide

  66. • Vicente Ordonez, Girish Kulkarni, Tamara L. Berg: Im2Text: Describing Images Using 1
    Million Captioned Photographs. NIPS 2011: 1143-1151
    • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva
    Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in
    Context. ECCV (5) 2014: 740-755
    • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr
    Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation
    Server. CoRR abs/1504.00325 (2015)
    • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz,
    Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li
    Fei-Fei: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense
    Image Annotations. Int. J. Comput. Vis. 123(1): 32-73 (2017)
    • Piyush Sharma, Nan Ding, Sebastian Goodman, Radu Soricut:
    • Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic
    Image Captioning. ACL (1) 2018: 2556-2565
    • Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei A. F. Florêncio, Lijuan Wang,
    Cha Zhang, Lei Zhang, Jiebo Luo: TAP: Text-Aware Pre-training for Text-VQA and Text-
    Caption. CoRR abs/2012.04638 (2020)
    • Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut: Conceptual 12M: Pushing
    Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. CoRR
    abs/2102.08981 (2021)
    • Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork: WIT:
    Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning.
    CoRR abs/2103.01913 (2021)
    ⼤規模画像キャプションデータ
    67

    View Slide

  67. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter:
    Elevating the Role of Image Understanding in Visual Question Answering. CVPR 2017: 6325-6334
    • Yash Goyal, Tejas Khot, Aishwarya Agrawal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the
    V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. Int. J. Comput.
    Vis. 127(4): 398-414 (2019)
    • Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier: From image descriptions to visual denotations:
    New similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguistics 2:
    67-78 (2014)
    • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C.
    Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755
    • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence
    Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015)
    68
    参考⽂献︓VQA, IR

    View Slide

  68. • Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee: ViLBERT: Pretraining Task-Agnostic
    Visiolinguistic Representations for Vision-and-Language Tasks. NeurIPS 2019: 13-23
    • Hao Tan, Mohit Bansal: LXMERT: Learning Cross-Modality Encoder Representations from
    Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110
    • Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng,
    Jingjing Liu: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104-
    120
    • Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang,
    Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao: Oscar: Object-Semantics Aligned
    Pre-training for Vision-Language Tasks. ECCV (30) 2020: 121-137
    • Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu: Pixel-BERT: Aligning
    Image Pixels with Text by Deep Multi-Modal Transformers. CoRR abs/2004.00849 (2020)
    • Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu: Large-Scale Adversarial
    Training for Vision-and-Language Representation Learning. NeurIPS 2020
    • Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang: ERNIE-ViL:
    Knowledge Enhanced Vision-Language Representations Through Scene Graph. CoRR
    abs/2006.16934 (2020)
    • Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi,
    Jianfeng Gao: VinVL: Making Visual Representations Matter in Vision-Language Models.
    CoRR abs/2101.00529 (2021)
    69
    参考⽂献︓V&L Transformers

    View Slide

  69. • Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey
    Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain
    Question Answering. EMNLP (1) 2020: 6769-6781
    • Jeff Johnson, Matthijs Douze, Hervé Jégou: Billion-scale similarity search with
    GPUs. CoRR abs/1702.08734 (2017)
    70
    参考⽂献: DPR & FAISS

    View Slide

  70. • Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould,
    Lei Zhang: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question
    Answering. CVPR 2018: 6077-6086
    • Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh: Pythia
    v0.1: the Winning Entry to the VQA Challenge 2018. CoRR abs/1807.09956 (2018)
    • Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen: MoVie: Revisiting Modulated Convolutions
    for Visual Counting and Beyond. ILCR 2021
    • Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten: Learning Visual N-Grams from
    Web Data. ICCV 2017: 4193-4202
    71
    参考⽂献︓⾮事前学習のVQA/IRモデル

    View Slide

  71. • Jeffrey P. Bigham, Chandrika Jayant, Hanjie Ji, Greg Little, Andrew Miller, Robert C. Miller, Robin Miller,
    Aubrey Tatarowicz, Brandyn White, Samuel White, Tom Yeh: VizWiz: nearly real-time answers to visual
    questions. UIST 2010: 333-342
    • Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P.
    Bigham: VizWiz Grand Challenge: Answering Visual Questions From Blind People. CVPR 2018: 3608-3617
    • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus
    Rohrbach: Towards VQA Models That Can Read. CVPR 2019: 8317-8326
    • Minesh Mathew, Dimosthenis Karatzas, R. Manmatha, C. V. Jawahar: DocVQA: A Dataset for VQA on
    Document Images. WACV 2021
    • Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu: WebSRC: A
    Dataset for Web-Based Structural Reading Comprehension. CoRR abs/2101.09465 (2021)
    • Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document
    Images. AAAI 2021
    • Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh: TextCaps: A Dataset for Image
    Captioning with Reading Comprehension. ECCV (2) 2020: 742-758
    • Tsu-Jui Fu, William Yang Wang, Daniel J. McDuff, Yale Song: DOC2PPT: Automatic Presentation Slides
    Generation from Scientific Documents. CoRR abs/2101.11796 (2021)
    • Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan: Widget Captioning: Generating Natural
    Language Description for Mobile User Interface Elements. EMNLP (1) 2020: 5495-5510
    72
    参考⽂献︓視覚情報に含まれる⾔語情報
    (データセット)

    View Slide

  72. • Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, Tianwei Wang: Text Recognition in the
    Wild: A Survey. CoRR abs/2005.03492 (2020)
    • Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach: Iterative Answer
    Prediction With Pointer-Augmented Multimodal Transformers for TextVQA. CVPR 2020:
    9989-9999
    • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou: LayoutLM: Pre-
    training of Text and Layout for Document Image Understanding. KDD 2020: 1192-1200
    • Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F.
    Florêncio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou: LayoutLMv2: Multi-modal
    Pre-training for Visually-Rich Document Understanding. CoRR abs/2012.14740 (2020)
    73
    参考⽂献︓視覚情報に含まれる⾔語情報
    (OCR組込モデル)

    View Slide

  73. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,
    Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly,
    Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16x16 Words: Transformers for Image
    Recognition at Scale. ICLR 2021.
    • Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng,
    Shuicheng Yan: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet.
    CoRR abs/2101.11986 (2021)
    • OpenAI Blog, DALL·E: Creating Images from Text. January 2021.
    https://openai.com/blog/dall-e/
    • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark
    Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. CoRR abs/2102.12092 (2021)
    • OpenAI Blog, CLIP: Connecting Text and Images. January 2021. https://openai.com/blog/clip/
    • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal,
    Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever:
    Learning Transferable Visual Models From Natural Language Supervision. CoRR
    abs/2103.00020 (2021)
    • OpenAI Blog, Multimodal Neurons in Artificial Neural Networks. March 2021.
    https://openai.com/blog/multimodal-neurons/ https://distill.pub/2021/multimodal-neurons/
    74
    参考⽂献︓ ViT / DALL·E / CLIP

    View Slide