Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語処理学会第27回年次大会(NLP2021)ワークショップ:AI王 〜クイズAI日本一決定戦〜 招待講演資料

067c2e9dfad1914df731f6f0d65d9890?s=128

Kyosuke Nishida

March 19, 2021
Tweet

Transcript

  1. ⾔語と視覚に基づく 質問応答の最新動向 NTTメディアインテリジェンス研究所 ⻄⽥京介 2021年3⽉19⽇ @⾔語処理学会第27回年次⼤会(NLP2021)ワークショップ2 AI王 〜クイズAI⽇本⼀決定戦〜

  2. • 2008年 博⼠(情報科学),北海道⼤学 • 2009年 NTT⼊社 – 2009〜2015︓SNS・位置情報マイニング – 2016〜︓⾃然⾔語処理,特に機械読解(QA)

    – 2020〜︓Vision & Language の研究開発を開始 • 現在,NTT MD研 特別研究員 ⾃⼰紹介︓⻄⽥京介 GPSデータからの 滞在POI推定 [⻄⽥+, UbiComp14] 読解&検索 [⻄⽥+, CIKM18,ACL19] NLP18最優秀,NLP19優秀 MS MARCO QA/NLG Vision-and-language 機械読解 [Galvan(東北⼤), ⻄⽥+, LANTERN20] [⽥中, ⻄⽥+, AAAI21] NLP20優秀,NLP21最優秀 2
  3. • あらゆる環境でAIが⼈と共⽣するためには, ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 3 視覚情報に含まれる⾔語情報

  4. 検索 FAQ集 4 ビジネスシーンの例︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど

    検索+読解 オペレータ 応答 質問 ⽀援 AI • QAの知識源として使いたい⽂書データは,殆どがプレーンテキ ストではなく,PDF⽂書やスライド形式になっている • より正確な理解のためには,表や図,イラストなど視覚情報を ⾔語と結びつけて理解しなければならない
  5. • 今のクイズゲームやクイズ番組はビジュアル要素が強い • テキストベースのQAでは太⼑打ちできない 5 クイズAIもVision-and-Languageへ︖ クイズマジックアカデミー 軌跡の交叉 -Xross Voyage-

    画像の4択 回転する⽂字を認識 画像中の位置を選択
  6. • 私のモチベーション︓検索も含めたオープンドメインQAを Vision-and-Languageへ発展させていきたい • 本⽇の講演︓Vision-and-Languageの検索と読解のそれぞれ について,どのような取り組みがあるかを紹介します 6 QAのVision-and-Languageへの発展 知識源 質問(テキスト)

    回答(テキスト) +エビデンス 検索 読解 Top-K (テキスト&⽂書画像集合)
  7. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 7 ⽬次
  8. Vision-and-Language 事前学習の概要

  9. 1. Webから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて,テキストの単語系列と併 せてTransformerエンコーダに⼊⼒ 3. 事前学習タスクはMasked LMとImage-Text Matchingが中⼼ 9

    V&L事前学習の概要 Web 店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内 で オレンジ … ⼥性 [CLS] … 系列化 ⼥性? [MASK] 各トークンの ⽳埋め問題 本当に存在する 画像とキャプションのペアか︖ True?
  10. • 画像とキャプションのペアのコーパスが最近⽴て続けに構 築・利⽤されている • Conceptual CaptionsベースでWebから⼤量に収集する⽅式が 主流.OpenAIは2.5億個のペアを収集. 10 1) 画像・テキストペアの⼤規模コーパス

    CC ベース 公開 画像数 テキ スト数 SBU Captions [Ordonez +,NIPS11] ◦ 1M 1M COCO Captions [Lin+, ECCV14] ◦ 106K 533K Visual Genome Dense Caption [Krishna+,IJCV17] ◦ 108K 5.4M Conceptual Captions [Sharma+, ACL18] ✔ ◦ 3.3M 3.3M OCR-CC [Yang+, arXiv’20/12] ✔ ×? 1.4M 1.4M Conceptual Captions 12M [Changpinyo+,arXiv’21/02] ✔ ◦ 12.4M 12.4M OpenAI’s internal dataset [Ramesh+, arXiv’21/02] ✔ × 250M 250M WIT [Srinivasan+,arXiv’21/03] ◦ 11.5M 37.6M
  11. • 300万件の(画像,キャプション)の組 • WebからAlt-textと画像のペアをクロール.Alt-textの固有名 詞について上位語に変換しConceptual Captionsを⾃動⽣成 Conceptual Captions [Sharma(Google)+, ACL18]

    https://www.aclweb.org/anthology/P18-1238/ 11
  12. Conceptual Captions [Sharma(Google)+, ACL18] https://www.aclweb.org/anthology/P18-1238/ 12 ⽐率が極端な 物は✗ 前置詞・名詞・ 冠詞が無い物

    は✗ Google APIで 付与した物体 ラベルとマッ チしない物は✗ 上位語に変換 して⼀般的な キャプションへ
  13. 13 CC12M [Changpinyo(Google)+,arXiv’21] • 事前学習⽤に量を優先し,フィルタリング条件を緩和して 1200万件の(画像,キャプション)の組を獲得 https://arxiv.org/abs/2102.08981 • ⼈名を除き,上位語 への変換を廃⽌

    • 画像の⽐率は2.5まで 緩和(短い⽅が400ピ クセル以上) • 前置詞のフィルタは 廃⽌ • その他,テキストの フィルタを幾つか廃 ⽌
  14. • 画像からFaster R-CNNなどによりオブジェクトを検出し,1 つの系列に並べる • VQAではオブジェクトの種類や個数が問われる事が多いため, このアプローチが⼀般的 14 2) 画像を系列データとして扱う

    画像 N個のオブジェクトの特徴ベクトル系列 … https://arxiv.org/abs/1908.03557 ℝ!×#
  15. • BERTと同様に単語をマスクして⽳埋め問題を解く • 画像側のトークンをマスクした⽳埋め問題(特徴量の再現や オブジェクトのクラス分類)を解く場合もあり 15 3) 事前学習タスク: Masked Language/Region

    Modeling Transformerエンコーダ ⼥性 [SEP] 店内 で オレンジ … ⼥性 [CLS] … [MASK] [MASK]
  16. • データセットの中にあるペア(正例)とランダムサンプリン グで作った負例のペアを⾒分けるタスク • このタスクも⼤量にデータを⽤意できる 16 3) 事前学習タスク: Image-Text Matching

    Transformerエンコーダ Matching / Not-matching ランダムに⼊れ替え [SEP] ⾺ に 跨って …… いる 少年 [CLS] …
  17. VQA / 画像検索への適⽤ 17

  18. • 画像に対する質問応答.頻出回答3129種を候補として分類 問題として扱われる場合が多い. 18 VQA(Visual Question Answering) VQA 2.0 [Goyal(Virginia

    Tech)+, CVPR17] に含まれるサンプル https://ieeexplore.ieee.org/document/8100153
  19. 19 ファインチューニング Transformerエンコーダ [SEP] How many children are in the

    bed ? 2 • 画像キャプションで事前学習したモデルを基に, QAデータを使って画像と質問⽂から回答を分類するタスク としてファインチューニング 質問⽂ 回答(クロスエント ロピー損失で学習) 画像(オブジェクト系列)
  20. • 2019/08頃からTransformerのV&L事前学習の応⽤が進む • RNN/CNNベース+V&L事前学習を使わないモデルも強い 20 VQA 2.0における性能の発展 Pythia V0.1 (30

    ensemble) 2018 Up-down model (30 ensemble) 2017 72.18 70.34 UNITER MCAN test-stdの精度 VinVL Oscar VilBERT LXMERT VILLA ERNIE-vil Pixel-BERT MCAN+MoVie
  21. 21 Image Retrieval • クエリをテキストとした画像検索(マッチング)タスク • MS-COCOやFlickr30k が評価に使われる モデル出⼒例 (緑が正解)

    Flickr30k [Young+, TACL14] に対する結果の例 https://openaccess.thecvf.com/content_ECCV_2018/html/ Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.html
  22. 22 ファインチューニング Transformerエンコーダ [SEP] A man riding a motorcycle is

    performing … 0.05 • VQAと同様に画像とクエリを1系列で⼊⼒ • 損失にはranking / binary classification lossが使われる クエリ 関連度 画像(オブジェクト系列)
  23. • ⼤規模な検索の場合,全データに対してクエリとの関連度を 計算する必要があるモデルは速度⾯で苦しい • そこで,クエリと⽂書を独⽴にベクトル化するデュアルエン コーダ形式の事前学習モデルが検討され始めた(テキスト検 索のDPR [Karpukhin+, EMNLP20]と同じ形式) 23

    デュアルエンコーダへの発展 Cross-encoder 質問⽂ 画像 スコア 質問⽂ 画像 スコア Image encoder Text encoder クロスエンコーダ デュアルエンコーダ ベクトル ベクトル
  24. 24 LightningDOT [Sun+ (Microsoft), NAACL’21] • デュアルエンコーダタイプの事前学習モデル • 内積のobjective(CMR)に加えて,クロスモーダル化した Masked

    Language/Region Modelingを実施 • 密ベクトル検索にはFAISS [Johnson+, 2017] を利⽤.画像約 12万枚からの検索時,クロスエンコーダタイプより23869倍 ⾼速に検索 https://arxiv.org/abs/2103.08784
  25. • 2019/08頃からクロスエンコーダタイプのV&L事前学習で ファインチューニング無しに⾼い性能を実現 • デュアルエンコーダタイプのCLIPがSOTAを達成 25 Flickr30k(zero-shot)における性能の発展 Visual N-grams [Li+,

    ICCV 2017] 29.9 UNITER Flickr30k R@10 (Zero-shot) VilBERT Unicoder-VL CLIP
  26. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 26 ⽬次
  27. • あらゆる環境でAIが⼈と共⽣するためには, ⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 27 視覚情報に含まれる⾔語情報

  28. 28 現在の動向(タスク・データ) これまでのVQAや画像検索 ・キャプショニング 画像中のテキストを 考慮したタスクへ 単語レベルから⽂・⽂書へ グラフや表なども併せた 理解まで広がる •

    VQAやキャプショニングを発展させ,視覚情報に含まれる⾔ 語情報に着⽬したタスクやデータセットの整備が2019年頃か ら急速に進み始めた
  29. • ⽬の⾒えない⽅の撮影した写真および話し⾔葉によるVQA • 全体の20%程度にテキストが含まれている 29 VizWiz [Bigham+, UIST’10][Gurari+, CVPR’18] https://openaccess.thecvf.com/content_cvpr_2018/html/

    Gurari_VizWiz_Grand_Challenge_CVPR_2018_paper.html
  30. • 画像中のテキスト認識が必要なデータセット • 画像は⽇常光景,含まれる単語は少なめ(10単語程度) 30 TextVQA [Singh+(Facebook), CVPR’19] https://openaccess.thecvf.com/content_CVPR_2019/html/ Singh_Towards_VQA_Models_That_Can_Read_CVPR_2019_paper.html

  31. • ⽂書画像に対するVQAデータセット • 含まれる単語数は多い(平均150単語程度),⽂書は古い 31 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21]

    https://arxiv.org/abs/2007.00398
  32. • Key-value, ⽐較, 表の3種類のデータに対する視覚的な読解. • 画像と元になったHTMLソースを両⽅提供している. 32 WebSRC [Chen(Shanghai Jiao

    Tong U)+, arXiv’21/01] https://arxiv.org/abs/2101.09465
  33. • インフォグラフィックに対するVQA • これまでの物に⽐べてグラフやアイコンに対する理解が重要 となる 33 Infographics VQA [Robust Reading

    Challenge, 2021] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can be prevented A. 60% Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17
  34. • Webページのスクリーンショットに基づく視覚的読解. • ⽂書レイアウト理解と⽣成型機械読解を統合した問題設定 34 VisualMRC [Tanaka & Nishida+ (NTT),

    AAAI’21, NLP’21] 全ての領域をアノテーション︓ 9つの意味クラスに分類 約30,000件のQAを作成 回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC
  35. 35 VisualMRCの構築フロー ドメイン選定 スクリーンショット 画像切り出し ROIアノテーション 要約型のQA作成/ 回答根拠ROI選択 94 workers

    45 workers 495 workers 10,197 画像,30,562QA クラウドワーカ作業 • 35のドメインからWebページのスクリーンショットを取得し, クラウドソーシング(北⽶英語のネイティブスピーカー)により 約10,000枚の画像と30,000件の質問応答データセットを作成
  36. 36 Region-of-Interestのアノテーション • ⽂書中のROIを以下の9クラスに分類してアノテーション • ⽂書レイアウト理解と機械読解を統合したデータは VisualMRCのみ クラス 説明 段落

    本⽂となるテキスト タイトル サブタイトル 著者名も含む 画像 写真やイラスト データ グラフやテーブル サブデータ データ内のテキスト キャプション データの説明⽂ リスト 箇条書き その他 ROIアノテーションツール
  37. • 画像中のテキストも含めたキャプショニングタスク • 既存のモデルは画像中のテキストを読めない 37 関連︓TextCaps [Sidorov+ (Facebook), ECCV’20] https://arxiv.org/abs/2003.12462

  38. • Android UIの要素に対するキャプション⽣成 38 関連︓Widget captioning [Li+, EMNLP’20] https://www.aclweb.org/anthology/2020.emnlp-main.443/

  39. • 論⽂PDFからスライドを⽣成(マルチモーダル要約) 39 関連︓DOC2PPT [Fu+ (UCSB, Microsoft), arXiv’21] https://arxiv.org/abs/2101.11796 https://doc2ppt.github.io/

  40. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCR結果の組み込みに関して – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 40 ⽬次
  41. 画像を系列としてどう扱うか 41

  42. • 現在はオブジェクトの系列とするのが主流 • すべての下流タスク・画像ドメインに対して効果的な⽅法は あるか︖ 42 画像をどう扱うか グリッドベース 分類など全体を理解する タスクではこちらが有効︖

    オブジェクトベース VQAなど,被写体の種類や 個数が重要な場合に有効︖ http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.htm
  43. • 画像パッチを単語とみなす632MのTransformerエンコーダ • 画像は最初にパッチに分割した後,線形変換で埋め込み • 3億枚以上の画像分類で事前学習し,ImageNet等でSOTA 43 Vision Transformer (ViT)

    [Dosovitskiy + (Google), ICLR’21] https://arxiv.org/abs/2010.11929 位置は1D 線形変換 ℝ("!#$)×' パッチ ℝ"!#$ 14x14あるいは16x16 分割
  44. • ViTの画像系列表現は単純なパッチ系列(hard split)ベース のため,CNNで捉えられていたようなエッジや線,テクス チャは⼗分に捉えられていない 44 単純なパッチ分割で良いのか︖ [Yuan+ (NU Singapore)+,

    arXiv’21] https://arxiv.org/abs/2101.11986 緑の特徴量はエッジ などの局所表現 ゼロや⼤きな値などが特 徴表現に⼊ってくる
  45. • 巨⼤な Transformerデコーダ によるText-to-imageモデル – パラメータ数は最⼤12B(ViTの約20倍) • ⼤量の画像・説明⽂ペアから学習,⽣成画像のレベルが⾼い • 画像は1024(32x32)のコード系列(8192種)として扱う

    45 DALL·E [Radford+ (OpenAI), blog 2021/01] https://openai.com/blog/dall-e/
  46. • 画像は1024(32x32)のコード系列(8192種)として扱う • 画像óコード系列の変換器(discrete VAE)を別途⽤意 – ⼊⼒画像は256x256,ダウンサンプリングを3回して32x32へ 46 DALL·E [Radford+

    (OpenAI), blog 2021/01] an armchair … an avocado … … armchair … an avocado </s> </s> テキストに続けて32x32のコード系列を⽣成 デコード </s> 画像説明⽂
  47. ⽅式 処理 (出⼒ベクトル) 私⾒ region Faster R-CNN等で𝑁個の物体検出 J VQA系で強い L

    物体検出器が必要 L 画像全体を捕えるの は弱い︖ ℝ(×) grid ResNet等で𝐻×𝑊個の特徴ベクトルに変換 J ⾼速に動作 J 物体検出器が不要 L VQA系でやや弱い︖ ℝ(*×+)×) patch 1) 𝐻×𝑊個のパッチに分割 2) それぞれ 線形変換 J 最もシンプル(線形 変換のみ) J 画像分類に強い L VQA系で弱い︖ ℝ(*×+)×("×"×$) ℝ(*×+)×) code 1) Discrete VAE等で 𝐻×𝑊個の離散値に変換 2) それぞれ 線形変換 J 物体検出器が不要 J Transformerで⾔語と ⼀緒に扱いやすい︖ L コード変換器が必要 𝑉*×+ ℝ(*×+)×) 47 画像の系列化のまとめ
  48. OCR結果の組み込みに関して 48

  49. • OCR(Scene Text Recognition)⾃体の研究も⾼度化が進んで おり,OCR結果をV&Lモデルに組み込む取り組みが進む 49 ⽂字認識(OCR/STR)の組み込み https://arxiv.org/abs/2005.03492

  50. • TextVQA⽤のベースラインモデル • 画像からOCR+物体検出して,マルチモーダルTransformer でエンコーディングし,Pointer-Generatorで説明⽂を⽣成 • OCRトークンは座標情報および画像表現も考慮 • 事前学習モデルは使っていない 50

    M4C [Hu+ (Facebook), CVPR’20] https://openaccess.thecvf.com/content_CVPR_2020/papers/Hu_Iterative_Answer_Prediction_With_Pointer- Augmented_Multimodal_Transformers_for_TextVQA_CVPR_2020_paper.pdf
  51. • TextVQA, TextCaps⽤の事前学習モデル • OCRトークンでテキストを拡張しつつ,オブジェクトとOCR トークンの相対位置についても学習 51 TAP [Yang+ (Microsoft),

    CVPR21]
  52. • ⼤量の⽂書画像を基に,OCRトークン+座標情報の系列で事 前学習(重みの初期値はBERTを利⽤) • ダウンストリームタスクではOCRトークンの画像表現も利⽤ 52 LayoutLM [Xu+ (MSRA), KDD’20]

    https://dl.acm.org/doi/10.1145/3394486.3403172
  53. • ⼤量の⽂書画像を⽤いて事前学習,DocVQA等でSOTA • 各OCR単語の2次元の位置と,⽂書画像表現(7x7)を考慮 53 LayoutLMv2 [Xu+ (MSRA), arXiv’20] https://arxiv.org/abs/2012.14740

    7x7のグリッドベース画像表現
  54. • 事前学習済T5モデルを⽂書レイアウト解析とOCR結果で拡張 • 領域の意味クラス,位置情報,画像情報を埋め込みに追加 54 LayoutT5 [Tanaka & Nishida+ (NTT),

    AAAI’21] https://arxiv.org/abs/2101.11272 デコーダ エンコーダ OCR 領域検出 質問⽂ 質問⽂ +⽂書画像 +領域トークン +OCRトークン 出⼒︓回答⽂ 領域クラス,領域座標,画像表現 領域クラス,領域座標,画像表現 1系列に 連結 ⼊⼒︓ T5(事前学習済)
  55. 55 LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21] https://arxiv.org/abs/2101.11272 提案モデル: 77.3%.

    従来モデル: less than 1 percent.
  56. DALL·EやCLIPに学ぶ 今後の⽅向性 56

  57. • OCRを使っていないにも関わらず,ある程度⽂字を含む画像 を⽣成できている • 8192種の「コード」の中で⽂字の表現を獲得できている︖ 57 DALL·Eの⽣成 https://openai.com/blog/dall-e/

  58. • 画像とテキストのマッチングを4億ペアから事前学習 – DALL·Eの⽣成画像のリランキングにも使われている • 正しい画像・テキストペアを分類できるようにContrastive pre-trainingを⾏う(Masked LMは学習しない) 58 CLIP

    [OpenAI, tech. report 2021/01] 画像とテキストをそ れぞれエンコーディ ングして内積を取る Vision Transformer やResNet (scratchから学習) Transformer(scratchから学習) https://cdn.openai.com/papers/Learning_Transferable_Visu al_Models_From_Natural_Language_Supervision.pdf
  59. • CLIPのvisual encoderとして使われたResNet50x4の最終層の 畳み込み層のニューロンを調査 • 各ニューロンが最も発⽕するような画像を最適化して獲得 59 CLIPのVisual neuronsの調査 https://openai.com/blog/multimodal-neurons/

    https://microscope.openai.com/models/contrastive_4x/image_block_4_5_Add_6_0/865
  60. 60 CLIPのVisual neuronsの調査 https://distill.pub/2021/multimodal-neurons/ • 画像中の⽂字を読みつつ,関連する特徴と結びつけてコー ディングされている

  61. 61 Typographic Attacks https://distill.pub/2021/multimodal-neurons/ • 画像中のテキストによって発⽕されるニューロンが制御でき る è 新しいAIへの攻撃に繋がる危険性がある •

    画像分類の結果が⽂字の挿⼊により変わってしまった
  62. CLIPで商品ページ検索を試してみた Lenobo Chromebook MacBook Air M1 USB-C Adapter for MacBook

    Air M1 What is the screen size of chromebook? What is the CPU chip of the latest macbook 13-inch? Is there a usb adapter that will work with MacBook Air M1? 0.32 0.29 0.27 0.26 0.31 0.28 0.25 0.32 0.32 モデルはCLIP ViT-B/32 を利⽤ https://github.com/o penai/CLIP 63
  63. おわりに 64

  64. • 我々は様々な視覚情報と結びつけて⾔語を理解している – 今後,視覚+⾔語のマルチモーダル事前学習モデルはますます重要視 されていくであろう – NLPタスクにおいても,⾔語のみで事前学習したモデルを,⾔語+視 覚で事前学習したモデルが超えていくかもしれない︖ • 課題として,視覚情報の中の⾔語をどう理解するかが重要

    – オープンドメインQA関連はもちろん,⼈間・AI/ロボットの実世界で の共⽣,⾃動運転,などたくさんの重要分野に関わる – すべてをend-to-endにできるか︖サブタスクのモジュール化や,ナ レッジベースの利⽤とどう向き合っていくか︖ – グラフや表の理解では数値演算も必要になるだろう • クイズAI王を作るために︓知識⼒の向上は今のV&L事前学習 の⽅向性で良いのかもしれない.パズルやひらめき問題は解 けるようになるか︖ 今後の展望 65
  65. 参考⽂献 66

  66. • Vicente Ordonez, Girish Kulkarni, Tamara L. Berg: Im2Text: Describing

    Images Using 1 Million Captioned Photographs. NIPS 2011: 1143-1151 • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. Int. J. Comput. Vis. 123(1): 32-73 (2017) • Piyush Sharma, Nan Ding, Sebastian Goodman, Radu Soricut: • Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. ACL (1) 2018: 2556-2565 • Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei A. F. Florêncio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo: TAP: Text-Aware Pre-training for Text-VQA and Text- Caption. CoRR abs/2012.04638 (2020) • Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. CoRR abs/2102.08981 (2021) • Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork: WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning. CoRR abs/2103.01913 (2021) ⼤規模画像キャプションデータ 67
  67. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi

    Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR 2017: 6325-6334 • Yash Goyal, Tejas Khot, Aishwarya Agrawal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. Int. J. Comput. Vis. 127(4): 398-414 (2019) • Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguistics 2: 67-78 (2014) • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) 68 参考⽂献︓VQA, IR
  68. • Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee: ViLBERT:

    Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. NeurIPS 2019: 13-23 • Hao Tan, Mohit Bansal: LXMERT: Learning Cross-Modality Encoder Representations from Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110 • Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104- 120 • Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. ECCV (30) 2020: 121-137 • Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers. CoRR abs/2004.00849 (2020) • Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu: Large-Scale Adversarial Training for Vision-and-Language Representation Learning. NeurIPS 2020 • Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph. CoRR abs/2006.16934 (2020) • Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao: VinVL: Making Visual Representations Matter in Vision-Language Models. CoRR abs/2101.00529 (2021) 69 参考⽂献︓V&L Transformers
  69. • Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H.

    Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 • Jeff Johnson, Matthijs Douze, Hervé Jégou: Billion-scale similarity search with GPUs. CoRR abs/1702.08734 (2017) 70 参考⽂献: DPR & FAISS
  70. • Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark

    Johnson, Stephen Gould, Lei Zhang: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR 2018: 6077-6086 • Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh: Pythia v0.1: the Winning Entry to the VQA Challenge 2018. CoRR abs/1807.09956 (2018) • Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond. ILCR 2021 • Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten: Learning Visual N-Grams from Web Data. ICCV 2017: 4193-4202 71 参考⽂献︓⾮事前学習のVQA/IRモデル
  71. • Jeffrey P. Bigham, Chandrika Jayant, Hanjie Ji, Greg Little,

    Andrew Miller, Robert C. Miller, Robin Miller, Aubrey Tatarowicz, Brandyn White, Samuel White, Tom Yeh: VizWiz: nearly real-time answers to visual questions. UIST 2010: 333-342 • Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P. Bigham: VizWiz Grand Challenge: Answering Visual Questions From Blind People. CVPR 2018: 3608-3617 • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach: Towards VQA Models That Can Read. CVPR 2019: 8317-8326 • Minesh Mathew, Dimosthenis Karatzas, R. Manmatha, C. V. Jawahar: DocVQA: A Dataset for VQA on Document Images. WACV 2021 • Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu: WebSRC: A Dataset for Web-Based Structural Reading Comprehension. CoRR abs/2101.09465 (2021) • Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021 • Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh: TextCaps: A Dataset for Image Captioning with Reading Comprehension. ECCV (2) 2020: 742-758 • Tsu-Jui Fu, William Yang Wang, Daniel J. McDuff, Yale Song: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents. CoRR abs/2101.11796 (2021) • Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan: Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements. EMNLP (1) 2020: 5495-5510 72 参考⽂献︓視覚情報に含まれる⾔語情報 (データセット)
  72. • Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, Tianwei

    Wang: Text Recognition in the Wild: A Survey. CoRR abs/2005.03492 (2020) • Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach: Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA. CVPR 2020: 9989-9999 • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou: LayoutLM: Pre- training of Text and Layout for Document Image Understanding. KDD 2020: 1192-1200 • Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F. Florêncio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. CoRR abs/2012.14740 (2020) 73 参考⽂献︓視覚情報に含まれる⾔語情報 (OCR組込モデル)
  73. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua

    Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. • Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng, Shuicheng Yan: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. CoRR abs/2101.11986 (2021) • OpenAI Blog, DALL·E: Creating Images from Text. January 2021. https://openai.com/blog/dall-e/ • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. CoRR abs/2102.12092 (2021) • OpenAI Blog, CLIP: Connecting Text and Images. January 2021. https://openai.com/blog/clip/ • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever: Learning Transferable Visual Models From Natural Language Supervision. CoRR abs/2103.00020 (2021) • OpenAI Blog, Multimodal Neurons in Artificial Neural Networks. March 2021. https://openai.com/blog/multimodal-neurons/ https://distill.pub/2021/multimodal-neurons/ 74 参考⽂献︓ ViT / DALL·E / CLIP