言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

Slide 1

Slide 1 text

⾔語と視覚に基づく質問応答の最新動向 NTTメディアインテリジェンス研究所⻄⽥京介 2021年3⽉19⽇ @⾔語処理学会第27回年次⼤会（NLP2021）ワークショップ2 AI王〜クイズAI⽇本⼀決定戦〜

Slide 2

Slide 2 text

• 2008年博⼠（情報科学），北海道⼤学 • 2009年 NTT⼊社 – 2009〜2015︓SNS・位置情報マイニング – 2016〜︓⾃然⾔語処理，特に機械読解（QA） – 2020〜︓Vision & Language の研究開発を開始 • 現在，NTT MD研特別研究員⾃⼰紹介︓⻄⽥京介 GPSデータからの滞在POI推定 [⻄⽥+, UbiComp14] 読解＆検索 [⻄⽥+, CIKM18,ACL19] NLP18最優秀，NLP19優秀 MS MARCO QA/NLG Vision-and-language 機械読解 [Galvan(東北⼤), ⻄⽥+, LANTERN20] [⽥中, ⻄⽥+, AAAI21] NLP20優秀，NLP21最優秀 2

Slide 3

Slide 3 text

• あらゆる環境でAIが⼈と共⽣するためには，⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 3 視覚情報に含まれる⾔語情報

Slide 4

Slide 4 text

検索 FAQ集 4 ビジネスシーンの例︓コンタクトセンタAI お客様電話チャットコンタクトセンタ質問契約書・マニュアルなど検索＋読解オペレータ応答質問⽀援 AI • QAの知識源として使いたい⽂書データは，殆どがプレーンテキストではなく，PDF⽂書やスライド形式になっている • より正確な理解のためには，表や図，イラストなど視覚情報を⾔語と結びつけて理解しなければならない

Slide 5

Slide 5 text

• 今のクイズゲームやクイズ番組はビジュアル要素が強い • テキストベースのQAでは太⼑打ちできない 5 クイズAIもVision-and-Languageへ︖ クイズマジックアカデミー軌跡の交叉 -Xross Voyage- 画像の4択回転する⽂字を認識画像中の位置を選択

Slide 6

Slide 6 text

• 私のモチベーション︓検索も含めたオープンドメインQAを Vision-and-Languageへ発展させていきたい • 本⽇の講演︓Vision-and-Languageの検索と読解のそれぞれについて，どのような取り組みがあるかを紹介します 6 QAのVision-and-Languageへの発展知識源質問（テキスト）回答（テキスト）＋エビデンス検索読解 Top-K （テキスト＆⽂書画像集合）

Slide 7

Slide 7 text

1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2. 視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 7 ⽬次

Slide 8

Slide 8 text

Vision-and-Language 事前学習の概要

Slide 9

Slide 9 text

1. Webから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて，テキストの単語系列と併せてTransformerエンコーダに⼊⼒ 3. 事前学習タスクはMasked LMとImage-Text Matchingが中⼼ 9 V&L事前学習の概要 Web 店内でオレンジジュースをカップに注いでいる⼥性⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内でオレンジ … ⼥性 [CLS] … 系列化⼥性? [MASK] 各トークンの⽳埋め問題本当に存在する画像とキャプションのペアか︖ True?

Slide 10

Slide 10 text

• 画像とキャプションのペアのコーパスが最近⽴て続けに構築・利⽤されている • Conceptual CaptionsベースでWebから⼤量に収集する⽅式が主流．OpenAIは2.5億個のペアを収集． 10 1) 画像・テキストペアの⼤規模コーパス CC ベース公開画像数テキスト数 SBU Captions [Ordonez +,NIPS11] ○ 1M 1M COCO Captions [Lin+, ECCV14] ○ 106K 533K Visual Genome Dense Caption [Krishna+,IJCV17] ○ 108K 5.4M Conceptual Captions [Sharma+, ACL18] ✔ ○ 3.3M 3.3M OCR-CC [Yang+, arXiv’20/12] ✔ ×? 1.4M 1.4M Conceptual Captions 12M [Changpinyo+,arXiv’21/02] ✔ ○ 12.4M 12.4M OpenAI’s internal dataset [Ramesh+, arXiv’21/02] ✔ × 250M 250M WIT [Srinivasan+,arXiv’21/03] ○ 11.5M 37.6M

Slide 11

Slide 11 text

• 300万件の(画像,キャプション)の組 • WebからAlt-textと画像のペアをクロール．Alt-textの固有名詞について上位語に変換しConceptual Captionsを⾃動⽣成 Conceptual Captions [Sharma(Google)+, ACL18] https://www.aclweb.org/anthology/P18-1238/ 11

Slide 12

Slide 12 text

Conceptual Captions [Sharma(Google)+, ACL18] https://www.aclweb.org/anthology/P18-1238/ 12 ⽐率が極端な物は✗ 前置詞・名詞・冠詞が無い物は✗ Google APIで付与した物体ラベルとマッチしない物は✗ 上位語に変換して⼀般的なキャプションへ

Slide 13

Slide 13 text

13 CC12M [Changpinyo(Google)+,arXiv’21] • 事前学習⽤に量を優先し，フィルタリング条件を緩和して 1200万件の(画像,キャプション)の組を獲得 https://arxiv.org/abs/2102.08981 • ⼈名を除き，上位語への変換を廃⽌ • 画像の⽐率は2.5まで緩和（短い⽅が400ピクセル以上） • 前置詞のフィルタは廃⽌ • その他，テキストのフィルタを幾つか廃⽌

Slide 14

Slide 14 text

• 画像からFaster R-CNNなどによりオブジェクトを検出し，1 つの系列に並べる • VQAではオブジェクトの種類や個数が問われる事が多いため，このアプローチが⼀般的 14 2) 画像を系列データとして扱う画像 N個のオブジェクトの特徴ベクトル系列 … https://arxiv.org/abs/1908.03557 ℝ!×#

Slide 15

Slide 15 text

• BERTと同様に単語をマスクして⽳埋め問題を解く • 画像側のトークンをマスクした⽳埋め問題（特徴量の再現やオブジェクトのクラス分類）を解く場合もあり 15 3) 事前学習タスク: Masked Language/Region Modeling Transformerエンコーダ⼥性 [SEP] 店内でオレンジ … ⼥性 [CLS] … [MASK] [MASK]

Slide 16

Slide 16 text

• データセットの中にあるペア（正例）とランダムサンプリングで作った負例のペアを⾒分けるタスク • このタスクも⼤量にデータを⽤意できる 16 3) 事前学習タスク: Image-Text Matching Transformerエンコーダ Matching / Not-matching ランダムに⼊れ替え [SEP] ⾺に跨って …… いる少年 [CLS] …

Slide 17

Slide 17 text

VQA / 画像検索への適⽤ 17

Slide 18

Slide 18 text

• 画像に対する質問応答．頻出回答3129種を候補として分類問題として扱われる場合が多い． 18 VQA（Visual Question Answering） VQA 2.0 [Goyal(Virginia Tech)+, CVPR17] に含まれるサンプル https://ieeexplore.ieee.org/document/8100153

Slide 19

Slide 19 text

19 ファインチューニング Transformerエンコーダ [SEP] How many children are in the bed ? 2 • 画像キャプションで事前学習したモデルを基に， QAデータを使って画像と質問⽂から回答を分類するタスクとしてファインチューニング質問⽂回答（クロスエントロピー損失で学習）画像（オブジェクト系列）

Slide 20

Slide 20 text

• 2019/08頃からTransformerのV&L事前学習の応⽤が進む • RNN/CNNベース＋V&L事前学習を使わないモデルも強い 20 VQA 2.0における性能の発展 Pythia V0.1 (30 ensemble) 2018 Up-down model (30 ensemble) 2017 72.18 70.34 UNITER MCAN test-stdの精度 VinVL Oscar VilBERT LXMERT VILLA ERNIE-vil Pixel-BERT MCAN+MoVie

Slide 21

Slide 21 text

21 Image Retrieval • クエリをテキストとした画像検索（マッチング）タスク • MS-COCOやFlickr30k が評価に使われるモデル出⼒例（緑が正解） Flickr30k [Young+, TACL14] に対する結果の例 https://openaccess.thecvf.com/content_ECCV_2018/html/ Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.html

Slide 22

Slide 22 text

22 ファインチューニング Transformerエンコーダ [SEP] A man riding a motorcycle is performing … 0.05 • VQAと同様に画像とクエリを1系列で⼊⼒ • 損失にはranking / binary classification lossが使われるクエリ関連度画像（オブジェクト系列）

Slide 23

Slide 23 text

• ⼤規模な検索の場合，全データに対してクエリとの関連度を計算する必要があるモデルは速度⾯で苦しい • そこで，クエリと⽂書を独⽴にベクトル化するデュアルエンコーダ形式の事前学習モデルが検討され始めた（テキスト検索のDPR [Karpukhin+, EMNLP20]と同じ形式） 23 デュアルエンコーダへの発展 Cross-encoder 質問⽂画像スコア質問⽂画像スコア Image encoder Text encoder クロスエンコーダデュアルエンコーダベクトルベクトル

Slide 24

Slide 24 text

24 LightningDOT [Sun+ (Microsoft), NAACL’21] • デュアルエンコーダタイプの事前学習モデル • 内積のobjective（CMR）に加えて，クロスモーダル化した Masked Language/Region Modelingを実施 • 密ベクトル検索にはFAISS [Johnson+, 2017] を利⽤．画像約 12万枚からの検索時，クロスエンコーダタイプより23869倍⾼速に検索 https://arxiv.org/abs/2103.08784

Slide 25

Slide 25 text

• 2019/08頃からクロスエンコーダタイプのV&L事前学習でファインチューニング無しに⾼い性能を実現 • デュアルエンコーダタイプのCLIPがSOTAを達成 25 Flickr30k（zero-shot）における性能の発展 Visual N-grams [Li+, ICCV 2017] 29.9 UNITER Flickr30k R@10 (Zero-shot) VilBERT Unicoder-VL CLIP

Slide 26

Slide 26 text

Slide 27

Slide 27 text

• あらゆる環境でAIが⼈と共⽣するためには，⼈の⽬に映る世界に含まれる⾔語情報を理解する必要がある 27 視覚情報に含まれる⾔語情報

Slide 28

Slide 28 text

28 現在の動向（タスク・データ）これまでのVQAや画像検索・キャプショニング画像中のテキストを考慮したタスクへ単語レベルから⽂・⽂書へグラフや表なども併せた理解まで広がる • VQAやキャプショニングを発展させ，視覚情報に含まれる⾔語情報に着⽬したタスクやデータセットの整備が2019年頃から急速に進み始めた

Slide 29

Slide 29 text

• ⽬の⾒えない⽅の撮影した写真および話し⾔葉によるVQA • 全体の20%程度にテキストが含まれている 29 VizWiz [Bigham+, UIST’10][Gurari+, CVPR’18] https://openaccess.thecvf.com/content_cvpr_2018/html/ Gurari_VizWiz_Grand_Challenge_CVPR_2018_paper.html

Slide 30

Slide 30 text

• 画像中のテキスト認識が必要なデータセット • 画像は⽇常光景，含まれる単語は少なめ（10単語程度） 30 TextVQA [Singh+(Facebook), CVPR’19] https://openaccess.thecvf.com/content_CVPR_2019/html/ Singh_Towards_VQA_Models_That_Can_Read_CVPR_2019_paper.html

Slide 31

Slide 31 text

• ⽂書画像に対するVQAデータセット • 含まれる単語数は多い（平均150単語程度），⽂書は古い 31 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21] https://arxiv.org/abs/2007.00398

Slide 32

Slide 32 text

• Key-value, ⽐較, 表の3種類のデータに対する視覚的な読解． • 画像と元になったHTMLソースを両⽅提供している． 32 WebSRC [Chen(Shanghai Jiao Tong U)+, arXiv’21/01] https://arxiv.org/abs/2101.09465

Slide 33

Slide 33 text

• インフォグラフィックに対するVQA • これまでの物に⽐べてグラフやアイコンに対する理解が重要となる 33 Infographics VQA [Robust Reading Challenge, 2021] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can be prevented A. 60% Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17

Slide 34

Slide 34 text

• Webページのスクリーンショットに基づく視覚的読解． • ⽂書レイアウト理解と⽣成型機械読解を統合した問題設定 34 VisualMRC [Tanaka & Nishida+ (NTT), AAAI’21, NLP’21] 全ての領域をアノテーション︓ 9つの意味クラスに分類約30,000件のQAを作成回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC

Slide 35

Slide 35 text

35 VisualMRCの構築フロードメイン選定スクリーンショット画像切り出し ROIアノテーション要約型のQA作成/ 回答根拠ROI選択 94 workers 45 workers 495 workers 10,197 画像，30,562QA クラウドワーカ作業 • 35のドメインからWebページのスクリーンショットを取得し，クラウドソーシング（北⽶英語のネイティブスピーカー）により約10,000枚の画像と30,000件の質問応答データセットを作成

Slide 36

Slide 36 text

36 Region-of-Interestのアノテーション • ⽂書中のROIを以下の9クラスに分類してアノテーション • ⽂書レイアウト理解と機械読解を統合したデータは VisualMRCのみクラス説明段落本⽂となるテキストタイトルサブタイトル著者名も含む画像写真やイラストデータグラフやテーブルサブデータデータ内のテキストキャプションデータの説明⽂リスト箇条書きその他 ROIアノテーションツール

Slide 37

Slide 37 text

• 画像中のテキストも含めたキャプショニングタスク • 既存のモデルは画像中のテキストを読めない 37 関連︓TextCaps [Sidorov+ (Facebook), ECCV’20] https://arxiv.org/abs/2003.12462

Slide 38

Slide 38 text

• Android UIの要素に対するキャプション⽣成 38 関連︓Widget captioning [Li+, EMNLP’20] https://www.aclweb.org/anthology/2020.emnlp-main.443/

Slide 39

Slide 39 text

• 論⽂PDFからスライドを⽣成（マルチモーダル要約） 39 関連︓DOC2PPT [Fu+ (UCSB, Microsoft), arXiv’21] https://arxiv.org/abs/2101.11796 https://doc2ppt.github.io/

Slide 40

Slide 40 text

1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2. 視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCR結果の組み込みに関して – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 40 ⽬次

Slide 41

Slide 41 text

画像を系列としてどう扱うか 41

Slide 42

Slide 42 text

• 現在はオブジェクトの系列とするのが主流 • すべての下流タスク・画像ドメインに対して効果的な⽅法はあるか︖ 42 画像をどう扱うかグリッドベース分類など全体を理解するタスクではこちらが有効︖ オブジェクトベース VQAなど，被写体の種類や個数が重要な場合に有効︖ http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.htm

Slide 43

Slide 43 text

• 画像パッチを単語とみなす632MのTransformerエンコーダ • 画像は最初にパッチに分割した後，線形変換で埋め込み • 3億枚以上の画像分類で事前学習し，ImageNet等でSOTA 43 Vision Transformer (ViT) [Dosovitskiy + (Google), ICLR’21] https://arxiv.org/abs/2010.11929 位置は1D 線形変換 ℝ("!#$)×' パッチ ℝ"!#$ 14x14あるいは16x16 分割

Slide 44

Slide 44 text

• ViTの画像系列表現は単純なパッチ系列（hard split）ベースのため，CNNで捉えられていたようなエッジや線，テクスチャは⼗分に捉えられていない 44 単純なパッチ分割で良いのか︖ [Yuan+ (NU Singapore)+, arXiv’21] https://arxiv.org/abs/2101.11986 緑の特徴量はエッジなどの局所表現ゼロや⼤きな値などが特徴表現に⼊ってくる

Slide 45

Slide 45 text

• 巨⼤な TransformerデコーダによるText-to-imageモデル – パラメータ数は最⼤12B（ViTの約20倍） • ⼤量の画像・説明⽂ペアから学習，⽣成画像のレベルが⾼い • 画像は1024（32x32）のコード系列（8192種）として扱う 45 DALL·E [Radford+ (OpenAI), blog 2021/01] https://openai.com/blog/dall-e/

Slide 46

Slide 46 text

• 画像は1024（32x32）のコード系列（8192種）として扱う • 画像óコード系列の変換器（discrete VAE）を別途⽤意 – ⼊⼒画像は256x256，ダウンサンプリングを3回して32x32へ 46 DALL·E [Radford+ (OpenAI), blog 2021/01] an armchair … an avocado … … armchair … an avocado テキストに続けて32x32のコード系列を⽣成デコード画像説明⽂

Slide 47

Slide 47 text

⽅式処理（出⼒ベクトル）私⾒ region Faster R-CNN等で𝑁個の物体検出 J VQA系で強い L 物体検出器が必要 L 画像全体を捕えるのは弱い︖ ℝ(×) grid ResNet等で𝐻×𝑊個の特徴ベクトルに変換 J ⾼速に動作 J 物体検出器が不要 L VQA系でやや弱い︖ ℝ(*×+)×) patch 1) 𝐻×𝑊個のパッチに分割 2) それぞれ線形変換 J 最もシンプル（線形変換のみ） J 画像分類に強い L VQA系で弱い︖ ℝ(*×+)×("×"×$) ℝ(*×+)×) code 1) Discrete VAE等で 𝐻×𝑊個の離散値に変換 2) それぞれ線形変換 J 物体検出器が不要 J Transformerで⾔語と⼀緒に扱いやすい︖ L コード変換器が必要 𝑉*×+ ℝ(*×+)×) 47 画像の系列化のまとめ

Slide 48

Slide 48 text

OCR結果の組み込みに関して 48

Slide 49

Slide 49 text

• OCR（Scene Text Recognition）⾃体の研究も⾼度化が進んでおり，OCR結果をV&Lモデルに組み込む取り組みが進む 49 ⽂字認識（OCR/STR）の組み込み https://arxiv.org/abs/2005.03492

Slide 50

Slide 50 text

• TextVQA⽤のベースラインモデル • 画像からOCR＋物体検出して，マルチモーダルTransformer でエンコーディングし，Pointer-Generatorで説明⽂を⽣成 • OCRトークンは座標情報および画像表現も考慮 • 事前学習モデルは使っていない 50 M4C [Hu+ (Facebook), CVPR’20] https://openaccess.thecvf.com/content_CVPR_2020/papers/Hu_Iterative_Answer_Prediction_With_Pointer- Augmented_Multimodal_Transformers_for_TextVQA_CVPR_2020_paper.pdf

Slide 51

Slide 51 text

• TextVQA, TextCaps⽤の事前学習モデル • OCRトークンでテキストを拡張しつつ，オブジェクトとOCR トークンの相対位置についても学習 51 TAP [Yang+ (Microsoft), CVPR21]

Slide 52

Slide 52 text

• ⼤量の⽂書画像を基に，OCRトークン＋座標情報の系列で事前学習（重みの初期値はBERTを利⽤） • ダウンストリームタスクではOCRトークンの画像表現も利⽤ 52 LayoutLM [Xu+ (MSRA), KDD’20] https://dl.acm.org/doi/10.1145/3394486.3403172

Slide 53

Slide 53 text

• ⼤量の⽂書画像を⽤いて事前学習，DocVQA等でSOTA • 各OCR単語の2次元の位置と，⽂書画像表現（7x7）を考慮 53 LayoutLMv2 [Xu+ (MSRA), arXiv’20] https://arxiv.org/abs/2012.14740 7x7のグリッドベース画像表現

Slide 54

Slide 54 text

• 事前学習済T5モデルを⽂書レイアウト解析とOCR結果で拡張 • 領域の意味クラス，位置情報，画像情報を埋め込みに追加 54 LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21] https://arxiv.org/abs/2101.11272 デコーダエンコーダ OCR 領域検出質問⽂質問⽂＋⽂書画像 +領域トークン +OCRトークン出⼒︓回答⽂領域クラス，領域座標，画像表現領域クラス，領域座標，画像表現 1系列に連結⼊⼒︓ T5（事前学習済）

Slide 55

Slide 55 text

55 LayoutT5 [Tanaka & Nishida+ (NTT), AAAI’21] https://arxiv.org/abs/2101.11272 提案モデル: 77.3%. 従来モデル: less than 1 percent.

Slide 56

Slide 56 text

DALL·EやCLIPに学ぶ今後の⽅向性 56

Slide 57

Slide 57 text

• OCRを使っていないにも関わらず，ある程度⽂字を含む画像を⽣成できている • 8192種の「コード」の中で⽂字の表現を獲得できている︖ 57 DALL·Eの⽣成 https://openai.com/blog/dall-e/

Slide 58

Slide 58 text

• 画像とテキストのマッチングを4億ペアから事前学習 – DALL·Eの⽣成画像のリランキングにも使われている • 正しい画像・テキストペアを分類できるようにContrastive pre-trainingを⾏う（Masked LMは学習しない） 58 CLIP [OpenAI, tech. report 2021/01] 画像とテキストをそれぞれエンコーディングして内積を取る Vision Transformer やResNet （scratchから学習） Transformer（scratchから学習） https://cdn.openai.com/papers/Learning_Transferable_Visu al_Models_From_Natural_Language_Supervision.pdf

Slide 59

Slide 59 text

• CLIPのvisual encoderとして使われたResNet50x4の最終層の畳み込み層のニューロンを調査 • 各ニューロンが最も発⽕するような画像を最適化して獲得 59 CLIPのVisual neuronsの調査 https://openai.com/blog/multimodal-neurons/ https://microscope.openai.com/models/contrastive_4x/image_block_4_5_Add_6_0/865

Slide 60

Slide 60 text

60 CLIPのVisual neuronsの調査 https://distill.pub/2021/multimodal-neurons/ • 画像中の⽂字を読みつつ，関連する特徴と結びつけてコーディングされている

Slide 61

Slide 61 text

61 Typographic Attacks https://distill.pub/2021/multimodal-neurons/ • 画像中のテキストによって発⽕されるニューロンが制御できる è 新しいAIへの攻撃に繋がる危険性がある • 画像分類の結果が⽂字の挿⼊により変わってしまった

Slide 62

Slide 62 text

CLIPで商品ページ検索を試してみた Lenobo Chromebook MacBook Air M1 USB-C Adapter for MacBook Air M1 What is the screen size of chromebook? What is the CPU chip of the latest macbook 13-inch? Is there a usb adapter that will work with MacBook Air M1? 0.32 0.29 0.27 0.26 0.31 0.28 0.25 0.32 0.32 モデルはCLIP ViT-B/32 を利⽤ https://github.com/o penai/CLIP 63

Slide 63

Slide 63 text

おわりに 64

Slide 64

Slide 64 text

• 我々は様々な視覚情報と結びつけて⾔語を理解している – 今後，視覚＋⾔語のマルチモーダル事前学習モデルはますます重要視されていくであろう – NLPタスクにおいても，⾔語のみで事前学習したモデルを，⾔語＋視覚で事前学習したモデルが超えていくかもしれない︖ • 課題として，視覚情報の中の⾔語をどう理解するかが重要 – オープンドメインQA関連はもちろん，⼈間・AI/ロボットの実世界での共⽣，⾃動運転，などたくさんの重要分野に関わる – すべてをend-to-endにできるか︖サブタスクのモジュール化や，ナレッジベースの利⽤とどう向き合っていくか︖ – グラフや表の理解では数値演算も必要になるだろう • クイズAI王を作るために︓知識⼒の向上は今のV&L事前学習の⽅向性で良いのかもしれない．パズルやひらめき問題は解けるようになるか︖ 今後の展望 65

Slide 65

Slide 65 text

参考⽂献 66

Slide 66

Slide 66 text

• Vicente Ordonez, Girish Kulkarni, Tamara L. Berg: Im2Text: Describing Images Using 1 Million Captioned Photographs. NIPS 2011: 1143-1151 • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. Int. J. Comput. Vis. 123(1): 32-73 (2017) • Piyush Sharma, Nan Ding, Sebastian Goodman, Radu Soricut: • Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. ACL (1) 2018: 2556-2565 • Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei A. F. Florêncio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo: TAP: Text-Aware Pre-training for Text-VQA and Text- Caption. CoRR abs/2012.04638 (2020) • Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. CoRR abs/2102.08981 (2021) • Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork: WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning. CoRR abs/2103.01913 (2021) ⼤規模画像キャプションデータ 67

Slide 67

Slide 67 text

• Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR 2017: 6325-6334 • Yash Goyal, Tejas Khot, Aishwarya Agrawal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. Int. J. Comput. Vis. 127(4): 398-414 (2019) • Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguistics 2: 67-78 (2014) • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) 68 参考⽂献︓VQA, IR

Slide 68

Slide 68 text

• Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee: ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. NeurIPS 2019: 13-23 • Hao Tan, Mohit Bansal: LXMERT: Learning Cross-Modality Encoder Representations from Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110 • Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104- 120 • Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. ECCV (30) 2020: 121-137 • Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers. CoRR abs/2004.00849 (2020) • Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu: Large-Scale Adversarial Training for Vision-and-Language Representation Learning. NeurIPS 2020 • Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph. CoRR abs/2006.16934 (2020) • Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao: VinVL: Making Visual Representations Matter in Vision-Language Models. CoRR abs/2101.00529 (2021) 69 参考⽂献︓V&L Transformers

Slide 69

Slide 69 text

• Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 • Jeff Johnson, Matthijs Douze, Hervé Jégou: Billion-scale similarity search with GPUs. CoRR abs/1702.08734 (2017) 70 参考⽂献: DPR & FAISS

Slide 70

Slide 70 text

• Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR 2018: 6077-6086 • Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh: Pythia v0.1: the Winning Entry to the VQA Challenge 2018. CoRR abs/1807.09956 (2018) • Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond. ILCR 2021 • Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten: Learning Visual N-Grams from Web Data. ICCV 2017: 4193-4202 71 参考⽂献︓⾮事前学習のVQA/IRモデル

Slide 71

Slide 71 text

• Jeffrey P. Bigham, Chandrika Jayant, Hanjie Ji, Greg Little, Andrew Miller, Robert C. Miller, Robin Miller, Aubrey Tatarowicz, Brandyn White, Samuel White, Tom Yeh: VizWiz: nearly real-time answers to visual questions. UIST 2010: 333-342 • Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P. Bigham: VizWiz Grand Challenge: Answering Visual Questions From Blind People. CVPR 2018: 3608-3617 • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach: Towards VQA Models That Can Read. CVPR 2019: 8317-8326 • Minesh Mathew, Dimosthenis Karatzas, R. Manmatha, C. V. Jawahar: DocVQA: A Dataset for VQA on Document Images. WACV 2021 • Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu: WebSRC: A Dataset for Web-Based Structural Reading Comprehension. CoRR abs/2101.09465 (2021) • Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021 • Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh: TextCaps: A Dataset for Image Captioning with Reading Comprehension. ECCV (2) 2020: 742-758 • Tsu-Jui Fu, William Yang Wang, Daniel J. McDuff, Yale Song: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents. CoRR abs/2101.11796 (2021) • Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan: Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements. EMNLP (1) 2020: 5495-5510 72 参考⽂献︓視覚情報に含まれる⾔語情報（データセット）

Slide 72

Slide 72 text

• Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, Tianwei Wang: Text Recognition in the Wild: A Survey. CoRR abs/2005.03492 (2020) • Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach: Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA. CVPR 2020: 9989-9999 • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou: LayoutLM: Pre- training of Text and Layout for Document Image Understanding. KDD 2020: 1192-1200 • Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F. Florêncio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. CoRR abs/2012.14740 (2020) 73 参考⽂献︓視覚情報に含まれる⾔語情報（OCR組込モデル）

Slide 73

Slide 73 text

• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. • Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng, Shuicheng Yan: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. CoRR abs/2101.11986 (2021) • OpenAI Blog, DALL·E: Creating Images from Text. January 2021. https://openai.com/blog/dall-e/ • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. CoRR abs/2102.12092 (2021) • OpenAI Blog, CLIP: Connecting Text and Images. January 2021. https://openai.com/blog/clip/ • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever: Learning Transferable Visual Models From Natural Language Supervision. CoRR abs/2103.00020 (2021) • OpenAI Blog, Multimodal Neurons in Artificial Neural Networks. March 2021. https://openai.com/blog/multimodal-neurons/ https://distill.pub/2021/multimodal-neurons/ 74 参考⽂献︓ ViT / DALL·E / CLIP