Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語と視覚に基づく質問応答の最新動向 / Recent Trends in Vision-and-Language Studies for QA

言語処理学会第27回年次大会(NLP2021)ワークショップ:AI王 〜クイズAI日本一決定戦〜 招待講演資料

Kyosuke Nishida

March 19, 2021
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. • 2008年 博⼠(情報科学),北海道⼤学 • 2009年 NTT⼊社 – 2009〜2015︓SNS・位置情報マイニング – 2016〜︓⾃然⾔語処理,特に機械読解(QA)

    – 2020〜︓Vision & Language の研究開発を開始 • 現在,NTT MD研 特別研究員 ⾃⼰紹介︓⻄⽥京介 GPSデータからの 滞在POI推定 [⻄⽥+, UbiComp14] 読解&検索 [⻄⽥+, CIKM18,ACL19] NLP18最優秀,NLP19優秀 MS MARCO QA/NLG Vision-and-language 機械読解 [Galvan(東北⼤), ⻄⽥+, LANTERN20] [⽥中, ⻄⽥+, AAAI21] NLP20優秀,NLP21最優秀 2
  2. 検索 FAQ集 4 ビジネスシーンの例︓コンタクトセンタAI お客様 電話 チャット コンタクトセンタ 質問 契約書・マニュアルなど

    検索+読解 オペレータ 応答 質問 ⽀援 AI • QAの知識源として使いたい⽂書データは,殆どがプレーンテキ ストではなく,PDF⽂書やスライド形式になっている • より正確な理解のためには,表や図,イラストなど視覚情報を ⾔語と結びつけて理解しなければならない
  3. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 7 ⽬次
  4. 1. Webから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて,テキストの単語系列と併 せてTransformerエンコーダに⼊⼒ 3. 事前学習タスクはMasked LMとImage-Text Matchingが中⼼ 9

    V&L事前学習の概要 Web 店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内 で オレンジ … ⼥性 [CLS] … 系列化 ⼥性? [MASK] 各トークンの ⽳埋め問題 本当に存在する 画像とキャプションのペアか︖ True?
  5. • 画像とキャプションのペアのコーパスが最近⽴て続けに構 築・利⽤されている • Conceptual CaptionsベースでWebから⼤量に収集する⽅式が 主流.OpenAIは2.5億個のペアを収集. 10 1) 画像・テキストペアの⼤規模コーパス

    CC ベース 公開 画像数 テキ スト数 SBU Captions [Ordonez +,NIPS11] ◦ 1M 1M COCO Captions [Lin+, ECCV14] ◦ 106K 533K Visual Genome Dense Caption [Krishna+,IJCV17] ◦ 108K 5.4M Conceptual Captions [Sharma+, ACL18] ✔ ◦ 3.3M 3.3M OCR-CC [Yang+, arXiv’20/12] ✔ ×? 1.4M 1.4M Conceptual Captions 12M [Changpinyo+,arXiv’21/02] ✔ ◦ 12.4M 12.4M OpenAI’s internal dataset [Ramesh+, arXiv’21/02] ✔ × 250M 250M WIT [Srinivasan+,arXiv’21/03] ◦ 11.5M 37.6M
  6. Conceptual Captions [Sharma(Google)+, ACL18] https://www.aclweb.org/anthology/P18-1238/ 12 ⽐率が極端な 物は✗ 前置詞・名詞・ 冠詞が無い物

    は✗ Google APIで 付与した物体 ラベルとマッ チしない物は✗ 上位語に変換 して⼀般的な キャプションへ
  7. 13 CC12M [Changpinyo(Google)+,arXiv’21] • 事前学習⽤に量を優先し,フィルタリング条件を緩和して 1200万件の(画像,キャプション)の組を獲得 https://arxiv.org/abs/2102.08981 • ⼈名を除き,上位語 への変換を廃⽌

    • 画像の⽐率は2.5まで 緩和(短い⽅が400ピ クセル以上) • 前置詞のフィルタは 廃⽌ • その他,テキストの フィルタを幾つか廃 ⽌
  8. 19 ファインチューニング Transformerエンコーダ [SEP] How many children are in the

    bed ? 2 • 画像キャプションで事前学習したモデルを基に, QAデータを使って画像と質問⽂から回答を分類するタスク としてファインチューニング 質問⽂ 回答(クロスエント ロピー損失で学習) 画像(オブジェクト系列)
  9. • 2019/08頃からTransformerのV&L事前学習の応⽤が進む • RNN/CNNベース+V&L事前学習を使わないモデルも強い 20 VQA 2.0における性能の発展 Pythia V0.1 (30

    ensemble) 2018 Up-down model (30 ensemble) 2017 72.18 70.34 UNITER MCAN test-stdの精度 VinVL Oscar VilBERT LXMERT VILLA ERNIE-vil Pixel-BERT MCAN+MoVie
  10. 21 Image Retrieval • クエリをテキストとした画像検索(マッチング)タスク • MS-COCOやFlickr30k が評価に使われる モデル出⼒例 (緑が正解)

    Flickr30k [Young+, TACL14] に対する結果の例 https://openaccess.thecvf.com/content_ECCV_2018/html/ Kuang-Huei_Lee_Stacked_Cross_Attention_ECCV_2018_paper.html
  11. 22 ファインチューニング Transformerエンコーダ [SEP] A man riding a motorcycle is

    performing … 0.05 • VQAと同様に画像とクエリを1系列で⼊⼒ • 損失にはranking / binary classification lossが使われる クエリ 関連度 画像(オブジェクト系列)
  12. 24 LightningDOT [Sun+ (Microsoft), NAACL’21] • デュアルエンコーダタイプの事前学習モデル • 内積のobjective(CMR)に加えて,クロスモーダル化した Masked

    Language/Region Modelingを実施 • 密ベクトル検索にはFAISS [Johnson+, 2017] を利⽤.画像約 12万枚からの検索時,クロスエンコーダタイプより23869倍 ⾼速に検索 https://arxiv.org/abs/2103.08784
  13. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCRを組み込んだモデル – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 26 ⽬次
  14. 28 現在の動向(タスク・データ) これまでのVQAや画像検索 ・キャプショニング 画像中のテキストを 考慮したタスクへ 単語レベルから⽂・⽂書へ グラフや表なども併せた 理解まで広がる •

    VQAやキャプショニングを発展させ,視覚情報に含まれる⾔ 語情報に着⽬したタスクやデータセットの整備が2019年頃か ら急速に進み始めた
  15. • インフォグラフィックに対するVQA • これまでの物に⽐べてグラフやアイコンに対する理解が重要 となる 33 Infographics VQA [Robust Reading

    Challenge, 2021] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can be prevented A. 60% Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17
  16. • Webページのスクリーンショットに基づく視覚的読解. • ⽂書レイアウト理解と⽣成型機械読解を統合した問題設定 34 VisualMRC [Tanaka & Nishida+ (NTT),

    AAAI’21, NLP’21] 全ての領域をアノテーション︓ 9つの意味クラスに分類 約30,000件のQAを作成 回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC
  17. 35 VisualMRCの構築フロー ドメイン選定 スクリーンショット 画像切り出し ROIアノテーション 要約型のQA作成/ 回答根拠ROI選択 94 workers

    45 workers 495 workers 10,197 画像,30,562QA クラウドワーカ作業 • 35のドメインからWebページのスクリーンショットを取得し, クラウドソーシング(北⽶英語のネイティブスピーカー)により 約10,000枚の画像と30,000件の質問応答データセットを作成
  18. 36 Region-of-Interestのアノテーション • ⽂書中のROIを以下の9クラスに分類してアノテーション • ⽂書レイアウト理解と機械読解を統合したデータは VisualMRCのみ クラス 説明 段落

    本⽂となるテキスト タイトル サブタイトル 著者名も含む 画像 写真やイラスト データ グラフやテーブル サブデータ データ内のテキスト キャプション データの説明⽂ リスト 箇条書き その他 ROIアノテーションツール
  19. 1. 事前学習モデルによるVQAと画像検索の動向 – Vision-and-Language事前学習の概要 – VQAへの適⽤ – Image Retrievalへの適⽤ 2.

    視覚情報の中の⾔語情報の理解 – タスク・データの発展 – 我々のデータセット VisualMRC のご紹介 3. 今後のVision-and-Language事前学習モデルの⽅向性 – 画像の系列表現に関して – OCR結果の組み込みに関して – OpenAI DALL·E / CLIP︓OCRを使わないV&Lモデルの読解能⼒ 40 ⽬次
  20. • 現在はオブジェクトの系列とするのが主流 • すべての下流タスク・画像ドメインに対して効果的な⽅法は あるか︖ 42 画像をどう扱うか グリッドベース 分類など全体を理解する タスクではこちらが有効︖

    オブジェクトベース VQAなど,被写体の種類や 個数が重要な場合に有効︖ http://openaccess.thecvf.com/content_cvpr_2018/html/Anderson_Bottom-Up_and_Top-Down_CVPR_2018_paper.htm
  21. • 画像は1024(32x32)のコード系列(8192種)として扱う • 画像óコード系列の変換器(discrete VAE)を別途⽤意 – ⼊⼒画像は256x256,ダウンサンプリングを3回して32x32へ 46 DALL·E [Radford+

    (OpenAI), blog 2021/01] an armchair … an avocado … … armchair … an avocado </s> </s> テキストに続けて32x32のコード系列を⽣成 デコード </s> 画像説明⽂
  22. ⽅式 処理 (出⼒ベクトル) 私⾒ region Faster R-CNN等で𝑁個の物体検出 J VQA系で強い L

    物体検出器が必要 L 画像全体を捕えるの は弱い︖ ℝ(×) grid ResNet等で𝐻×𝑊個の特徴ベクトルに変換 J ⾼速に動作 J 物体検出器が不要 L VQA系でやや弱い︖ ℝ(*×+)×) patch 1) 𝐻×𝑊個のパッチに分割 2) それぞれ 線形変換 J 最もシンプル(線形 変換のみ) J 画像分類に強い L VQA系で弱い︖ ℝ(*×+)×("×"×$) ℝ(*×+)×) code 1) Discrete VAE等で 𝐻×𝑊個の離散値に変換 2) それぞれ 線形変換 J 物体検出器が不要 J Transformerで⾔語と ⼀緒に扱いやすい︖ L コード変換器が必要 𝑉*×+ ℝ(*×+)×) 47 画像の系列化のまとめ
  23. • 事前学習済T5モデルを⽂書レイアウト解析とOCR結果で拡張 • 領域の意味クラス,位置情報,画像情報を埋め込みに追加 54 LayoutT5 [Tanaka & Nishida+ (NTT),

    AAAI’21] https://arxiv.org/abs/2101.11272 デコーダ エンコーダ OCR 領域検出 質問⽂ 質問⽂ +⽂書画像 +領域トークン +OCRトークン 出⼒︓回答⽂ 領域クラス,領域座標,画像表現 領域クラス,領域座標,画像表現 1系列に 連結 ⼊⼒︓ T5(事前学習済)
  24. • 画像とテキストのマッチングを4億ペアから事前学習 – DALL·Eの⽣成画像のリランキングにも使われている • 正しい画像・テキストペアを分類できるようにContrastive pre-trainingを⾏う(Masked LMは学習しない) 58 CLIP

    [OpenAI, tech. report 2021/01] 画像とテキストをそ れぞれエンコーディ ングして内積を取る Vision Transformer やResNet (scratchから学習) Transformer(scratchから学習) https://cdn.openai.com/papers/Learning_Transferable_Visu al_Models_From_Natural_Language_Supervision.pdf
  25. CLIPで商品ページ検索を試してみた Lenobo Chromebook MacBook Air M1 USB-C Adapter for MacBook

    Air M1 What is the screen size of chromebook? What is the CPU chip of the latest macbook 13-inch? Is there a usb adapter that will work with MacBook Air M1? 0.32 0.29 0.27 0.26 0.31 0.28 0.25 0.32 0.32 モデルはCLIP ViT-B/32 を利⽤ https://github.com/o penai/CLIP 63
  26. • 我々は様々な視覚情報と結びつけて⾔語を理解している – 今後,視覚+⾔語のマルチモーダル事前学習モデルはますます重要視 されていくであろう – NLPタスクにおいても,⾔語のみで事前学習したモデルを,⾔語+視 覚で事前学習したモデルが超えていくかもしれない︖ • 課題として,視覚情報の中の⾔語をどう理解するかが重要

    – オープンドメインQA関連はもちろん,⼈間・AI/ロボットの実世界で の共⽣,⾃動運転,などたくさんの重要分野に関わる – すべてをend-to-endにできるか︖サブタスクのモジュール化や,ナ レッジベースの利⽤とどう向き合っていくか︖ – グラフや表の理解では数値演算も必要になるだろう • クイズAI王を作るために︓知識⼒の向上は今のV&L事前学習 の⽅向性で良いのかもしれない.パズルやひらめき問題は解 けるようになるか︖ 今後の展望 65
  27. • Vicente Ordonez, Girish Kulkarni, Tamara L. Berg: Im2Text: Describing

    Images Using 1 Million Captioned Photographs. NIPS 2011: 1143-1151 • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) • Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, Li Fei-Fei: Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. Int. J. Comput. Vis. 123(1): 32-73 (2017) • Piyush Sharma, Nan Ding, Sebastian Goodman, Radu Soricut: • Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning. ACL (1) 2018: 2556-2565 • Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei A. F. Florêncio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo: TAP: Text-Aware Pre-training for Text-VQA and Text- Caption. CoRR abs/2012.04638 (2020) • Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut: Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. CoRR abs/2102.08981 (2021) • Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork: WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning. CoRR abs/2103.01913 (2021) ⼤規模画像キャプションデータ 67
  28. • Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi

    Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR 2017: 6325-6334 • Yash Goyal, Tejas Khot, Aishwarya Agrawal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh: Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. Int. J. Comput. Vis. 127(4): 398-414 (2019) • Peter Young, Alice Lai, Micah Hodosh, Julia Hockenmaier: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Trans. Assoc. Comput. Linguistics 2: 67-78 (2014) • Tsung-Yi Lin, Michael Maire, Serge J. Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO: Common Objects in Context. ECCV (5) 2014: 740-755 • Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Dollár, C. Lawrence Zitnick: Microsoft COCO Captions: Data Collection and Evaluation Server. CoRR abs/1504.00325 (2015) 68 参考⽂献︓VQA, IR
  29. • Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee: ViLBERT:

    Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. NeurIPS 2019: 13-23 • Hao Tan, Mohit Bansal: LXMERT: Learning Cross-Modality Encoder Representations from Transformers. EMNLP/IJCNLP (1) 2019: 5099-5110 • Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, Jingjing Liu: UNITER: UNiversal Image-TExt Representation Learning. ECCV (30) 2020: 104- 120 • Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao: Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. ECCV (30) 2020: 121-137 • Zhicheng Huang, Zhaoyang Zeng, Bei Liu, Dongmei Fu, Jianlong Fu: Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers. CoRR abs/2004.00849 (2020) • Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu: Large-Scale Adversarial Training for Vision-and-Language Representation Learning. NeurIPS 2020 • Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang: ERNIE-ViL: Knowledge Enhanced Vision-Language Representations Through Scene Graph. CoRR abs/2006.16934 (2020) • Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao: VinVL: Making Visual Representations Matter in Vision-Language Models. CoRR abs/2101.00529 (2021) 69 参考⽂献︓V&L Transformers
  30. • Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H.

    Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 • Jeff Johnson, Matthijs Douze, Hervé Jégou: Billion-scale similarity search with GPUs. CoRR abs/1702.08734 (2017) 70 参考⽂献: DPR & FAISS
  31. • Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark

    Johnson, Stephen Gould, Lei Zhang: Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR 2018: 6077-6086 • Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, Devi Parikh: Pythia v0.1: the Winning Entry to the VQA Challenge 2018. CoRR abs/1807.09956 (2018) • Duy-Kien Nguyen, Vedanuj Goswami, Xinlei Chen: MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond. ILCR 2021 • Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten: Learning Visual N-Grams from Web Data. ICCV 2017: 4193-4202 71 参考⽂献︓⾮事前学習のVQA/IRモデル
  32. • Jeffrey P. Bigham, Chandrika Jayant, Hanjie Ji, Greg Little,

    Andrew Miller, Robert C. Miller, Robin Miller, Aubrey Tatarowicz, Brandyn White, Samuel White, Tom Yeh: VizWiz: nearly real-time answers to visual questions. UIST 2010: 333-342 • Danna Gurari, Qing Li, Abigale J. Stangl, Anhong Guo, Chi Lin, Kristen Grauman, Jiebo Luo, Jeffrey P. Bigham: VizWiz Grand Challenge: Answering Visual Questions From Blind People. CVPR 2018: 3608-3617 • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, Marcus Rohrbach: Towards VQA Models That Can Read. CVPR 2019: 8317-8326 • Minesh Mathew, Dimosthenis Karatzas, R. Manmatha, C. V. Jawahar: DocVQA: A Dataset for VQA on Document Images. WACV 2021 • Lu Chen, Xingyu Chen, Zihan Zhao, Danyang Zhang, Jiabao Ji, Ao Luo, Yuxuan Xiong, Kai Yu: WebSRC: A Dataset for Web-Based Structural Reading Comprehension. CoRR abs/2101.09465 (2021) • Ryota Tanaka, Kyosuke Nishida, Sen Yoshida: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021 • Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh: TextCaps: A Dataset for Image Captioning with Reading Comprehension. ECCV (2) 2020: 742-758 • Tsu-Jui Fu, William Yang Wang, Daniel J. McDuff, Yale Song: DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents. CoRR abs/2101.11796 (2021) • Yang Li, Gang Li, Luheng He, Jingjie Zheng, Hong Li, Zhiwei Guan: Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements. EMNLP (1) 2020: 5495-5510 72 参考⽂献︓視覚情報に含まれる⾔語情報 (データセット)
  33. • Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, Tianwei

    Wang: Text Recognition in the Wild: A Survey. CoRR abs/2005.03492 (2020) • Ronghang Hu, Amanpreet Singh, Trevor Darrell, Marcus Rohrbach: Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA. CVPR 2020: 9989-9999 • Yiheng Xu, Minghao Li, Lei Cui, Shaohan Huang, Furu Wei, Ming Zhou: LayoutLM: Pre- training of Text and Layout for Document Image Understanding. KDD 2020: 1192-1200 • Yang Xu, Yiheng Xu, Tengchao Lv, Lei Cui, Furu Wei, Guoxin Wang, Yijuan Lu, Dinei A. F. Florêncio, Cha Zhang, Wanxiang Che, Min Zhang, Lidong Zhou: LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document Understanding. CoRR abs/2012.14740 (2020) 73 参考⽂献︓視覚情報に含まれる⾔語情報 (OCR組込モデル)
  34. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua

    Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021. • Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng, Shuicheng Yan: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. CoRR abs/2101.11986 (2021) • OpenAI Blog, DALL·E: Creating Images from Text. January 2021. https://openai.com/blog/dall-e/ • Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever: Zero-Shot Text-to-Image Generation. CoRR abs/2102.12092 (2021) • OpenAI Blog, CLIP: Connecting Text and Images. January 2021. https://openai.com/blog/clip/ • Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever: Learning Transferable Visual Models From Natural Language Supervision. CoRR abs/2103.00020 (2021) • OpenAI Blog, Multimodal Neurons in Artificial Neural Networks. March 2021. https://openai.com/blog/multimodal-neurons/ https://distill.pub/2021/multimodal-neurons/ 74 参考⽂献︓ ViT / DALL·E / CLIP