• エンコーダデコーダ型のモデルを⽤いて,テキストAからテキストBに変 換(翻訳や要約など)する • 代表モデル︓Transformer [Vaswani+, NIPS’17],T5 [Raffel, JMLR’21] 11 NLGタスクとモデルのイメージ(2) ͜Ε ϖϯ Ͱ͢ ɻ T T エンコーダの 出⼒をデコーダで利⽤ 5IJT JT B QFO T 5IJT JT B QFO
• 単語間の関係を理解(表現)するためにRNNやCNNを⽤いず,アテン ションのみを⽤いたエンコーダデコーダ型モデルを提案 • 機械翻訳で評価実験し,当時の最⾼性能を更新 14 Transformer [Vaswani(Google)+, NIPS’17] Transformer エンコーダ Transformer デコーダ これ は ペン です This is a pen This is a pen
• ⽳埋め問題により,⽂脈の中で単語が出現する確率を予測する • ⼤量のテキストさえあれば,⼈間が追加で正解をアノテーションするこ となく学習可能(⾃⼰教師あり学習) 25 BERTの特徴(1) マスク化⾔語モデリング … My [MASK] is hairy … … My dog is hairy … ⼊⼒の⼀部をマスク マスク前の⽂章を予測 双⽅向アーキテクチャ マスク単語の前後の情 報を使って予測
BERT (Transformerエンコーダ) • ⾃然⾔語理解(NLU)のタスクは2つの⽂の関係性理解が多い • そこで,⽂書中で隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣 接する⽂か否かの判定を⽳埋め予測と同時に学習 26 BERTの特徴(2) 次⽂章予測 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類︓2⽂が隣接か否か︖ ⽳埋め
• 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が,視覚と⾔語を結びつけた理解にも派⽣し, 急速に発展している 39 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,2022/04/29] “DALL-E 2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+,2022/04/13] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck https://cdn.openai.com/papers/dall-e-2.pdf https://arxiv.org/abs/2204.14198
• VQGAN [Esser+, CVPR’21] で⽣成した画像がCLIP空間でターゲットテキス トと類似するように潜在変数(Z-vector)を最適化する • “AIアート”としてSNS・ニュースサイト等で話題に VQGAN+CLIP [Crowson(EleutherAI)+, 2021/07] Z-vector VQGAN Decoder CLIP 類似度のlossで学習 学習パラメータ an astronaut in the style of van Gogh https://arxiv.org/abs/2204.08583 blue whales swimming through neon city 59 https://twitter.com/ak92501/status/1413360535685435396
• 学習時に,物体検出モデルの出⼒する領域の画像表現を,CLIP空間の画 像表現に近づける(蒸留)ようにすることで,任意のテキスト(”open vocabulary”)で物体検出可能なモデル 61 ViLD [Gu(Google)+, ICLR’22] Toy duck CLIPのテキストエンコーダで 任意のテキストクラスを指定可能 物体検出器 の出⼒ CLIPの画像 エンコーダ の出⼒に近づける Toy duck Green toy Blue toy https://arxiv.org/abs/2104.13921
• インフォグラフィックに対するVQA.グラフやアイコンに対する理解が 重要となるコンペティションが開催された • NTTは事前学習データ量を従来モデルの1/22に抑えつつ同程度のサイズ のモデルの中で最も⾼い性能を達成し2位に⼊賞(18チーム337投稿中) 72 Infographics VQA [Mathe(IIIT)+, WACV’22] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can not be prevented A. 40% (100 – 60) Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17
• (偏りの存在する)⼤量データで学習したことによる,⾔語モデルの出 ⼒に関するバイアスの存在や,有害なテキスト⽣成の問題が課題 • 近年の⼤規模⾔語モデルの評価観点として重要視されている モデルのバイアスを解消できるか︖ https://arxiv.org/pdf/2204.02311.pdf The nurse notified the patient that his shift would be ending in an hour. The “his” refers to … the patient ? the nurse? 指⽰語の性別バイアスの評価 ステレオタイプと異なる 組み合わせだと精度落ちる プロンプトに続く⽣成テキストが有害となる分布 特定宗教に関して有害なテ キストを⽣成しやすい スコア⼤︓有害 https://arxiv.org/abs/2204.02311 83 PaLM [Chowdhery (Google)+, 2022/04/19]
1. Ashish Vaswan et al.: Attention is All you Need. NIPS 2017: 5998-6008 2. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Colin Raffel et al.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020) 5. Dzmitry Bahdanau et al.: Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015 6. Pranav Rajpurkar et al.: SQuAD: 100, 000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383- 2392 7. Jared Kaplan et al.: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) 8. Opher Lieber et al.: Jurassic-1: Technical Details and Evaluation, Tech. Report, AI21 Labs (2021) 9. Aditya Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 10. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. CoRR abs/2204.14198 (2022) 11. Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99 12. Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019) 13. Pengchuan Zhang et al: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579- 5588 14. Alexey Dosovitskiy et al.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021 15. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748- 8763 参考⽂献 98
16. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 17. Or Patashnik et al.: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. ICCV 2021: 2065-2074 18. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CVPR 2020: 8107-8116 19. Katherine Crowson et al: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. CoRR abs/2204.08583 (2022) 20. Patrick Esser, Robin Rombach, Björn Ommer: Taming Transformers for High-Resolution Image Synthesis. CVPR 2021: 12873-12883 21. Xiuye Gu et al.: Zero-Shot Detection via Vision and Language Knowledge Distillation. ICLR 2022 22. Yael Vinker et al.: CLIPasso: Semantically-Aware Object Sketching. SIGGRAPH 2022. 23. Guy Tevet et al: MotionCLIP: Exposing Human Motion Generation to CLIP Space. CoRR abs/2203.08063 (2022) 24. Jonathan Ho, Ajay Jain, Pieter Abbeel: Denoising Diffusion Probabilistic Models. NeurIPS 2020 25. Minesh Mathew et al.: DocVQA: A Dataset for VQA on Document Images. WACV 2021: 2199-2208 26. Ryota Tanaka et al: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021: 13878-13888 27. Yupan Huang et al: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. CoRR abs/2204.08387 (2022) 28. Minesh Mathew et al: InfographicVQA. WACV 2022: 2582-2591 29. ⽥中涼太 et al: テキストと視覚的に表現された情報の融合理解に基づくインフォグラフィック質問応答, NLP 2022 30. Geewook Kim et al.: Donut: Document Understanding Transformer without OCR. CoRR abs/2111.15664 (2021) 参考⽂献 99
31. Jack W. Rae et al.: Scaling Language Models: Methods, Analysis & Insights from Training Gopher. CoRR abs/2112.11446 (2021) 32. Jordan Hoffmann et al. : Training Compute-Optimal Large Language Models. CoRR abs/2203.15556 (2022) 33. Aakanksha Chowdhery et al.: PaLM: Scaling Language Modeling with Pathways. CoRR abs/2204.02311 (2022) 34. William Fedus et al.: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021) 35. Ze Liu et al: Swin Transformer V2: Scaling Up Capacity and Resolution. CVPR 2022 36. Romal Thoppilan et al.: LaMDA: Language Models for Dialog Applications. CoRR abs/2201.08239 (2022) 37. Stephen H. Bach et al.: PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts. ACL (demo) 2022: 93-104 38. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 39. Victor Sanh et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022 40. Haokun Liu et al.: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. CoRR abs/2205.05638 (2022) 41. Jason Wei et al: Chain of Thought Prompting Elicits Reasoning in Large Language Models. CoRR abs/2201.11903 (2022) 42. Yujie Lu et al.: Imagination-Augmented Natural Language Understanding. NAACL-HLT 2022. 43. Mohit Shridhar et al.: CLIPort: What and Where Pathways for Robotic Manipulation. CoRL 2021: 894-906 44. Andrea Burns et al.: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments. CoRR abs/2104.08560 (2021) 45. Rowan Zellers et al.: MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound. CVPR 2022 46. Scott E. Reed et al.: A Generalist Agent. CoRR abs/2205.06175 (2022) 参考⽂献 100