Vision and Languageと分野を取り巻く深層学習手法の紹介

Slide 1

Slide 1 text

2021.05.21 NL/CVIM/PRMU合同研究会 Vision and Languageと分野を取り巻く深層学習手法の紹介品川政太朗（奈良先端大） 1/97

Slide 2

Slide 2 text

品川政太朗（しながわせいたろう）と申します 1989年札幌にて誕生 2013年東北大学工学部卒業 2015年東北大学大学院博士前期課程修了 2015年奈良先端大知能コミュニケーション研究室で博士後期課程 2020年同研究室研究員を経て１１月から助教専門：画像生成、対話システム博論：A Conversational System for Interactive Image Editing （自然言語を用いた対話型画像編集システム）興味：Vision&Language、コミュニケーション支援 2/97

Slide 3

Slide 3 text

本発表の一部はcvpaper.challengeのメタサーベイの成果ですこちらもぜひご一読ください https://www.slideshare.net/cvpaperchallenge/transformer-247407256 3/97

Slide 4

Slide 4 text

今回の発表について • Vision&Languageにはどのような取り組み・課題があるか • 深層学習はどのように使われてきているか • 特に両モダリティの統合と変換に焦点を当てます • 評価指標の話は重要ですが、今回は省きました 1. Vision&Languageはどんな分野なのか？ 2. Vision&Languageの主要な深層学習モデル 3. 学習済みモデルを応用する話 4. 今後はTransformerからMLPへ？ 5. 言語生成タスクにおける強化学習の利用 6. さいごにもくじ 4/97

Slide 5

Slide 5 text

１．Vision&Languageはどんな分野なのか？ 5/97

Slide 6

Slide 6 text

Vision&Languageとは？ Computer Vision Natural Language Processing Vision&Language • 画像処理と自然言語処理の融合領域 • 2分野の技術を駆使して、両分野にまたがる問題を解決する 6/97

Slide 7

Slide 7 text

例えば？ Image captioning Visual Question Answering (VQA) Embodied Question Answering (EQA) Text-to-image generation [Xu+, 2018] [Das+, 2018] [Vinyals+,2015] [Agrawal+, 2016] 自然言語を入力とした物体操作 [Bisk+, 2016] 7/97

Slide 8

Slide 8 text

例えば？自然言語の文をクエリとした画像検索 [Li+, 2017] 漫画のAudio Comic化（audioモダリティも加えたマルチモーダル処理）料理動画への字幕・レシピのアラインメント [Bojanowski+, 2015] [Wang+, 2019] 8/97

Slide 9

Slide 9 text

Vision&Languageの面白さ • 画像と言語を両方扱うことで、新しい問題設定がどんどん出てくる • 別々のモダリティをどのように組合わせるべきか？ • システムは人間とどのようにインタラクションすべきか？ 9/97

Slide 10

Slide 10 text

言語処理側から見るモチベーション画像も考慮することで、新しいアプリケーションにアプローチできる機械翻訳要約質問応答対話情報検索画像文脈＋＝ multi-(cross-)modal machine translation multi-(cross-)modal summarization visual question answering visual dialog multi-(cross-)modal information retrieval 画像付きの記事要約[Zhu+, 2018] 画像も適切なものを選択して出力 Web上は画像とテキストであふれているから、画像もうまく利用したい 10/97

Slide 11

Slide 11 text

画像処理側から見るモチベーションシーン認識自然言語出力 image-captioning 自然言語入力物体検出領域分割画像生成画像編集 referring expression text-guided semantic segmentation text-to-image text-guided image editing 自然言語インターフェースは人間にとって都合が良い • 膨大なデータをまとめるのは人間には大変→システムが要約して説明する • ツールを使うのは素人には大変→（音声）言語で入力したい＋＝＋＝ 11/97

Slide 12

Slide 12 text

Vision&Languageはいつごろ登場した？ Vision&Languageという分野名は、深層学習の普及に伴って呼ばれるように • 2015年からサーベイ論文が登場 [Ferraro+, 2015] [Kafle+, 2019] [Mogadala+, 2020] ただ、深層学習以前にも、画像と言語を扱う研究には古い歴史がある [Okada, COLING1980] [Hiyoshi, COLING1994] 手描きの絵から説明文を生成自然言語とキーボード、マウス入力を組合わせてイラストを描画 [Winograd, 1972] 自然言語による物体操作と画像付き質問応答 12/97

Slide 13

Slide 13 text

昔と今で何が違う？昔：実世界上の多様な物体やテキストを記号的に定義して計算の土台に載せるのが難しかった（タスクをなるべく限定する必要があった）今：画像もテキストもベクトルとして扱える • インターネットの普及で、扱える画像とテキストのデータが増えた • 高性能な計算機を使えるようになった • 統計的手法の発展 13/97

Slide 14

Slide 14 text

Vision&Langugeの難しさ①：モダリティ間の情報差画像とテキスト情報は１対１対応を仮定するのが難しい画像の説明文でペアを作る image-captioningのタスク画像の説明文は、画像の中の顕著な物体について説明している →つまり要約としての側面が強いこのモダリティ間の情報差をうまく調整してなければならない 14/97

Slide 15

Slide 15 text

Vision&Lanagueの難しさ②：データセットのバイアス画像と言語の２つのモダリティがあるため、それぞれでバイアスが生じ得る VQAデータセットはバランスに問題があった [Goyal+, 2017] • ”What sport is…”という質問に対して”tennis”で41%正答できる • ”How many…”という質問に対して”2”で39%正答できる • “Do you see…”という質問に対して”yes”で87%正答できる →complementなサンプルを加えることで、画像を見ないと正答できないようにした [Agarwal+, 2020]では、人間が67.12%の割合でVisual Dialogを対話履歴なしで正答できると報告 • より難しくした評価セットのVisDialConvを提案 15/97

Slide 16

Slide 16 text

Vision&Lanagueの難しさ③：実世界のデータをとるのは大変目的に応じてまずは人工的なデータで実験、sim2realで人工データを応用という研究も多い https://cs.stanford.edu/people/jcjohns/clevr/ 左のCLEVRデータセットは BlenderでレンダリングしたCG画像と、人工的に作成した質問応答ペアのデータセット NeurIPS2018のNeural-Symbolic VQA [Yi+, 2018]で正解率99.8%を達成（ほぼ上限？）業界内では、新しいコンセプトの研究を始める時に向いているMＮＩＳＴ的立ち位置自分で新しいデータを生成するコードもサポートされているので比較的使いやすいよく見かけるタスク relational reasoning text-guided image editing 16/97

Slide 17

Slide 17 text

Vision and Language研究の近年の動向 Transformerベースの大規模パラメータ、大規模データセット学習手法が台頭 ViLBERT VisualBER T VL-BERT LXMERT ERNIE－ ViL OSCAR UNITER 事前学習データセット VG, CC VG, COCO VG, CC text-only data VG, COCO VG, COCO, SBU VG, COCO, CC, SBU, GQA,flicker30k VG,COCO, CC,SBU 評価データセット VQA VQA,VCR, NLVR2,Flic ker30k VQA,VCR, Ref VQA, GQA, NLVR VQA,VCR, RefCOCO, retrieval retrieval, IC, VQA, GQA, NLVR2 VQA,VCR,N LVR2,retriev al,他モデルサイズ large? base base, large base, large base, large base, large 事前学習の計算時間 8 TitanX >4 Tesla V100 250k steps,16 Tesla V100 GPUs 10日 4 Titan Xp 700k steps, 8 V100 GPUs 1M steps, 900k steps 882, 2685 V100 GPU 時間パフォーマンス VG: Visual Genome (Faster R-CNN訓練用) , CC: Conceptual Captions 3.3M, SBU: SBU Captions 0.8M 17/97

Slide 18

Slide 18 text

Vision and Language研究の近年の動向使える計算機が強いほどできることが増えるパワーゲームになってきている • BERT baseのfine-tuningとかならGPU１枚でも大丈夫そうだが・・・一方で、学習済みモデルを利用する方法もちらほら出てきている（この流れが発展して欲しい・・・）いずれにしても、どのようなことをしているか把握していく必要はある →今日やること 18/97

Slide 19

Slide 19 text

２．Vision&Languageの主要な深層学習モデル 19/97

Slide 20

Slide 20 text

Vision&Languageでは画像と言語をどう結び付けるか？画像言語共通の潜在空間画像言語潜在空間画像→言語潜在空間言語→画像 Vision&Languageでは特に、両モダリティの統合と変換をうまくやる必要がある深層学習ベースだと、次の二種類を覚えておくと役に立つ双方向タイプ一方通行タイプ 20/97

Slide 21

Slide 21 text

黎明期からの双方向タイプ画像言語共通の潜在空間双方向タイプは、深層学習黎明期(2013年くらい)からのアプローチ Visual semantic embeddings [Frome+, 2013] [Kiros+, 2014] [Faghri+, 2017] [Wu+, 2019] ①画像情報と言語情報をそれぞれ符号化 ②ペアと偽ペアを用意 ③triplet loss（下記）で最適化言語情報は、扱う単位が増えてきている模様 • 物体ラベル[Frome+, 2013] • テキストに含まれる単語[Kiros+, 2014] • フレーズや文単位[Wu+, 2019] [Wu+, 2019] 21/97

Slide 22

Slide 22 text

近年の有名な双方向タイプ画像言語共通の潜在空間 BERTは、V&Lタスクでシェアを占めてきている双方向タイプのモデル Bidirectional Encoder Representation from Transformers (BERT) [Devlin+,2019] 共通の潜在表現を学習させるのは難しいタスクだった（一方のモダリティに過学習しやすい）が、この印象が覆されたエンコーダだけなので、色々なタスクに利用することができる点も魅力？ V&Lの事前学習の特徴 • 物体の矩形のmasking(Masked region modeling) • 画像とテキストのマッチングを二値分類するimage-text matching prediction 22/97

Slide 23

Slide 23 text

一方通行タイプの特徴画像言語潜在空間画像→言語潜在空間言語→画像共通の潜在空間をあきらめることで、色々と利点が出てくる画像から言語、言語から画像のネットワークを別々に学習してからでも学習できる一方のモダリティがもう一方のモダリティのデータ拡張として働く Turbo learning[Huang+,2018] Multimodal Chain [Effendi+,2021] 画像がペアになってなくても学習できる 𝐼 𝐼 𝐼𝑔𝑒𝑛 𝑇 𝑇 𝑇𝑔𝑒𝑛 ※画像→テキスト→画像では微分可能にする必要がある(Gumbel softmaxなど) 𝑙𝑜𝑠𝑠 = 𝛼ℒ 𝐼, 𝐼𝑔𝑒𝑛 + 𝛽ℒ 𝑇, 𝑇𝑔𝑒𝑛 23/97

Slide 24

Slide 24 text

どのような深層学習モデルが使われているか？おおまかに分けると・・・ Recurrent Neural Networks (RNNs) • LSTM • GRU Transformers • Seq2seq transformers • BERT Convolutional Neural Networks (CNNs) • Faster R-CNN (Visual Genomeで) • ResNet50, 152 Transformers • Vision Transformer (ViT) • CLIP Vision Language Multi-Layer Perceptron (MLP; Fully-connected Layers (FC)) Variational Auto Encoders (VAEs) Generative Adversarial Networks (GANs) 24/97

Slide 25

Slide 25 text

Vision and LanguageにおけるTransformerの躍進 Transformerが本格的に導入されてきたのは2019年ごろ大規模モデル×大規模データセットで学習するのが主流になってきた 25/97

Slide 26

Slide 26 text

Transformer以前のモデルの悩み言語データは時系列：Recurrent Neural Network (RNN)で処理していた私は人間 RNN 𝑥0 embedding RNN 𝑥1 embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 前の隠れ層ℎ𝑡−1 が入力なので逐次処理に時間がかかる 26/97

Slide 27

Slide 27 text

Transformerの登場 Self-attentionという構造で時系列データを一挙に並列処理できるように私は人間 RNN 𝑥0 embedding RNN 𝑥1 embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 学習の高速化により大規模データでの学習が可能に →自然言語処理分野での大規模学習時代の到来 Transformer block 27/97

Slide 28

Slide 28 text

コンピュータビジョン分野での強み 2020年にはビジョンの分野での応用が多数報告されてきた CNNは局所結合を重ねた構造大域的な関係性を見るのは不得手 Transformer block Transformerのself-attentionは領域同士の関係性を大域的に考慮しやすい仕組み 28/97

Slide 29

Slide 29 text

Vision and Languageではどう使われている？全体的な傾向複数データセットによる大規模学習で汎用性のあるモデルを作る複数のデータで学習するための工夫が発展 Transformerに合わせて画像と言語を処理するという方向性が発展 Encoder-Decoder型より、BERT型の方が圧倒的に多い画像 • 学習済みFaster R-CNNの特徴量を利用 • Vision Transformer的なパッチベースの方法 (Transformer in Transformer) 言語 BERT型 or Encoder-Decoder型 29/97

Slide 30

Slide 30 text

ビジョン分野でのSelf-attentionの適用事例 Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2019] • GANによる画像生成にSelf-attentionを適用した例 • 点が示す領域をクエリとしたとき、画像のどの領域が強く対応しているかを可視化 • 各クエリ点が近くの領域や遠くの領域を見ていることがわかる 30/97

Slide 31

Slide 31 text

Self-attention 辞書型の非線形処理機構周りの情報を取り入れて新しいベクトルを作る self-attention 31/97

Slide 32

Slide 32 text

Self-attentionの計算他のクエリについても同様に求められる 𝑑は内積計算後のベクトルのノルムを正規化する役割 32/97

Slide 33

Slide 33 text

Transformerブロックの中身 Transformerブロックを構成している要素 1. Multi-head attention (次元分割型Self-attention） 2. 残差接続（Residual connection） 3. Layer Normalizationによる正規化 4. Position-wise feed forward networks 5. DropOut Multi-head attention Norm Feed forward Norm + + ※左図は標準的に使われることの多いPre-norm型 33/97

Slide 34

Slide 34 text

Multi-head attention 次元分割型Self-attention（Multi-head attention） Self-attentionの内積はベクトルの各要素にわたって大域的な類似度高次元にすると、次元ごとの小さな特徴が無視されやすい attention map • 小さなベクトルに切り分け計算 • トークン間の多様な類似性を発見できる • 多様性を上げる損失関数を加えると性能向上[J. Li+, EMNLP2018], [P.Y. Huang+, EMNLP2019] 34/97

Slide 35

Slide 35 text

残差接続（Residual connection） • 入力からの差分を学習する • 入力からの差分の学習が不要の場合 sublayer部分が0になるように学習が進む • 学習の安定化に寄与多層での学習性能を上げる工夫 35/97

Slide 36

Slide 36 text

Layer normalization 入力系列をトークンごとに正規化する操作 Layernorm Layernorm Layernorm Layernorm 嬉しい特徴 Large batch訓練がbatch accumulationで安心してできる ※batch normalizationだと統計量が変わってしまう 36/97

Slide 37

Slide 37 text

DropOut Transformerでは3種類のDropOutがある • positional encoding後の入力embedding • 残差接続&Layernormの直前 • attention計算時のattention map 訓練時に、ある層の入力（出力）を確率的に0にすることで汎化性能を上げる工夫 37/97

Slide 38

Slide 38 text

Position-wise feed forward networks 2層の線形層を各位置ごとに適用(Layernormと同様) この層はどのような役割や重要性があるのか？言語モデルでは一種のkey-valueメモリの役割を担っていると報告 [M. Geva+, 2021] https://arxiv.org/abs/2012.14913 38/97

Slide 39

Slide 39 text

入力には位置情報のembeddingが必要 self-attentionには各トークンの位置を考慮する機構がない →明示的に位置embeddingを与えると性能が向上単純に足し合わせることが多い位置embeddingは一から学習させる場合が多いが、決め打ちで与えても良いよく使われるものは、Sinusoidal positional embeddings [Vaswani+, 2017] 39/97

Slide 40

Slide 40 text

Sinusoidal型の気持ちは時計型embedding？ from:https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb sin 𝑤0 𝑡 , cos 𝑤0 𝑡 長針周期短い短針周期長い sin 𝑤𝑛 𝑡 , cos 𝑤𝑛 𝑡 ⋯ sinとcosの組を時計の針とみると、位置𝑡は時刻で𝑤𝑖 は針の動く速さ次元を2nとすると、sinとcosはn組→n個の針がある時計 “私” “は” “元気” “です” “。” 40/97

Slide 41

Slide 41 text

Transformerをどのように学習させるか？大きく分けて２種類のタイプがある • 【Seq2seq】 Attention is all you need [Vaswani+, 2017] • 【BERT】 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Devlin+, 2019] 41/97

Slide 42

Slide 42 text

Seq2Seq型 EncoderとDecoderの２種類のTransformerで構成 Encoder Decoder 42/97

Slide 43

Slide 43 text

Seq2Seq型 Decoder EncoderとDecoderの２種類のTransformerで構成 Encoder情報はKey, Value情報としてDecoderへ Key Value 43/97

Slide 44

Slide 44 text

Seq2Seqのforward計算の特徴 • 時系列を時々刻々と順番に予測していく（自己回帰型） • 訓練時に未来の系列がリークしないようにAttention mapにマスクする（−∞ で置き換える）工夫が必要 −∞ −∞ −∞ −∞ −∞ −∞ 「私は元気です」をデコーダで出力するように学習する場合私は元気です Query Key 「私」に対応するQueryは、未来の情報である「は」「元気」「です」のKeyを考慮しない 44/97

Slide 45

Slide 45 text

BERT型自己回帰型ではない新しい言語モデルの枠組み事前学習で以下の２つのタスクを行うことで色々なNLPタスクで効果を発揮（V&LのモデルやVision Transformerもこの流れを汲んでいる） • Masked language modeling (MLM) • Next sentence prediction (NSP) BERT [CLS] [SEP] 文A 文B 45/97

Slide 46

Slide 46 text

Masked Language Modeling 系列の一部をマスクしてマスクした箇所を予測するタスク BERTでは15%を選択し、そのうち80%は[mask]トークンで置き換え、 10%はランダムなトークンで置き換え、10%はそのままにする（ViTでもpatch単位で同じことをしている） BERT [CLS] [SEP] 文A 文B 予測予測予測 46/97

Slide 47

Slide 47 text

Next sentence prediction ２つの文AとBが連続しているかを２値で予測するタスク（V&Lのモデルでは画像とテキストがマッチするかで使われている） BERT [CLS] [SEP] 文A 文B 連続/不連続 47/97

Slide 48

Slide 48 text

Segment embeddingsの追加どちらの文に所属しているかをより明示的に扱うためのembeddingを追加で加算してembeddingを作る V&Lでは、画像とテキストどちらに所属するかのembeddingが追加されることがある（VL-BERT [Weijie+,2020]） 48/97

Slide 49

Slide 49 text

V&L用のモデルへの設定 textのみのBERT • Masked Language Modeling • Next sentence prediction • Segment embedding of sentence pair V&LのBERT • Masked Language Modeling ＋Masked region modeling • Image-text matching • Segment embedding of image-text pair (ないことも多い) • 画像はVisual Genome datasetで訓練したFaster R-CNNを利用し、物体の矩形ごとに整形してトークンとする（Seq2seqもあるが、主流ではない） 49/97

Slide 50

Slide 50 text

例えばUNITER[Chen+,2020]の場合 ※WRAはUNITER独自の損失関数で、Optimal Transportを用いて画像矩形トークンと単語のトークン間の分布を最小化する 50/97

Slide 51

Slide 51 text

𝑄𝑡 V&L特有の仕組み：1-stream型と2-stream型 1-streamは画像とテキストをまとめて入力 2-streamはソース・ターゲット型のattention 𝑣0 𝑣1 Multi-head attention 𝑣𝑉 𝑡0 𝑡1 𝑡𝑇 token-to-Q,K,V token-to-Q,K,V ⋯ ⋯ 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑇 × 𝐻 vectors V × 𝐻 vectors 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉 + 𝑇 × 𝐻 vectors visual tokens textual tokens Multi-head attention Multi-head attention 𝑉𝑡 𝐾𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 1-stream (single-stream) 2-stream (co-attention) 51/97

Slide 52

Slide 52 text

1-stream型と2-stream型はどちらが良いか？ 1-stream 2-stream 1-stream 2-stream 2-stream 1-stream 1-stream 1-stream 決着はついていないが、シンプルな1-streamでも十分性能が出ている [Shin+, 2021]の図を基に作成 52/97

Slide 53

Slide 53 text

余談：Seq２seq系の手法について UniT: Multimodal Multitask Learning with a Unified Transformer [Hu+, 2021] Faster R-CNNではなく、Vision Transformerのようにパッチベースで画像の特徴量抽出を行い、Transformerですべて完結させるアプローチモデルは超巨大：“batch size of 64 on 64 Nvidia Volta V100- SXM2-32GB GPUs (batch size 1 per GPU)" The Dialogue Dodecathlon [Shuster+, 2020] 複数の対話データセット（画像付きも含む）で訓練することで、zero- shot能力を示すことが報告された Zero-Shot Text-to-Image Generation [Ramesh+, 2021] テキストから画像を生成するGPT-3ベースのネットワーク。DALL-Eという名前がついている（後述） 53/97

Slide 54

Slide 54 text

学習済みモデルを応用する話 54/97

Slide 55

Slide 55 text

学習済みモデルの応用 Network-to-network [Rombach+, 2020] https://arxiv.org/abs/2005.13580 flow-basedで異なる２ドメインの特徴量のマッピングを学習End-to-endで最適化せずにできるので効率的 55/97

Slide 56

Slide 56 text

Text-to-imageにおけるCLIPの応用大規模な画像とテキストのペアでcontrastive learningを行うことでzero-shotの認識を実現 4億のデータを収集してクリーニングしたデータセットでContrastive学習テキストをクラスと見立てて、マッチングスコアでzero-shot画像認識後述するDALL-Eでは生成画像のリランキングに使っている Contrastive Language–Image Pre-training [Radford+, 2021] https://arxiv.org/abs/2103.00020 56/97

Slide 57

Slide 57 text

CLIPを汎用的な識別器として、生成画像をテキストに合わせて制御する手法が続々登場 Paint by word [Bau+, 2021] https://arxiv.org/abs/2103.10951 CLIP-Guided Generative Latent Space Search [Galatolo+, 2021] https://arxiv.org/abs/2102.01645 入力となる目標テキストに対して、進化的アルゴリズムでCLIP の類似度スコアを最大化するよう画像の潜在変数を最適化 57/97

Slide 58

Slide 58 text

DALL-Eによる汎用的な画像生成も視野に入ってきた？潜在空間を離散化したVAEによる潜在変数を語彙としてGPT-3で大規模に学習すると、テキストからゼロショットで画像生成ができる 2.5億の画像テキストペアで学習（学習済みモデルが欲しい・・・） Zero-Shot Text-to-Image Generation [Ramesh+, 2021] https://arxiv.org/abs/2102.12092 58/97

Slide 59

Slide 59 text

4.今後はTransformerからMLPへ？ 59/97

Slide 60

Slide 60 text

今後はTransformerからMLPへ？ MLP-Mixer[Tolstikhin+,2021] 実はMLPでもTranformer並みの性能を出せたという報告が続々登場 5/4 MLP-Mixer [Tolstikhin+,2021] 5/6 Do You Even Need Attention? [Melas-Kyriazi,2021] 5/7 ResMLP [Touvron+,2021] 5/17 Pay Attention to MLPs [Liu+,2021] 方法はシンプルで共通転置してMLPに通すトークン間の相互作用をとらえられる 60/97

Slide 61

Slide 61 text

Vision, Language taskでTransformerの性能を上回る報告 gMLP (Pay Attention to MLPs [Liu+,2021])はTransformerベースに接近 Vision: 画像認識（ImageNetで訓練・評価） Language: C4（後述）で事前訓練、質問応答（SQuAD）、Sentimentの二値分類(SST-2)、自然言語理解(MNLI)でそれぞれfine-tuningして評価 ViT型での比較 BERT型での比較 61/97

Slide 62

Slide 62 text

gMLPは系列方向の関係性を捉えてgatingしている点が特徴 𝑊 𝑛 𝑛 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍 = 𝑊𝑍 + 𝑏 SGU 𝑍 = 𝑍 ⊙ 𝑔𝑓 𝑍 𝑑𝑧 𝑔𝑓 +b = 𝑛 𝑑𝑧 𝑔𝑓 input embeddings 𝑑𝑧 𝑛 𝑓𝑊,𝑏 𝑍 ⊙ 𝑍 Spatial Gating Unit (SGU) ? • 𝑊の各スライスが、embeddingのベクトルの各要素に対して系列方向のフィルタとして作用する • 例えば、上のような重み𝑊のスライスは、ベクトルの最初の要素の真ん中の系列に大きな重み →空間方向の関係性を捉えられる 62/97

Slide 63

Slide 63 text

入力をsplitすると性能がさらに向上する 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍2 = 𝑊𝑍2 + 𝑏 SGU 𝑍 = 𝑍1 ⊙ 𝑔𝑓 𝑔𝑓 input embeddings 𝑑𝑧 2 𝑛 𝑓𝑊,𝑏 𝑍2 ⊙ 𝑍1 , 𝑍2 Spatial Gating Unit (SGU) 𝑑𝑧 2 BERT baseと同規模のパラメータでより低い perplexityを達成 63/97

Slide 64

Slide 64 text

ImageNetで学習したgMLPのfilterの可視化各層ごとに、filter Wの各横スライスを2Dになるようにreshapeして横に並べている 𝑊 同じ位置に反応するスライスが存在する（図は恣意的にスライスを選んでいる） 𝑛 𝑛 𝑛 𝑛 𝑛 ⋯ 𝑛 𝑛 64/97

Slide 65

Slide 65 text

Masked Language Modelingで学習した gMLPのfilterの可視化各プロットの横軸が系列方向 36層各層ごとに、真ん中の系列に強く反応するfilter 𝑊のスライスを可視化前の系列、後ろの系列も重みをつけて見ているフィルタが存在 𝑛 Colossal Clean Crawled Corpus (C4) dataset で訓練 (約800GB;数億文書;数千億トークン、google.patentやwikipediaが多い) 65/97

Slide 66

Slide 66 text

5.言語生成タスクにおける強化学習の利用 66/97

Slide 67

Slide 67 text

言語生成タスクとは？文脈情報に沿って文を生成するタスクを指す文脈情報生成するテキストタスク英語の文日本語の文英日翻訳画像画像の説明文画像説明文生成発話文応答文対話応答生成言語デコーダ文脈情報 “机の上にあるのはペンです” 67/97

Slide 68

Slide 68 text

言語生成ではfine-tuningに強化学習を使うことが増えてきている image-captioningで強化学習を使っている事例 by [Mogadala+, 2020] “ ” image-captioningの論文[Pan+, 2020]では「reinforcement」の文字すら既にない • Self-Critical Attention [Rennie+, 2017] • Policy Gradient [Liu+, 2017] • Up-Down [Anderson+, 2018] • Multi-task Captioning [Zhao+, 2018] • Stack Captioning [Gu+, 2018] OpenAIによるGPT-3＋強化学習 fine-tuningの論文 [Ziegler+, 2019] [Stiennon+, 2020] (報酬は人間からのフィードバック) 68/97

Slide 69

Slide 69 text

なぜ言語生成タスクに強化学習が使われる？ A. 実際の推論方式、評価指標に合わせてモデルを最適化できる１．学習方式と推論方式が異なる問題２．学習時の目的関数とタスクの目的関数が異なる問題とりあえずSeq2Seqの場合を想定 69/97

Slide 70

Slide 70 text

言語デコーダの学習方式：Teacher forcing 与えられた参照文を教師として時刻ごとに次の時刻のトークンを学習入力は１時刻ずらした参照文で固定 DNN 文頭記号 < 𝑠 > 文末記号 𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 ⋯ ⋯ ⋯ ⋯ ⋯ 参照文次のトークンの予測確率分布 𝑝 𝑤𝑡 |ℎ𝑡−1 , 𝑤𝑡−1 70/97

Slide 71

Slide 71 text

言語デコーダの推論方式：free running 推論時は参照文なしで出力を予測する →前の時刻でサンプリングされたトークンを次の時刻の入力にする →Teacher forcingで最適化している分布が推論時と異なる DNN 文頭記号 < 𝑠𝑜𝑠 > 文末記号 < 𝑒𝑜𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen 71/97

Slide 72

Slide 72 text

訓練時と推論時の分布の違いにどうやって対処する？【Scheduled sampling】 [Benjio+,2015] 学習時にTeacher forcingに加えてfree running式の訓練を混ぜる △参照文と生成文の系列長がずれた時に処理が難しい【強化学習（ここでは特に方策勾配法による手法）】生成した系列を報酬で重みづけした教師としてTeacher forcingすることに相当 ○ Scheduled samplingの問題が起きない △ スクラッチから学習させるのは難しい（基本fine-tuningで使われる） 72/97

Slide 73

Slide 73 text

シンプルな方策勾配法（REINFORCE）による強化学習 REINFORCEの手順は大きく分けて３ステップ There is a girl by the table . A man stands on the floor . A man is standing by a dog . 方策 𝜋 𝑦𝑡 |𝑠𝑡 ①方策（言語デコーダ）による文生成 ②報酬関数(or報酬モデル) による評価報酬関数 𝑅 生成文 , 参照文 0.1 0.8 0.6 報酬スコア ③報酬スコアによる重みづけによる再学習 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋 𝑦𝑡 |𝑠𝑡 73/97

Slide 74

Slide 74 text

REINFORCEの手順①：方策（言語デコーダ）による文生成文脈情報（隠れ層、エンコーダ出力など）方策 𝜋 𝑦𝑡 |𝑠𝑡 文脈情報から系列をサンプリングする（サンプリング方法：random, greedy (top-1), top-k, beam search, top-pなど） 𝑦1 𝑦0 方策 𝜋 𝑦𝑡 |𝑠𝑡 𝑦2 𝑦1 方策 𝜋 𝑦𝑡 |𝑠𝑡 < 𝑒𝑜𝑠 > 𝑦𝑡−1 ⋯ ⋯ 𝑠1 𝑠2 𝑠𝑡 State 𝑠：文脈情報と入力トークンで定義 Action 𝑦：次のトークンの選択（語彙サイズの大きさ！（数万～数十万）） 74/97

Slide 75

Slide 75 text

REINFORCEの手順②：報酬関数(or報酬モデル)による評価生成系列を報酬関数（評価関数）に通して得たスコアを報酬とする利点：報酬関数、および報酬関数への入力は微分不可能でもよい既存の自動評価尺度やスコアの予測モデルをタスクに合わせて使える例：BLEU, CIDEr, BERTScore, 人間のフィードバック There is a girl by the table . A man stands on the floor . A man is standing by a dog . 報酬関数 𝑅 生成文 , 参照文 0.1 0.8 0.6 報酬スコア 75/97

Slide 76

Slide 76 text

REINFORCEの手順③：報酬スコアによる重みづけによる再学習生成した文章を教師文として、評価値を損失の重みにして方策を再学習 ෤ 𝑦1 . ⋯ 𝑦𝑇 < 𝑠𝑜𝑠 > A man is standing by a dog . < 𝑒𝑜𝑠 > < 𝑠𝑜𝑠 > man ෤ 𝑦2 ෤ 𝑦3 A A dog man is man ෤ 𝑦𝑇−1 < 𝑒𝑜𝑠 > 教師予測トークン 0.8 生成文入力 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋(𝑦𝑡 |𝑠𝑡 ) 報酬𝑅 生成文, 参照文 1文の各トークンの重みは同じ重み（文単位の報酬） loss backprop ※理論的背景は方策勾配定理を参照 76/97

Slide 77

Slide 77 text

注意点①：REINFORCEは方策勾配∇𝜃 log 𝜋𝜃 の分散が大きい ∇𝜃 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍ 𝑡=1 𝑇෡ 𝑌 ∇𝜃 log 𝜋𝜃 𝑦𝑡 |𝑠𝑡 ⋅ 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 対策：ベースライン関数𝑏 𝑠 で勾配を低減できる ෡ Y：生成文 Y：参照文 ※理論的背景は Control variateを参照 REINFORCE ミニバッチ平均報酬 Self-critic [Rennie+, CVPR2017] 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෡ 𝑌𝑖 , 𝑌𝑖 • mini-batchごとの平均報酬 • 一般的な方法 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෠ 𝑌 𝑔𝑟𝑒𝑒𝑑𝑦,𝑖 , 𝑌𝑖 • greedy (top-1) で生成した系列による報酬を利用 • 平均報酬より良い傾向 • image-captioningでメジャーよく用いられるベースライン関数𝑏 𝑠 77/97

Slide 78

Slide 78 text

OpenAIの言語生成ではPPOを利用して方策勾配を制御ベースライン付きREINFORCE 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍ 𝑡=1 𝑇 log 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 Proximal Policy Optimization (PPO) [Schulman+,2017] ただし、𝐴 𝑠𝑡 , 𝑦 = 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 （報酬は時刻ごとに一定とみなす） 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝑜𝑙𝑑 min ෍ 𝑡=1 𝑇 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 , 𝑐𝑙𝑖𝑝 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 , 1 − 𝜖, 1 + 𝜖 𝐴 𝑠𝑡 , 𝑦 𝜋𝜃 ：更新対象の方策 𝜋𝑜𝑙𝑑 ：固定した古い方策方策の比についてクリッピングを行うことでモデルが激しく更新されないよう方策勾配を制御できる 78/97

Slide 79

Slide 79 text

注意点②：方策勾配法でFine-tuningする前につまり、文生成時に一度もサンプルできないトークンはそもそも評価できない！機械翻訳の分野では、Teacher forcingで事前学習した直後の分布が急峻になっていることで、fine-tuning時に最良のトークンがサンプルされず、報酬の最大化に失敗している点が指摘されている [Choshen+, ICLR2020] ①文生成（推論） ②評価 ③評価で重みづけして再学習方策勾配法は３ステップで学習する枠組みだった対策は？サンプル時の多様性を上げる・複数の目的関数 e.g. エントロピー正則化・softmax関数の温度パラメータを上げる 79/97

Slide 80

Slide 80 text

おススメのコード https://github.com/ruotianluo/self-critical.pytorch 非公式ですが、Self-criticのImage captioningをLSTMベース、Transformerベースでそれぞれ実験できます。自分でモデルを組むのに参考になるかも Learning to Summarize from Human Feedback [Stiennon+, 2020] https://github.com/openai/summarize-from-feedback OpenAIが公開している、人間のラベル選択で学習した報酬モデルによる言語生成モデルのfine-tuning手法です。対象としているのが要約タスクですが、広く一般に使える手法です。 80/97

Slide 81

Slide 81 text

6.さいごに 81/97

Slide 82

Slide 82 text

これからのVision and Language、どう生き残るか？不都合な真実：現在の主流は、大規模モデル・大規模データのパワー勝負「これから何をやっていけばいいのか」と聞かれたとしたらどう答えるか・・・？個人的な意見： ◼ 新しい問題設定・評価指標の提案 • 音声情報などのマルチモーダルへの拡張 • 書き言葉でなく、話し言葉を想定した問題設定 • 対話的な方向性なら、エラーからの回復など ◼ 既存の学習済みモデルの分析と応用 • 何ができないか、どうしたらできるようになるか ◼ 実用性を重視した、適度な制約・ルールの導入 • まず動くものを作ることができれば、データを収集できる 82/97

Slide 83

Slide 83 text

実問題における対話性の必要性 Visual Dialog [Das+, 2017] 人間：現在の家の状況を聞きたいエージェント：人間が何に関心があるかわからない現在見えている状況についてどれだけ話す (captioningする)べきか？たくさん話すと冗長かもしれない・・・人間同士だったら、大まかに報告しておいて、興味のある事項を聞いてから答えるようにすれば効率が良い→対話の問題設定になる「猫がマグカップで水を飲んでます」人間「何色のマグ？」「赤と白ですね」人間「それ私のマグやんけ・・・」 83/97

Slide 84

Slide 84 text

深層学習ベースで解かれる問題設定の多くが、協調的な問題解決のプロセスを未だ避けているという指摘もある Grounding as a Collaborative Process [Benotti+, 2021] 画像中の物体当てタスク（Guesswhat?! [de Vries+,2017]） V&Lに限らず、決められた手順に従って最終的に正答したかどうかだけで評価する風潮現実は失敗したままで終わられては困る。エラーから回復する仕組みがこれから重要？ 84/97

Slide 85

Slide 85 text

例えば、text-to-imageの場合 “this bird has a very long neck and brown body and facing left and body is under water” Text-to-imageのモデルで生成した結果 “this bird has yellow beak and is facing left and long brown neck and black body most of which is under the water” “test” どう入力したらどういう出力が返ってくるか、人間にはよくわからない何時間も使ってみてようやくコツがわかってくる（これは望ましいといえる？） →エラーから回復する仕組みが現状存在しない 85/97

Slide 86

Slide 86 text

Vision and Language Navigationでは取り組まれてきているエージェントが迷った時に、修正された新しい指示を要求してエラーから回復する [Nguyen+, 2019] HANNA task 86/97

Slide 87

Slide 87 text

記号論理（ルール）との融合 Neural-Symbolic VQA [Yi+,2018] (NeurIPS2018 spotlight) • ルールベースは非常に強力だが、汎用性に欠ける • 深層学習は多様な物体の特徴を分類したりが得意 →両者のいいところどりをすると実用性が高く、論文が高く評価されているのを見る 87/97

Slide 88

Slide 88 text

ちなみに、専門ワークショップが日本で毎年開催されている International Workshop on Symbolic-Neural Learning (SNL) 2017年第一回：名古屋 2018年第二回：名古屋 2019年第三回：東京 2020年コロナでキャンセルスコープ • Image caption generation and visual question answering • Speech and natural language interactions in robotics • Machine translation • General knowledge question answering • Reading comprehension • Textual entailment • Dialogue systems この領域に興味がある方にはとてもおススメです（私は聴講でしか参加したことないですが・・・） 88/97

Slide 89

Slide 89 text

【宣伝】vision and language jp slack • Vision&Languageの話題を扱う交流用のslackコミュニティ • 動機：Vision&Languageの学生が孤立しがちな問題をなんとかして，分野を盛り上げたい • 現在の登録者数176名（完全に思い付きで始めましたが）たくさんの方が集まってくださいましたm(_ _)m • 現在活躍中のVision&Languageの研究者の方 • Vision&Languageに興味のある{CV, NLP}の方 • これから研究を始めようとしている学生の方など 89/97

Slide 90

Slide 90 text

ぜひvision and language jp slackをご活用ください ※Slackへの登録は品川までご連絡ください。 • Vision&Language研究は画像と自然言語両方を扱うので、広範囲にわたる知識が必要 • 分野はどちらかに偏っている研究室が多く、 Vision&Languageの学生は孤立しがち例えばこういうことに使えます！ • 論文の調査についての相談（例：こういう研究需要ある？、こういう研究ってやられてないの？） • 研究に関係する相談（例：先行研究の再現がうまくいかない、こういう研究ってどの会議に出すべき？） • 実装に関係する相談（例：こういうツールが欲しいのだけど、何かいい実装はないか？） • 技術交流（例：実装会や、強化学習でimage-captioningのclosedなコンペを行う） • CVの研究室とNLPの研究室で共同研究など全国どこからでも、Vision&Languageを始めましょう！ 90/97

Slide 91

Slide 91 text

参考文献 P.7 [Vinyals+,2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.8 [Wang+, 2019] Yujia Wang, Wenguan Wang, Wei Liang, Lap-Fai Yu. Comic-Guided Speech Synthesis. SIGGRAPH Asia2019. [Bojanowski+, 2015] Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid. Weakly-Supervised Alignment of Video With Text. ICCV2015. [Li+, 2017] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang. Person Search with Natural Language Description. CVPR2017. 91/97

Slide 92

Slide 92 text

参考文献 P.10 [Zhu+2018] Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. MSMO: Multimodal Summarization with Multimodal Output.EMNLP2018, 4154–4164. P.12 [Ferraro+, 2015] Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao (Kenneth) Huang, Lucy Vanderwende, Jacob Devlin, Michel Galley, Margaret Mitchell. A Survey of Current Datasets for Vision and Language Research. EMNLP2015. [Kafle+, 2019] Kushal Kafle, Robik Shrestha, Christopher Kanan. Challenges and Prospects in Vision and Language Research. ArXiv2019. [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv2020. [Winograd, 1972] Terry Winograd. Understanding natural language. Cognitive psychology, 3(1):1-191, 1972. [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 92/97

Slide 93

Slide 93 text

参考文献 P.15 [Goyal+, 2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR2017. [Agarwal+, 2020] Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser. History for Visual Dialog: Do we really need it? ACL2020. P.16 [Yi+, 2018] Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., & Tenenbaum, J. B. Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding. NeurIPS2018. P.21 [Frome+,2013] Frome, A., Corrado, G. S., Shlens, J., Dean, S. B. J., Ranzato, M. ’aurelio, & Mikolov, T. (n.d.). DeViSE: A deep visual-semantic embedding model. NIPS2013. [Kiros+,2014] Kiros, Ryan, Ruslan Salakhutdinov, and Richard S. Zemel. "Unifying visual-semantic embeddings with multimodal neural language models." NIPS2014 workshop. [Faghri+,2017] Faghri, F., Fleet, D. J., Kiros, J. R., & Fidler, S. VSE++: Improving visual-semantic embeddings with hard negatives. BMVC2017 [Wu+, 2019] Wu, H., Mao, J., Zhang, Y., Jiang, Y., Li, L., Sun, W., & Ma, W.-Y. (2019, June). Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. CVPR2019. 93/97

Slide 94

Slide 94 text

参考文献 P.22 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. P.23 [Huang+,2018] Huang, Q., & Zhang, P. (n.d.). Turbo learning for caption bot and drawing bot. NeurIPS2018 [Efendi+, 2021] Effendi, J., Tjandra, A., Sakti, S., & Nakamura, S. (2021). Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing. IEEE Access, 9, 70286–70299. P.30 [H. Zhang+, 2018] Zhang, Han, et al. “Self-Attention Generative Adversarial Networks.” ICML2019. P.38 [M. Geva+,2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key-Value Memories.” arXiv2020. P.39, P.40 [A. Vaswani+, 2017] Vaswani, Ashish et al. “Attention is All you Need.” NIPS2017. P.41 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. 94/97

Slide 95

Slide 95 text

参考文献 P.48 [Weijie+, 2020] Weijie, et al. "Vl-bert: Pre-training of generic visual-linguistic representations.“ ICLR2020. P.50 [Chen+, 2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." ECCV2020. P.52 [Shin+, 2021] Shin, Andrew, Masato Ishii, and Takuya Narihira. "Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision." arXiv2021. P.53 [Hu+, 2021] Hu, R., & Singh, A. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv2021. [K. Shuster+, 2020] Shuster, Kurt, et al. "The dialogue dodecathlon: Open-domain knowledge and image grounded conversational agents." ACL2020. [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.55 [R. Rombach+, 2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer. "Network-to-Network Translation with Conditional Invertible Neural Networks.“ NeurIPS2020. 95/97

Slide 96

Slide 96 text

参考文献 P.56 [Radford+, 2021] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." arXiv2021. P. 57 [Bau+, 2021] Bau, David, et al. "Paint by Word.“ arXiv2021. [Galatolo+, 2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola Vaglini. "Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search." arXiv2021. P.58 [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.60 [Tolstikhin+, 2021] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all- mlp architecture for vision. arXiv2021. [Melas-Kyriazi+, 2021] Luke Melas-Kyriazi. Do you even need attention? a stack of feed-forward layers does surprisingly well on imagenet. arXiv2021. [Touvron+, 2021] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Hervé Jégou. Resmlp: Feedforward networks for image classification with data-efficient training. arXiv2021. [Liu+, 2021] Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay Attention to MLPs. arXiv2021. 96/97

Slide 97

Slide 97 text

参考文献 P.68 [Pan+, 2020] Pan, Y., Yao, T., Li, Y., & Mei, T. X-linear attention networks for image captioning. CVPR2020 [Ziegler+, 2019] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. Fine-Tuning Language Models from Human Preferences. arXiv. http://arxiv.org/abs/1909.08593 [Stiennon+, 2020] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., & Christiano, P. Learning to summarize from human feedback. NeurIPS2020. P.72 [Benjio+,2015] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for sequence prediction with recurrent Neural networks. NIPS2015. MIT Press, Cambridge, MA, USA, 1171–1179. P.78 [Schulman+,2017] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. Proximal Policy Optimization Algorithms. arXiv2017. P.79 [Choshen+, ICLR2020] Choshen, L., Fox, L., Aizenbud, Z., & Abend, O. (2019). On the Weaknesses of Reinforcement Learning for Neural Machine Translation. ICLR2020. P.84 [Benotti+,2021] Benotti, L., & Blackburn, P. Grounding as a Collaborative Process. EACL2021. 515–531. P.86 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 97/97