Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Languageと分野を取り巻く深層学習手法の紹介

Vision and Languageと分野を取り巻く深層学習手法の紹介

2021.05.21 NL/CVIM/PRMU合同研究会で行ったチュートリアル講演の資料です。

7b3e0dbc0d712ad5df602d9f9e5e4209?s=128

Seitaro Shinagawa

May 21, 2021
Tweet

Transcript

  1. 2021.05.21 NL/CVIM/PRMU合同研究会 Vision and Languageと分野を 取り巻く深層学習手法の紹介 品川 政太朗(奈良先端大) 1/97

  2. 品川 政太朗(しながわ せいたろう)と申します 1989年 札幌にて誕生 2013年 東北大学工学部卒業 2015年 東北大学大学院博士前期課程修了 2015年

    奈良先端大 知能コミュニケーション研究 室で博士後期課程 2020年 同研究室研究員を経て11月から助教 専門:画像生成、対話システム 博論:A Conversational System for Interactive Image Editing (自然言語を用いた対話型画像編集システム) 興味:Vision&Language、コミュニケーション支援 2/97
  3. 本発表の一部はcvpaper.challengeのメタサーベイの成果です こちらもぜひご一読ください https://www.slideshare.net/cvpaperchallenge/transformer-247407256 3/97

  4. 今回の発表について • Vision&Languageにはどのような取り組み・課題があるか • 深層学習はどのように使われてきているか • 特に両モダリティの統合と変換に焦点を当てます • 評価指標の話は重要ですが、今回は省きました 1.

    Vision&Languageはどんな分野なのか? 2. Vision&Languageの主要な深層学習モデル 3. 学習済みモデルを応用する話 4. 今後はTransformerからMLPへ? 5. 言語生成タスクにおける強化学習の利用 6. さいごに もくじ 4/97
  5. 1.Vision&Languageは どんな分野なのか? 5/97

  6. Vision&Languageとは? Computer Vision Natural Language Processing Vision&Language • 画像処理と自然言語処理の融合領域 •

    2分野の技術を駆使して、両分野にまたがる問題を解決する 6/97
  7. 例えば? Image captioning Visual Question Answering (VQA) Embodied Question Answering

    (EQA) Text-to-image generation [Xu+, 2018] [Das+, 2018] [Vinyals+,2015] [Agrawal+, 2016] 自然言語を入力とした物体操作 [Bisk+, 2016] 7/97
  8. 例えば? 自然言語の文をクエリとした画像検索 [Li+, 2017] 漫画のAudio Comic化(audioモダリティも加えたマルチモーダル処理) 料理動画への字幕・レシピのアラインメント [Bojanowski+, 2015] [Wang+,

    2019] 8/97
  9. Vision&Languageの面白さ • 画像と言語を両方扱うことで、新しい問題設定がどんどん出てくる • 別々のモダリティをどのように組合わせるべきか? • システムは人間とどのようにインタラクションすべきか? 9/97

  10. 言語処理側から見るモチベーション 画像も考慮することで、新しいアプリケーションにアプローチできる 機械翻訳 要約 質問応答 対話 情報検索 画像文脈 + =

    multi-(cross-)modal machine translation multi-(cross-)modal summarization visual question answering visual dialog multi-(cross-)modal information retrieval 画像付きの記事要約[Zhu+, 2018] 画像も適切なものを選択して出力 Web上は画像とテキストであふれて いるから、画像もうまく利用したい 10/97
  11. 画像処理側から見るモチベーション シーン認識 自然言語 出力 image-captioning 自然言語 入力 物体検出 領域分割 画像生成

    画像編集 referring expression text-guided semantic segmentation text-to-image text-guided image editing 自然言語インターフェースは人間にとって都合が良い • 膨大なデータをまとめるのは人間には大変→システムが要約して説明する • ツールを使うのは素人には大変→(音声)言語で入力したい + = + = 11/97
  12. Vision&Languageはいつごろ登場した? Vision&Languageという分野名は、深層学習の普及に伴って呼ばれるように • 2015年からサーベイ論文が登場 [Ferraro+, 2015] [Kafle+, 2019] [Mogadala+, 2020]

    ただ、深層学習以前にも、画像と言語を扱う研究には古い歴史がある [Okada, COLING1980] [Hiyoshi, COLING1994] 手描きの絵から説明文を生成 自然言語とキーボード、マウス入力 を組合わせてイラストを描画 [Winograd, 1972] 自然言語による物体操作 と画像付き質問応答 12/97
  13. 昔と今で何が違う? 昔: 実世界上の多様な物体やテキストを記号的に定義して計算の土台に載せる のが難しかった(タスクをなるべく限定する必要があった) 今: 画像もテキストもベクトルとして扱える • インターネットの普及で、扱える画像とテキストのデータが増えた • 高性能な計算機を使えるようになった

    • 統計的手法の発展 13/97
  14. Vision&Langugeの難しさ①:モダリティ間の情報差 画像とテキスト情報は1対1対応を仮定するのが難しい 画像の説明文でペアを作る image-captioningのタスク 画像の説明文は、画像の中の顕著な 物体について説明している →つまり要約としての側面が強い このモダリティ間の情報差をうまく調 整してなければならない 14/97

  15. Vision&Lanagueの難しさ②:データセットのバイアス 画像と言語の2つのモダリティがあるため、それぞれでバイアスが生じ得る VQAデータセットはバランスに問題があった [Goyal+, 2017] • ”What sport is…”という質問に対して”tennis”で41%正答できる •

    ”How many…”という質問に対して”2”で39%正答できる • “Do you see…”という質問に対して”yes”で87%正答できる →complementなサンプルを加えることで、画像を見ないと正答できないように した [Agarwal+, 2020]では、人間が67.12%の割合でVisual Dialogを対話履歴な しで正答できると報告 • より難しくした評価セットのVisDialConvを提案 15/97
  16. Vision&Lanagueの難しさ③:実世界のデータをとるのは大変 目的に応じてまずは人工的なデータで実験、sim2realで人工データを応用という研究も多い https://cs.stanford.edu/people/jcjohns/clevr/ 左のCLEVRデータセットは BlenderでレンダリングしたCG画像と、 人工的に作成した質問応答ペアのデータセット NeurIPS2018のNeural-Symbolic VQA [Yi+, 2018]で正解率99.8%を達成(ほぼ上限?)

    業界内では、新しいコンセプトの研究を始める時 に向いているMNIST的立ち位置 自分で新しいデータを生成するコードもサポート されているので比較的使いやすい よく見かけるタスク relational reasoning text-guided image editing 16/97
  17. Vision and Language研究の近年の動向 Transformerベースの大規模パラメータ、大規模データセット学習手法が台頭 ViLBERT VisualBER T VL-BERT LXMERT ERNIE-

    ViL OSCAR UNITER 事前学習デー タセット VG, CC VG, COCO VG, CC text-only data VG, COCO VG, COCO, SBU VG, COCO, CC, SBU, GQA,flicker30k VG,COCO, CC,SBU 評価データセッ ト VQA VQA,VCR, NLVR2,Flic ker30k VQA,VCR, Ref VQA, GQA, NLVR VQA,VCR, RefCOCO, retrieval retrieval, IC, VQA, GQA, NLVR2 VQA,VCR,N LVR2,retriev al,他 モデルサイズ large? base base, large base, large base, large base, large 事前学習の計 算時間 8 TitanX >4 Tesla V100 250k steps,16 Tesla V100 GPUs 10日 4 Titan Xp 700k steps, 8 V100 GPUs 1M steps, 900k steps 882, 2685 V100 GPU 時間 パフォーマンス VG: Visual Genome (Faster R-CNN訓練用) , CC: Conceptual Captions 3.3M, SBU: SBU Captions 0.8M 17/97
  18. Vision and Language研究の近年の動向 使える計算機が強いほどできることが増えるパワーゲームになってきている • BERT baseのfine-tuningとかならGPU1枚でも大丈夫そうだが・・・ 一方で、学習済みモデルを利用する方法もちらほら出てきている (この流れが発展して欲しい・・・) いずれにしても、どのようなことをしているか把握していく必要はある

    →今日やること 18/97
  19. 2.Vision&Languageの 主要な深層学習モデル 19/97

  20. Vision&Languageでは画像と言語をどう結び付けるか? 画像 言語 共通の潜在空間 画像 言語 潜在空間 画像→言語 潜在空間 言語→画像

    Vision&Languageでは特に、両モダリティの統合と変換をうまくやる必要がある 深層学習ベースだと、次の二種類を覚えておくと役に立つ 双方向タイプ 一方通行タイプ 20/97
  21. 黎明期からの双方向タイプ 画像 言語 共通の潜在空間 双方向タイプは、深層学習黎明期(2013年くらい)からのアプローチ Visual semantic embeddings [Frome+, 2013]

    [Kiros+, 2014] [Faghri+, 2017] [Wu+, 2019] ①画像情報と言語情報をそれぞれ符号化 ②ペアと偽ペアを用意 ③triplet loss(下記)で最適化 言語情報は、扱う単位が増えてきている模様 • 物体ラベル[Frome+, 2013] • テキストに含まれる単語[Kiros+, 2014] • フレーズや文単位[Wu+, 2019] [Wu+, 2019] 21/97
  22. 近年の有名な双方向タイプ 画像 言語 共通の潜在空間 BERTは、V&Lタスクでシェアを占めてきている双方向タイプのモデル Bidirectional Encoder Representation from Transformers

    (BERT) [Devlin+,2019] 共通の潜在表現を学習させるのは難しいタスクだった(一方 のモダリティに過学習しやすい)が、この印象が覆された エンコーダだけなので、色々なタスクに利用することができる 点も魅力? V&Lの事前学習の特徴 • 物体の矩形のmasking(Masked region modeling) • 画像とテキストのマッチングを二値分類するimage-text matching prediction 22/97
  23. 一方通行タイプの特徴 画像 言語 潜在空間 画像→言語 潜在空間 言語→画像 共通の潜在空間をあきらめることで、色々と利点が出てくる 画像から言語、言語から画像のネットワーク を別々に学習してからでも学習できる

    一方のモダリティがもう一方のモダリティの データ拡張として働く Turbo learning[Huang+,2018] Multimodal Chain [Effendi+,2021] 画像がペアになってなくても学習できる 𝐼 𝐼 𝐼𝑔𝑒𝑛 𝑇 𝑇 𝑇𝑔𝑒𝑛 ※画像→テキスト→画像では微分可能に する必要がある(Gumbel softmaxなど) 𝑙𝑜𝑠𝑠 = 𝛼ℒ 𝐼, 𝐼𝑔𝑒𝑛 + 𝛽ℒ 𝑇, 𝑇𝑔𝑒𝑛 23/97
  24. どのような深層学習モデルが使われているか? おおまかに分けると・・・ Recurrent Neural Networks (RNNs) • LSTM • GRU

    Transformers • Seq2seq transformers • BERT Convolutional Neural Networks (CNNs) • Faster R-CNN (Visual Genomeで) • ResNet50, 152 Transformers • Vision Transformer (ViT) • CLIP Vision Language Multi-Layer Perceptron (MLP; Fully-connected Layers (FC)) Variational Auto Encoders (VAEs) Generative Adversarial Networks (GANs) 24/97
  25. Vision and LanguageにおけるTransformerの躍進 Transformerが本格的に導入されてきたのは2019年ごろ 大規模モデル×大規模データセットで学習するのが主流になってきた 25/97

  26. Transformer以前のモデルの悩み 言語データは時系列:Recurrent Neural Network (RNN)で処理していた 私 は 人間 RNN 𝑥0

    embedding RNN 𝑥1 embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 前の隠れ層ℎ𝑡−1 が入力なので逐次処理に時間がかかる 26/97
  27. Transformerの登場 Self-attentionという構造で時系列データを一挙に並列処理できるように 私 は 人間 RNN 𝑥0 embedding RNN 𝑥1

    embedding RNN 𝑥2 embedding ℎ0 ℎ1 ℎ2 ℎ0 ℎ1 学習の高速化により大規模データでの学習が可能に →自然言語処理分野での大規模学習時代の到来 Transformer block 27/97
  28. コンピュータビジョン分野での強み 2020年にはビジョンの分野での応用が多数報告されてきた CNNは局所結合を重ねた構造 大域的な関係性を見るのは不得手 Transformer block Transformerのself-attentionは領域同士の 関係性を大域的に考慮しやすい仕組み 28/97

  29. Vision and Languageではどう使われている? 全体的な傾向 複数データセットによる大規模学習で汎用性のあるモデルを作る 複数のデータで学習するための工夫が発展 Transformerに合わせて画像と言語を処理するという方向性が発展 Encoder-Decoder型より、BERT型の方が圧倒的に多い 画像 •

    学習済みFaster R-CNNの特徴量を利用 • Vision Transformer的なパッチベースの方法 (Transformer in Transformer) 言語 BERT型 or Encoder-Decoder型 29/97
  30. ビジョン分野でのSelf-attentionの適用事例 Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2019] • GANによる画像生成にSelf-attentionを適用した例

    • 点が示す領域をクエリとしたとき、画像のどの領域が強く対応し ているかを可視化 • 各クエリ点が近くの領域や遠くの領域を見ていることがわかる 30/97
  31. Self-attention 辞書型の非線形処理機構 周りの情報を取り入れて新しいベクトルを作る self-attention 31/97

  32. Self-attentionの計算 他のクエリについても同様に求められる 𝑑は内積計算後のベクトルのノルムを正規化する役割 32/97

  33. Transformerブロックの中身 Transformerブロックを構成している要素 1. Multi-head attention (次元分割型Self-attention) 2. 残差接続(Residual connection) 3.

    Layer Normalizationによる正規化 4. Position-wise feed forward networks 5. DropOut Multi-head attention Norm Feed forward Norm + + ※左図は標準的に使われることの多いPre-norm型 33/97
  34. Multi-head attention 次元分割型Self-attention(Multi-head attention) Self-attentionの内積はベクトルの各要素にわたって大域的な類似度 高次元にすると、 次元ごとの小さな特徴が無視されやすい attention map •

    小さなベクトルに切り分け計算 • トークン間の多様な類似性を 発見 できる • 多様性を上げる損失関数を加えると 性能向上[J. Li+, EMNLP2018], [P.Y. Huang+, EMNLP2019] 34/97
  35. 残差接続(Residual connection) • 入力からの差分を学習する • 入力からの差分の学習が不要の場合 sublayer部分が0になるように学習が進む • 学習の安定化に寄与 多層での学習性能を上げる工夫

    35/97
  36. Layer normalization 入力系列をトークンごとに正規化する操作 Layernorm Layernorm Layernorm Layernorm 嬉しい特徴 Large batch訓練がbatch

    accumulationで安心してできる ※batch normalizationだと統計量が変わってしまう 36/97
  37. DropOut Transformerでは3種類のDropOutがある • positional encoding後の入力embedding • 残差接続&Layernormの直前 • attention計算時のattention map

    訓練時に、ある層の入力(出力)を確率的に0にすることで 汎化性能を上げる工夫 37/97
  38. Position-wise feed forward networks 2層の線形層を各位置ごとに適用(Layernormと同様) この層はどのような役割や重要性があるのか? 言語モデルでは一種のkey-valueメ モリの役割を担っていると報告 [M. Geva+,

    2021] https://arxiv.org/abs/2012.14913 38/97
  39. 入力には位置情報のembeddingが必要 self-attentionには各トークンの位置を考慮する機構がない →明示的に位置embeddingを与えると性能が向上 単純に足し合わせることが多い 位置embeddingは一から学習させる場合が多いが、決め打ちで与えても良い よく使われるものは、Sinusoidal positional embeddings [Vaswani+, 2017]

    39/97
  40. Sinusoidal型の気持ちは時計型embedding? from:https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb sin 𝑤0 𝑡 , cos 𝑤0 𝑡 長針

    周期短い 短針 周期長い sin 𝑤𝑛 𝑡 , cos 𝑤𝑛 𝑡 ⋯ sinとcosの組を時計の針とみると、位置𝑡は時刻で𝑤𝑖 は針の動く速さ 次元を2nとすると、sinとcosはn組→n個の針がある時計 “私” “は” “元気” “です” “。” 40/97
  41. Transformerをどのように学習させるか? 大きく分けて2種類のタイプがある • 【Seq2seq】 Attention is all you need [Vaswani+,

    2017] • 【BERT】 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [Devlin+, 2019] 41/97
  42. Seq2Seq型 EncoderとDecoderの2種類のTransformerで構成 Encoder Decoder 42/97

  43. Seq2Seq型 Decoder EncoderとDecoderの2種類のTransformerで構成 Encoder情報はKey, Value情報としてDecoderへ Key Value 43/97

  44. Seq2Seqのforward計算の特徴 • 時系列を時々刻々と順番に予測していく(自己回帰型) • 訓練時に未来の系列がリークしないようにAttention mapにマスクする(−∞ で置き換える)工夫が必要 −∞ −∞ −∞

    −∞ −∞ −∞ 「私 は 元気 です」をデコーダで出力するように学習する場合 私 は 元気 です Query Key 「私」に対応するQueryは、未来 の情報である「は」「元気」「です」 のKeyを考慮しない 44/97
  45. BERT型 自己回帰型ではない新しい言語モデルの枠組み 事前学習で以下の2つのタスクを行うことで色々なNLPタスクで効果を発揮 (V&LのモデルやVision Transformerもこの流れを汲んでいる) • Masked language modeling (MLM)

    • Next sentence prediction (NSP) BERT [CLS] [SEP] 文A 文B 45/97
  46. Masked Language Modeling 系列の一部をマスクしてマスクした箇所を予測するタスク BERTでは15%を選択し、そのうち80%は[mask]トークンで置き換え、 10%はランダムなトークンで置き換え、10%はそのままにする (ViTでもpatch単位で同じことをしている) BERT [CLS] [SEP]

    文A 文B 予測 予測 予測 46/97
  47. Next sentence prediction 2つの文AとBが連続しているかを2値で予測するタスク (V&Lのモデルでは画像とテキストがマッチするかで使われている) BERT [CLS] [SEP] 文A 文B

    連続/不連続 47/97
  48. Segment embeddingsの追加 どちらの文に所属しているかをより明示的に扱うためのembeddingを 追加で加算してembeddingを作る V&Lでは、画像とテキストどちらに所属するかのembeddingが追加さ れることがある(VL-BERT [Weijie+,2020]) 48/97

  49. V&L用のモデルへの設定 textのみのBERT • Masked Language Modeling • Next sentence prediction

    • Segment embedding of sentence pair V&LのBERT • Masked Language Modeling +Masked region modeling • Image-text matching • Segment embedding of image-text pair (ないことも多い) • 画像はVisual Genome datasetで訓 練したFaster R-CNNを利用し、物体 の矩形ごとに整形してトークンとする (Seq2seqもあるが、主流ではない) 49/97
  50. 例えばUNITER[Chen+,2020]の場合 ※WRAはUNITER独自の損失関数で、Optimal Transportを用 いて画像矩形トークンと単語のトークン間の分布を最小化する 50/97

  51. 𝑄𝑡 V&L特有の仕組み:1-stream型と2-stream型 1-streamは画像とテキストをまとめて入力 2-streamはソース・ターゲット型のattention 𝑣0 𝑣1 Multi-head attention 𝑣𝑉 𝑡0

    𝑡1 𝑡𝑇 token-to-Q,K,V token-to-Q,K,V ⋯ ⋯ 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑇 × 𝐻 vectors V × 𝐻 vectors 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 𝑉 + 𝑇 × 𝐻 vectors visual tokens textual tokens Multi-head attention Multi-head attention 𝑉𝑡 𝐾𝑡 𝑉𝑡 𝐾𝑡 𝑄𝑡 1-stream (single-stream) 2-stream (co-attention) 51/97
  52. 1-stream型と2-stream型はどちらが良いか? 1-stream 2-stream 1-stream 2-stream 2-stream 1-stream 1-stream 1-stream 決着はついていないが、シンプルな1-streamでも十分性能が出ている

    [Shin+, 2021]の図を基に作成 52/97
  53. 余談:Seq2seq系の手法について UniT: Multimodal Multitask Learning with a Unified Transformer [Hu+,

    2021] Faster R-CNNではなく、Vision Transformerのようにパッチベースで画像の特 徴量抽出を行い、Transformerですべて完結させるアプローチ モデルは超巨大:“batch size of 64 on 64 Nvidia Volta V100- SXM2-32GB GPUs (batch size 1 per GPU)" The Dialogue Dodecathlon [Shuster+, 2020] 複数の対話データセット(画像付きも含む)で訓練することで、zero- shot能力を示すことが報告された Zero-Shot Text-to-Image Generation [Ramesh+, 2021] テキストから画像を生成するGPT-3ベースのネットワーク。DALL-Eという名前 がついている(後述) 53/97
  54. 学習済みモデルを応用する話 54/97

  55. 学習済みモデルの応用 Network-to-network [Rombach+, 2020] https://arxiv.org/abs/2005.13580 flow-basedで異なる2ドメインの特徴量のマッピング を学習End-to-endで最適化せずにできるので効率的 55/97

  56. Text-to-imageにおけるCLIPの応用 大規模な画像とテキストのペアでcontrastive learningを行う ことでzero-shotの認識を実現 4億のデータを収集してクリーニングしたデータセットでContrastive学習 テキストをクラスと見立てて、マッチングスコアでzero-shot画像認識 後述するDALL-Eでは生成画像のリランキングに使っている Contrastive Language–Image Pre-training

    [Radford+, 2021] https://arxiv.org/abs/2103.00020 56/97
  57. CLIPを汎用的な識別器として、生成画像をテキストに合わせて 制御する手法が続々登場 Paint by word [Bau+, 2021] https://arxiv.org/abs/2103.10951 CLIP-Guided Generative

    Latent Space Search [Galatolo+, 2021] https://arxiv.org/abs/2102.01645 入力となる目標テキストに対して、進化的アルゴリズムでCLIP の類似度スコアを最大化するよう画像の潜在変数を最適化 57/97
  58. DALL-Eによる汎用的な画像生成も視野に入ってきた? 潜在空間を離散化したVAEによる潜在変数を語彙としてGPT-3で大規 模に学習すると、テキストからゼロショットで画像生成ができる 2.5億の画像テキストペアで学習(学習済みモデルが欲しい・・・) Zero-Shot Text-to-Image Generation [Ramesh+, 2021] https://arxiv.org/abs/2102.12092

    58/97
  59. 4.今後はTransformerからMLPへ? 59/97

  60. 今後はTransformerからMLPへ? MLP-Mixer[Tolstikhin+,2021] 実はMLPでもTranformer並みの性能を出せたという報告が続々登場 5/4 MLP-Mixer [Tolstikhin+,2021] 5/6 Do You Even

    Need Attention? [Melas-Kyriazi,2021] 5/7 ResMLP [Touvron+,2021] 5/17 Pay Attention to MLPs [Liu+,2021] 方法はシンプルで共通 転置してMLPに通す トークン間の相互作用 をとらえられる 60/97
  61. Vision, Language taskでTransformerの性能を上回る報告 gMLP (Pay Attention to MLPs [Liu+,2021])はTransformerベースに接近 Vision:

    画像認識(ImageNetで訓練・評価) Language: C4(後述)で事前訓練、質問応答(SQuAD)、Sentimentの二値 分類(SST-2)、自然言語理解(MNLI)でそれぞれfine-tuningして評価 ViT型での比較 BERT型での比較 61/97
  62. gMLPは系列方向の関係性を捉えてgatingしている点が特徴 𝑊 𝑛 𝑛 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍 = 𝑊𝑍

    + 𝑏 SGU 𝑍 = 𝑍 ⊙ 𝑔𝑓 𝑍 𝑑𝑧 𝑔𝑓 +b = 𝑛 𝑑𝑧 𝑔𝑓 input embeddings 𝑑𝑧 𝑛 𝑓𝑊,𝑏 𝑍 ⊙ 𝑍 Spatial Gating Unit (SGU) ? • 𝑊の各スライスが、embeddingのベクトルの各 要素に対して系列方向のフィルタとして作用する • 例えば、上のような重み𝑊のスライスは、ベクト ルの最初の要素の真ん中の系列に大きな重み →空間方向の関係性を捉えられる 62/97
  63. 入力をsplitすると性能がさらに向上する 𝑔𝑓 = 𝑓𝑊,𝑏 𝑍2 = 𝑊𝑍2 + 𝑏 SGU

    𝑍 = 𝑍1 ⊙ 𝑔𝑓 𝑔𝑓 input embeddings 𝑑𝑧 2 𝑛 𝑓𝑊,𝑏 𝑍2 ⊙ 𝑍1 , 𝑍2 Spatial Gating Unit (SGU) 𝑑𝑧 2 BERT baseと同規模のパラメータでより低い perplexityを達成 63/97
  64. ImageNetで学習したgMLPのfilterの可視化 各層ごとに、filter Wの各横スライ スを2Dになるようにreshapeして 横に並べている 𝑊 同じ位置に反応するスライスが存在する (図は恣意的にスライスを選んでいる) 𝑛 𝑛

    𝑛 𝑛 𝑛 ⋯ 𝑛 𝑛 64/97
  65. Masked Language Modelingで学習した gMLPのfilterの可視化 各プロットの横軸が系列方向 36層各層ごとに、真ん中の系列に強く反応するfilter 𝑊のスライスを可視化 前の系列、後ろの系列も重みをつけて見ているフィルタが存在 𝑛 Colossal

    Clean Crawled Corpus (C4) dataset で訓練 (約800GB;数億文書;数千億トークン、google.patentやwikipediaが多い) 65/97
  66. 5.言語生成タスクにおける強化学習の利用 66/97

  67. 言語生成タスクとは? 文脈情報に沿って文を生成するタスクを指す 文脈情報 生成するテキスト タスク 英語の文 日本語の文 英日翻訳 画像 画像の説明文

    画像説明文生成 発話文 応答文 対話応答生成 言語デコーダ 文脈情報 “机の上にあるのはペンです” 67/97
  68. 言語生成ではfine-tuningに強化学習を使うことが増えてきている image-captioningで強化学習を使っている事例 by [Mogadala+, 2020] “ ” image-captioningの論文[Pan+, 2020]では 「reinforcement」の文字すら既にない

    • Self-Critical Attention [Rennie+, 2017] • Policy Gradient [Liu+, 2017] • Up-Down [Anderson+, 2018] • Multi-task Captioning [Zhao+, 2018] • Stack Captioning [Gu+, 2018] OpenAIによるGPT-3+強化学習 fine-tuningの論文 [Ziegler+, 2019] [Stiennon+, 2020] (報酬は人間からのフィードバック) 68/97
  69. なぜ言語生成タスクに強化学習が使われる? A. 実際の推論方式、評価指標に合わせてモデルを最適化できる 1.学習方式と推論方式が異なる問題 2.学習時の目的関数とタスクの目的関数が異なる問題 とりあえずSeq2Seqの場合を想定 69/97

  70. 言語デコーダの学習方式:Teacher forcing 与えられた参照文を教師として時刻ごとに次の時刻のトークンを学習 入力は1時刻ずらした参照文で固定 DNN 文頭記号 < 𝑠 > 文末記号

    </𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 ⋯ ⋯ ⋯ ⋯ ⋯ 参照文 次のトークンの 予測確率分布 𝑝 𝑤𝑡 |ℎ𝑡−1 , 𝑤𝑡−1 70/97
  71. 言語デコーダの推論方式:free running 推論時は参照文なしで出力を予測する →前の時刻でサンプリングされたトークンを次の時刻の入力にする →Teacher forcingで最適化している分布が推論時と異なる DNN 文頭記号 < 𝑠𝑜𝑠

    > 文末記号 < 𝑒𝑜𝑠 > 文脈情報 DNN This DNN is This This is a DNN a pen DNN pen 71/97
  72. 訓練時と推論時の分布の違いにどうやって対処する? 【Scheduled sampling】 [Benjio+,2015] 学習時にTeacher forcingに加えてfree running式の訓練を混ぜる △参照文と生成文の系列長がずれた時に処理が難しい 【強化学習(ここでは特に方策勾配法による手法)】 生成した系列を報酬で重みづけした教師としてTeacher

    forcingすることに相当 ◦ Scheduled samplingの問題が起きない △ スクラッチから学習させるのは難しい(基本fine-tuningで使われる) 72/97
  73. シンプルな方策勾配法(REINFORCE)による強化学習 REINFORCEの手順は大きく分けて3ステップ There is a girl by the table .

    A man stands on the floor . A man is standing by a dog . 方策 𝜋 𝑦𝑡 |𝑠𝑡 ①方策(言語デコーダ)による文生成 ②報酬関数(or報酬モデル) による評価 報酬関数 𝑅 生成文 , 参照文 0.1 0.8 0.6 報酬スコア ③報酬スコアによる重みづけによる再学習 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋 𝑦𝑡 |𝑠𝑡 73/97
  74. REINFORCEの手順①:方策(言語デコーダ)による文生成 文脈情報 (隠れ層、エン コーダ出力など) 方策 𝜋 𝑦𝑡 |𝑠𝑡 文脈情報から系列をサンプリングする (サンプリング方法:random,

    greedy (top-1), top-k, beam search, top-pなど) 𝑦1 𝑦0 方策 𝜋 𝑦𝑡 |𝑠𝑡 𝑦2 𝑦1 方策 𝜋 𝑦𝑡 |𝑠𝑡 < 𝑒𝑜𝑠 > 𝑦𝑡−1 ⋯ ⋯ 𝑠1 𝑠2 𝑠𝑡 State 𝑠:文脈情報と入力トークンで定義 Action 𝑦:次のトークンの選択(語彙サイズの大きさ!(数万~数十万)) 74/97
  75. REINFORCEの手順②:報酬関数(or報酬モデル)による評価 生成系列を報酬関数(評価関数)に通して得たスコアを報酬とする 利点:報酬関数、および報酬関数への入力は微分不可能でもよい 既存の自動評価尺度やスコアの予測モデルをタスクに合わせて使える 例:BLEU, CIDEr, BERTScore, 人間のフィードバック There is

    a girl by the table . A man stands on the floor . A man is standing by a dog . 報酬関数 𝑅 生成文 , 参照文 0.1 0.8 0.6 報酬スコア 75/97
  76. REINFORCEの手順③:報酬スコアによる重みづけによる再学習 生成した文章を教師文として、評価値を損失の重みにして方策を再学習 ෤ 𝑦1 . ⋯ 𝑦𝑇 < 𝑠𝑜𝑠 >

    A man is standing by a dog . < 𝑒𝑜𝑠 > < 𝑠𝑜𝑠 > man ෤ 𝑦2 ෤ 𝑦3 A A dog man is man ෤ 𝑦𝑇−1 < 𝑒𝑜𝑠 > 教師 予測 トークン 0.8 生成文 入力 𝑙𝑜𝑠𝑠 = − 1 𝑇 ෍ 𝑡=1 𝑇 0.8 ⋅ 𝑦𝑡 ⋅ log 𝜋(𝑦𝑡 |𝑠𝑡 ) 報酬𝑅 生成文, 参照文 1文の各トークンの重みは 同じ重み(文単位の報酬) loss backprop ※理論的背景は方策勾配定理を参照 76/97
  77. 注意点①:REINFORCEは方策勾配∇𝜃 log 𝜋𝜃 の分散が大きい ∇𝜃 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍

    𝑡=1 𝑇෡ 𝑌 ∇𝜃 log 𝜋𝜃 𝑦𝑡 |𝑠𝑡 ⋅ 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 対策:ベースライン関数𝑏 𝑠 で勾配を低減できる ෡ Y:生成文 Y:参照文 ※理論的背景は Control variateを参照 REINFORCE ミニバッチ平均報酬 Self-critic [Rennie+, CVPR2017] 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෡ 𝑌𝑖 , 𝑌𝑖 • mini-batchごとの平均報酬 • 一般的な方法 𝑏 𝑠 = 1 𝑁 ෍ 𝑖=1 𝑁 𝑅 ෠ 𝑌 𝑔𝑟𝑒𝑒𝑑𝑦,𝑖 , 𝑌𝑖 • greedy (top-1) で生成した 系列による報酬を利用 • 平均報酬より良い傾向 • image-captioningでメジャー よく用いられるベースライン関数𝑏 𝑠 77/97
  78. OpenAIの言語生成ではPPOを利用して方策勾配を制御 ベースライン付きREINFORCE 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝜃 ෍ 𝑡=1 𝑇 log

    𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 Proximal Policy Optimization (PPO) [Schulman+,2017] ただし、𝐴 𝑠𝑡 , 𝑦 = 𝑅 ෠ 𝑌, 𝑌 − 𝑏 𝑠 (報酬は時刻ごとに一定とみなす) 𝑙𝑜𝑠𝑠 = −𝔼෠ 𝑌~𝜋𝑜𝑙𝑑 min ෍ 𝑡=1 𝑇 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 𝐴 𝑠𝑡 , 𝑦 , 𝑐𝑙𝑖𝑝 𝜋𝜃 𝑦𝑡 |𝑠𝑡 𝜋𝑜𝑙𝑑 𝑦𝑡 |𝑠𝑡 , 1 − 𝜖, 1 + 𝜖 𝐴 𝑠𝑡 , 𝑦 𝜋𝜃 :更新対象の方策 𝜋𝑜𝑙𝑑 :固定した古い方策 方策の比についてクリッピングを行うことで モデルが激しく更新されないよう方策勾配 を制御できる 78/97
  79. 注意点②:方策勾配法でFine-tuningする前に つまり、文生成時に一度もサンプルできないトークンはそもそも評価できない! 機械翻訳の分野では、Teacher forcingで事前学習した直後の分布が急峻に なっていることで、fine-tuning時に最良のトークンがサンプルされず、報酬の最 大化に失敗している点が指摘されている [Choshen+, ICLR2020] ①文生成(推論) ②評価

    ③評価で重みづ けして再学習 方策勾配法は3ステップで学習する枠組みだった 対策は? サンプル時の多様性を上げる ・複数の目的関数 e.g. エントロピー正則化 ・softmax関数の温度パラメータを上げる 79/97
  80. おススメのコード https://github.com/ruotianluo/self-critical.pytorch 非公式ですが、Self-criticのImage captioningをLSTMベース、Transformerベースでそれ ぞれ実験できます。自分でモデルを組むのに参考になるかも Learning to Summarize from Human

    Feedback [Stiennon+, 2020] https://github.com/openai/summarize-from-feedback OpenAIが公開している、人間のラベル選択で学習した報酬モデルによる言語生成モデル のfine-tuning手法です。対象としているのが要約タスクですが、広く一般に使える手法です。 80/97
  81. 6.さいごに 81/97

  82. これからのVision and Language、どう生き残るか? 不都合な真実:現在の主流は、大規模モデル・大規模データのパワー勝負 「これから何をやっていけばいいのか」と聞かれたとしたらどう答えるか・・・? 個人的な意見: ◼ 新しい問題設定・評価指標の提案 • 音声情報などのマルチモーダルへの拡張

    • 書き言葉でなく、話し言葉を想定した問題設定 • 対話的な方向性なら、エラーからの回復など ◼ 既存の学習済みモデルの分析と応用 • 何ができないか、どうしたらできるようになるか ◼ 実用性を重視した、適度な制約・ルールの導入 • まず動くものを作ることができれば、データを収集できる 82/97
  83. 実問題における対話性の必要性 Visual Dialog [Das+, 2017] 人間:現在の家の状況を聞きたい エージェント:人間が何に関心があるかわか らない 現在見えている状況についてどれだけ話す (captioningする)べきか?

    たくさん話すと冗長かもしれない・・・ 人間同士だったら、大まかに報告しておいて、 興味のある事項を聞いてから答えるようにす れば効率が良い→対話の問題設定になる 「猫がマグカップで水を飲んでます」 人間「何色のマグ?」 「赤と白ですね」 人間「それ私のマグやんけ・・・」 83/97
  84. 深層学習ベースで解かれる問題設定の多くが、協調的な問題 解決のプロセスを未だ避けているという指摘もある Grounding as a Collaborative Process [Benotti+, 2021] 画像中の物体当てタスク(Guesswhat?!

    [de Vries+,2017]) V&Lに限らず、決められた手順に従って最終的に正答したかどうかだけで評価する風潮 現実は失敗したままで終わられては困る。エラーから回復する仕組みがこれから重要? 84/97
  85. 例えば、text-to-imageの場合 “this bird has a very long neck and brown

    body and facing left and body is under water” Text-to-imageのモデルで生成した結果 “this bird has yellow beak and is facing left and long brown neck and black body most of which is under the water” “test” どう入力したらどういう出力が返ってくるか、人間にはよくわからない 何時間も使ってみてようやくコツがわかってくる(これは望ましいといえる?) →エラーから回復する仕組みが現状存在しない 85/97
  86. Vision and Language Navigationでは取り組まれてきている エージェントが迷った時に、修正された新しい指示を要求して エラーから回復する [Nguyen+, 2019] HANNA task

    86/97
  87. 記号論理(ルール)との融合 Neural-Symbolic VQA [Yi+,2018] (NeurIPS2018 spotlight) • ルールベースは非常に強力だが、汎用性に欠ける • 深層学習は多様な物体の特徴を分類したりが得意

    →両者のいいところどりをすると実用性が高く、論文が高く評価されているのを見る 87/97
  88. ちなみに、専門ワークショップが日本で毎年開催されている International Workshop on Symbolic-Neural Learning (SNL) 2017年 第一回:名古屋 2018年

    第二回:名古屋 2019年 第三回:東京 2020年 コロナでキャンセル スコープ • Image caption generation and visual question answering • Speech and natural language interactions in robotics • Machine translation • General knowledge question answering • Reading comprehension • Textual entailment • Dialogue systems この領域に興味がある方にはとてもおススメです (私は聴講でしか参加したことないですが・・・) 88/97
  89. 【宣伝】vision and language jp slack • Vision&Languageの話題を扱う交流用のslackコミュニティ • 動機:Vision&Languageの学生が孤立しがちな問題をなんとかして,分野を 盛り上げたい

    • 現在の登録者数176名 (完全に思い付きで始めましたが) たくさんの方が集まってくださいましたm(_ _)m • 現在活躍中のVision&Languageの研究者の方 • Vision&Languageに興味のある{CV, NLP}の方 • これから研究を始めようとしている学生の方 など 89/97
  90. ぜひvision and language jp slackをご活用ください ※Slackへの登録は品川までご連絡ください。 • Vision&Language研究は画像と自然言語両方を扱うので、広範囲にわたる知識が必要 • 分野はどちらかに偏っている研究室が多く、

    Vision&Languageの学生は孤立しがち 例えばこういうことに使えます! • 論文の調査についての相談(例:こういう研究需要ある?、こういう研究ってやられてないの?) • 研究に関係する相談(例:先行研究の再現がうまくいかない、こういう研究ってどの会議に出すべき?) • 実装に関係する相談(例:こういうツールが欲しいのだけど、何かいい実装はないか?) • 技術交流(例:実装会や、強化学習でimage-captioningのclosedなコンペを行う) • CVの研究室とNLPの研究室で共同研究など 全国どこからでも、Vision&Languageを始めましょう! 90/97
  91. 参考文献 P.7 [Vinyals+,2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and

    Dumitru Erhan. Show and tell: A neural image caption generator. CVPR 2015. [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015. [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied Question Answering. CVPR2018. [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He. AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018. [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016. P.8 [Wang+, 2019] Yujia Wang, Wenguan Wang, Wei Liang, Lap-Fai Yu. Comic-Guided Speech Synthesis. SIGGRAPH Asia2019. [Bojanowski+, 2015] Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce, Cordelia Schmid. Weakly-Supervised Alignment of Video With Text. ICCV2015. [Li+, 2017] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang. Person Search with Natural Language Description. CVPR2017. 91/97
  92. 参考文献 P.10 [Zhu+2018] Zhu, J., Li, H., Liu, T., Zhou,

    Y., Zhang, J., & Zong, C. MSMO: Multimodal Summarization with Multimodal Output.EMNLP2018, 4154–4164. P.12 [Ferraro+, 2015] Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao (Kenneth) Huang, Lucy Vanderwende, Jacob Devlin, Michel Galley, Margaret Mitchell. A Survey of Current Datasets for Vision and Language Research. EMNLP2015. [Kafle+, 2019] Kushal Kafle, Robik Shrestha, Christopher Kanan. Challenges and Prospects in Vision and Language Research. ArXiv2019. [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv2020. [Winograd, 1972] Terry Winograd. Understanding natural language. Cognitive psychology, 3(1):1-191, 1972. [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and picture patterns. COLING1980. [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language and direct manipulation. COLING1994. 92/97
  93. 参考文献 P.15 [Goyal+, 2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay,

    Dhruv Batra, Devi Parikh. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR2017. [Agarwal+, 2020] Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser. History for Visual Dialog: Do we really need it? ACL2020. P.16 [Yi+, 2018] Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., & Tenenbaum, J. B. Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding. NeurIPS2018. P.21 [Frome+,2013] Frome, A., Corrado, G. S., Shlens, J., Dean, S. B. J., Ranzato, M. ’aurelio, & Mikolov, T. (n.d.). DeViSE: A deep visual-semantic embedding model. NIPS2013. [Kiros+,2014] Kiros, Ryan, Ruslan Salakhutdinov, and Richard S. Zemel. "Unifying visual-semantic embeddings with multimodal neural language models." NIPS2014 workshop. [Faghri+,2017] Faghri, F., Fleet, D. J., Kiros, J. R., & Fidler, S. VSE++: Improving visual-semantic embeddings with hard negatives. BMVC2017 [Wu+, 2019] Wu, H., Mao, J., Zhang, Y., Jiang, Y., Li, L., Sun, W., & Ma, W.-Y. (2019, June). Unified visual-semantic embeddings: Bridging vision and language with structured meaning representations. CVPR2019. 93/97
  94. 参考文献 P.22 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., &

    Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. P.23 [Huang+,2018] Huang, Q., & Zhang, P. (n.d.). Turbo learning for caption bot and drawing bot. NeurIPS2018 [Efendi+, 2021] Effendi, J., Tjandra, A., Sakti, S., & Nakamura, S. (2021). Multimodal Chain: Cross-Modal Collaboration Through Listening, Speaking, and Visualizing. IEEE Access, 9, 70286–70299. P.30 [H. Zhang+, 2018] Zhang, Han, et al. “Self-Attention Generative Adversarial Networks.” ICML2019. P.38 [M. Geva+,2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key-Value Memories.” arXiv2020. P.39, P.40 [A. Vaswani+, 2017] Vaswani, Ashish et al. “Attention is All you Need.” NIPS2017. P.41 [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. 94/97
  95. 参考文献 P.48 [Weijie+, 2020] Weijie, et al. "Vl-bert: Pre-training of

    generic visual-linguistic representations.“ ICLR2020. P.50 [Chen+, 2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." ECCV2020. P.52 [Shin+, 2021] Shin, Andrew, Masato Ishii, and Takuya Narihira. "Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision." arXiv2021. P.53 [Hu+, 2021] Hu, R., & Singh, A. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv2021. [K. Shuster+, 2020] Shuster, Kurt, et al. "The dialogue dodecathlon: Open-domain knowledge and image grounded conversational agents." ACL2020. [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.55 [R. Rombach+, 2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer. "Network-to-Network Translation with Conditional Invertible Neural Networks.“ NeurIPS2020. 95/97
  96. 参考文献 P.56 [Radford+, 2021] Radford, Alec, et al. "Learning transferable

    visual models from natural language supervision." arXiv2021. P. 57 [Bau+, 2021] Bau, David, et al. "Paint by Word.“ arXiv2021. [Galatolo+, 2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola Vaglini. "Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search." arXiv2021. P.58 [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021. P.60 [Tolstikhin+, 2021] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all- mlp architecture for vision. arXiv2021. [Melas-Kyriazi+, 2021] Luke Melas-Kyriazi. Do you even need attention? a stack of feed-forward layers does surprisingly well on imagenet. arXiv2021. [Touvron+, 2021] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Hervé Jégou. Resmlp: Feedforward networks for image classification with data-efficient training. arXiv2021. [Liu+, 2021] Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay Attention to MLPs. arXiv2021. 96/97
  97. 参考文献 P.68 [Pan+, 2020] Pan, Y., Yao, T., Li, Y.,

    & Mei, T. X-linear attention networks for image captioning. CVPR2020 [Ziegler+, 2019] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. Fine-Tuning Language Models from Human Preferences. arXiv. http://arxiv.org/abs/1909.08593 [Stiennon+, 2020] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., & Christiano, P. Learning to summarize from human feedback. NeurIPS2020. P.72 [Benjio+,2015] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for sequence prediction with recurrent Neural networks. NIPS2015. MIT Press, Cambridge, MA, USA, 1171–1179. P.78 [Schulman+,2017] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. Proximal Policy Optimization Algorithms. arXiv2017. P.79 [Choshen+, ICLR2020] Choshen, L., Fox, L., Aizenbud, Z., & Abend, O. (2019). On the Weaknesses of Reinforcement Learning for Neural Machine Translation. ICLR2020. P.84 [Benotti+,2021] Benotti, L., & Blackburn, P. Grounding as a Collaborative Process. EACL2021. 515–531. P.86 [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 97/97