Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Vision and Languageと分野を取り巻く深層学習手法の紹介

Vision and Languageと分野を取り巻く深層学習手法の紹介

2021.05.21 NL/CVIM/PRMU合同研究会で行ったチュートリアル講演の資料です。

Seitaro Shinagawa

May 21, 2021
Tweet

More Decks by Seitaro Shinagawa

Other Decks in Technology

Transcript

  1. 2021.05.21 NL/CVIM/PRMU合同研究会
    Vision and Languageと分野を
    取り巻く深層学習手法の紹介
    品川 政太朗(奈良先端大)
    1/97

    View Slide

  2. 品川 政太朗(しながわ せいたろう)と申します
    1989年 札幌にて誕生
    2013年 東北大学工学部卒業
    2015年 東北大学大学院博士前期課程修了
    2015年 奈良先端大 知能コミュニケーション研究
    室で博士後期課程
    2020年 同研究室研究員を経て11月から助教
    専門:画像生成、対話システム
    博論:A Conversational System for Interactive Image Editing
    (自然言語を用いた対話型画像編集システム)
    興味:Vision&Language、コミュニケーション支援
    2/97

    View Slide

  3. 本発表の一部はcvpaper.challengeのメタサーベイの成果です
    こちらもぜひご一読ください
    https://www.slideshare.net/cvpaperchallenge/transformer-247407256 3/97

    View Slide

  4. 今回の発表について
    • Vision&Languageにはどのような取り組み・課題があるか
    • 深層学習はどのように使われてきているか
    • 特に両モダリティの統合と変換に焦点を当てます
    • 評価指標の話は重要ですが、今回は省きました
    1. Vision&Languageはどんな分野なのか?
    2. Vision&Languageの主要な深層学習モデル
    3. 学習済みモデルを応用する話
    4. 今後はTransformerからMLPへ?
    5. 言語生成タスクにおける強化学習の利用
    6. さいごに
    もくじ
    4/97

    View Slide

  5. 1.Vision&Languageは
    どんな分野なのか?
    5/97

    View Slide

  6. Vision&Languageとは?
    Computer Vision
    Natural Language
    Processing
    Vision&Language
    • 画像処理と自然言語処理の融合領域
    • 2分野の技術を駆使して、両分野にまたがる問題を解決する
    6/97

    View Slide

  7. 例えば?
    Image captioning
    Visual Question
    Answering (VQA)
    Embodied Question Answering (EQA)
    Text-to-image generation
    [Xu+, 2018]
    [Das+, 2018]
    [Vinyals+,2015]
    [Agrawal+, 2016]
    自然言語を入力とした物体操作
    [Bisk+, 2016]
    7/97

    View Slide

  8. 例えば?
    自然言語の文をクエリとした画像検索
    [Li+, 2017]
    漫画のAudio Comic化(audioモダリティも加えたマルチモーダル処理)
    料理動画への字幕・レシピのアラインメント [Bojanowski+, 2015]
    [Wang+, 2019]
    8/97

    View Slide

  9. Vision&Languageの面白さ
    • 画像と言語を両方扱うことで、新しい問題設定がどんどん出てくる
    • 別々のモダリティをどのように組合わせるべきか?
    • システムは人間とどのようにインタラクションすべきか?
    9/97

    View Slide

  10. 言語処理側から見るモチベーション
    画像も考慮することで、新しいアプリケーションにアプローチできる
    機械翻訳
    要約
    質問応答
    対話
    情報検索
    画像文脈 + =
    multi-(cross-)modal machine translation
    multi-(cross-)modal summarization
    visual question answering
    visual dialog
    multi-(cross-)modal information retrieval
    画像付きの記事要約[Zhu+, 2018]
    画像も適切なものを選択して出力
    Web上は画像とテキストであふれて
    いるから、画像もうまく利用したい
    10/97

    View Slide

  11. 画像処理側から見るモチベーション
    シーン認識
    自然言語
    出力 image-captioning
    自然言語
    入力
    物体検出
    領域分割
    画像生成
    画像編集
    referring expression
    text-guided semantic segmentation
    text-to-image
    text-guided image editing
    自然言語インターフェースは人間にとって都合が良い
    • 膨大なデータをまとめるのは人間には大変→システムが要約して説明する
    • ツールを使うのは素人には大変→(音声)言語で入力したい
    + =
    + =
    11/97

    View Slide

  12. Vision&Languageはいつごろ登場した?
    Vision&Languageという分野名は、深層学習の普及に伴って呼ばれるように
    • 2015年からサーベイ論文が登場 [Ferraro+, 2015] [Kafle+, 2019] [Mogadala+, 2020]
    ただ、深層学習以前にも、画像と言語を扱う研究には古い歴史がある
    [Okada, COLING1980] [Hiyoshi, COLING1994]
    手描きの絵から説明文を生成
    自然言語とキーボード、マウス入力
    を組合わせてイラストを描画
    [Winograd, 1972]
    自然言語による物体操作
    と画像付き質問応答
    12/97

    View Slide

  13. 昔と今で何が違う?
    昔:
    実世界上の多様な物体やテキストを記号的に定義して計算の土台に載せる
    のが難しかった(タスクをなるべく限定する必要があった)
    今:
    画像もテキストもベクトルとして扱える
    • インターネットの普及で、扱える画像とテキストのデータが増えた
    • 高性能な計算機を使えるようになった
    • 統計的手法の発展
    13/97

    View Slide

  14. Vision&Langugeの難しさ①:モダリティ間の情報差
    画像とテキスト情報は1対1対応を仮定するのが難しい
    画像の説明文でペアを作る
    image-captioningのタスク
    画像の説明文は、画像の中の顕著な
    物体について説明している
    →つまり要約としての側面が強い
    このモダリティ間の情報差をうまく調
    整してなければならない
    14/97

    View Slide

  15. Vision&Lanagueの難しさ②:データセットのバイアス
    画像と言語の2つのモダリティがあるため、それぞれでバイアスが生じ得る
    VQAデータセットはバランスに問題があった [Goyal+, 2017]
    • ”What sport is…”という質問に対して”tennis”で41%正答できる
    • ”How many…”という質問に対して”2”で39%正答できる
    • “Do you see…”という質問に対して”yes”で87%正答できる
    →complementなサンプルを加えることで、画像を見ないと正答できないように
    した
    [Agarwal+, 2020]では、人間が67.12%の割合でVisual Dialogを対話履歴な
    しで正答できると報告
    • より難しくした評価セットのVisDialConvを提案
    15/97

    View Slide

  16. Vision&Lanagueの難しさ③:実世界のデータをとるのは大変
    目的に応じてまずは人工的なデータで実験、sim2realで人工データを応用という研究も多い
    https://cs.stanford.edu/people/jcjohns/clevr/
    左のCLEVRデータセットは
    BlenderでレンダリングしたCG画像と、
    人工的に作成した質問応答ペアのデータセット
    NeurIPS2018のNeural-Symbolic VQA
    [Yi+, 2018]で正解率99.8%を達成(ほぼ上限?)
    業界内では、新しいコンセプトの研究を始める時
    に向いているMNIST的立ち位置
    自分で新しいデータを生成するコードもサポート
    されているので比較的使いやすい
    よく見かけるタスク
    relational reasoning
    text-guided image editing 16/97

    View Slide

  17. Vision and Language研究の近年の動向
    Transformerベースの大規模パラメータ、大規模データセット学習手法が台頭
    ViLBERT VisualBER
    T
    VL-BERT LXMERT ERNIE-
    ViL
    OSCAR UNITER
    事前学習デー
    タセット
    VG, CC VG, COCO VG, CC
    text-only
    data
    VG,
    COCO
    VG,
    COCO,
    SBU
    VG, COCO,
    CC, SBU,
    GQA,flicker30k
    VG,COCO,
    CC,SBU
    評価データセッ

    VQA VQA,VCR,
    NLVR2,Flic
    ker30k
    VQA,VCR,
    Ref
    VQA,
    GQA,
    NLVR
    VQA,VCR,
    RefCOCO,
    retrieval
    retrieval, IC,
    VQA, GQA,
    NLVR2
    VQA,VCR,N
    LVR2,retriev
    al,他
    モデルサイズ large? base base, large base,
    large
    base, large base, large
    事前学習の計
    算時間
    8 TitanX >4 Tesla
    V100
    250k
    steps,16
    Tesla V100
    GPUs
    10日 4
    Titan Xp
    700k steps,
    8 V100
    GPUs
    1M steps,
    900k steps
    882, 2685
    V100 GPU
    時間
    パフォーマンス
    VG: Visual Genome (Faster R-CNN訓練用) ,
    CC: Conceptual Captions 3.3M, SBU: SBU Captions 0.8M
    17/97

    View Slide

  18. Vision and Language研究の近年の動向
    使える計算機が強いほどできることが増えるパワーゲームになってきている
    • BERT baseのfine-tuningとかならGPU1枚でも大丈夫そうだが・・・
    一方で、学習済みモデルを利用する方法もちらほら出てきている
    (この流れが発展して欲しい・・・)
    いずれにしても、どのようなことをしているか把握していく必要はある
    →今日やること
    18/97

    View Slide

  19. 2.Vision&Languageの
    主要な深層学習モデル
    19/97

    View Slide

  20. Vision&Languageでは画像と言語をどう結び付けるか?
    画像 言語
    共通の潜在空間
    画像
    言語
    潜在空間
    画像→言語
    潜在空間
    言語→画像
    Vision&Languageでは特に、両モダリティの統合と変換をうまくやる必要がある
    深層学習ベースだと、次の二種類を覚えておくと役に立つ
    双方向タイプ 一方通行タイプ
    20/97

    View Slide

  21. 黎明期からの双方向タイプ
    画像 言語
    共通の潜在空間
    双方向タイプは、深層学習黎明期(2013年くらい)からのアプローチ
    Visual semantic embeddings [Frome+, 2013] [Kiros+,
    2014] [Faghri+, 2017] [Wu+, 2019]
    ①画像情報と言語情報をそれぞれ符号化
    ②ペアと偽ペアを用意
    ③triplet loss(下記)で最適化
    言語情報は、扱う単位が増えてきている模様
    • 物体ラベル[Frome+, 2013]
    • テキストに含まれる単語[Kiros+, 2014]
    • フレーズや文単位[Wu+, 2019]
    [Wu+, 2019]
    21/97

    View Slide

  22. 近年の有名な双方向タイプ
    画像 言語
    共通の潜在空間
    BERTは、V&Lタスクでシェアを占めてきている双方向タイプのモデル
    Bidirectional Encoder Representation from
    Transformers (BERT) [Devlin+,2019]
    共通の潜在表現を学習させるのは難しいタスクだった(一方
    のモダリティに過学習しやすい)が、この印象が覆された
    エンコーダだけなので、色々なタスクに利用することができる
    点も魅力?
    V&Lの事前学習の特徴
    • 物体の矩形のmasking(Masked region modeling)
    • 画像とテキストのマッチングを二値分類するimage-text
    matching prediction
    22/97

    View Slide

  23. 一方通行タイプの特徴
    画像
    言語
    潜在空間
    画像→言語
    潜在空間
    言語→画像
    共通の潜在空間をあきらめることで、色々と利点が出てくる
    画像から言語、言語から画像のネットワーク
    を別々に学習してからでも学習できる
    一方のモダリティがもう一方のモダリティの
    データ拡張として働く
    Turbo learning[Huang+,2018]
    Multimodal Chain [Effendi+,2021]
    画像がペアになってなくても学習できる
    𝐼
    𝐼 𝐼𝑔𝑒𝑛
    𝑇 𝑇
    𝑇𝑔𝑒𝑛
    ※画像→テキスト→画像では微分可能に
    する必要がある(Gumbel softmaxなど)
    𝑙𝑜𝑠𝑠 = 𝛼ℒ 𝐼, 𝐼𝑔𝑒𝑛
    + 𝛽ℒ 𝑇, 𝑇𝑔𝑒𝑛
    23/97

    View Slide

  24. どのような深層学習モデルが使われているか?
    おおまかに分けると・・・
    Recurrent Neural Networks (RNNs)
    • LSTM
    • GRU
    Transformers
    • Seq2seq transformers
    • BERT
    Convolutional Neural Networks (CNNs)
    • Faster R-CNN (Visual Genomeで)
    • ResNet50, 152
    Transformers
    • Vision Transformer (ViT)
    • CLIP
    Vision Language
    Multi-Layer Perceptron (MLP; Fully-connected Layers (FC))
    Variational Auto Encoders (VAEs)
    Generative Adversarial Networks (GANs) 24/97

    View Slide

  25. Vision and LanguageにおけるTransformerの躍進
    Transformerが本格的に導入されてきたのは2019年ごろ
    大規模モデル×大規模データセットで学習するのが主流になってきた
    25/97

    View Slide

  26. Transformer以前のモデルの悩み
    言語データは時系列:Recurrent Neural Network (RNN)で処理していた
    私 は 人間
    RNN
    𝑥0
    embedding
    RNN
    𝑥1
    embedding
    RNN
    𝑥2
    embedding
    ℎ0
    ℎ1
    ℎ2
    ℎ0
    ℎ1
    前の隠れ層ℎ𝑡−1
    が入力なので逐次処理に時間がかかる
    26/97

    View Slide

  27. Transformerの登場
    Self-attentionという構造で時系列データを一挙に並列処理できるように
    私 は 人間
    RNN
    𝑥0
    embedding
    RNN
    𝑥1
    embedding
    RNN
    𝑥2
    embedding
    ℎ0
    ℎ1
    ℎ2
    ℎ0
    ℎ1
    学習の高速化により大規模データでの学習が可能に
    →自然言語処理分野での大規模学習時代の到来
    Transformer block
    27/97

    View Slide

  28. コンピュータビジョン分野での強み
    2020年にはビジョンの分野での応用が多数報告されてきた
    CNNは局所結合を重ねた構造
    大域的な関係性を見るのは不得手
    Transformer block
    Transformerのself-attentionは領域同士の
    関係性を大域的に考慮しやすい仕組み
    28/97

    View Slide

  29. Vision and Languageではどう使われている?
    全体的な傾向
    複数データセットによる大規模学習で汎用性のあるモデルを作る
    複数のデータで学習するための工夫が発展
    Transformerに合わせて画像と言語を処理するという方向性が発展
    Encoder-Decoder型より、BERT型の方が圧倒的に多い
    画像
    • 学習済みFaster R-CNNの特徴量を利用
    • Vision Transformer的なパッチベースの方法 (Transformer in
    Transformer)
    言語
    BERT型 or Encoder-Decoder型
    29/97

    View Slide

  30. ビジョン分野でのSelf-attentionの適用事例
    Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2019]
    • GANによる画像生成にSelf-attentionを適用した例
    • 点が示す領域をクエリとしたとき、画像のどの領域が強く対応し
    ているかを可視化
    • 各クエリ点が近くの領域や遠くの領域を見ていることがわかる
    30/97

    View Slide

  31. Self-attention
    辞書型の非線形処理機構
    周りの情報を取り入れて新しいベクトルを作る
    self-attention
    31/97

    View Slide

  32. Self-attentionの計算
    他のクエリについても同様に求められる
    𝑑は内積計算後のベクトルのノルムを正規化する役割
    32/97

    View Slide

  33. Transformerブロックの中身
    Transformerブロックを構成している要素
    1. Multi-head attention (次元分割型Self-attention)
    2. 残差接続(Residual connection)
    3. Layer Normalizationによる正規化
    4. Position-wise feed forward networks
    5. DropOut
    Multi-head attention
    Norm
    Feed forward
    Norm
    +
    +
    ※左図は標準的に使われることの多いPre-norm型
    33/97

    View Slide

  34. Multi-head attention
    次元分割型Self-attention(Multi-head attention)
    Self-attentionの内積はベクトルの各要素にわたって大域的な類似度
    高次元にすると、
    次元ごとの小さな特徴が無視されやすい
    attention
    map
    • 小さなベクトルに切り分け計算
    • トークン間の多様な類似性を 発見
    できる
    • 多様性を上げる損失関数を加えると
    性能向上[J. Li+, EMNLP2018], [P.Y.
    Huang+, EMNLP2019]
    34/97

    View Slide

  35. 残差接続(Residual connection)
    • 入力からの差分を学習する
    • 入力からの差分の学習が不要の場合
    sublayer部分が0になるように学習が進む
    • 学習の安定化に寄与
    多層での学習性能を上げる工夫
    35/97

    View Slide

  36. Layer normalization
    入力系列をトークンごとに正規化する操作
    Layernorm
    Layernorm
    Layernorm
    Layernorm
    嬉しい特徴
    Large batch訓練がbatch accumulationで安心してできる
    ※batch normalizationだと統計量が変わってしまう 36/97

    View Slide

  37. DropOut
    Transformerでは3種類のDropOutがある
    • positional encoding後の入力embedding
    • 残差接続&Layernormの直前
    • attention計算時のattention map
    訓練時に、ある層の入力(出力)を確率的に0にすることで
    汎化性能を上げる工夫
    37/97

    View Slide

  38. Position-wise feed forward networks
    2層の線形層を各位置ごとに適用(Layernormと同様)
    この層はどのような役割や重要性があるのか?
    言語モデルでは一種のkey-valueメ
    モリの役割を担っていると報告
    [M. Geva+, 2021]
    https://arxiv.org/abs/2012.14913
    38/97

    View Slide

  39. 入力には位置情報のembeddingが必要
    self-attentionには各トークンの位置を考慮する機構がない
    →明示的に位置embeddingを与えると性能が向上
    単純に足し合わせることが多い
    位置embeddingは一から学習させる場合が多いが、決め打ちで与えても良い
    よく使われるものは、Sinusoidal positional embeddings [Vaswani+, 2017]
    39/97

    View Slide

  40. Sinusoidal型の気持ちは時計型embedding?
    from:https://github.com/jalammar/jalammar.github.io/blob/master/notebookes/transformer/transformer_positional_encoding_graph.ipynb
    sin 𝑤0
    𝑡 , cos 𝑤0
    𝑡
    長針
    周期短い
    短針
    周期長い
    sin 𝑤𝑛
    𝑡 , cos 𝑤𝑛
    𝑡

    sinとcosの組を時計の針とみると、位置𝑡は時刻で𝑤𝑖
    は針の動く速さ
    次元を2nとすると、sinとcosはn組→n個の針がある時計
    “私”
    “は”
    “元気”
    “です”
    “。”
    40/97

    View Slide

  41. Transformerをどのように学習させるか?
    大きく分けて2種類のタイプがある
    • 【Seq2seq】 Attention is all you need [Vaswani+, 2017]
    • 【BERT】 BERT: Pre-training of Deep Bidirectional Transformers for
    Language Understanding [Devlin+, 2019]
    41/97

    View Slide

  42. Seq2Seq型
    EncoderとDecoderの2種類のTransformerで構成
    Encoder Decoder
    42/97

    View Slide

  43. Seq2Seq型
    Decoder
    EncoderとDecoderの2種類のTransformerで構成
    Encoder情報はKey, Value情報としてDecoderへ
    Key
    Value
    43/97

    View Slide

  44. Seq2Seqのforward計算の特徴
    • 時系列を時々刻々と順番に予測していく(自己回帰型)
    • 訓練時に未来の系列がリークしないようにAttention mapにマスクする(−∞
    で置き換える)工夫が必要
    −∞ −∞ −∞
    −∞ −∞
    −∞
    「私 は 元気 です」をデコーダで出力するように学習する場合


    元気
    です
    Query
    Key
    「私」に対応するQueryは、未来
    の情報である「は」「元気」「です」
    のKeyを考慮しない
    44/97

    View Slide

  45. BERT型
    自己回帰型ではない新しい言語モデルの枠組み
    事前学習で以下の2つのタスクを行うことで色々なNLPタスクで効果を発揮
    (V&LのモデルやVision Transformerもこの流れを汲んでいる)
    • Masked language modeling (MLM)
    • Next sentence prediction (NSP)
    BERT
    [CLS] [SEP]
    文A 文B 45/97

    View Slide

  46. Masked Language Modeling
    系列の一部をマスクしてマスクした箇所を予測するタスク
    BERTでは15%を選択し、そのうち80%は[mask]トークンで置き換え、
    10%はランダムなトークンで置き換え、10%はそのままにする
    (ViTでもpatch単位で同じことをしている)
    BERT
    [CLS] [SEP]
    文A 文B
    予測 予測 予測
    46/97

    View Slide

  47. Next sentence prediction
    2つの文AとBが連続しているかを2値で予測するタスク
    (V&Lのモデルでは画像とテキストがマッチするかで使われている)
    BERT
    [CLS] [SEP]
    文A 文B
    連続/不連続
    47/97

    View Slide

  48. Segment embeddingsの追加
    どちらの文に所属しているかをより明示的に扱うためのembeddingを
    追加で加算してembeddingを作る
    V&Lでは、画像とテキストどちらに所属するかのembeddingが追加さ
    れることがある(VL-BERT [Weijie+,2020])
    48/97

    View Slide

  49. V&L用のモデルへの設定
    textのみのBERT
    • Masked Language Modeling
    • Next sentence prediction
    • Segment embedding of
    sentence pair
    V&LのBERT
    • Masked Language Modeling
    +Masked region modeling
    • Image-text matching
    • Segment embedding of image-text
    pair (ないことも多い)
    • 画像はVisual Genome datasetで訓
    練したFaster R-CNNを利用し、物体
    の矩形ごとに整形してトークンとする
    (Seq2seqもあるが、主流ではない)
    49/97

    View Slide

  50. 例えばUNITER[Chen+,2020]の場合
    ※WRAはUNITER独自の損失関数で、Optimal Transportを用
    いて画像矩形トークンと単語のトークン間の分布を最小化する 50/97

    View Slide

  51. 𝑄𝑡
    V&L特有の仕組み:1-stream型と2-stream型
    1-streamは画像とテキストをまとめて入力
    2-streamはソース・ターゲット型のattention
    𝑣0
    𝑣1
    Multi-head attention
    𝑣𝑉
    𝑡0
    𝑡1
    𝑡𝑇
    token-to-Q,K,V token-to-Q,K,V
    ⋯ ⋯
    𝑉𝑡
    𝐾𝑡
    𝑄𝑡
    𝑉𝑡
    𝐾𝑡
    𝑄𝑡
    𝑇 × 𝐻
    vectors
    V × 𝐻
    vectors
    𝑉𝑡
    𝐾𝑡
    𝑄𝑡
    𝑉𝑡
    𝐾𝑡
    𝑄𝑡
    𝑉 + 𝑇 × 𝐻
    vectors
    visual
    tokens
    textual
    tokens
    Multi-head attention Multi-head attention
    𝑉𝑡
    𝐾𝑡
    𝑉𝑡
    𝐾𝑡
    𝑄𝑡
    1-stream (single-stream) 2-stream (co-attention)
    51/97

    View Slide

  52. 1-stream型と2-stream型はどちらが良いか?
    1-stream
    2-stream
    1-stream
    2-stream
    2-stream
    1-stream
    1-stream
    1-stream
    決着はついていないが、シンプルな1-streamでも十分性能が出ている
    [Shin+, 2021]の図を基に作成 52/97

    View Slide

  53. 余談:Seq2seq系の手法について
    UniT: Multimodal Multitask Learning with a Unified Transformer [Hu+, 2021]
    Faster R-CNNではなく、Vision Transformerのようにパッチベースで画像の特
    徴量抽出を行い、Transformerですべて完結させるアプローチ
    モデルは超巨大:“batch size of 64 on 64 Nvidia Volta V100-
    SXM2-32GB GPUs (batch size 1 per GPU)"
    The Dialogue Dodecathlon [Shuster+, 2020]
    複数の対話データセット(画像付きも含む)で訓練することで、zero-
    shot能力を示すことが報告された
    Zero-Shot Text-to-Image Generation [Ramesh+, 2021]
    テキストから画像を生成するGPT-3ベースのネットワーク。DALL-Eという名前
    がついている(後述) 53/97

    View Slide

  54. 学習済みモデルを応用する話
    54/97

    View Slide

  55. 学習済みモデルの応用
    Network-to-network [Rombach+, 2020]
    https://arxiv.org/abs/2005.13580
    flow-basedで異なる2ドメインの特徴量のマッピング
    を学習End-to-endで最適化せずにできるので効率的
    55/97

    View Slide

  56. Text-to-imageにおけるCLIPの応用
    大規模な画像とテキストのペアでcontrastive learningを行う
    ことでzero-shotの認識を実現
    4億のデータを収集してクリーニングしたデータセットでContrastive学習
    テキストをクラスと見立てて、マッチングスコアでzero-shot画像認識
    後述するDALL-Eでは生成画像のリランキングに使っている
    Contrastive Language–Image Pre-training [Radford+, 2021]
    https://arxiv.org/abs/2103.00020
    56/97

    View Slide

  57. CLIPを汎用的な識別器として、生成画像をテキストに合わせて
    制御する手法が続々登場
    Paint by word [Bau+, 2021]
    https://arxiv.org/abs/2103.10951 CLIP-Guided Generative Latent Space
    Search [Galatolo+, 2021]
    https://arxiv.org/abs/2102.01645
    入力となる目標テキストに対して、進化的アルゴリズムでCLIP
    の類似度スコアを最大化するよう画像の潜在変数を最適化
    57/97

    View Slide

  58. DALL-Eによる汎用的な画像生成も視野に入ってきた?
    潜在空間を離散化したVAEによる潜在変数を語彙としてGPT-3で大規
    模に学習すると、テキストからゼロショットで画像生成ができる
    2.5億の画像テキストペアで学習(学習済みモデルが欲しい・・・)
    Zero-Shot Text-to-Image Generation [Ramesh+, 2021]
    https://arxiv.org/abs/2102.12092
    58/97

    View Slide

  59. 4.今後はTransformerからMLPへ?
    59/97

    View Slide

  60. 今後はTransformerからMLPへ?
    MLP-Mixer[Tolstikhin+,2021]
    実はMLPでもTranformer並みの性能を出せたという報告が続々登場
    5/4 MLP-Mixer [Tolstikhin+,2021]
    5/6 Do You Even Need Attention? [Melas-Kyriazi,2021]
    5/7 ResMLP [Touvron+,2021]
    5/17 Pay Attention to MLPs [Liu+,2021]
    方法はシンプルで共通
    転置してMLPに通す
    トークン間の相互作用
    をとらえられる
    60/97

    View Slide

  61. Vision, Language taskでTransformerの性能を上回る報告
    gMLP (Pay Attention to MLPs [Liu+,2021])はTransformerベースに接近
    Vision: 画像認識(ImageNetで訓練・評価)
    Language: C4(後述)で事前訓練、質問応答(SQuAD)、Sentimentの二値
    分類(SST-2)、自然言語理解(MNLI)でそれぞれfine-tuningして評価
    ViT型での比較 BERT型での比較 61/97

    View Slide

  62. gMLPは系列方向の関係性を捉えてgatingしている点が特徴
    𝑊
    𝑛
    𝑛
    𝑔𝑓
    = 𝑓𝑊,𝑏
    𝑍 = 𝑊𝑍 + 𝑏
    SGU 𝑍 = 𝑍 ⊙ 𝑔𝑓
    𝑍
    𝑑𝑧
    𝑔𝑓
    +b
    =
    𝑛
    𝑑𝑧
    𝑔𝑓
    input embeddings
    𝑑𝑧
    𝑛
    𝑓𝑊,𝑏
    𝑍

    𝑍
    Spatial Gating Unit (SGU)
    ?
    • 𝑊の各スライスが、embeddingのベクトルの各
    要素に対して系列方向のフィルタとして作用する
    • 例えば、上のような重み𝑊のスライスは、ベクト
    ルの最初の要素の真ん中の系列に大きな重み
    →空間方向の関係性を捉えられる
    62/97

    View Slide

  63. 入力をsplitすると性能がさらに向上する
    𝑔𝑓
    = 𝑓𝑊,𝑏
    𝑍2
    = 𝑊𝑍2
    + 𝑏
    SGU 𝑍 = 𝑍1
    ⊙ 𝑔𝑓
    𝑔𝑓
    input embeddings
    𝑑𝑧
    2
    𝑛
    𝑓𝑊,𝑏
    𝑍2

    𝑍1
    , 𝑍2
    Spatial Gating Unit (SGU)
    𝑑𝑧
    2 BERT baseと同規模のパラメータでより低い
    perplexityを達成
    63/97

    View Slide

  64. ImageNetで学習したgMLPのfilterの可視化
    各層ごとに、filter Wの各横スライ
    スを2Dになるようにreshapeして
    横に並べている
    𝑊
    同じ位置に反応するスライスが存在する
    (図は恣意的にスライスを選んでいる)
    𝑛
    𝑛
    𝑛 𝑛 𝑛

    𝑛
    𝑛
    64/97

    View Slide

  65. Masked Language Modelingで学習した
    gMLPのfilterの可視化
    各プロットの横軸が系列方向
    36層各層ごとに、真ん中の系列に強く反応するfilter 𝑊のスライスを可視化
    前の系列、後ろの系列も重みをつけて見ているフィルタが存在
    𝑛
    Colossal Clean Crawled Corpus (C4) dataset で訓練
    (約800GB;数億文書;数千億トークン、google.patentやwikipediaが多い)
    65/97

    View Slide

  66. 5.言語生成タスクにおける強化学習の利用
    66/97

    View Slide

  67. 言語生成タスクとは?
    文脈情報に沿って文を生成するタスクを指す
    文脈情報 生成するテキスト タスク
    英語の文 日本語の文 英日翻訳
    画像 画像の説明文 画像説明文生成
    発話文 応答文 対話応答生成
    言語デコーダ
    文脈情報 “机の上にあるのはペンです”
    67/97

    View Slide

  68. 言語生成ではfine-tuningに強化学習を使うことが増えてきている
    image-captioningで強化学習を使っている事例
    by [Mogadala+, 2020]


    image-captioningの論文[Pan+, 2020]では
    「reinforcement」の文字すら既にない
    • Self-Critical Attention [Rennie+, 2017]
    • Policy Gradient [Liu+, 2017]
    • Up-Down [Anderson+, 2018]
    • Multi-task Captioning [Zhao+, 2018]
    • Stack Captioning [Gu+, 2018]
    OpenAIによるGPT-3+強化学習
    fine-tuningの論文
    [Ziegler+, 2019]
    [Stiennon+, 2020]
    (報酬は人間からのフィードバック)
    68/97

    View Slide

  69. なぜ言語生成タスクに強化学習が使われる?
    A. 実際の推論方式、評価指標に合わせてモデルを最適化できる
    1.学習方式と推論方式が異なる問題
    2.学習時の目的関数とタスクの目的関数が異なる問題
    とりあえずSeq2Seqの場合を想定
    69/97

    View Slide

  70. 言語デコーダの学習方式:Teacher forcing
    与えられた参照文を教師として時刻ごとに次の時刻のトークンを学習
    入力は1時刻ずらした参照文で固定
    DNN
    文頭記号
    < 𝑠 >
    文末記号
    𝑠 >
    文脈情報 DNN
    This
    DNN
    is
    This
    This is a
    DNN
    a
    pen
    DNN
    pen
    0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0
    ⋯ ⋯ ⋯ ⋯ ⋯
    参照文
    次のトークンの
    予測確率分布
    𝑝 𝑤𝑡
    |ℎ𝑡−1
    , 𝑤𝑡−1
    70/97

    View Slide

  71. 言語デコーダの推論方式:free running
    推論時は参照文なしで出力を予測する
    →前の時刻でサンプリングされたトークンを次の時刻の入力にする
    →Teacher forcingで最適化している分布が推論時と異なる
    DNN
    文頭記号
    < 𝑠𝑜𝑠 >
    文末記号
    < 𝑒𝑜𝑠 >
    文脈情報 DNN
    This
    DNN
    is
    This
    This is a
    DNN
    a
    pen
    DNN
    pen
    71/97

    View Slide

  72. 訓練時と推論時の分布の違いにどうやって対処する?
    【Scheduled sampling】 [Benjio+,2015]
    学習時にTeacher forcingに加えてfree running式の訓練を混ぜる
    △参照文と生成文の系列長がずれた時に処理が難しい
    【強化学習(ここでは特に方策勾配法による手法)】
    生成した系列を報酬で重みづけした教師としてTeacher forcingすることに相当
    ○ Scheduled samplingの問題が起きない
    △ スクラッチから学習させるのは難しい(基本fine-tuningで使われる)
    72/97

    View Slide

  73. シンプルな方策勾配法(REINFORCE)による強化学習
    REINFORCEの手順は大きく分けて3ステップ
    There is a girl by the table .
    A man stands on the floor .
    A man is standing by a dog .
    方策 𝜋 𝑦𝑡
    |𝑠𝑡
    ①方策(言語デコーダ)による文生成 ②報酬関数(or報酬モデル)
    による評価
    報酬関数
    𝑅 生成文 , 参照文
    0.1
    0.8
    0.6
    報酬スコア
    ③報酬スコアによる重みづけによる再学習
    𝑙𝑜𝑠𝑠 = −
    1
    𝑇

    𝑡=1
    𝑇
    0.8 ⋅ 𝑦𝑡
    ⋅ log 𝜋 𝑦𝑡
    |𝑠𝑡
    73/97

    View Slide

  74. REINFORCEの手順①:方策(言語デコーダ)による文生成
    文脈情報
    (隠れ層、エン
    コーダ出力など)
    方策 𝜋 𝑦𝑡
    |𝑠𝑡
    文脈情報から系列をサンプリングする
    (サンプリング方法:random, greedy (top-1), top-k, beam search, top-pなど)
    𝑦1
    𝑦0
    方策 𝜋 𝑦𝑡
    |𝑠𝑡
    𝑦2
    𝑦1
    方策 𝜋 𝑦𝑡
    |𝑠𝑡
    < 𝑒𝑜𝑠 >
    𝑦𝑡−1


    𝑠1
    𝑠2
    𝑠𝑡
    State 𝑠:文脈情報と入力トークンで定義
    Action 𝑦:次のトークンの選択(語彙サイズの大きさ!(数万~数十万))
    74/97

    View Slide

  75. REINFORCEの手順②:報酬関数(or報酬モデル)による評価
    生成系列を報酬関数(評価関数)に通して得たスコアを報酬とする
    利点:報酬関数、および報酬関数への入力は微分不可能でもよい
    既存の自動評価尺度やスコアの予測モデルをタスクに合わせて使える
    例:BLEU, CIDEr, BERTScore, 人間のフィードバック
    There is a girl by the table .
    A man stands on the floor .
    A man is standing by a dog .
    報酬関数
    𝑅 生成文 , 参照文
    0.1
    0.8
    0.6
    報酬スコア
    75/97

    View Slide

  76. REINFORCEの手順③:報酬スコアによる重みづけによる再学習
    生成した文章を教師文として、評価値を損失の重みにして方策を再学習

    𝑦1
    .

    𝑦𝑇
    < 𝑠𝑜𝑠 > A man is standing by a dog . < 𝑒𝑜𝑠 >
    < 𝑠𝑜𝑠 > man

    𝑦2

    𝑦3
    A
    A dog
    man is
    man

    𝑦𝑇−1
    < 𝑒𝑜𝑠 >
    教師
    予測
    トークン
    0.8
    生成文
    入力
    𝑙𝑜𝑠𝑠 = −
    1
    𝑇

    𝑡=1
    𝑇
    0.8 ⋅ 𝑦𝑡
    ⋅ log 𝜋(𝑦𝑡
    |𝑠𝑡
    )
    報酬𝑅 生成文, 参照文
    1文の各トークンの重みは
    同じ重み(文単位の報酬)
    loss
    backprop
    ※理論的背景は方策勾配定理を参照
    76/97

    View Slide

  77. 注意点①:REINFORCEは方策勾配∇𝜃
    log 𝜋𝜃
    の分散が大きい
    ∇𝜃
    𝑙𝑜𝑠𝑠 = −𝔼෠
    𝑌~𝜋𝜃

    𝑡=1
    𝑇෡
    𝑌
    ∇𝜃
    log 𝜋𝜃
    𝑦𝑡
    |𝑠𝑡
    ⋅ 𝑅 ෠
    𝑌, 𝑌 − 𝑏 𝑠
    対策:ベースライン関数𝑏 𝑠 で勾配を低減できる

    Y:生成文
    Y:参照文
    ※理論的背景は
    Control variateを参照
    REINFORCE
    ミニバッチ平均報酬
    Self-critic
    [Rennie+, CVPR2017]
    𝑏 𝑠 =
    1
    𝑁

    𝑖=1
    𝑁
    𝑅 ෡
    𝑌𝑖
    , 𝑌𝑖
    • mini-batchごとの平均報酬
    • 一般的な方法
    𝑏 𝑠 =
    1
    𝑁

    𝑖=1
    𝑁
    𝑅 ෠
    𝑌
    𝑔𝑟𝑒𝑒𝑑𝑦,𝑖
    , 𝑌𝑖
    • greedy (top-1) で生成した
    系列による報酬を利用
    • 平均報酬より良い傾向
    • image-captioningでメジャー
    よく用いられるベースライン関数𝑏 𝑠
    77/97

    View Slide

  78. OpenAIの言語生成ではPPOを利用して方策勾配を制御
    ベースライン付きREINFORCE
    𝑙𝑜𝑠𝑠 = −𝔼෠
    𝑌~𝜋𝜃

    𝑡=1
    𝑇
    log 𝜋𝜃
    𝑦𝑡
    |𝑠𝑡
    𝐴 𝑠𝑡
    , 𝑦
    Proximal Policy Optimization (PPO) [Schulman+,2017]
    ただし、𝐴 𝑠𝑡
    , 𝑦 = 𝑅 ෠
    𝑌, 𝑌 − 𝑏 𝑠
    (報酬は時刻ごとに一定とみなす)
    𝑙𝑜𝑠𝑠 = −𝔼෠
    𝑌~𝜋𝑜𝑙𝑑
    min ෍
    𝑡=1
    𝑇 𝜋𝜃
    𝑦𝑡
    |𝑠𝑡
    𝜋𝑜𝑙𝑑
    𝑦𝑡
    |𝑠𝑡
    𝐴 𝑠𝑡
    , 𝑦 , 𝑐𝑙𝑖𝑝
    𝜋𝜃
    𝑦𝑡
    |𝑠𝑡
    𝜋𝑜𝑙𝑑
    𝑦𝑡
    |𝑠𝑡
    , 1 − 𝜖, 1 + 𝜖 𝐴 𝑠𝑡
    , 𝑦
    𝜋𝜃
    :更新対象の方策
    𝜋𝑜𝑙𝑑
    :固定した古い方策
    方策の比についてクリッピングを行うことで
    モデルが激しく更新されないよう方策勾配
    を制御できる
    78/97

    View Slide

  79. 注意点②:方策勾配法でFine-tuningする前に
    つまり、文生成時に一度もサンプルできないトークンはそもそも評価できない!
    機械翻訳の分野では、Teacher forcingで事前学習した直後の分布が急峻に
    なっていることで、fine-tuning時に最良のトークンがサンプルされず、報酬の最
    大化に失敗している点が指摘されている [Choshen+, ICLR2020]
    ①文生成(推論) ②評価
    ③評価で重みづ
    けして再学習
    方策勾配法は3ステップで学習する枠組みだった
    対策は?
    サンプル時の多様性を上げる
    ・複数の目的関数
    e.g. エントロピー正則化
    ・softmax関数の温度パラメータを上げる
    79/97

    View Slide

  80. おススメのコード
    https://github.com/ruotianluo/self-critical.pytorch
    非公式ですが、Self-criticのImage captioningをLSTMベース、Transformerベースでそれ
    ぞれ実験できます。自分でモデルを組むのに参考になるかも
    Learning to Summarize from Human Feedback [Stiennon+, 2020]
    https://github.com/openai/summarize-from-feedback
    OpenAIが公開している、人間のラベル選択で学習した報酬モデルによる言語生成モデル
    のfine-tuning手法です。対象としているのが要約タスクですが、広く一般に使える手法です。
    80/97

    View Slide

  81. 6.さいごに
    81/97

    View Slide

  82. これからのVision and Language、どう生き残るか?
    不都合な真実:現在の主流は、大規模モデル・大規模データのパワー勝負
    「これから何をやっていけばいいのか」と聞かれたとしたらどう答えるか・・・?
    個人的な意見:
    ◼ 新しい問題設定・評価指標の提案
    • 音声情報などのマルチモーダルへの拡張
    • 書き言葉でなく、話し言葉を想定した問題設定
    • 対話的な方向性なら、エラーからの回復など
    ◼ 既存の学習済みモデルの分析と応用
    • 何ができないか、どうしたらできるようになるか
    ◼ 実用性を重視した、適度な制約・ルールの導入
    • まず動くものを作ることができれば、データを収集できる
    82/97

    View Slide

  83. 実問題における対話性の必要性
    Visual Dialog [Das+, 2017]
    人間:現在の家の状況を聞きたい
    エージェント:人間が何に関心があるかわか
    らない
    現在見えている状況についてどれだけ話す
    (captioningする)べきか?
    たくさん話すと冗長かもしれない・・・
    人間同士だったら、大まかに報告しておいて、
    興味のある事項を聞いてから答えるようにす
    れば効率が良い→対話の問題設定になる
    「猫がマグカップで水を飲んでます」
    人間「何色のマグ?」
    「赤と白ですね」
    人間「それ私のマグやんけ・・・」 83/97

    View Slide

  84. 深層学習ベースで解かれる問題設定の多くが、協調的な問題
    解決のプロセスを未だ避けているという指摘もある
    Grounding as a Collaborative Process [Benotti+, 2021]
    画像中の物体当てタスク(Guesswhat?! [de Vries+,2017])
    V&Lに限らず、決められた手順に従って最終的に正答したかどうかだけで評価する風潮
    現実は失敗したままで終わられては困る。エラーから回復する仕組みがこれから重要?
    84/97

    View Slide

  85. 例えば、text-to-imageの場合
    “this bird has a very long neck
    and brown body and facing
    left and body is under water”
    Text-to-imageのモデルで生成した結果
    “this bird has yellow beak and
    is facing left and long brown
    neck and black body most of
    which is under the water”
    “test”
    どう入力したらどういう出力が返ってくるか、人間にはよくわからない
    何時間も使ってみてようやくコツがわかってくる(これは望ましいといえる?)
    →エラーから回復する仕組みが現状存在しない
    85/97

    View Slide

  86. Vision and Language Navigationでは取り組まれてきている
    エージェントが迷った時に、修正された新しい指示を要求して
    エラーから回復する
    [Nguyen+, 2019] HANNA task
    86/97

    View Slide

  87. 記号論理(ルール)との融合
    Neural-Symbolic VQA [Yi+,2018] (NeurIPS2018 spotlight)
    • ルールベースは非常に強力だが、汎用性に欠ける
    • 深層学習は多様な物体の特徴を分類したりが得意
    →両者のいいところどりをすると実用性が高く、論文が高く評価されているのを見る
    87/97

    View Slide

  88. ちなみに、専門ワークショップが日本で毎年開催されている
    International Workshop on Symbolic-Neural Learning (SNL)
    2017年 第一回:名古屋
    2018年 第二回:名古屋
    2019年 第三回:東京
    2020年 コロナでキャンセル
    スコープ
    • Image caption generation and visual question answering
    • Speech and natural language interactions in robotics
    • Machine translation
    • General knowledge question answering
    • Reading comprehension
    • Textual entailment
    • Dialogue systems
    この領域に興味がある方にはとてもおススメです
    (私は聴講でしか参加したことないですが・・・)
    88/97

    View Slide

  89. 【宣伝】vision and language jp slack
    • Vision&Languageの話題を扱う交流用のslackコミュニティ
    • 動機:Vision&Languageの学生が孤立しがちな問題をなんとかして,分野を
    盛り上げたい
    • 現在の登録者数176名
    (完全に思い付きで始めましたが)
    たくさんの方が集まってくださいましたm(_ _)m
    • 現在活躍中のVision&Languageの研究者の方
    • Vision&Languageに興味のある{CV, NLP}の方
    • これから研究を始めようとしている学生の方
    など
    89/97

    View Slide

  90. ぜひvision and language jp slackをご活用ください
    ※Slackへの登録は品川までご連絡ください。
    • Vision&Language研究は画像と自然言語両方を扱うので、広範囲にわたる知識が必要
    • 分野はどちらかに偏っている研究室が多く、 Vision&Languageの学生は孤立しがち
    例えばこういうことに使えます!
    • 論文の調査についての相談(例:こういう研究需要ある?、こういう研究ってやられてないの?)
    • 研究に関係する相談(例:先行研究の再現がうまくいかない、こういう研究ってどの会議に出すべき?)
    • 実装に関係する相談(例:こういうツールが欲しいのだけど、何かいい実装はないか?)
    • 技術交流(例:実装会や、強化学習でimage-captioningのclosedなコンペを行う)
    • CVの研究室とNLPの研究室で共同研究など
    全国どこからでも、Vision&Languageを始めましょう!
    90/97

    View Slide

  91. 参考文献
    P.7
    [Vinyals+,2015] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. Show and tell: A neural image
    caption generator. CVPR 2015.
    [Agrawal+, 2016] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C. Lawrence
    Zitnick, and Devi Parikh. VQA: visual question answering. ICCV2015.
    [Das+, 2018] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra. Embodied
    Question Answering. CVPR2018.
    [Xu+, 2018] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, Xiaodong He.
    AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks. CVPR2018.
    [Bisk+, 2016] Yonatan Bisk, Deniz Yuret, Daniel Marcu. Natural Language Communication with Robots. NAACL2016.
    P.8
    [Wang+, 2019] Yujia Wang, Wenguan Wang, Wei Liang, Lap-Fai Yu. Comic-Guided Speech Synthesis. SIGGRAPH
    Asia2019.
    [Bojanowski+, 2015] Piotr Bojanowski, Rémi Lajugie, Edouard Grave, Francis Bach, Ivan Laptev, Jean Ponce,
    Cordelia Schmid. Weakly-Supervised Alignment of Video With Text. ICCV2015.
    [Li+, 2017] Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang. Person Search with
    Natural Language Description. CVPR2017.
    91/97

    View Slide

  92. 参考文献
    P.10
    [Zhu+2018] Zhu, J., Li, H., Liu, T., Zhou, Y., Zhang, J., & Zong, C. MSMO: Multimodal Summarization with
    Multimodal Output.EMNLP2018, 4154–4164.
    P.12
    [Ferraro+, 2015] Francis Ferraro, Nasrin Mostafazadeh, Ting-Hao (Kenneth) Huang, Lucy Vanderwende, Jacob
    Devlin, Michel Galley, Margaret Mitchell. A Survey of Current Datasets for Vision and Language Research.
    EMNLP2015.
    [Kafle+, 2019] Kushal Kafle, Robik Shrestha, Christopher Kanan. Challenges and Prospects in Vision and Language
    Research. ArXiv2019.
    [Mogadala+, 2020] Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow. Trends in Integration of Vision and
    Language Research: A Survey of Tasks, Datasets, and Methods. ArXiv2020.
    [Winograd, 1972] Terry Winograd. Understanding natural language. Cognitive psychology, 3(1):1-191, 1972.
    [Okada, 1980] Naoyuki Okada. Conceptual taxonomy of Japanese verbs for understanding natural language and
    picture patterns. COLING1980.
    [Hiyoshi+, 1994] Mayumi Hiyoshi and Hideo Shimazu. Drawing pictures with natural language
    and direct manipulation. COLING1994.
    92/97

    View Slide

  93. 参考文献
    P.15
    [Goyal+, 2017] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh. Making the V in VQA
    Matter: Elevating the Role of Image Understanding in Visual Question Answering. CVPR2017.
    [Agarwal+, 2020] Shubham Agarwal, Trung Bui, Joon-Young Lee, Ioannis Konstas, Verena Rieser. History for Visual
    Dialog: Do we really need it? ACL2020.
    P.16
    [Yi+, 2018] Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., & Tenenbaum, J. B. Neural-Symbolic VQA: Disentangling
    Reasoning from Vision and Language Understanding. NeurIPS2018.
    P.21
    [Frome+,2013] Frome, A., Corrado, G. S., Shlens, J., Dean, S. B. J., Ranzato, M. ’aurelio, & Mikolov, T. (n.d.).
    DeViSE: A deep visual-semantic embedding model. NIPS2013.
    [Kiros+,2014] Kiros, Ryan, Ruslan Salakhutdinov, and Richard S. Zemel. "Unifying visual-semantic embeddings with
    multimodal neural language models." NIPS2014 workshop.
    [Faghri+,2017] Faghri, F., Fleet, D. J., Kiros, J. R., & Fidler, S. VSE++: Improving visual-semantic embeddings with
    hard negatives. BMVC2017
    [Wu+, 2019] Wu, H., Mao, J., Zhang, Y., Jiang, Y., Li, L., Sun, W., & Ma, W.-Y. (2019, June). Unified visual-semantic
    embeddings: Bridging vision and language with structured meaning representations. CVPR2019.
    93/97

    View Slide

  94. 参考文献
    P.22
    [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
    Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186.
    P.23
    [Huang+,2018] Huang, Q., & Zhang, P. (n.d.). Turbo learning for caption bot and drawing bot. NeurIPS2018
    [Efendi+, 2021] Effendi, J., Tjandra, A., Sakti, S., & Nakamura, S. (2021). Multimodal Chain: Cross-Modal
    Collaboration Through Listening, Speaking, and Visualizing. IEEE Access, 9, 70286–70299.
    P.30
    [H. Zhang+, 2018] Zhang, Han, et al. “Self-Attention Generative Adversarial Networks.” ICML2019.
    P.38
    [M. Geva+,2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key-Value Memories.” arXiv2020.
    P.39, P.40
    [A. Vaswani+, 2017] Vaswani, Ashish et al. “Attention is All you Need.” NIPS2017.
    P.41
    [Devlin+,2019] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of Deep
    Bidirectional Transformers for Language Understanding. NAACL2019. Volume 1, 4171–4186. 94/97

    View Slide

  95. 参考文献
    P.48
    [Weijie+, 2020] Weijie, et al. "Vl-bert: Pre-training of generic visual-linguistic representations.“ ICLR2020.
    P.50
    [Chen+, 2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." ECCV2020.
    P.52
    [Shin+, 2021] Shin, Andrew, Masato Ishii, and Takuya Narihira. "Perspectives and Prospects on Transformer
    Architecture for Cross-Modal Tasks with Language and Vision." arXiv2021.
    P.53
    [Hu+, 2021] Hu, R., & Singh, A. UniT: Multimodal Multitask Learning with a Unified Transformer. arXiv2021.
    [K. Shuster+, 2020] Shuster, Kurt, et al. "The dialogue dodecathlon: Open-domain knowledge and image grounded
    conversational agents." ACL2020.
    [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021.
    P.55
    [R. Rombach+, 2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer. "Network-to-Network Translation with
    Conditional Invertible Neural Networks.“ NeurIPS2020.
    95/97

    View Slide

  96. 参考文献
    P.56
    [Radford+, 2021] Radford, Alec, et al. "Learning transferable visual models from natural language supervision."
    arXiv2021.
    P. 57
    [Bau+, 2021] Bau, David, et al. "Paint by Word.“ arXiv2021.
    [Galatolo+, 2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola Vaglini. "Generating images from caption
    and vice versa via CLIP-Guided Generative Latent Space Search." arXiv2021.
    P.58
    [A. Ramesh+, 2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv2021.
    P.60
    [Tolstikhin+, 2021] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas
    Unterthiner, Jessica Yung, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all-
    mlp architecture for vision. arXiv2021.
    [Melas-Kyriazi+, 2021] Luke Melas-Kyriazi. Do you even need attention? a stack of feed-forward layers does
    surprisingly well on imagenet. arXiv2021.
    [Touvron+, 2021] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby,
    Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Hervé Jégou. Resmlp: Feedforward
    networks for image classification with data-efficient training. arXiv2021.
    [Liu+, 2021] Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay Attention to MLPs. arXiv2021. 96/97

    View Slide

  97. 参考文献
    P.68
    [Pan+, 2020] Pan, Y., Yao, T., Li, Y., & Mei, T. X-linear attention networks for image captioning. CVPR2020
    [Ziegler+, 2019] Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G.
    Fine-Tuning Language Models from Human Preferences. arXiv. http://arxiv.org/abs/1909.08593
    [Stiennon+, 2020] Stiennon, N., Ouyang, L., Wu, J., Ziegler, D. M., Lowe, R., Voss, C., Radford, A., Amodei, D., &
    Christiano, P. Learning to summarize from human feedback. NeurIPS2020.
    P.72
    [Benjio+,2015] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled sampling for
    sequence prediction with recurrent Neural networks. NIPS2015. MIT Press, Cambridge, MA, USA, 1171–1179.
    P.78
    [Schulman+,2017] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. Proximal Policy Optimization
    Algorithms. arXiv2017.
    P.79
    [Choshen+, ICLR2020] Choshen, L., Fox, L., Aizenbud, Z., & Abend, O. (2019). On the Weaknesses of
    Reinforcement Learning for Neural Machine Translation. ICLR2020.
    P.84
    [Benotti+,2021] Benotti, L., & Blackburn, P. Grounding as a Collaborative Process. EACL2021. 515–531.
    P.86
    [Nguyen+, 2019] Khanh Nguyen, Hal Daumé III. Help, Anna! Visual Navigation with Natural Multimodal Assistance
    via Retrospective Curiosity-Encouraging Imitation Learning. EMNLP2019. 97/97

    View Slide