Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

2022年度人工知能学会全国大会(第36回) チュートリアル講演資料

Kyosuke Nishida

June 14, 2022
Tweet

More Decks by Kyosuke Nishida

Other Decks in Research

Transcript

  1. ⾃然⾔語処理と
    Vision-and-Language
    NTT⼈間情報研究所
    ⻄⽥京介
    2022年6⽉14⽇
    2022年度⼈⼯知能学会全国⼤会(第36回) チュートリアル講演

    View Slide

  2. 1. 深層学習による⾃然⾔語処理技術の動向
    – タスクとモデルの分類
    – Transformerとセルフアテンション
    – ⼤規模事前学習モデル︓BERT,GPT-3
    2. ビジョン&ランゲージへの派⽣
    – 視覚と⾔語を扱うTransformerモデル
    – 視覚と⾔語の対照学習︓CLIP
    – CLIPが可能にした技術
    – ⽂書画像の理解
    3. 最新動向と今後の展望
    2
    ⽬次

    View Slide

  3. ⾔語処理タスクと
    モデルアーキテクチャの分類
    3

    View Slide

  4. 4
    “深層学習時代の”⾃然⾔語処理の概要
    ニューラルネットワーク
    lϝϩε͸ౖܹͨ͠ɻඞͣɺ͔ͷअஐ๫ٮʜܾҙͨ͠z
    メロ スは 激怒 … した トークン(単語や
    サブワード)化
    各トークンを
    ベクトルへ“埋め込み”
    ベクトル系列から
    所望の情報へ
    分類ラベル,⽣成テキスト,特徴量(ベクトル),etc.
    ⼊⼒テキスト
    トークン系列
    ベクトル系列
    ベクトル系列
    出⼒情報
    ベクトル系列の変換を
    繰り返し⾏う

    View Slide

  5. • ニューラルネットワークの出⼒を正解に近づけるように学習を⾏う
    • ⾃然⾔語処理タスクの多くは「分類問題」として学習される
    学習のイメージ
    5
    タスク︓テキストを2つのクラスに分類
    2次元ベクトルを出⼒
    正解クラスの
    値を⼤きく
    不正解クラス
    の値を⼩さく
    lϝϩε͸ౖܹͨ͠ɻz
    感情判定
    モデル
    “negative”
    “positive”
    タスク︓⼊⼒に続く次の単語を⽣成
    語彙サイズの次元数のベクトルを出⼒
    lϝϩε͸z
    ⽂章⽣成
    モデル
    “激怒”
    正解単語の値を
    ⼤きく
    “⾛る”
    他の値を
    ⼩さく

    View Slide

  6. • タスク毎に適したニューラルネットワークを設計し,正解情報付きの
    データセットで学習していた
    • 深層学習により性能は⾼まったが,学習データが少ないと⾼い精度は実
    現しにくい課題が残っていた
    “BERT以前の”⾃然⾔語処理
    タスク特化
    ニューラル
    ネット構造
    できれば
    数万件程度欲しい
    タスク応⽤
    モデル
    タスクデータで学習
    6

    View Slide

  7. • (1) ⼤規模なコーパスに基づく事前学習により汎⽤モデルを作り,
    (2) ファインチューニングにより各タスクに適応する⽅式が主流に
    • タスクごとにモデルを設計することは少なくなった.また,タスクは2種
    類に⼤別して語られることが多くなった
    “BERT以降”: 事前学習とファインチューニング
    事前学習済
    モデル
    (BERTなど)
    タスク応⽤
    モデル
    汎⽤
    ニューラル
    ネット構造
    ⼤規模コーパスで
    事前学習
    少量データで
    ファインチューニング
    数GB〜レベルの
    アノテーションなし
    テキストコーパス
    数百〜数千件レベル
    の正解付データ
    7

    View Slide

  8. • ⾃然⾔語理解(NLU)と⾃然⾔語⽣成(NLG)の2種類に⼤きく分類
    • タスクごとに適したアーキテクチャがある
    ⾃然⾔語処理タスクの分類
    • テキスト分類
    • 情報検索
    • 感情分析
    • 固有表現抽出
    • Etc.
    ⾃然⾔語理解
    Natural Language Understanding
    テキストの意味を理解
    ⾃然⾔語⽣成
    Natural Language Generation
    ⼊⼒からテキストを⽣成
    • 機械翻訳
    • ⽣成型要約
    • 発話⽣成
    • ⾔い換え
    • Etc.
    8

    View Slide

  9. • エンコーダ型のモデルを⽤いて,テキスト(単語系列)のクラス分類,
    各単語へのラベリングなどを⾏う
    • 代表モデル︓BERT [Devlin+, NAACL’19]
    9
    NLUタスクとモデルのイメージ
    4ٶ୔ ݡ࣏ ͸ ೔ຊ ͷ
    ⼈名
    固有表現抽出
    双⽅向モデリング
    各位置の出⼒は
    未来情報(右側)にも依存
    ⼈名
    ⽂学
    クラス分類
    テキストは
    ⼀度に与えられる

    View Slide

  10. • デコーダ型のモデルを⽤いて,⼊⼒系列の続きを⽣成したり,
    テキストAからテキストBへの変換を⾏う
    • 代表モデル︓GPT-3 [Brown+, NeurIPS’20]
    10
    NLGタスクとモデルのイメージ(1/2)
    ⾃⼰回帰モデリング
    各位置の出⼒は
    過去情報(左側)にのみ依存
    4ٶ୔ ݡ࣏
    ٶ୔ ݡ࣏
    次単語予測
    予測を⼊⼒として戻す
    ͸ ⽇本
    ͸ ೔ຊ ͷ

    View Slide

  11. • エンコーダデコーダ型のモデルを⽤いて,テキストAからテキストBに変
    換(翻訳や要約など)する
    • 代表モデル︓Transformer [Vaswani+, NIPS’17],T5 [Raffel, JMLR’21]
    11
    NLGタスクとモデルのイメージ(2)
    ͜Ε ͸ ϖϯ Ͱ͢ ɻ T T
    エンコーダの
    出⼒をデコーダで利⽤
    5IJT JT B QFO
    T
    5IJT JT B QFO

    View Slide

  12. • 近年の事前学習済み⾔語モデルの多くが殆どが Transformer ベースと
    なっている
    • ビジョン&ランゲージにもTransformerの事前学習が派⽣している(後半
    で説明)
    12
    最近のベースモデル=Transformer
    Transformer
    BERTなど
    エンコーダデコーダを
    事前学習
    GPT-3など
    デコーダを
    事前学習
    T5など
    エンコーダを
    事前学習
    エンコーダデコーダ

    View Slide

  13. Transformer と
    セルフアテンション
    13

    View Slide

  14. • 単語間の関係を理解(表現)するためにRNNやCNNを⽤いず,アテン
    ションのみを⽤いたエンコーダデコーダ型モデルを提案
    • 機械翻訳で評価実験し,当時の最⾼性能を更新
    14
    Transformer [Vaswani(Google)+, NIPS’17]
    Transformer
    エンコーダ
    Transformer
    デコーダ
    これ は ペン です This is a pen
    This is a pen

    View Slide

  15. 次単語は何か︖
    • デコーダが1単語ずつ出⼒するときに、エンコードされた翻訳元テキスト
    のどの部分に注意すれば良いかを与える機構(⾏列計算で実現)
    15
    アテンション [Bahdanau(Jacobs U)+, ICLR’15]
    これ は ペン です This is a
    “pen”を予測
    注意
    softmax =
    Encoderの隠れ状態の
    重み付き平均
    エンコーダ デコーダ
    コンテキスト
    (「ペン」に強い注意)
    ℝ!×# ℝ#×$ ℝ$×#
    ℝ!×#

    View Slide

  16. • エンコーダデコーダ間のクロスアテンションに加えて,Transformerでは
    系列単体でもアテンションを取る
    • 系列の各位置をQuery,系列全体をKey,Valueとして考える
    16
    セルフアテンション
    softmax
    =
    Query Key Value
    Valueの重み付き平均
    Key-Value辞書から,Queryに近い
    KeyのValueを取り出すイメージ
    softmax 𝑄𝐾! 𝑉

    View Slide

  17. • エンコーダデコーダの双⽅で
    セルフアテンションを導⼊
    • ブロックを多層に積上げる
    ことで性能向上
    • 今⽇の説明は超簡易版なので
    詳細は論⽂等にて︕
    17
    Transformerの簡略化イメージ
    Self-Attention
    (Q=X, K=X, V=X)
    Self-Attention
    (Q=Y, K=Y, V=Y)
    Cross-Attention
    (Q=Y, K=X, V=X)
    ブロックxN
    ブロック
    xN
    ⼊⼒単語系列X
    出⼒単語系列Y(次単語予測)
    出⼒単語系列Y(予測を戻す)
    単語・位置埋込 単語・位置埋込
    線形変換&softmax
    FFN(MLP)
    FFN(MLP)

    View Slide

  18. • 単語系列の⽂脈の理解は主にRNN(LSTMやGRU)で⾏われてきたが、
    ⻑期依存性の理解には限界があった
    • セルフアテンションでは系列内で遠く離れた単語の関係性も直接考慮で
    きるため性能向上に⼤きく寄与した
    18
    なぜセルフアテンションが重要なのか
    単語系列
    単語系列
    RNN セルフアテンション
    遠く離れた
    単語の関係性
    を捕まえにくい
    遠く離れた
    単語も直接
    関係を考慮
    単語系列
    ℎ%&! = RNN ℎ%, 𝑥%
    𝑄𝐾!

    View Slide

  19. • ニューラルネットワークによる⾔語処理が主流に
    • 近年では事前学習により汎⽤モデルを作り,ファインチューニングによ
    り各タスクに適応させる
    • タスクはNLU(⾃然⾔語理解)とNLG(⾃然⾔語⽣成)に⼤別
    • モデルはエンコーダ,デコーダ,エンコーダデコーダ型がある
    • 最近のベースモデルはTransformerで,テキストをはじめとした系列デー
    タのモデリングに強い
    • TransformerはBERTやGPT-3に利⽤されている
    19
    ここまでのまとめ

    View Slide

  20. BERTによる事前学習&
    ファインチューニング

    View Slide

  21. • ⼤量のテキストデータで事前学習した,24層の巨⼤なTransformerエン
    コーダに基づく⾔語モデル(340M=3.4億個のパラメータ)
    • 多数の⾃然⾔語理解(NLU)タスクへのファインチューニングで⾼い性
    能を実現して注⽬を浴びる
    21
    BERT [Devlin(Google)+, 2018/10, NAACLʼ19]
    https://www.aclweb.org/anthology/N19-1423/

    View Slide

  22. 22
    既に実⽤化が進むBERT
    https://www.blog.google/products/search/search-language-understanding-bert/
    • 2019年10⽉25⽇(BERT発表から1年後)、Googleは検索エンジンのアル
    ゴリズムをBERTベースにアップデート
    • 2019年12⽉10⽇には⽇本語含む72⾔語に拡張
    よりクエリの意図を
    考慮した結果に

    View Slide

  23. • 質問に対してテキストを読み解いて回答するタスク
    23
    BERTが優れた性能を達成したタスクの例︓
    機械読解(SQuAD 1.1) [Rajupurkar(Stanford)+, EMNLP’16]
    ⼊⼒︓Wikipediaの段落
    ⼊⼒︓質問
    出⼒︓回答
    テキスト中の任意の
    範囲を抽出して回答
    https://www.aclweb.org/anthology/D16-1264/

    View Slide

  24. • 機械読解に特化したニューラルネット構造を持たずに、⼈間の質問応答
    スコアを⼤きく超える性能を達成
    24
    SQuAD 1.1で⼈間超えのスコアを達成
    完全⼀致 部分⼀致
    ⼈間の正答率
    82.304%
    BERTの正答率
    87.433%
    https://rajpurkar.github.io/SQuAD-explorer/

    View Slide

  25. • ⽳埋め問題により,⽂脈の中で単語が出現する確率を予測する
    • ⼤量のテキストさえあれば,⼈間が追加で正解をアノテーションするこ
    となく学習可能(⾃⼰教師あり学習)
    25
    BERTの特徴(1) マスク化⾔語モデリング
    … My [MASK] is hairy …
    … My dog is hairy …
    ⼊⼒の⼀部をマスク
    マスク前の⽂章を予測
    双⽅向アーキテクチャ
    マスク単語の前後の情
    報を使って予測

    View Slide

  26. BERT
    (Transformerエンコーダ)
    • ⾃然⾔語理解(NLU)のタスクは2つの⽂の関係性理解が多い
    • そこで,⽂書中で隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣
    接する⽂か否かの判定を⽳埋め予測と同時に学習
    26
    BERTの特徴(2) 次⽂章予測
    [CLS] my dog is cute [SEP] he likes play [MASK] [SEP]
    2⽂⽬
    1⽂⽬
    IsNext my dog is cute [SEP] he likes play piano [SEP]
    分類︓2⽂が隣接か否か︖ ⽳埋め

    View Slide

  27. • シンプルな出⼒層を1層だけ基盤モデルの最上部に追加する
    – 例︓機械読解では回答範囲の始点・終点予測⽤に線形変換を追加
    27
    BERTの特徴(3) ファインチューニング
    BERT
    (Transformerエンコーダ)
    出⼒層
    [CLS] 質問⽂ [SEP] テキスト(回答抽出元) [SEP]
    テキスト中の
    各トークンの回答範囲始点・終点スコア
    …. は 3 ⽉ 12 ⽇ で ある …
    ….. の ⽇付 は ︖

    View Slide

  28. GPT-3による
    事前学習&few-shot学習
    28

    View Slide

  29. • 超⼤量のテキストデータ(3000億トークン)で事前学習した,96層の
    超巨⼤なTransformerデコーダに基づく⾔語モデル
    • パラメータ数は175B=1750億個(ファイルサイズで⾔うと700GB程度)
    • 参考︓BERTは 24層,3.4億個のパラメータ,約3.3億トークン
    29
    GPT-3 [Brown(OpenAI)+, 2020/07, NeurIPS’20]
    4
    GPT-3はBERTの⽳埋め
    ではなく次単語予測で
    事前学習する
    𝑤! 𝑤' 𝑤( 𝑤) 𝑤*
    𝑤! 𝑤' 𝑤( 𝑤) 𝑤*

    View Slide

  30. • ⼈間の様な「少数の例⽰による学習」が可能になってきた
    • ⼤量のテキストの中には同⼀タスクの例が繰返し現れるコンテキストも
    含まれており,こうした学習が例⽰による学習能⼒を向上させる
    30
    GPT-3の膨⼤な事前学習が可能にすること
    ⼤量テキストに
    よる事前学習
    同⼀タスクの
    繰り返しを含む
    系列
    https://arxiv.org/abs/2005.14165

    View Slide

  31. • タスク説明と少数の例を与えるのみでモデルの更新無しに問題を解く
    31
    GPT-3のfew-shot学習
    ここまでを⼀つの系列としてGPT-3に⼊⼒
    è 回答を続きの⽂章として出⼒する
    https://arxiv.org/abs/2005.14165

    View Slide

  32. 32
    GPT-3のデモ(⾃然⾔語シェル 2:40〜)
    https://openai.com/blog/openai-api/

    View Slide

  33. 33
    GPT-3のデモ(コード⽣成)
    https://twitter.com/sh_reya/status/1284746918959239168

    View Slide

  34. 34
    GPT-3のデモ(エクセルの補完)
    https://twitter.com/sh_reya/status/1284746918959239168

    View Slide

  35. 35
    Jurassic-1 [Lieber(AI21)+, 2021/08]
    タスク説明

    プロンプト
    ⽣成テキスト
    • イスラエルのスタートアップ企業AI21により,ほぼGPT-3と同サイズ
    (1780億)のモデルがリリースされた
    • AI21ではアカウント登録すれば無料利⽤できる環境に加えて,テキスト
    ⽣成やカスタム学習が可能な有料APIを提供している
    https://studio.ai21.com/playground より実際の実⾏例

    View Slide

  36. • 計算量(学習回数),学習トークン数,モデルパラメータ数,に⾔語モ
    デリング(次単語予測)の性能は強く依存することを実験的に⽰す
    è ⼤量の計算機資源を⽤いて,⼤量のデータを,⼤きいモデルで学習すれ
    ば良いモデルができる︕
    36
    Scaling laws [Kaplan (OpenAI)+, 2020/01]
    https://arxiv.org/abs/2001.08361

    View Slide

  37. • 2018/10のBERTの発表によりパラダイム・シフトが発⽣し,「⼤規模モ
    デルの事前学習→ファインチューニング」が主流に
    • 2020/07のGPT-3の発表以降は,Few-shot学習(プロンプト=⼊⼒テキス
    トとして少量の例⽰)が⼤きな注⽬を集めている
    • BERTもGPT-3も⼤量のテキストがあれば学習可能(⾃⼰教師あり学習)
    • ⼤量の計算機資源を⽤いて,⼤きいモデルで,⼤量のデータを学習する,
    というアプローチが活発化している
    37
    ここまでのまとめ

    View Slide

  38. 1. 深層学習による⾃然⾔語処理技術の動向
    2. ビジョン&ランゲージへの派⽣
    – 視覚と⾔語を扱うTransformerモデル
    – 視覚と⾔語の対照学習︓CLIP
    – CLIPが可能にした技術
    – ⽂書画像の理解
    3. 最新動向と今後の展望
    – モデル・データの⼤規模化
    – プロンプトとファインチューニング
    – ⾔語を軸としたマルチモーダル理解へ
    38
    ⽬次

    View Slide

  39. • 画像処理と⾃然⾔語処理の融合領域
    • TransformerやBERTの成功が,視覚と⾔語を結びつけた理解にも派⽣し,
    急速に発展している
    39
    Vision-and-Languageとは
    “Flamingo”による画像の内容に基づく対話
    [Alayrac(Deepmind)+,2022/04/29]
    “DALL-E 2”によりテキストから⽣成された画像
    [Ramesh(OpenAI)+,2022/04/13]
    vibrant portrait
    painting of Salvador
    Dalí with a robotic
    half face
    a shiba inu wearing a
    beret and black
    turtleneck
    https://cdn.openai.com/papers/dall-e-2.pdf https://arxiv.org/abs/2204.14198

    View Slide

  40. • ⾃然⾔語処理と同様に,理解/⽣成で⼤別可能
    40
    Vision-and-Languageの主なタスク
    視覚・⾔語の融合理解に基づく⽣成
    視覚・⾔語の融合理解
    ベレー帽と
    タートルネック
    を着た柴⽝
    Document VQA (回答⽣成型)
    チョコレート
    シロップが掛かった
    ワッフル2つとアイス
    Score: 0.98
    画像・⾔語のマッチング(検索)
    VQA (回答選択型)
    ベッドの上に
    ⼦供は何⼈いますか︖
    1 / 2 / 3 / …
    ソーシャルメディア
    の利⽤率は︖
    16% (100-84)
    階段を登り,次に
    ピアノの横を...
    forward,
    left, …, stop
    ロボットナビゲーション
    Image-to-text / Text-to-image

    View Slide

  41. 1. Webなどから⼤量の画像とキャプションのペアを収集
    2. 画像を系列データとして捉えて,テキストの単語系列と併せて
    Transformerエンコーダに⼊⼒
    3. ⽳埋め・マッチングタスクなどで事前学習
    41
    V&L事前学習の概要
    Web
    店内でオレンジ
    ジュースをカップ
    に注いでいる⼥性
    ⼤量に収集
    https://cocodataset.org/#explore?id=306267
    Transformerエンコーダ
    [SEP] 店内 で オレンジ … ⼥性
    [CLS] …
    系列化
    ⼥性?
    [MASK]
    各トークンの
    ⽳埋め問題
    本当に存在する
    画像とキャプションのペアか︖
    True?

    View Slide

  42. • Faster R-CNN [Ren+, NIPS15]などにより画像からオブジェクト(および
    そのベクトル表現)を検出し,1つの系列に並べる
    • VQAなどのタスクではオブジェクトの種類や個数が問われる事が多いた
    め,初期のV&Lモデルではこのアプローチが⼀般的であった
    42
    画像を系列データとして扱う
    画像
    N個のオブジェクトの特徴ベクトル系列

    https://arxiv.org/abs/1908.03557
    ℝ+×#

    View Slide

  43. • BERTと同様に単語をマスクして⽳埋め問題を解く
    • 画像側のトークンをマスクした⽳埋め問題(特徴量の再現やオブジェク
    トのクラス分類)を解く場合もあり
    43
    事前学習タスク: Masked Language/Region Modeling
    Transformerエンコーダ
    ⼥性
    [SEP] 店内 で オレンジ … ⼥性
    [CLS] … [MASK] [MASK]

    View Slide

  44. • データセットの中にあるペア(正例)とランダムサンプリングで作った
    負例のペアを⾒分けるタスク
    • このタスクも⼤量にデータを⽤意できる
    44
    事前学習タスク: Image-Text Matching
    ランダムに⼊れ替え
    Transformerエンコーダ
    Matching/
    Not-matching
    [SEP] ⾺ に 跨って …… いる 少年
    [CLS] …

    View Slide

  45. • 物体検出を1848クラス/524属性まで強化した事前学習モデル
    • さらに,検出された物体の名前(タグ)を同時に⼊⼒することで,⾔
    語・画像を結びつけた事前学習を強化
    45
    VinVL [Zhang(Microsoft)+, CVPR’21]
    https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_VinVL_Revisitin
    g_Visual_Representations_in_Vision-Language_Models_CVPR_2021_paper.html
    単語系列 タグ系列 物体系列
    マッチングタスク トークン⽳埋め

    View Slide

  46. • 物体検出器がカバーする概念の広さと検出精度にV&Lモデルの性能が⼤
    きく依存してしまう
    è 物体検出に依存しない,汎⽤の画像エンコーダが得られないか︖
    46
    物体検出による画像表現抽出の限界
    ⾷品
    ⾷器
    フォーク
    ⾷器
    ⾷器
    商⽤の物体検出APIの結果
    各種Webサービスのアイコンを
    認識できず
    ⾷品や⾷器の細かい違いが認識できていない
    マットやコーヒーについて認識漏れ
    オブジェクト検出なし

    View Slide

  47. • パッチ︓画像を⼩さい領域に分割して埋め込みトークン化
    • グリッド︓画像をそのまま⼊⼒しグリッド毎の特徴量を出⼒
    47
    パッチ/グリッド⽅式による系列化
    Transformer CNN
    パッチごとに線形変換
    パッチ分割
    画像特徴(グリッド数)
    画像特徴(パッチ数)

    View Slide

  48. • 画像パッチを単語とみなすパラメータ数632MのTransformerエンコーダ
    • 3億枚以上の画像分類で事前学習し,画像分類タスクで最⾼精度を達成
    • ただし,従来のCNNを圧倒する程の精度では無かった
    è 画像分類タスクでの事前学習に限界がある︖
    48
    Vision Transformer (ViT) [Dosovitskiy(Google)+, ICLR’21]
    https://arxiv.org/abs/2010.11929
    位置は1D
    線形変換
    ℝ(#!$%)×(
    パッチ
    ℝ#!$%
    14x14あるいは16x16 分割
    クラス
    分類

    View Slide

  49. CLIPの対照学習アプローチ

    View Slide

  50. • Webから収集した4億件の画像とテキストのペアから事前学習された視
    覚・⾔語の基盤モデル
    • 画像エンコーダとテキストエンコーダが独⽴に⼊⼒をベクトル化
    • 正しい画像と説明⽂のペアの内積が⼤きくなるように対照学習
    50
    CLIP [Radford(OpenAI)+, 2021/01, ICML’21]
    正しいペアの内積
    を⼤きくするよう
    に学習
    Vision Transformer
    やCNN
    Transformer
    各テキストの
    ベクトル
    各画像の
    ベクトル
    https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

    View Slide

  51. 51
    CLIP [Radford(OpenAI)+, 2021/01, ICML’21]
    固定のクラスベクトル集合
    (学習パラメータ)
    テキストエンコーダが出⼒
    した任意のテキストの表現
    CLIP(Contrastive Language-Image Pre-training)
    関係するテキスト表現との
    内積が⼤きくなるように
    両⽅のエンコーダを学習
    正解のクラスベクトルとの
    内積が⾼くなるように学習
    通常の画像分類
    https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

    View Slide

  52. 52
    CLIP [Radford(OpenAI)+, 2021/01, ICML’21]
    • 事前学習後は,追加の学習無し(zero-shot)で任意のテキスト候補の中
    から画像にマッチするものを選ぶことが可能
    https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

    View Slide

  53. • 従来の画像分類や物体検出ではカバーできていない概念も理解
    53
    Zero-shot分類の例
    ✔ワカモレ
    ✔癌化リンパ節
    (正常リンパ節)
    ✘笑顔
    (怒り)
    ✔TVスタジオ
    ✘キツネリス
    (オオヤマネコ)
    ✔バレーの
    スパイク
    ✔⾶⾏機
    ✔⿃
    ✔カンガルー
    https://cdn.openai.com/papers/Learning_Transferable_Visual_
    Models_From_Natural_Language_Supervision.pdf

    View Slide

  54. • これまでの画像分類や物体検出で事前学習された画像エンコーダは,
    視覚と「有限個の記号」の結びつけであった
    • CLIPにより,視覚と「任意の⾔語」を結びつけた理解が⾰新的に進み,
    最近の急速なモデルの進化につながった
    54
    CLIPは何が凄いのか(1)
    Class: 11
    画像エンコーダはこのクラスが
    何を意味しているのか理解していない
    画像分類・物体検出の場合
    l੺ɺԫɺനɺࠇͳͲͰ઱΍͔ʹ
    ࠼ΒΕͨඒ͍͠খௗ͕໦ʹࢭ·͍ͬͯΔz
    CLIPの場合
    ⾔語と結びつけた理解は
    様々な概念の共通理解に通づる
    https://salient-imagenet.cs.umd.edu/explore/class_11/feature_520.html

    View Slide

  55. • 従来のImageNetデータセットでは,25,000⼈が1,400万枚の画像に対して
    22,000クラスをWordNetの名詞と紐付けてアノテーション
    • CLIPはWebから収集したデータを⽤いて,(ノイズはあるが)⽐較的低
    コストで遥かに広い概念を⾔語と結びつけて学習可能
    55
    CLIPは何が凄いのか(2)
    ImageNetの ”Tench”(コイ科の淡⽔⿂)カテゴリの写真の例
    ImageNetの ”Siberian Husky”カテゴリの写真の例
    本来不要な男性も含めてTenchが
    学習されてしまう
    ⽝の数や動作については無考慮
    https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html
    https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html
    CLIP: 「釣り上げたTenchを
    抱えている男性」と学習
    CLIP: 「3匹のシベリアンハ
    スキーが芝⽣に座る」と学習

    View Slide

  56. • 初期のV&Lモデルでも画像とテキストのマッチングの学習は⾏っていた
    が,画像とテキストを同時に⼊⼒するので学習効率を上げにくい
    • CLIPではエンコーダが分離されているので対照学習を⾏い易い
    – テキスト検索においては”In-batch Negatives”として知られるテクニック
    [Karpukhin, EMNLP’20]
    56
    CLIPは何が凄いのか(3)
    エンコーダが分離されていれば,
    B件のペアに対して
    B^2の組み合わせの学習が可能
    https://cdn.openai.com/papers/Learning_Transferable_Visual_
    Models_From_Natural_Language_Supervision.pdf
    画像とテキストを同時に⼊⼒する
    クロスエンコーダタイプ

    View Slide

  57. CLIPが可能にした技術

    View Slide

  58. • CLIP空間上のテキストの変化⽅向を,StyleGAN [Karras+, CVPR’20] 空間
    に画像チャネル毎に射影し,⾃然⾔語による画像編集を可能にした
    • 各空間における画像の変化の関係を予め前処理として獲得しておくこと
    で,画像編集時は学習なしで編集可能
    StyleCLIP [Patashnik+, ICCV’21]
    https://openaccess.thecvf.com/content/ICCV2021/papers/Patashnik_StyleCL
    IP_Text-Driven_Manipulation_of_StyleGAN_Imagery_ICCV_2021_paper.pdf
    A female face
    A surprised female face
    CLIP空間 Style空間
    射影
    58

    View Slide

  59. • VQGAN [Esser+, CVPR’21] で⽣成した画像がCLIP空間でターゲットテキス
    トと類似するように潜在変数(Z-vector)を最適化する
    • “AIアート”としてSNS・ニュースサイト等で話題に
    VQGAN+CLIP [Crowson(EleutherAI)+, 2021/07]
    Z-vector
    VQGAN
    Decoder
    CLIP
    類似度のlossで学習
    学習パラメータ
    an astronaut
    in the style
    of van Gogh
    https://arxiv.org/abs/2204.08583
    blue whales swimming through neon city
    59
    https://twitter.com/ak92501/status/1413360535685435396

    View Slide

  60. • 視覚・⾔語で学習したCLIPを動画データを⽤いて⾳と結びつける
    • VQGAN+CLIPを利⽤して,⾳声に関連する画像を⽣成することが可能
    Wav2Clip [Wu(Descript)+, ICASSP’22]
    60
    https://arxiv.org/abs/2110.11499
    https://descriptinc.github.io/lyrebird-wav2clip/

    View Slide

  61. • 学習時に,物体検出モデルの出⼒する領域の画像表現を,CLIP空間の画
    像表現に近づける(蒸留)ようにすることで,任意のテキスト(”open
    vocabulary”)で物体検出可能なモデル
    61
    ViLD [Gu(Google)+, ICLR’22]
    Toy duck
    CLIPのテキストエンコーダで
    任意のテキストクラスを指定可能
    物体検出器
    の出⼒
    CLIPの画像
    エンコーダ
    の出⼒に近づける
    Toy duck Green toy
    Blue toy
    https://arxiv.org/abs/2104.13921

    View Slide

  62. • 画像からスケッチに変換.元画像とスケッチ画像がCLIP空間(画像エン
    コーダのみ利⽤)上で近くなるように,n本の曲線を最適化していく
    62
    CLIPasso [Vinker(EPFL)+, SIGGRAPH’22]
    https://clipasso.github.io/clipasso/
    初期化に利⽤
    最適化される
    n本のベジェ曲線
    パラメータ

    View Slide

  63. 63
    MotionCLIP [Tevet(Tel Aviv U.)+,2022/03]
    • 運動(モーションキャプチャの系列)のオートエンコーダの潜在変数を
    CLIP空間の⾔語・視覚と結びつけて学習
    • モーションの⽣成,任意の運動の認識,運動の合成などが可能に

    View Slide

  64. DALL-E 2 [Ramesh(OpenAI)+,2022/04/13]
    • CLIP+拡散モデル [Ho+, NeurIPS’20] によるテキストからの画像⽣成
    • (1) CLIPのテキスト表現→画像表現を⽣成するpriorと,2) CLIPの画像表現
    →画像を⽣成するdecoderにて画像を⽣成
    画像表現
    テキスト表現
    https://cdn.openai.com/papers/dall-e-2.pdf 64
    拡散モデル等 拡散モデル

    View Slide

  65. • Vision-and-Languageタスクも理解・⽣成に⼤別される
    • BERT以降,画像を物体検出して系列化し,⾔語の系列と合わせて
    Transformerでモデリングする⽅式の検討が進んできた
    • 2021/01の対照学習を⽤いるCLIPにより,画像分類や物体検出に依存した
    事前学習の限界を越え,視覚と⾔語の融合が⼤きく進んだ
    • 近年では,画像・テキスト検索のみならず,テキストからの画像⽣成な
    ど,様々なタスクでCLIPの導⼊が進んでいる
    65
    ここまでのまとめ

    View Slide

  66. ⽂書画像の理解
    66

    View Slide

  67. 67
    ⽂書を”視覚的に”読み解くAIを⽬指して
    上限料⾦ (税込)
    5,800 円/⽉
    基本料⾦ (税込)
    2,500 円/⽉ 使った分だけ
    利⽤料が増えます
    ⽉額利⽤料
    回線利⽤量
    2段階
    定額プラン
    1,000MB
    200MB
    ライトプラン 利⽤料⾦イメージ
    1,000MB の⽬安
    ホームページ閲覧とメールに加え,動画閲
    覧を⽉に1時間程度
    2⽇に1回,1時間程度インターネット利⽤
    200MB の⽬安
    ホームページ閲覧とメールが中⼼
    2⽇に1回,30分程度インターネット利⽤
    1,200MB
    動画を毎⽇1時間は⾒るのですが,ライトプ
    ランの料⾦は⽉額幾らになりますか︖
    上限料⾦の税込⽉額5,800円
    になります
    動画を毎⽇⾒るな
    ら1200MB/⽉は
    確実に超えそう
    このページに答え
    がありそうだな
    • ⼈間が⾒る⽂書の情報をそのまま理解可能なAIの実現を⽬指す
    • ⾔語情報,レイアウト,図やグラフ・表など多岐に渡る理解が必要

    View Slide

  68. 68
    視覚情報に含まれる⾔語情報の理解
    画像に対する質問応答や
    画像の説明⽂⽣成,
    画像検索
    画像中のテキストも
    考慮したタスクへ
    単語レベルから⽂・⽂書へ
    グラフや表なども併せた
    理解まで広がる
    • VQAやキャプショニングを発展させ,視覚情報に含まれる⾔語情報に着
    ⽬したタスクやデータセットの整備が2019年頃から進む
    • さらに,2021年頃からは⽂書画像への取り組みが活発化している

    View Slide

  69. • (⽐較的古い)⽂書画像に対するVQAデータセット
    • ⽂書あたり平均150単語程度が含まれる
    69
    DocVQA [Mathew+ (IIIT Hyderabad), WACV’21]
    https://openaccess.thecvf.com/content/WACV2021/html/Mathew_DocVQA_
    A_Dataset_for_VQA_on_Document_Images_WACV_2021_paper.html

    View Slide

  70. • Webページのスクリーンショットに基づく視覚的読解
    • レイアウト理解と⽣成型機械読解を統合した問題設定とモデルを提案
    70
    VisualMRC [Tanaka & Nishida (NTT), AAAI’21, NLP’21最優秀賞]
    全ての領域をアノテー
    ション︓
    9つの意味クラスに分類
    約30,000件のQAを作成
    回答は⽣成型
    https://arxiv.org/abs/2101.11272
    約10,000枚の画像を収集
    https://github.com/nttmdlabnlp/VisualMRC

    View Slide

  71. 71
    ⼀般的な⽂書理解モデルの例
    • ⽂書画像⽤のモデルはOCRで抽出された単語の2D座標を考慮する
    • 視覚表現はオブジェクト(図や段落など)/パッチ/グリッドのいずれか
    • ⽳埋め問題や,⾔語・視覚間の対応付けにより学習
    ⽂書中
    座標
    このモデルでは
    画像をパッチ化
    LayoutLMv3 [Huang(Microsoft)+,2022/04/18]
    OCRでテキスト抽出
    各モーダルの⽳埋め問題と
    パッチ⇔トークンの対応付
    https://arxiv.org/abs/2204.08387
    ⽂書画像

    View Slide

  72. • インフォグラフィックに対するVQA.グラフやアイコンに対する理解が
    重要となるコンペティションが開催された
    • NTTは事前学習データ量を従来モデルの1/22に抑えつつ同程度のサイズ
    のモデルの中で最も⾼い性能を達成し2位に⼊賞(18チーム337投稿中)
    72
    Infographics VQA [Mathe(IIIT)+, WACV’22]
    Q. How many females are affected by
    diabetes
    A. 3.6%
    Q. What percentage of cases can not be
    prevented
    A. 40% (100 – 60)
    Q. What could lead to blindness or
    stroke
    A. diabetes
    https://rrc.cvc.uab.es/?ch=17

    View Slide

  73. 1. 物体検出器を利⽤して視覚物体の領域,意味クラスを追加⼊⼒
    2. ⽳埋め事前学習 (MLM) により,テキストと視覚物体との対応づけ
    3. (簡易的な)演算の過程を⽣成
    73
    IG-BERT [⽥中+,NLP’22]
    配置情報
    トークン
    位置情報
    セグメント
    ポイント2
    キャプション
    ポイント3: 簡易な演
    算を実施可能に
    ポイント1︓アイコン⽤
    の物体検出器を作成
    40(100-60)
    https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

    View Slide

  74. • 演算の過程を学習可能な新たなデータ拡張⼿法を提案
    74
    IG-BERT [⽥中+,NLP’22]
    質問: 糖尿病を防げた事例の割合は︖
    回答正解データ: 40%
    4.3% 3.6% 1 10 $6
    60%
    1. ⽂書から数値データの抽出
    2. 事前に⽤意した演算テンプレートに代⼊
    「60% + 4.3% = 64.3%」
    「100% - 60% = 40%」
    3. 回答正解データと⼀致するならデータに加える



    100% - 60%
    100-60=40の
    演算が必要
    この演算過程テキスト
    そのものを⽣成する
    https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

    View Slide

  75. • 配置関係によるテキストの意味理解はだいぶ進んだ
    • ダイヤグラム・グラフ・イラストなどの視覚要素や,論理・数値演算の
    理解のレベルをもう1段上げる必要がありそう
    • OCRや物体認識を包含してend-to-endに理解できるか
    75
    ⽂書画像理解の現状とこれから
    Donut [Kim(NAVER)+, 2021/11]
    InfographicsVQA [Mathe(IIIT)+, WACV’22]
    情報が視覚的に表された⽂書に対するQA.
    数値演算や視覚的理解の能⼒が必要
    https://arxiv.org/pdf/2104.12756
    OCR無しで⽂書画像を理解するTransformer
    モデル.運⽤や速度⾯で⼤きなメリット
    https://arxiv.org/abs/2111.15664

    View Slide

  76. 1. 深層学習による⾃然⾔語処理技術の動向
    2. ビジョン&ランゲージへの派⽣
    3. 最新動向と今後の展望
    – モデル・データの⼤規模化
    – プロンプトとファインチューニング
    – ⾔語を軸としたマルチモーダル理解へ
    76
    ⽬次

    View Slide

  77. モデル・データの⼤規模化
    77

    View Slide

  78. • 280B(2800億)パラメータのモデルを⽤いて152タスクで徹底的な評価
    • モデルを⼤規模化することにより,機械読解やファクトチェックなどで
    性能向上したが,論理的・数学的・常識の推論は⼤きく改善せず
    78
    Gopher [Rae(DeepMind)+, 2022/01/21]
    https://arxiv.org/abs/2112.11446
    ⾔語モデリング,数学・常識・
    論理推論では改善幅が⼩さい
    7.1Bと280Bモデルの性能⽐較.
    上に⾏くほど280Bが優位.

    View Slide

  79. • 400種類のモデルと学習トークン数の組み合わせで実験
    • Chinchilla(70Bパラメータ/1.4Tトークン) は,Gopher(280Bパラメー
    タ/300Bトークン)の性能を多くのタスクで凌駕
    • 近年の⼤規模モデルは学習データ数が不⾜していることを指摘
    Chinchilla [Hoffman (DeepMind)+, 2022/03/29]
    https://arxiv.org/abs/2203.15556
    Gopherは必要
    トークンの
    1/17しか学習
    していない︖
    モデルサイズごとの
    最適計算量・トークン数
    79

    View Slide

  80. • パラメータ数が 540B(denseなTransformerでは現在最⼤)のモデル
    • モデルサイズに対して,幾つかのタスクでモデルサイズの増加により,
    ⾮連続的に性能が改善
    PaLM [Chowdhery (Google)+, 2022/04/19]
    https://arxiv.org/abs/2204.02311
    (b)は⾮連続的な改善 モデルサイズ vs.
    タスク性能
    80

    View Slide

  81. • ⾔語モデルでは「⾮連続的な性能向上」など興味深い現象の解明に向
    かって⼤規模化が続きそう.sparseなTransformer(Mixture Of Experts)
    ではbillion(10億)を越えてtrillion(1兆)レベルへ進んでいる
    • ⼀⽅で,画像モデルはまだ3B(dense)〜15B(sparse)程度.⾔語に⽐
    べて,単純なサイズ増⼤が精度向上に繋がっていない
    モデルは今後さらに⼤きくなるか︖
    SwitchTransformer [Fedus+, JMLR22] SwinTransformer V2 [Liu+, CVPR’22]
    Transformer構造を変更しモデルサイズ3B/
    解像度1536x1536までスケールアップに成功
    MoE構造の1.6TBモデル.各トークンに
    対してexpertのみが動作するので省計算
    2048 experts
    81
    https://arxiv.org/abs/2101.03961 https://arxiv.org/abs/2111.09883

    View Slide

  82. • ⽇々新しい知識が発⽣することや,ニューラルモデルには不得意な分野
    の存在を考えると,全ての知識・機能を1モデル内に詰め込む必要は無い
    • 特に情報検索や数値計算などと組み合わせて利⽤可能なモデルの研究が
    活発化している
    外部ツールを使えるようになるか︖
    LaMDA [Thoppilan(Google)+, 2022/01/20]
    検索・計算・翻訳ツールをモデルの外に置き,随時呼び出して応答⽂作成に利⽤
    外部知識から得たテキストを
    基に⽣成した応答⽂
    ユーザ発話
    検索クエリ発⾏
    検索クエリ発⾏
    82
    https://arxiv.org/abs/2201.08239

    View Slide

  83. • (偏りの存在する)⼤量データで学習したことによる,⾔語モデルの出
    ⼒に関するバイアスの存在や,有害なテキスト⽣成の問題が課題
    • 近年の⼤規模⾔語モデルの評価観点として重要視されている
    モデルのバイアスを解消できるか︖
    https://arxiv.org/pdf/2204.02311.pdf
    The nurse notified the patient that his shift
    would be ending in an hour.
    The “his” refers to … the patient ? the nurse?
    指⽰語の性別バイアスの評価
    ステレオタイプと異なる
    組み合わせだと精度落ちる
    プロンプトに続く⽣成テキストが有害となる分布
    特定宗教に関して有害なテ
    キストを⽣成しやすい
    スコア⼤︓有害
    https://arxiv.org/abs/2204.02311
    83
    PaLM [Chowdhery (Google)+, 2022/04/19]

    View Slide

  84. プロンプトチューニングと
    ファインチューニング
    84

    View Slide

  85. 85
    PromptSource [Bach(Brown U)+, 2022/2/2, ACL’22 demo]
    https://arxiv.org/abs/2202.01279
    • 追加学習が難しい⼤規模⾔語モデルで重要となる「プロンプト」の作
    成・共有・利⽤のためのツールキット 👉 pip install promptsource
    • 170を超えるデータセット⽤に2000個以上のプロンプトが作成済.
    – 良い結果を得るための「プロンプトチューニング」が⾏われている

    View Slide

  86. • PaLMの翻訳の例では,540BのモデルでもFew-shot学習(プロンプトの例
    ⽰だけ)ではFine-tuningモデルの性能に追いついていない
    • カザフ語(kk)などの低資源⾔語になると学習コーパスに含まれる量が激減
    し,対訳データを⽤いたモデルと⼤きく差が付く.
    ※ PaLMの学習コーパス中カザフ語は134Mトークン,ドイツ語(de)は26Bトークン.
    PaLM [Chowdhery (Google)+, 2022/04/19]
    図︓ https://arxiv.org/abs/2204.02311 の情報をまとめて作成
    0
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    en->fr en->de en->ro en->kk kk->en
    PaLM(0-shot) PaLM(1-shot) PaLM(few-shot) 対訳データ利⽤
    0-shot︓promptの翻訳例なし
    1-shot︓promptに翻訳例を1ペア利⽤
    Few-shot︓promptに9 or 11例利⽤
    86

    View Slide

  87. • ⼈⼿で作成した「⼊⼒プロンプトに関する⽣成テキストの評価データ」
    を基に報酬モデルを構築.これを⽤いて強化学習で⾔語モデルを更新
    • InstructGPTは1.3Bのモデルで,通常の175B事前学習モデルよりも事実性
    や有害性の観点で良い(より⼈間の感覚に合う)テキストを⽣成できた
    87
    InstructGPT [Ouyang (OpenAI)+, 2022/03/04]
    https://openai.com/blog/instruction-following/

    View Slide

  88. • 教師あり学習で⼤規模モデルを特定のタスクに適応させるのは困難
    • ⼩型のモデルで教師あり学習を組み合わせて,⼤型モデル並の優れた性
    能と運⽤のし易さを両⽴する研究も進んできている
    精度が良く使い易いモデルを作れるか︖
    T0 [Sanh (Huggingface)+, ICLR’ 22]
    55タスクをプロンプト付で同時学習するこ
    とで新規タスクをzero-shotで実施可能.
    11Bモデルで175BのGPT-3を時に上回る
    T-Few [Liu(UNC)+, 2022/05/11]
    モデル全体の0.02%程度にあたる追加パラ
    メータのみを更新.11タスク/各50サンプ
    ル学習の平均精度でGPT-3を上回る
    88
    https://arxiv.org/abs/2205.05638
    GPT-3 175B
    T-Few 3B
    精度
    計算量
    https://arxiv.org/abs/2110.08207

    View Slide

  89. • ⾔語モデルにおけるプロンプトの考え⽅は,AIの⼊出⼒の「説明可能
    性」においても今後重要性を増していく
    • 思考の⾔語化・視覚化は,ヒトにとって分かりやすいだけでなく,難し
    いとされてきたタスクの解決にも期待できる
    89
    AIの思考過程を明らかにできるか︖
    iACE [Lu+, NAACL’22]
    ⾔語理解タスクである含意認識のテキストを
    画像化(想像)して視覚・⾔語の両⾯から判断
    Chain of thought [Wei+, 2022/1/28]
    算数の⽂章題の思考過程を⾔語化して
    例⽰することで精度向上
    Premiseが正しかったら
    Hypothesisも正しいか︖
    https://arxiv.org/abs/2201.11903 https://arxiv.org/abs/2204.08535
    計算過程を例⽰に含める

    View Slide

  90. ⾔語を軸とした
    マルチモーダル理解へ

    View Slide

  91. • 例⽰として「画像とテキスト」を与えてテキストを⽣成
    • 追加の学習無しで汎⽤なタスクを解くことが可能
    91
    Flamingo [Alayac(DeepMind)+, 2022/04/29]
    https://arxiv.org/abs/2204.14198

    View Slide

  92. • CLPの⽅式で学習した画像エンコーダ(433M)と,事前学習済みの⼤規
    模⾔語モデル(70B)から構成.それぞれは固定し,適応⽤のネットワー
    クを(194M/10B)を追加することで結合
    92
    Flamingo [Alayac(DeepMind)+, 2022/04/29]
    画像
    エンコーダ
    (CLIP)
    ⾔語モデル
    (Chinchilla)
    ⼊⼒︓画像(複数枚可),テキスト
    出⼒︓テキスト
    FFN+クロス
    アテンション
    固定⻑の
    ベクトル
    系列へ変換
    https://arxiv.org/abs/2204.14198

    View Slide

  93. • 動画に基づく質問応答の例
    93
    Flamingo [Alayac(DeepMind)+, 2022/04/29]
    https://arxiv.org/abs/2204.14198

    View Slide

  94. • 画像に関する対話の例
    94
    Flamingo [Alayac(DeepMind)+, 2022/04/29]
    https://arxiv.org/abs/2204.14198
    常識&視覚
    情報に関する
    対話
    知識を
    ⽤いた対話

    View Slide

  95. • CLIPの成功により⾃然⾔語インタフェースによるAI・ロボティクス研究
    が今後⾶躍的に進みそう
    • CLIPによってあらゆるシーンで「⾔語で与えた⽬標」と「現状の視覚的
    状態」の整合性について理解し易くなったことが⼤きい
    95
    V&L研究の応⽤分野はどう進むか︖
    MOTIF [Burn+, 2022/02/04]
    モバイルアプリを⾃然⾔語により操作する
    CLIPort [Shridhar+, CoRL’21]
    ロボットアームを物体認識⾮依存で
    ⾃然⾔語により操作する
    https://cliport.github.io/ https://arxiv.org/abs/2104.08560
    ⻘いブロックを緑のボウルに⼊れて

    View Slide

  96. • 視覚⾔語をさらに発展させ,他のモーダルも⾔語と結びつけていくこと
    で,より汎⽤な知的エージェントへの挑戦が進んでいく
    • 他モーダルでのCLIPに相当するモデルの確⽴や,Transformerによる複数
    モーダルの統⼀的なモデリングが重要となっていく
    96
    汎⽤⼈⼯知能研究はどう進むか︖
    Gato [Reed+, 2022/05/12]
    ゲームや対話,ロボット制御など604タスクを
    1モデルで学習.全ての⼊出⼒(テキスト・
    視覚・離散/連続値など)をトークン化して
    ⾔語モデル的に予測.
    MERLOT Reserve [Zellers+, CVPR’22]
    20M件のYouTube動画から視覚・⾔語・⾳
    の関係を学習.対照学習も利⽤.
    https://arxiv.org/abs/2201.02639 https://arxiv.org/abs/2205.06175

    View Slide

  97. 97
    本講演のまとめ
    近年の ⾃然⾔語処理 および Vision-and-Language 分野に関して,
    基礎的な内容・最新動向・今後の展望について紹介しました.
    1. モデルは汎⽤志向,タスクも理解/⽣成に⼤別される
    2. セルフアテンションを⽤いる Transformer が主流に
    • 系列データに強く,マルチモーダルの統⼀的なモデリングも可能
    3. ⾃⼰教師有り学習で⼤規模事前学習することが主流に
    • BERT︓ファインチューニングにより各タスクに適応
    • GPT-3︓プロンプトによる少量の例⽰で新タスクに適応
    4. モデル・事前学習コーパスの⼤規模化が進む
    • 莫⼤な予算・計算機リソースが必要な世界へ
    • ⼈間が作成した教師データの重要性にも改めて注⽬
    5. 視覚と結びつけた⾔語理解の⼤きな発展
    • CLIPやFlamingoの成功は⼤きなマイルストンとなった
    • ⾔語理解を軸に汎⽤知的エージェントの実現への期待が⾼まる

    View Slide

  98. 1. Ashish Vaswan et al.: Attention is All you Need. NIPS 2017: 5998-6008
    2. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT
    (1) 2019: 4171-4186
    3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020
    4. Colin Raffel et al.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn.
    Res. 21: 140:1-140:67 (2020)
    5. Dzmitry Bahdanau et al.: Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015
    6. Pranav Rajpurkar et al.: SQuAD: 100, 000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383-
    2392
    7. Jared Kaplan et al.: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020)
    8. Opher Lieber et al.: Jurassic-1: Technical Details and Evaluation, Tech. Report, AI21 Labs (2021)
    9. Aditya Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. CoRR abs/2204.06125
    (2022)
    10. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. CoRR abs/2204.14198
    (2022)
    11. Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with
    Region Proposal Networks. NIPS 2015: 91-99
    12. Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR
    abs/1908.03557 (2019)
    13. Pengchuan Zhang et al: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579-
    5588
    14. Alexey Dosovitskiy et al.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021
    15. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-
    8763
    参考⽂献
    98

    View Slide

  99. 16. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau
    Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781
    17. Or Patashnik et al.: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. ICCV 2021: 2065-2074
    18. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the
    Image Quality of StyleGAN. CVPR 2020: 8107-8116
    19. Katherine Crowson et al: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language
    Guidance. CoRR abs/2204.08583 (2022)
    20. Patrick Esser, Robin Rombach, Björn Ommer: Taming Transformers for High-Resolution Image Synthesis. CVPR
    2021: 12873-12883
    21. Xiuye Gu et al.: Zero-Shot Detection via Vision and Language Knowledge Distillation. ICLR 2022
    22. Yael Vinker et al.: CLIPasso: Semantically-Aware Object Sketching. SIGGRAPH 2022.
    23. Guy Tevet et al: MotionCLIP: Exposing Human Motion Generation to CLIP Space. CoRR abs/2203.08063 (2022)
    24. Jonathan Ho, Ajay Jain, Pieter Abbeel: Denoising Diffusion Probabilistic Models. NeurIPS 2020
    25. Minesh Mathew et al.: DocVQA: A Dataset for VQA on Document Images. WACV 2021: 2199-2208
    26. Ryota Tanaka et al: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021: 13878-13888
    27. Yupan Huang et al: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. CoRR
    abs/2204.08387 (2022)
    28. Minesh Mathew et al: InfographicVQA. WACV 2022: 2582-2591
    29. ⽥中涼太 et al: テキストと視覚的に表現された情報の融合理解に基づくインフォグラフィック質問応答, NLP
    2022
    30. Geewook Kim et al.: Donut: Document Understanding Transformer without OCR. CoRR abs/2111.15664 (2021)
    参考⽂献
    99

    View Slide

  100. 31. Jack W. Rae et al.: Scaling Language Models: Methods, Analysis & Insights from Training Gopher. CoRR
    abs/2112.11446 (2021)
    32. Jordan Hoffmann et al. : Training Compute-Optimal Large Language Models. CoRR abs/2203.15556 (2022)
    33. Aakanksha Chowdhery et al.: PaLM: Scaling Language Modeling with Pathways. CoRR abs/2204.02311 (2022)
    34. William Fedus et al.: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity.
    CoRR abs/2101.03961 (2021)
    35. Ze Liu et al: Swin Transformer V2: Scaling Up Capacity and Resolution. CVPR 2022
    36. Romal Thoppilan et al.: LaMDA: Language Models for Dialog Applications. CoRR abs/2201.08239 (2022)
    37. Stephen H. Bach et al.: PromptSource: An Integrated Development Environment and Repository for Natural
    Language Prompts. ACL (demo) 2022: 93-104
    38. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155
    (2022)
    39. Victor Sanh et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022
    40. Haokun Liu et al.: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. CoRR
    abs/2205.05638 (2022)
    41. Jason Wei et al: Chain of Thought Prompting Elicits Reasoning in Large Language Models. CoRR abs/2201.11903
    (2022)
    42. Yujie Lu et al.: Imagination-Augmented Natural Language Understanding. NAACL-HLT 2022.
    43. Mohit Shridhar et al.: CLIPort: What and Where Pathways for Robotic Manipulation. CoRL 2021: 894-906
    44. Andrea Burns et al.: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive
    Visual Environments. CoRR abs/2104.08560 (2021)
    45. Rowan Zellers et al.: MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound. CVPR
    2022
    46. Scott E. Reed et al.: A Generalist Agent. CoRR abs/2205.06175 (2022)
    参考⽂献
    100

    View Slide