Slide 1

Slide 1 text

⾃然⾔語処理と Vision-and-Language NTT⼈間情報研究所 ⻄⽥京介 2022年6⽉14⽇ 2022年度⼈⼯知能学会全国⼤会(第36回) チュートリアル講演

Slide 2

Slide 2 text

1. 深層学習による⾃然⾔語処理技術の動向 – タスクとモデルの分類 – Transformerとセルフアテンション – ⼤規模事前学習モデル︓BERT,GPT-3 2. ビジョン&ランゲージへの派⽣ – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術 – ⽂書画像の理解 3. 最新動向と今後の展望 2 ⽬次

Slide 3

Slide 3 text

⾔語処理タスクと モデルアーキテクチャの分類 3

Slide 4

Slide 4 text

4 “深層学習時代の”⾃然⾔語処理の概要 ニューラルネットワーク lϝϩε͸ౖܹͨ͠ɻඞͣɺ͔ͷअஐ๫ٮʜܾҙͨ͠z メロ スは 激怒 … した トークン(単語や サブワード)化 各トークンを ベクトルへ“埋め込み” ベクトル系列から 所望の情報へ 分類ラベル,⽣成テキスト,特徴量(ベクトル),etc. ⼊⼒テキスト トークン系列 ベクトル系列 ベクトル系列 出⼒情報 ベクトル系列の変換を 繰り返し⾏う

Slide 5

Slide 5 text

• ニューラルネットワークの出⼒を正解に近づけるように学習を⾏う • ⾃然⾔語処理タスクの多くは「分類問題」として学習される 学習のイメージ 5 タスク︓テキストを2つのクラスに分類 2次元ベクトルを出⼒ 正解クラスの 値を⼤きく 不正解クラス の値を⼩さく lϝϩε͸ౖܹͨ͠ɻz 感情判定 モデル “negative” “positive” タスク︓⼊⼒に続く次の単語を⽣成 語彙サイズの次元数のベクトルを出⼒ lϝϩε͸z ⽂章⽣成 モデル “激怒” 正解単語の値を ⼤きく “⾛る” 他の値を ⼩さく

Slide 6

Slide 6 text

• タスク毎に適したニューラルネットワークを設計し,正解情報付きの データセットで学習していた • 深層学習により性能は⾼まったが,学習データが少ないと⾼い精度は実 現しにくい課題が残っていた “BERT以前の”⾃然⾔語処理 タスク特化 ニューラル ネット構造 できれば 数万件程度欲しい タスク応⽤ モデル タスクデータで学習 6

Slide 7

Slide 7 text

• (1) ⼤規模なコーパスに基づく事前学習により汎⽤モデルを作り, (2) ファインチューニングにより各タスクに適応する⽅式が主流に • タスクごとにモデルを設計することは少なくなった.また,タスクは2種 類に⼤別して語られることが多くなった “BERT以降”: 事前学習とファインチューニング 事前学習済 モデル (BERTなど) タスク応⽤ モデル 汎⽤ ニューラル ネット構造 ⼤規模コーパスで 事前学習 少量データで ファインチューニング 数GB〜レベルの アノテーションなし テキストコーパス 数百〜数千件レベル の正解付データ 7

Slide 8

Slide 8 text

• ⾃然⾔語理解(NLU)と⾃然⾔語⽣成(NLG)の2種類に⼤きく分類 • タスクごとに適したアーキテクチャがある ⾃然⾔語処理タスクの分類 • テキスト分類 • 情報検索 • 感情分析 • 固有表現抽出 • Etc. ⾃然⾔語理解 Natural Language Understanding テキストの意味を理解 ⾃然⾔語⽣成 Natural Language Generation ⼊⼒からテキストを⽣成 • 機械翻訳 • ⽣成型要約 • 発話⽣成 • ⾔い換え • Etc. 8

Slide 9

Slide 9 text

• エンコーダ型のモデルを⽤いて,テキスト(単語系列)のクラス分類, 各単語へのラベリングなどを⾏う • 代表モデル︓BERT [Devlin+, NAACL’19] 9 NLUタスクとモデルのイメージ 4ٶ୔ ݡ࣏ ͸ ೔ຊ ͷ ⼈名 固有表現抽出 双⽅向モデリング 各位置の出⼒は 未来情報(右側)にも依存 ⼈名 ⽂学 クラス分類 テキストは ⼀度に与えられる

Slide 10

Slide 10 text

• デコーダ型のモデルを⽤いて,⼊⼒系列の続きを⽣成したり, テキストAからテキストBへの変換を⾏う • 代表モデル︓GPT-3 [Brown+, NeurIPS’20] 10 NLGタスクとモデルのイメージ(1/2) ⾃⼰回帰モデリング 各位置の出⼒は 過去情報(左側)にのみ依存 4ٶ୔ ݡ࣏ ٶ୔ ݡ࣏ 次単語予測 予測を⼊⼒として戻す ͸ ⽇本 ͸ ೔ຊ ͷ

Slide 11

Slide 11 text

• エンコーダデコーダ型のモデルを⽤いて,テキストAからテキストBに変 換(翻訳や要約など)する • 代表モデル︓Transformer [Vaswani+, NIPS’17],T5 [Raffel, JMLR’21] 11 NLGタスクとモデルのイメージ(2) ͜Ε ͸ ϖϯ Ͱ͢ ɻ T T エンコーダの 出⼒をデコーダで利⽤ 5IJT JT B QFO T 5IJT JT B QFO

Slide 12

Slide 12 text

• 近年の事前学習済み⾔語モデルの多くが殆どが Transformer ベースと なっている • ビジョン&ランゲージにもTransformerの事前学習が派⽣している(後半 で説明) 12 最近のベースモデル=Transformer Transformer BERTなど エンコーダデコーダを 事前学習 GPT-3など デコーダを 事前学習 T5など エンコーダを 事前学習 エンコーダデコーダ

Slide 13

Slide 13 text

Transformer と セルフアテンション 13

Slide 14

Slide 14 text

• 単語間の関係を理解(表現)するためにRNNやCNNを⽤いず,アテン ションのみを⽤いたエンコーダデコーダ型モデルを提案 • 機械翻訳で評価実験し,当時の最⾼性能を更新 14 Transformer [Vaswani(Google)+, NIPS’17] Transformer エンコーダ Transformer デコーダ これ は ペン です This is a pen This is a pen

Slide 15

Slide 15 text

次単語は何か︖ • デコーダが1単語ずつ出⼒するときに、エンコードされた翻訳元テキスト のどの部分に注意すれば良いかを与える機構(⾏列計算で実現) 15 アテンション [Bahdanau(Jacobs U)+, ICLR’15] これ は ペン です This is a “pen”を予測 注意 softmax = Encoderの隠れ状態の 重み付き平均 エンコーダ デコーダ コンテキスト (「ペン」に強い注意) ℝ!×# ℝ#×$ ℝ$×# ℝ!×#

Slide 16

Slide 16 text

• エンコーダデコーダ間のクロスアテンションに加えて,Transformerでは 系列単体でもアテンションを取る • 系列の各位置をQuery,系列全体をKey,Valueとして考える 16 セルフアテンション softmax = Query Key Value Valueの重み付き平均 Key-Value辞書から,Queryに近い KeyのValueを取り出すイメージ softmax 𝑄𝐾! 𝑉

Slide 17

Slide 17 text

• エンコーダデコーダの双⽅で セルフアテンションを導⼊ • ブロックを多層に積上げる ことで性能向上 • 今⽇の説明は超簡易版なので 詳細は論⽂等にて︕ 17 Transformerの簡略化イメージ Self-Attention (Q=X, K=X, V=X) Self-Attention (Q=Y, K=Y, V=Y) Cross-Attention (Q=Y, K=X, V=X) ブロックxN ブロック xN ⼊⼒単語系列X 出⼒単語系列Y(次単語予測) 出⼒単語系列Y(予測を戻す) 単語・位置埋込 単語・位置埋込 線形変換&softmax FFN(MLP) FFN(MLP)

Slide 18

Slide 18 text

• 単語系列の⽂脈の理解は主にRNN(LSTMやGRU)で⾏われてきたが、 ⻑期依存性の理解には限界があった • セルフアテンションでは系列内で遠く離れた単語の関係性も直接考慮で きるため性能向上に⼤きく寄与した 18 なぜセルフアテンションが重要なのか 単語系列 単語系列 RNN セルフアテンション 遠く離れた 単語の関係性 を捕まえにくい 遠く離れた 単語も直接 関係を考慮 単語系列 ℎ%&! = RNN ℎ%, 𝑥% 𝑄𝐾!

Slide 19

Slide 19 text

• ニューラルネットワークによる⾔語処理が主流に • 近年では事前学習により汎⽤モデルを作り,ファインチューニングによ り各タスクに適応させる • タスクはNLU(⾃然⾔語理解)とNLG(⾃然⾔語⽣成)に⼤別 • モデルはエンコーダ,デコーダ,エンコーダデコーダ型がある • 最近のベースモデルはTransformerで,テキストをはじめとした系列デー タのモデリングに強い • TransformerはBERTやGPT-3に利⽤されている 19 ここまでのまとめ

Slide 20

Slide 20 text

BERTによる事前学習& ファインチューニング

Slide 21

Slide 21 text

• ⼤量のテキストデータで事前学習した,24層の巨⼤なTransformerエン コーダに基づく⾔語モデル(340M=3.4億個のパラメータ) • 多数の⾃然⾔語理解(NLU)タスクへのファインチューニングで⾼い性 能を実現して注⽬を浴びる 21 BERT [Devlin(Google)+, 2018/10, NAACLʼ19] https://www.aclweb.org/anthology/N19-1423/

Slide 22

Slide 22 text

22 既に実⽤化が進むBERT https://www.blog.google/products/search/search-language-understanding-bert/ • 2019年10⽉25⽇(BERT発表から1年後)、Googleは検索エンジンのアル ゴリズムをBERTベースにアップデート • 2019年12⽉10⽇には⽇本語含む72⾔語に拡張 よりクエリの意図を 考慮した結果に

Slide 23

Slide 23 text

• 質問に対してテキストを読み解いて回答するタスク 23 BERTが優れた性能を達成したタスクの例︓ 機械読解(SQuAD 1.1) [Rajupurkar(Stanford)+, EMNLP’16] ⼊⼒︓Wikipediaの段落 ⼊⼒︓質問 出⼒︓回答 テキスト中の任意の 範囲を抽出して回答 https://www.aclweb.org/anthology/D16-1264/

Slide 24

Slide 24 text

• 機械読解に特化したニューラルネット構造を持たずに、⼈間の質問応答 スコアを⼤きく超える性能を達成 24 SQuAD 1.1で⼈間超えのスコアを達成 完全⼀致 部分⼀致 ⼈間の正答率 82.304% BERTの正答率 87.433% https://rajpurkar.github.io/SQuAD-explorer/

Slide 25

Slide 25 text

• ⽳埋め問題により,⽂脈の中で単語が出現する確率を予測する • ⼤量のテキストさえあれば,⼈間が追加で正解をアノテーションするこ となく学習可能(⾃⼰教師あり学習) 25 BERTの特徴(1) マスク化⾔語モデリング … My [MASK] is hairy … … My dog is hairy … ⼊⼒の⼀部をマスク マスク前の⽂章を予測 双⽅向アーキテクチャ マスク単語の前後の情 報を使って予測

Slide 26

Slide 26 text

BERT (Transformerエンコーダ) • ⾃然⾔語理解(NLU)のタスクは2つの⽂の関係性理解が多い • そこで,⽂書中で隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣 接する⽂か否かの判定を⽳埋め予測と同時に学習 26 BERTの特徴(2) 次⽂章予測 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類︓2⽂が隣接か否か︖ ⽳埋め

Slide 27

Slide 27 text

• シンプルな出⼒層を1層だけ基盤モデルの最上部に追加する – 例︓機械読解では回答範囲の始点・終点予測⽤に線形変換を追加 27 BERTの特徴(3) ファインチューニング BERT (Transformerエンコーダ) 出⼒層 [CLS] 質問⽂ [SEP] テキスト(回答抽出元) [SEP] テキスト中の 各トークンの回答範囲始点・終点スコア …. は 3 ⽉ 12 ⽇ で ある … ….. の ⽇付 は ︖

Slide 28

Slide 28 text

GPT-3による 事前学習&few-shot学習 28

Slide 29

Slide 29 text

• 超⼤量のテキストデータ(3000億トークン)で事前学習した,96層の 超巨⼤なTransformerデコーダに基づく⾔語モデル • パラメータ数は175B=1750億個(ファイルサイズで⾔うと700GB程度) • 参考︓BERTは 24層,3.4億個のパラメータ,約3.3億トークン 29 GPT-3 [Brown(OpenAI)+, 2020/07, NeurIPS’20] 4 GPT-3はBERTの⽳埋め ではなく次単語予測で 事前学習する 𝑤! 𝑤' 𝑤( 𝑤) 𝑤* 𝑤! 𝑤' 𝑤( 𝑤) 𝑤*

Slide 30

Slide 30 text

• ⼈間の様な「少数の例⽰による学習」が可能になってきた • ⼤量のテキストの中には同⼀タスクの例が繰返し現れるコンテキストも 含まれており,こうした学習が例⽰による学習能⼒を向上させる 30 GPT-3の膨⼤な事前学習が可能にすること ⼤量テキストに よる事前学習 同⼀タスクの 繰り返しを含む 系列 https://arxiv.org/abs/2005.14165

Slide 31

Slide 31 text

• タスク説明と少数の例を与えるのみでモデルの更新無しに問題を解く 31 GPT-3のfew-shot学習 ここまでを⼀つの系列としてGPT-3に⼊⼒ è 回答を続きの⽂章として出⼒する https://arxiv.org/abs/2005.14165

Slide 32

Slide 32 text

32 GPT-3のデモ(⾃然⾔語シェル 2:40〜) https://openai.com/blog/openai-api/

Slide 33

Slide 33 text

33 GPT-3のデモ(コード⽣成) https://twitter.com/sh_reya/status/1284746918959239168

Slide 34

Slide 34 text

34 GPT-3のデモ(エクセルの補完) https://twitter.com/sh_reya/status/1284746918959239168

Slide 35

Slide 35 text

35 Jurassic-1 [Lieber(AI21)+, 2021/08] タスク説明 例 プロンプト ⽣成テキスト • イスラエルのスタートアップ企業AI21により,ほぼGPT-3と同サイズ (1780億)のモデルがリリースされた • AI21ではアカウント登録すれば無料利⽤できる環境に加えて,テキスト ⽣成やカスタム学習が可能な有料APIを提供している https://studio.ai21.com/playground より実際の実⾏例

Slide 36

Slide 36 text

• 計算量(学習回数),学習トークン数,モデルパラメータ数,に⾔語モ デリング(次単語予測)の性能は強く依存することを実験的に⽰す è ⼤量の計算機資源を⽤いて,⼤量のデータを,⼤きいモデルで学習すれ ば良いモデルができる︕ 36 Scaling laws [Kaplan (OpenAI)+, 2020/01] https://arxiv.org/abs/2001.08361

Slide 37

Slide 37 text

• 2018/10のBERTの発表によりパラダイム・シフトが発⽣し,「⼤規模モ デルの事前学習→ファインチューニング」が主流に • 2020/07のGPT-3の発表以降は,Few-shot学習(プロンプト=⼊⼒テキス トとして少量の例⽰)が⼤きな注⽬を集めている • BERTもGPT-3も⼤量のテキストがあれば学習可能(⾃⼰教師あり学習) • ⼤量の計算機資源を⽤いて,⼤きいモデルで,⼤量のデータを学習する, というアプローチが活発化している 37 ここまでのまとめ

Slide 38

Slide 38 text

1. 深層学習による⾃然⾔語処理技術の動向 2. ビジョン&ランゲージへの派⽣ – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術 – ⽂書画像の理解 3. 最新動向と今後の展望 – モデル・データの⼤規模化 – プロンプトとファインチューニング – ⾔語を軸としたマルチモーダル理解へ 38 ⽬次

Slide 39

Slide 39 text

• 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が,視覚と⾔語を結びつけた理解にも派⽣し, 急速に発展している 39 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,2022/04/29] “DALL-E 2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+,2022/04/13] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck https://cdn.openai.com/papers/dall-e-2.pdf https://arxiv.org/abs/2204.14198

Slide 40

Slide 40 text

• ⾃然⾔語処理と同様に,理解/⽣成で⼤別可能 40 Vision-and-Languageの主なタスク 視覚・⾔語の融合理解に基づく⽣成 視覚・⾔語の融合理解 ベレー帽と タートルネック を着た柴⽝ Document VQA (回答⽣成型) チョコレート シロップが掛かった ワッフル2つとアイス Score: 0.98 画像・⾔語のマッチング(検索) VQA (回答選択型) ベッドの上に ⼦供は何⼈いますか︖ 1 / 2 / 3 / … ソーシャルメディア の利⽤率は︖ 16% (100-84) 階段を登り,次に ピアノの横を... forward, left, …, stop ロボットナビゲーション Image-to-text / Text-to-image

Slide 41

Slide 41 text

1. Webなどから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて,テキストの単語系列と併せて Transformerエンコーダに⼊⼒ 3. ⽳埋め・マッチングタスクなどで事前学習 41 V&L事前学習の概要 Web 店内でオレンジ ジュースをカップ に注いでいる⼥性 ⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内 で オレンジ … ⼥性 [CLS] … 系列化 ⼥性? [MASK] 各トークンの ⽳埋め問題 本当に存在する 画像とキャプションのペアか︖ True?

Slide 42

Slide 42 text

• Faster R-CNN [Ren+, NIPS15]などにより画像からオブジェクト(および そのベクトル表現)を検出し,1つの系列に並べる • VQAなどのタスクではオブジェクトの種類や個数が問われる事が多いた め,初期のV&Lモデルではこのアプローチが⼀般的であった 42 画像を系列データとして扱う 画像 N個のオブジェクトの特徴ベクトル系列 … https://arxiv.org/abs/1908.03557 ℝ+×#

Slide 43

Slide 43 text

• BERTと同様に単語をマスクして⽳埋め問題を解く • 画像側のトークンをマスクした⽳埋め問題(特徴量の再現やオブジェク トのクラス分類)を解く場合もあり 43 事前学習タスク: Masked Language/Region Modeling Transformerエンコーダ ⼥性 [SEP] 店内 で オレンジ … ⼥性 [CLS] … [MASK] [MASK]

Slide 44

Slide 44 text

• データセットの中にあるペア(正例)とランダムサンプリングで作った 負例のペアを⾒分けるタスク • このタスクも⼤量にデータを⽤意できる 44 事前学習タスク: Image-Text Matching ランダムに⼊れ替え Transformerエンコーダ Matching/ Not-matching [SEP] ⾺ に 跨って …… いる 少年 [CLS] …

Slide 45

Slide 45 text

• 物体検出を1848クラス/524属性まで強化した事前学習モデル • さらに,検出された物体の名前(タグ)を同時に⼊⼒することで,⾔ 語・画像を結びつけた事前学習を強化 45 VinVL [Zhang(Microsoft)+, CVPR’21] https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_VinVL_Revisitin g_Visual_Representations_in_Vision-Language_Models_CVPR_2021_paper.html 単語系列 タグ系列 物体系列 マッチングタスク トークン⽳埋め

Slide 46

Slide 46 text

• 物体検出器がカバーする概念の広さと検出精度にV&Lモデルの性能が⼤ きく依存してしまう è 物体検出に依存しない,汎⽤の画像エンコーダが得られないか︖ 46 物体検出による画像表現抽出の限界 ⾷品 ⾷器 フォーク ⾷器 ⾷器 商⽤の物体検出APIの結果 各種Webサービスのアイコンを 認識できず ⾷品や⾷器の細かい違いが認識できていない マットやコーヒーについて認識漏れ オブジェクト検出なし

Slide 47

Slide 47 text

• パッチ︓画像を⼩さい領域に分割して埋め込みトークン化 • グリッド︓画像をそのまま⼊⼒しグリッド毎の特徴量を出⼒ 47 パッチ/グリッド⽅式による系列化 Transformer CNN パッチごとに線形変換 パッチ分割 画像特徴(グリッド数) 画像特徴(パッチ数)

Slide 48

Slide 48 text

• 画像パッチを単語とみなすパラメータ数632MのTransformerエンコーダ • 3億枚以上の画像分類で事前学習し,画像分類タスクで最⾼精度を達成 • ただし,従来のCNNを圧倒する程の精度では無かった è 画像分類タスクでの事前学習に限界がある︖ 48 Vision Transformer (ViT) [Dosovitskiy(Google)+, ICLR’21] https://arxiv.org/abs/2010.11929 位置は1D 線形変換 ℝ(#!$%)×( パッチ ℝ#!$% 14x14あるいは16x16 分割 クラス 分類

Slide 49

Slide 49 text

CLIPの対照学習アプローチ

Slide 50

Slide 50 text

• Webから収集した4億件の画像とテキストのペアから事前学習された視 覚・⾔語の基盤モデル • 画像エンコーダとテキストエンコーダが独⽴に⼊⼒をベクトル化 • 正しい画像と説明⽂のペアの内積が⼤きくなるように対照学習 50 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 正しいペアの内積 を⼤きくするよう に学習 Vision Transformer やCNN Transformer 各テキストの ベクトル 各画像の ベクトル https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 51

Slide 51 text

51 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 固定のクラスベクトル集合 (学習パラメータ) テキストエンコーダが出⼒ した任意のテキストの表現 CLIP(Contrastive Language-Image Pre-training) 関係するテキスト表現との 内積が⼤きくなるように 両⽅のエンコーダを学習 正解のクラスベクトルとの 内積が⾼くなるように学習 通常の画像分類 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 52

Slide 52 text

52 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] • 事前学習後は,追加の学習無し(zero-shot)で任意のテキスト候補の中 から画像にマッチするものを選ぶことが可能 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 53

Slide 53 text

• 従来の画像分類や物体検出ではカバーできていない概念も理解 53 Zero-shot分類の例 ✔ワカモレ ✔癌化リンパ節 (正常リンパ節) ✘笑顔 (怒り) ✔TVスタジオ ✘キツネリス (オオヤマネコ) ✔バレーの スパイク ✔⾶⾏機 ✔⿃ ✔カンガルー https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf

Slide 54

Slide 54 text

• これまでの画像分類や物体検出で事前学習された画像エンコーダは, 視覚と「有限個の記号」の結びつけであった • CLIPにより,視覚と「任意の⾔語」を結びつけた理解が⾰新的に進み, 最近の急速なモデルの進化につながった 54 CLIPは何が凄いのか(1) Class: 11 画像エンコーダはこのクラスが 何を意味しているのか理解していない 画像分類・物体検出の場合 l੺ɺԫɺനɺࠇͳͲͰ઱΍͔ʹ ࠼ΒΕͨඒ͍͠খௗ͕໦ʹࢭ·͍ͬͯΔz CLIPの場合 ⾔語と結びつけた理解は 様々な概念の共通理解に通づる https://salient-imagenet.cs.umd.edu/explore/class_11/feature_520.html

Slide 55

Slide 55 text

• 従来のImageNetデータセットでは,25,000⼈が1,400万枚の画像に対して 22,000クラスをWordNetの名詞と紐付けてアノテーション • CLIPはWebから収集したデータを⽤いて,(ノイズはあるが)⽐較的低 コストで遥かに広い概念を⾔語と結びつけて学習可能 55 CLIPは何が凄いのか(2) ImageNetの ”Tench”(コイ科の淡⽔⿂)カテゴリの写真の例 ImageNetの ”Siberian Husky”カテゴリの写真の例 本来不要な男性も含めてTenchが 学習されてしまう ⽝の数や動作については無考慮 https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html CLIP: 「釣り上げたTenchを 抱えている男性」と学習 CLIP: 「3匹のシベリアンハ スキーが芝⽣に座る」と学習

Slide 56

Slide 56 text

• 初期のV&Lモデルでも画像とテキストのマッチングの学習は⾏っていた が,画像とテキストを同時に⼊⼒するので学習効率を上げにくい • CLIPではエンコーダが分離されているので対照学習を⾏い易い – テキスト検索においては”In-batch Negatives”として知られるテクニック [Karpukhin, EMNLP’20] 56 CLIPは何が凄いのか(3) エンコーダが分離されていれば, B件のペアに対して B^2の組み合わせの学習が可能 https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf 画像とテキストを同時に⼊⼒する クロスエンコーダタイプ

Slide 57

Slide 57 text

CLIPが可能にした技術

Slide 58

Slide 58 text

• CLIP空間上のテキストの変化⽅向を,StyleGAN [Karras+, CVPR’20] 空間 に画像チャネル毎に射影し,⾃然⾔語による画像編集を可能にした • 各空間における画像の変化の関係を予め前処理として獲得しておくこと で,画像編集時は学習なしで編集可能 StyleCLIP [Patashnik+, ICCV’21] https://openaccess.thecvf.com/content/ICCV2021/papers/Patashnik_StyleCL IP_Text-Driven_Manipulation_of_StyleGAN_Imagery_ICCV_2021_paper.pdf A female face A surprised female face CLIP空間 Style空間 射影 58

Slide 59

Slide 59 text

• VQGAN [Esser+, CVPR’21] で⽣成した画像がCLIP空間でターゲットテキス トと類似するように潜在変数(Z-vector)を最適化する • “AIアート”としてSNS・ニュースサイト等で話題に VQGAN+CLIP [Crowson(EleutherAI)+, 2021/07] Z-vector VQGAN Decoder CLIP 類似度のlossで学習 学習パラメータ an astronaut in the style of van Gogh https://arxiv.org/abs/2204.08583 blue whales swimming through neon city 59 https://twitter.com/ak92501/status/1413360535685435396

Slide 60

Slide 60 text

• 視覚・⾔語で学習したCLIPを動画データを⽤いて⾳と結びつける • VQGAN+CLIPを利⽤して,⾳声に関連する画像を⽣成することが可能 Wav2Clip [Wu(Descript)+, ICASSP’22] 60 https://arxiv.org/abs/2110.11499 https://descriptinc.github.io/lyrebird-wav2clip/

Slide 61

Slide 61 text

• 学習時に,物体検出モデルの出⼒する領域の画像表現を,CLIP空間の画 像表現に近づける(蒸留)ようにすることで,任意のテキスト(”open vocabulary”)で物体検出可能なモデル 61 ViLD [Gu(Google)+, ICLR’22] Toy duck CLIPのテキストエンコーダで 任意のテキストクラスを指定可能 物体検出器 の出⼒ CLIPの画像 エンコーダ の出⼒に近づける Toy duck Green toy Blue toy https://arxiv.org/abs/2104.13921

Slide 62

Slide 62 text

• 画像からスケッチに変換.元画像とスケッチ画像がCLIP空間(画像エン コーダのみ利⽤)上で近くなるように,n本の曲線を最適化していく 62 CLIPasso [Vinker(EPFL)+, SIGGRAPH’22] https://clipasso.github.io/clipasso/ 初期化に利⽤ 最適化される n本のベジェ曲線 パラメータ

Slide 63

Slide 63 text

63 MotionCLIP [Tevet(Tel Aviv U.)+,2022/03] • 運動(モーションキャプチャの系列)のオートエンコーダの潜在変数を CLIP空間の⾔語・視覚と結びつけて学習 • モーションの⽣成,任意の運動の認識,運動の合成などが可能に

Slide 64

Slide 64 text

DALL-E 2 [Ramesh(OpenAI)+,2022/04/13] • CLIP+拡散モデル [Ho+, NeurIPS’20] によるテキストからの画像⽣成 • (1) CLIPのテキスト表現→画像表現を⽣成するpriorと,2) CLIPの画像表現 →画像を⽣成するdecoderにて画像を⽣成 画像表現 テキスト表現 https://cdn.openai.com/papers/dall-e-2.pdf 64 拡散モデル等 拡散モデル

Slide 65

Slide 65 text

• Vision-and-Languageタスクも理解・⽣成に⼤別される • BERT以降,画像を物体検出して系列化し,⾔語の系列と合わせて Transformerでモデリングする⽅式の検討が進んできた • 2021/01の対照学習を⽤いるCLIPにより,画像分類や物体検出に依存した 事前学習の限界を越え,視覚と⾔語の融合が⼤きく進んだ • 近年では,画像・テキスト検索のみならず,テキストからの画像⽣成な ど,様々なタスクでCLIPの導⼊が進んでいる 65 ここまでのまとめ

Slide 66

Slide 66 text

⽂書画像の理解 66

Slide 67

Slide 67 text

67 ⽂書を”視覚的に”読み解くAIを⽬指して 上限料⾦ (税込) 5,800 円/⽉ 基本料⾦ (税込) 2,500 円/⽉ 使った分だけ 利⽤料が増えます ⽉額利⽤料 回線利⽤量 2段階 定額プラン 1,000MB 200MB ライトプラン 利⽤料⾦イメージ 1,000MB の⽬安 ホームページ閲覧とメールに加え,動画閲 覧を⽉に1時間程度 2⽇に1回,1時間程度インターネット利⽤ 200MB の⽬安 ホームページ閲覧とメールが中⼼ 2⽇に1回,30分程度インターネット利⽤ 1,200MB 動画を毎⽇1時間は⾒るのですが,ライトプ ランの料⾦は⽉額幾らになりますか︖ 上限料⾦の税込⽉額5,800円 になります 動画を毎⽇⾒るな ら1200MB/⽉は 確実に超えそう このページに答え がありそうだな • ⼈間が⾒る⽂書の情報をそのまま理解可能なAIの実現を⽬指す • ⾔語情報,レイアウト,図やグラフ・表など多岐に渡る理解が必要

Slide 68

Slide 68 text

68 視覚情報に含まれる⾔語情報の理解 画像に対する質問応答や 画像の説明⽂⽣成, 画像検索 画像中のテキストも 考慮したタスクへ 単語レベルから⽂・⽂書へ グラフや表なども併せた 理解まで広がる • VQAやキャプショニングを発展させ,視覚情報に含まれる⾔語情報に着 ⽬したタスクやデータセットの整備が2019年頃から進む • さらに,2021年頃からは⽂書画像への取り組みが活発化している

Slide 69

Slide 69 text

• (⽐較的古い)⽂書画像に対するVQAデータセット • ⽂書あたり平均150単語程度が含まれる 69 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21] https://openaccess.thecvf.com/content/WACV2021/html/Mathew_DocVQA_ A_Dataset_for_VQA_on_Document_Images_WACV_2021_paper.html

Slide 70

Slide 70 text

• Webページのスクリーンショットに基づく視覚的読解 • レイアウト理解と⽣成型機械読解を統合した問題設定とモデルを提案 70 VisualMRC [Tanaka & Nishida (NTT), AAAI’21, NLP’21最優秀賞] 全ての領域をアノテー ション︓ 9つの意味クラスに分類 約30,000件のQAを作成 回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC

Slide 71

Slide 71 text

71 ⼀般的な⽂書理解モデルの例 • ⽂書画像⽤のモデルはOCRで抽出された単語の2D座標を考慮する • 視覚表現はオブジェクト(図や段落など)/パッチ/グリッドのいずれか • ⽳埋め問題や,⾔語・視覚間の対応付けにより学習 ⽂書中 座標 このモデルでは 画像をパッチ化 LayoutLMv3 [Huang(Microsoft)+,2022/04/18] OCRでテキスト抽出 各モーダルの⽳埋め問題と パッチ⇔トークンの対応付 https://arxiv.org/abs/2204.08387 ⽂書画像

Slide 72

Slide 72 text

• インフォグラフィックに対するVQA.グラフやアイコンに対する理解が 重要となるコンペティションが開催された • NTTは事前学習データ量を従来モデルの1/22に抑えつつ同程度のサイズ のモデルの中で最も⾼い性能を達成し2位に⼊賞(18チーム337投稿中) 72 Infographics VQA [Mathe(IIIT)+, WACV’22] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can not be prevented A. 40% (100 – 60) Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17

Slide 73

Slide 73 text

1. 物体検出器を利⽤して視覚物体の領域,意味クラスを追加⼊⼒ 2. ⽳埋め事前学習 (MLM) により,テキストと視覚物体との対応づけ 3. (簡易的な)演算の過程を⽣成 73 IG-BERT [⽥中+,NLP’22] 配置情報 トークン 位置情報 セグメント ポイント2 キャプション ポイント3: 簡易な演 算を実施可能に ポイント1︓アイコン⽤ の物体検出器を作成 40(100-60) https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

Slide 74

Slide 74 text

• 演算の過程を学習可能な新たなデータ拡張⼿法を提案 74 IG-BERT [⽥中+,NLP’22] 質問: 糖尿病を防げた事例の割合は︖ 回答正解データ: 40% 4.3% 3.6% 1 10 $6 60% 1. ⽂書から数値データの抽出 2. 事前に⽤意した演算テンプレートに代⼊ 「60% + 4.3% = 64.3%」 「100% - 60% = 40%」 3. 回答正解データと⼀致するならデータに加える . . . 100% - 60% 100-60=40の 演算が必要 この演算過程テキスト そのものを⽣成する https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

Slide 75

Slide 75 text

• 配置関係によるテキストの意味理解はだいぶ進んだ • ダイヤグラム・グラフ・イラストなどの視覚要素や,論理・数値演算の 理解のレベルをもう1段上げる必要がありそう • OCRや物体認識を包含してend-to-endに理解できるか 75 ⽂書画像理解の現状とこれから Donut [Kim(NAVER)+, 2021/11] InfographicsVQA [Mathe(IIIT)+, WACV’22] 情報が視覚的に表された⽂書に対するQA. 数値演算や視覚的理解の能⼒が必要 https://arxiv.org/pdf/2104.12756 OCR無しで⽂書画像を理解するTransformer モデル.運⽤や速度⾯で⼤きなメリット https://arxiv.org/abs/2111.15664

Slide 76

Slide 76 text

1. 深層学習による⾃然⾔語処理技術の動向 2. ビジョン&ランゲージへの派⽣ 3. 最新動向と今後の展望 – モデル・データの⼤規模化 – プロンプトとファインチューニング – ⾔語を軸としたマルチモーダル理解へ 76 ⽬次

Slide 77

Slide 77 text

モデル・データの⼤規模化 77

Slide 78

Slide 78 text

• 280B(2800億)パラメータのモデルを⽤いて152タスクで徹底的な評価 • モデルを⼤規模化することにより,機械読解やファクトチェックなどで 性能向上したが,論理的・数学的・常識の推論は⼤きく改善せず 78 Gopher [Rae(DeepMind)+, 2022/01/21] https://arxiv.org/abs/2112.11446 ⾔語モデリング,数学・常識・ 論理推論では改善幅が⼩さい 7.1Bと280Bモデルの性能⽐較. 上に⾏くほど280Bが優位.

Slide 79

Slide 79 text

• 400種類のモデルと学習トークン数の組み合わせで実験 • Chinchilla(70Bパラメータ/1.4Tトークン) は,Gopher(280Bパラメー タ/300Bトークン)の性能を多くのタスクで凌駕 • 近年の⼤規模モデルは学習データ数が不⾜していることを指摘 Chinchilla [Hoffman (DeepMind)+, 2022/03/29] https://arxiv.org/abs/2203.15556 Gopherは必要 トークンの 1/17しか学習 していない︖ モデルサイズごとの 最適計算量・トークン数 79

Slide 80

Slide 80 text

• パラメータ数が 540B(denseなTransformerでは現在最⼤)のモデル • モデルサイズに対して,幾つかのタスクでモデルサイズの増加により, ⾮連続的に性能が改善 PaLM [Chowdhery (Google)+, 2022/04/19] https://arxiv.org/abs/2204.02311 (b)は⾮連続的な改善 モデルサイズ vs. タスク性能 80

Slide 81

Slide 81 text

• ⾔語モデルでは「⾮連続的な性能向上」など興味深い現象の解明に向 かって⼤規模化が続きそう.sparseなTransformer(Mixture Of Experts) ではbillion(10億)を越えてtrillion(1兆)レベルへ進んでいる • ⼀⽅で,画像モデルはまだ3B(dense)〜15B(sparse)程度.⾔語に⽐ べて,単純なサイズ増⼤が精度向上に繋がっていない モデルは今後さらに⼤きくなるか︖ SwitchTransformer [Fedus+, JMLR22] SwinTransformer V2 [Liu+, CVPR’22] Transformer構造を変更しモデルサイズ3B/ 解像度1536x1536までスケールアップに成功 MoE構造の1.6TBモデル.各トークンに 対してexpertのみが動作するので省計算 2048 experts 81 https://arxiv.org/abs/2101.03961 https://arxiv.org/abs/2111.09883

Slide 82

Slide 82 text

• ⽇々新しい知識が発⽣することや,ニューラルモデルには不得意な分野 の存在を考えると,全ての知識・機能を1モデル内に詰め込む必要は無い • 特に情報検索や数値計算などと組み合わせて利⽤可能なモデルの研究が 活発化している 外部ツールを使えるようになるか︖ LaMDA [Thoppilan(Google)+, 2022/01/20] 検索・計算・翻訳ツールをモデルの外に置き,随時呼び出して応答⽂作成に利⽤ 外部知識から得たテキストを 基に⽣成した応答⽂ ユーザ発話 検索クエリ発⾏ 検索クエリ発⾏ 82 https://arxiv.org/abs/2201.08239

Slide 83

Slide 83 text

• (偏りの存在する)⼤量データで学習したことによる,⾔語モデルの出 ⼒に関するバイアスの存在や,有害なテキスト⽣成の問題が課題 • 近年の⼤規模⾔語モデルの評価観点として重要視されている モデルのバイアスを解消できるか︖ https://arxiv.org/pdf/2204.02311.pdf The nurse notified the patient that his shift would be ending in an hour. The “his” refers to … the patient ? the nurse? 指⽰語の性別バイアスの評価 ステレオタイプと異なる 組み合わせだと精度落ちる プロンプトに続く⽣成テキストが有害となる分布 特定宗教に関して有害なテ キストを⽣成しやすい スコア⼤︓有害 https://arxiv.org/abs/2204.02311 83 PaLM [Chowdhery (Google)+, 2022/04/19]

Slide 84

Slide 84 text

プロンプトチューニングと ファインチューニング 84

Slide 85

Slide 85 text

85 PromptSource [Bach(Brown U)+, 2022/2/2, ACL’22 demo] https://arxiv.org/abs/2202.01279 • 追加学習が難しい⼤規模⾔語モデルで重要となる「プロンプト」の作 成・共有・利⽤のためのツールキット 👉 pip install promptsource • 170を超えるデータセット⽤に2000個以上のプロンプトが作成済. – 良い結果を得るための「プロンプトチューニング」が⾏われている

Slide 86

Slide 86 text

• PaLMの翻訳の例では,540BのモデルでもFew-shot学習(プロンプトの例 ⽰だけ)ではFine-tuningモデルの性能に追いついていない • カザフ語(kk)などの低資源⾔語になると学習コーパスに含まれる量が激減 し,対訳データを⽤いたモデルと⼤きく差が付く. ※ PaLMの学習コーパス中カザフ語は134Mトークン,ドイツ語(de)は26Bトークン. PaLM [Chowdhery (Google)+, 2022/04/19] 図︓ https://arxiv.org/abs/2204.02311 の情報をまとめて作成 0 5 10 15 20 25 30 35 40 45 50 en->fr en->de en->ro en->kk kk->en PaLM(0-shot) PaLM(1-shot) PaLM(few-shot) 対訳データ利⽤ 0-shot︓promptの翻訳例なし 1-shot︓promptに翻訳例を1ペア利⽤ Few-shot︓promptに9 or 11例利⽤ 86

Slide 87

Slide 87 text

• ⼈⼿で作成した「⼊⼒プロンプトに関する⽣成テキストの評価データ」 を基に報酬モデルを構築.これを⽤いて強化学習で⾔語モデルを更新 • InstructGPTは1.3Bのモデルで,通常の175B事前学習モデルよりも事実性 や有害性の観点で良い(より⼈間の感覚に合う)テキストを⽣成できた 87 InstructGPT [Ouyang (OpenAI)+, 2022/03/04] https://openai.com/blog/instruction-following/

Slide 88

Slide 88 text

• 教師あり学習で⼤規模モデルを特定のタスクに適応させるのは困難 • ⼩型のモデルで教師あり学習を組み合わせて,⼤型モデル並の優れた性 能と運⽤のし易さを両⽴する研究も進んできている 精度が良く使い易いモデルを作れるか︖ T0 [Sanh (Huggingface)+, ICLR’ 22] 55タスクをプロンプト付で同時学習するこ とで新規タスクをzero-shotで実施可能. 11Bモデルで175BのGPT-3を時に上回る T-Few [Liu(UNC)+, 2022/05/11] モデル全体の0.02%程度にあたる追加パラ メータのみを更新.11タスク/各50サンプ ル学習の平均精度でGPT-3を上回る 88 https://arxiv.org/abs/2205.05638 GPT-3 175B T-Few 3B 精度 計算量 https://arxiv.org/abs/2110.08207

Slide 89

Slide 89 text

• ⾔語モデルにおけるプロンプトの考え⽅は,AIの⼊出⼒の「説明可能 性」においても今後重要性を増していく • 思考の⾔語化・視覚化は,ヒトにとって分かりやすいだけでなく,難し いとされてきたタスクの解決にも期待できる 89 AIの思考過程を明らかにできるか︖ iACE [Lu+, NAACL’22] ⾔語理解タスクである含意認識のテキストを 画像化(想像)して視覚・⾔語の両⾯から判断 Chain of thought [Wei+, 2022/1/28] 算数の⽂章題の思考過程を⾔語化して 例⽰することで精度向上 Premiseが正しかったら Hypothesisも正しいか︖ https://arxiv.org/abs/2201.11903 https://arxiv.org/abs/2204.08535 計算過程を例⽰に含める

Slide 90

Slide 90 text

⾔語を軸とした マルチモーダル理解へ

Slide 91

Slide 91 text

• 例⽰として「画像とテキスト」を与えてテキストを⽣成 • 追加の学習無しで汎⽤なタスクを解くことが可能 91 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198

Slide 92

Slide 92 text

• CLPの⽅式で学習した画像エンコーダ(433M)と,事前学習済みの⼤規 模⾔語モデル(70B)から構成.それぞれは固定し,適応⽤のネットワー クを(194M/10B)を追加することで結合 92 Flamingo [Alayac(DeepMind)+, 2022/04/29] 画像 エンコーダ (CLIP) ⾔語モデル (Chinchilla) ⼊⼒︓画像(複数枚可),テキスト 出⼒︓テキスト FFN+クロス アテンション 固定⻑の ベクトル 系列へ変換 https://arxiv.org/abs/2204.14198

Slide 93

Slide 93 text

• 動画に基づく質問応答の例 93 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198

Slide 94

Slide 94 text

• 画像に関する対話の例 94 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198 常識&視覚 情報に関する 対話 知識を ⽤いた対話

Slide 95

Slide 95 text

• CLIPの成功により⾃然⾔語インタフェースによるAI・ロボティクス研究 が今後⾶躍的に進みそう • CLIPによってあらゆるシーンで「⾔語で与えた⽬標」と「現状の視覚的 状態」の整合性について理解し易くなったことが⼤きい 95 V&L研究の応⽤分野はどう進むか︖ MOTIF [Burn+, 2022/02/04] モバイルアプリを⾃然⾔語により操作する CLIPort [Shridhar+, CoRL’21] ロボットアームを物体認識⾮依存で ⾃然⾔語により操作する https://cliport.github.io/ https://arxiv.org/abs/2104.08560 ⻘いブロックを緑のボウルに⼊れて

Slide 96

Slide 96 text

• 視覚⾔語をさらに発展させ,他のモーダルも⾔語と結びつけていくこと で,より汎⽤な知的エージェントへの挑戦が進んでいく • 他モーダルでのCLIPに相当するモデルの確⽴や,Transformerによる複数 モーダルの統⼀的なモデリングが重要となっていく 96 汎⽤⼈⼯知能研究はどう進むか︖ Gato [Reed+, 2022/05/12] ゲームや対話,ロボット制御など604タスクを 1モデルで学習.全ての⼊出⼒(テキスト・ 視覚・離散/連続値など)をトークン化して ⾔語モデル的に予測. MERLOT Reserve [Zellers+, CVPR’22] 20M件のYouTube動画から視覚・⾔語・⾳ の関係を学習.対照学習も利⽤. https://arxiv.org/abs/2201.02639 https://arxiv.org/abs/2205.06175

Slide 97

Slide 97 text

97 本講演のまとめ 近年の ⾃然⾔語処理 および Vision-and-Language 分野に関して, 基礎的な内容・最新動向・今後の展望について紹介しました. 1. モデルは汎⽤志向,タスクも理解/⽣成に⼤別される 2. セルフアテンションを⽤いる Transformer が主流に • 系列データに強く,マルチモーダルの統⼀的なモデリングも可能 3. ⾃⼰教師有り学習で⼤規模事前学習することが主流に • BERT︓ファインチューニングにより各タスクに適応 • GPT-3︓プロンプトによる少量の例⽰で新タスクに適応 4. モデル・事前学習コーパスの⼤規模化が進む • 莫⼤な予算・計算機リソースが必要な世界へ • ⼈間が作成した教師データの重要性にも改めて注⽬ 5. 視覚と結びつけた⾔語理解の⼤きな発展 • CLIPやFlamingoの成功は⼤きなマイルストンとなった • ⾔語理解を軸に汎⽤知的エージェントの実現への期待が⾼まる

Slide 98

Slide 98 text

1. Ashish Vaswan et al.: Attention is All you Need. NIPS 2017: 5998-6008 2. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Colin Raffel et al.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020) 5. Dzmitry Bahdanau et al.: Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015 6. Pranav Rajpurkar et al.: SQuAD: 100, 000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383- 2392 7. Jared Kaplan et al.: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) 8. Opher Lieber et al.: Jurassic-1: Technical Details and Evaluation, Tech. Report, AI21 Labs (2021) 9. Aditya Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 10. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. CoRR abs/2204.14198 (2022) 11. Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99 12. Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019) 13. Pengchuan Zhang et al: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579- 5588 14. Alexey Dosovitskiy et al.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021 15. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748- 8763 参考⽂献 98

Slide 99

Slide 99 text

16. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 17. Or Patashnik et al.: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. ICCV 2021: 2065-2074 18. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CVPR 2020: 8107-8116 19. Katherine Crowson et al: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. CoRR abs/2204.08583 (2022) 20. Patrick Esser, Robin Rombach, Björn Ommer: Taming Transformers for High-Resolution Image Synthesis. CVPR 2021: 12873-12883 21. Xiuye Gu et al.: Zero-Shot Detection via Vision and Language Knowledge Distillation. ICLR 2022 22. Yael Vinker et al.: CLIPasso: Semantically-Aware Object Sketching. SIGGRAPH 2022. 23. Guy Tevet et al: MotionCLIP: Exposing Human Motion Generation to CLIP Space. CoRR abs/2203.08063 (2022) 24. Jonathan Ho, Ajay Jain, Pieter Abbeel: Denoising Diffusion Probabilistic Models. NeurIPS 2020 25. Minesh Mathew et al.: DocVQA: A Dataset for VQA on Document Images. WACV 2021: 2199-2208 26. Ryota Tanaka et al: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021: 13878-13888 27. Yupan Huang et al: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. CoRR abs/2204.08387 (2022) 28. Minesh Mathew et al: InfographicVQA. WACV 2022: 2582-2591 29. ⽥中涼太 et al: テキストと視覚的に表現された情報の融合理解に基づくインフォグラフィック質問応答, NLP 2022 30. Geewook Kim et al.: Donut: Document Understanding Transformer without OCR. CoRR abs/2111.15664 (2021) 参考⽂献 99

Slide 100

Slide 100 text

31. Jack W. Rae et al.: Scaling Language Models: Methods, Analysis & Insights from Training Gopher. CoRR abs/2112.11446 (2021) 32. Jordan Hoffmann et al. : Training Compute-Optimal Large Language Models. CoRR abs/2203.15556 (2022) 33. Aakanksha Chowdhery et al.: PaLM: Scaling Language Modeling with Pathways. CoRR abs/2204.02311 (2022) 34. William Fedus et al.: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021) 35. Ze Liu et al: Swin Transformer V2: Scaling Up Capacity and Resolution. CVPR 2022 36. Romal Thoppilan et al.: LaMDA: Language Models for Dialog Applications. CoRR abs/2201.08239 (2022) 37. Stephen H. Bach et al.: PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts. ACL (demo) 2022: 93-104 38. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 39. Victor Sanh et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022 40. Haokun Liu et al.: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. CoRR abs/2205.05638 (2022) 41. Jason Wei et al: Chain of Thought Prompting Elicits Reasoning in Large Language Models. CoRR abs/2201.11903 (2022) 42. Yujie Lu et al.: Imagination-Augmented Natural Language Understanding. NAACL-HLT 2022. 43. Mohit Shridhar et al.: CLIPort: What and Where Pathways for Robotic Manipulation. CoRL 2021: 894-906 44. Andrea Burns et al.: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments. CoRR abs/2104.08560 (2021) 45. Rowan Zellers et al.: MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound. CVPR 2022 46. Scott E. Reed et al.: A Generalist Agent. CoRR abs/2205.06175 (2022) 参考⽂献 100