自然言語処理とVision-and-Language / A Tutorial on NLP & Vision-and-Language

Slide 1

Slide 1 text

⾃然⾔語処理と Vision-and-Language NTT⼈間情報研究所⻄⽥京介 2022年6⽉14⽇ 2022年度⼈⼯知能学会全国⼤会（第36回）チュートリアル講演

Slide 2

Slide 2 text

1. 深層学習による⾃然⾔語処理技術の動向 – タスクとモデルの分類 – Transformerとセルフアテンション – ⼤規模事前学習モデル︓BERT，GPT-3 2. ビジョン＆ランゲージへの派⽣ – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術 – ⽂書画像の理解 3. 最新動向と今後の展望 2 ⽬次

Slide 3

Slide 3 text

⾔語処理タスクとモデルアーキテクチャの分類 3

Slide 4

Slide 4 text

4 “深層学習時代の”⾃然⾔語処理の概要ニューラルネットワーク lϝϩε͸ౖܹͨ͠ɻඞͣɺ͔ͷअஐ๫ٮʜܾҙͨ͠z メロスは激怒 … したトークン（単語やサブワード）化各トークンをベクトルへ“埋め込み” ベクトル系列から所望の情報へ分類ラベル，⽣成テキスト，特徴量（ベクトル），etc. ⼊⼒テキストトークン系列ベクトル系列ベクトル系列出⼒情報ベクトル系列の変換を繰り返し⾏う

Slide 5

Slide 5 text

• ニューラルネットワークの出⼒を正解に近づけるように学習を⾏う • ⾃然⾔語処理タスクの多くは「分類問題」として学習される学習のイメージ 5 タスク︓テキストを2つのクラスに分類 2次元ベクトルを出⼒正解クラスの値を⼤きく不正解クラスの値を⼩さく lϝϩε͸ౖܹͨ͠ɻz 感情判定モデル “negative” “positive” タスク︓⼊⼒に続く次の単語を⽣成語彙サイズの次元数のベクトルを出⼒ lϝϩε͸z ⽂章⽣成モデル “激怒” 正解単語の値を⼤きく “⾛る” 他の値を⼩さく

Slide 6

Slide 6 text

• タスク毎に適したニューラルネットワークを設計し，正解情報付きのデータセットで学習していた • 深層学習により性能は⾼まったが，学習データが少ないと⾼い精度は実現しにくい課題が残っていた “BERT以前の”⾃然⾔語処理タスク特化ニューラルネット構造できれば数万件程度欲しいタスク応⽤モデルタスクデータで学習 6

Slide 7

Slide 7 text

• (1) ⼤規模なコーパスに基づく事前学習により汎⽤モデルを作り， (2) ファインチューニングにより各タスクに適応する⽅式が主流に • タスクごとにモデルを設計することは少なくなった．また，タスクは2種類に⼤別して語られることが多くなった “BERT以降”: 事前学習とファインチューニング事前学習済モデル（BERTなど）タスク応⽤モデル汎⽤ニューラルネット構造⼤規模コーパスで事前学習少量データでファインチューニング数GB〜レベルのアノテーションなしテキストコーパス数百〜数千件レベルの正解付データ 7

Slide 8

Slide 8 text

• ⾃然⾔語理解（NLU）と⾃然⾔語⽣成（NLG）の2種類に⼤きく分類 • タスクごとに適したアーキテクチャがある⾃然⾔語処理タスクの分類 • テキスト分類 • 情報検索 • 感情分析 • 固有表現抽出 • Etc. ⾃然⾔語理解 Natural Language Understanding テキストの意味を理解⾃然⾔語⽣成 Natural Language Generation ⼊⼒からテキストを⽣成 • 機械翻訳 • ⽣成型要約 • 発話⽣成 • ⾔い換え • Etc. 8

Slide 9

Slide 9 text

• エンコーダ型のモデルを⽤いて，テキスト（単語系列）のクラス分類，各単語へのラベリングなどを⾏う • 代表モデル︓BERT [Devlin+, NAACL’19] 9 NLUタスクとモデルのイメージ 4ٶ୔ ݡ࣏ ͸ ೔ຊ ͷ ⼈名固有表現抽出双⽅向モデリング各位置の出⼒は未来情報(右側)にも依存⼈名⽂学クラス分類テキストは⼀度に与えられる

Slide 10

Slide 10 text

• デコーダ型のモデルを⽤いて，⼊⼒系列の続きを⽣成したり，テキストAからテキストBへの変換を⾏う • 代表モデル︓GPT-3 [Brown+, NeurIPS’20] 10 NLGタスクとモデルのイメージ（1/2）⾃⼰回帰モデリング各位置の出⼒は過去情報(左側)にのみ依存 4ٶ୔ ݡ࣏ ٶ୔ ݡ࣏ 次単語予測予測を⼊⼒として戻す ͸ ⽇本 ͸ ೔ຊ ͷ

Slide 11

Slide 11 text

• エンコーダデコーダ型のモデルを⽤いて，テキストAからテキストBに変換（翻訳や要約など）する • 代表モデル︓Transformer [Vaswani+, NIPS’17]，T5 [Raffel, JMLR’21] 11 NLGタスクとモデルのイメージ（2） ͜Ε ͸ ϖϯ Ͱ͢ ɻ T T エンコーダの出⼒をデコーダで利⽤ 5IJT JT B QFO T 5IJT JT B QFO

Slide 12

Slide 12 text

• 近年の事前学習済み⾔語モデルの多くが殆どが Transformer ベースとなっている • ビジョン＆ランゲージにもTransformerの事前学習が派⽣している（後半で説明） 12 最近のベースモデル＝Transformer Transformer BERTなどエンコーダデコーダを事前学習 GPT-3などデコーダを事前学習 T5などエンコーダを事前学習エンコーダデコーダ

Slide 13

Slide 13 text

Transformer とセルフアテンション 13

Slide 14

Slide 14 text

• 単語間の関係を理解（表現）するためにRNNやCNNを⽤いず，アテンションのみを⽤いたエンコーダデコーダ型モデルを提案 • 機械翻訳で評価実験し，当時の最⾼性能を更新 14 Transformer [Vaswani(Google)+, NIPS’17] Transformer エンコーダ Transformer デコーダこれはペンです This is a pen This is a pen

Slide 15

Slide 15 text

次単語は何か︖ • デコーダが1単語ずつ出⼒するときに、エンコードされた翻訳元テキストのどの部分に注意すれば良いかを与える機構（⾏列計算で実現） 15 アテンション [Bahdanau(Jacobs U)+, ICLR’15] これはペンです This is a “pen”を予測注意 softmax = Encoderの隠れ状態の重み付き平均エンコーダデコーダコンテキスト（「ペン」に強い注意） ℝ!×# ℝ#×$ ℝ$×# ℝ!×#

Slide 16

Slide 16 text

• エンコーダデコーダ間のクロスアテンションに加えて，Transformerでは系列単体でもアテンションを取る • 系列の各位置をQuery，系列全体をKey，Valueとして考える 16 セルフアテンション softmax = Query Key Value Valueの重み付き平均 Key-Value辞書から，Queryに近い KeyのValueを取り出すイメージ softmax 𝑄𝐾! 𝑉

Slide 17

Slide 17 text

• エンコーダデコーダの双⽅でセルフアテンションを導⼊ • ブロックを多層に積上げることで性能向上 • 今⽇の説明は超簡易版なので詳細は論⽂等にて︕ 17 Transformerの簡略化イメージ Self-Attention (Q=X, K=X, V=X) Self-Attention (Q=Y, K=Y, V=Y) Cross-Attention (Q=Y, K=X, V=X) ブロックxN ブロック xN ⼊⼒単語系列X 出⼒単語系列Y（次単語予測）出⼒単語系列Y（予測を戻す）単語・位置埋込単語・位置埋込線形変換＆softmax FFN(MLP) FFN(MLP)

Slide 18

Slide 18 text

• 単語系列の⽂脈の理解は主にRNN（LSTMやGRU）で⾏われてきたが、⻑期依存性の理解には限界があった • セルフアテンションでは系列内で遠く離れた単語の関係性も直接考慮できるため性能向上に⼤きく寄与した 18 なぜセルフアテンションが重要なのか単語系列単語系列 RNN セルフアテンション遠く離れた単語の関係性を捕まえにくい遠く離れた単語も直接関係を考慮単語系列 ℎ%&! = RNN ℎ%, 𝑥% 𝑄𝐾!

Slide 19

Slide 19 text

• ニューラルネットワークによる⾔語処理が主流に • 近年では事前学習により汎⽤モデルを作り，ファインチューニングにより各タスクに適応させる • タスクはNLU（⾃然⾔語理解）とNLG（⾃然⾔語⽣成）に⼤別 • モデルはエンコーダ，デコーダ，エンコーダデコーダ型がある • 最近のベースモデルはTransformerで，テキストをはじめとした系列データのモデリングに強い • TransformerはBERTやGPT-3に利⽤されている 19 ここまでのまとめ

Slide 20

Slide 20 text

BERTによる事前学習＆ファインチューニング

Slide 21

Slide 21 text

• ⼤量のテキストデータで事前学習した，24層の巨⼤なTransformerエンコーダに基づく⾔語モデル（340M＝3.4億個のパラメータ） • 多数の⾃然⾔語理解（NLU）タスクへのファインチューニングで⾼い性能を実現して注⽬を浴びる 21 BERT [Devlin(Google)+, 2018/10, NAACLʼ19] https://www.aclweb.org/anthology/N19-1423/

Slide 22

Slide 22 text

22 既に実⽤化が進むBERT https://www.blog.google/products/search/search-language-understanding-bert/ • 2019年10⽉25⽇（BERT発表から1年後）、Googleは検索エンジンのアルゴリズムをBERTベースにアップデート • 2019年12⽉10⽇には⽇本語含む72⾔語に拡張よりクエリの意図を考慮した結果に

Slide 23

Slide 23 text

• 質問に対してテキストを読み解いて回答するタスク 23 BERTが優れた性能を達成したタスクの例︓ 機械読解（SQuAD 1.1） [Rajupurkar(Stanford)+, EMNLP’16] ⼊⼒︓Wikipediaの段落⼊⼒︓質問出⼒︓回答テキスト中の任意の範囲を抽出して回答 https://www.aclweb.org/anthology/D16-1264/

Slide 24

Slide 24 text

• 機械読解に特化したニューラルネット構造を持たずに、⼈間の質問応答スコアを⼤きく超える性能を達成 24 SQuAD 1.1で⼈間超えのスコアを達成完全⼀致部分⼀致⼈間の正答率 82.304% BERTの正答率 87.433% https://rajpurkar.github.io/SQuAD-explorer/

Slide 25

Slide 25 text

• ⽳埋め問題により，⽂脈の中で単語が出現する確率を予測する • ⼤量のテキストさえあれば，⼈間が追加で正解をアノテーションすることなく学習可能（⾃⼰教師あり学習） 25 BERTの特徴(1) マスク化⾔語モデリング … My [MASK] is hairy … … My dog is hairy … ⼊⼒の⼀部をマスクマスク前の⽂章を予測双⽅向アーキテクチャマスク単語の前後の情報を使って予測

Slide 26

Slide 26 text

BERT （Transformerエンコーダ） • ⾃然⾔語理解（NLU）のタスクは2つの⽂の関係性理解が多い • そこで，⽂書中で隣接する⽂/ランダムな2⽂をセパレータで繋げて、隣接する⽂か否かの判定を⽳埋め予測と同時に学習 26 BERTの特徴(2) 次⽂章予測 [CLS] my dog is cute [SEP] he likes play [MASK] [SEP] 2⽂⽬ 1⽂⽬ IsNext my dog is cute [SEP] he likes play piano [SEP] 分類︓2⽂が隣接か否か︖ ⽳埋め

Slide 27

Slide 27 text

• シンプルな出⼒層を1層だけ基盤モデルの最上部に追加する – 例︓機械読解では回答範囲の始点・終点予測⽤に線形変換を追加 27 BERTの特徴(3) ファインチューニング BERT （Transformerエンコーダ）出⼒層 [CLS] 質問⽂ [SEP] テキスト（回答抽出元） [SEP] テキスト中の各トークンの回答範囲始点・終点スコア …. は 3 ⽉ 12 ⽇である … ….. の⽇付は ︖

Slide 28

Slide 28 text

GPT-3による事前学習＆few-shot学習 28

Slide 29

Slide 29 text

• 超⼤量のテキストデータ（3000億トークン）で事前学習した，96層の超巨⼤なTransformerデコーダに基づく⾔語モデル • パラメータ数は175B＝1750億個（ファイルサイズで⾔うと700GB程度） • 参考︓BERTは 24層，3.4億個のパラメータ，約3.3億トークン 29 GPT-3 [Brown(OpenAI)+, 2020/07, NeurIPS’20] 4 GPT-3はBERTの⽳埋めではなく次単語予測で事前学習する 𝑤! 𝑤' 𝑤( 𝑤) 𝑤* 𝑤! 𝑤' 𝑤( 𝑤) 𝑤*

Slide 30

Slide 30 text

• ⼈間の様な「少数の例⽰による学習」が可能になってきた • ⼤量のテキストの中には同⼀タスクの例が繰返し現れるコンテキストも含まれており，こうした学習が例⽰による学習能⼒を向上させる 30 GPT-3の膨⼤な事前学習が可能にすること⼤量テキストによる事前学習同⼀タスクの繰り返しを含む系列 https://arxiv.org/abs/2005.14165

Slide 31

Slide 31 text

• タスク説明と少数の例を与えるのみでモデルの更新無しに問題を解く 31 GPT-3のfew-shot学習ここまでを⼀つの系列としてGPT-3に⼊⼒ è 回答を続きの⽂章として出⼒する https://arxiv.org/abs/2005.14165

Slide 32

Slide 32 text

32 GPT-3のデモ（⾃然⾔語シェル 2:40〜） https://openai.com/blog/openai-api/

Slide 33

Slide 33 text

33 GPT-3のデモ（コード⽣成） https://twitter.com/sh_reya/status/1284746918959239168

Slide 34

Slide 34 text

34 GPT-3のデモ（エクセルの補完） https://twitter.com/sh_reya/status/1284746918959239168

Slide 35

Slide 35 text

35 Jurassic-1 [Lieber(AI21)+, 2021/08] タスク説明例プロンプト⽣成テキスト • イスラエルのスタートアップ企業AI21により，ほぼGPT-3と同サイズ（1780億）のモデルがリリースされた • AI21ではアカウント登録すれば無料利⽤できる環境に加えて，テキスト⽣成やカスタム学習が可能な有料APIを提供している https://studio.ai21.com/playground より実際の実⾏例

Slide 36

Slide 36 text

• 計算量（学習回数），学習トークン数，モデルパラメータ数，に⾔語モデリング（次単語予測）の性能は強く依存することを実験的に⽰す è ⼤量の計算機資源を⽤いて，⼤量のデータを，⼤きいモデルで学習すれば良いモデルができる︕ 36 Scaling laws [Kaplan (OpenAI)+, 2020/01] https://arxiv.org/abs/2001.08361

Slide 37

Slide 37 text

• 2018/10のBERTの発表によりパラダイム・シフトが発⽣し，「⼤規模モデルの事前学習→ファインチューニング」が主流に • 2020/07のGPT-3の発表以降は，Few-shot学習（プロンプト＝⼊⼒テキストとして少量の例⽰）が⼤きな注⽬を集めている • BERTもGPT-3も⼤量のテキストがあれば学習可能（⾃⼰教師あり学習） • ⼤量の計算機資源を⽤いて，⼤きいモデルで，⼤量のデータを学習する，というアプローチが活発化している 37 ここまでのまとめ

Slide 38

Slide 38 text

1. 深層学習による⾃然⾔語処理技術の動向 2. ビジョン＆ランゲージへの派⽣ – 視覚と⾔語を扱うTransformerモデル – 視覚と⾔語の対照学習︓CLIP – CLIPが可能にした技術 – ⽂書画像の理解 3. 最新動向と今後の展望 – モデル・データの⼤規模化 – プロンプトとファインチューニング – ⾔語を軸としたマルチモーダル理解へ 38 ⽬次

Slide 39

Slide 39 text

• 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が，視覚と⾔語を結びつけた理解にも派⽣し，急速に発展している 39 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,2022/04/29] “DALL-E 2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+,2022/04/13] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck https://cdn.openai.com/papers/dall-e-2.pdf https://arxiv.org/abs/2204.14198

Slide 40

Slide 40 text

• ⾃然⾔語処理と同様に，理解／⽣成で⼤別可能 40 Vision-and-Languageの主なタスク視覚・⾔語の融合理解に基づく⽣成視覚・⾔語の融合理解ベレー帽とタートルネックを着た柴⽝ Document VQA (回答⽣成型) チョコレートシロップが掛かったワッフル2つとアイス Score: 0.98 画像・⾔語のマッチング（検索） VQA (回答選択型）ベッドの上に⼦供は何⼈いますか︖ 1 / 2 / 3 / … ソーシャルメディアの利⽤率は︖ 16% (100-84) 階段を登り，次にピアノの横を．．． forward, left, …, stop ロボットナビゲーション Image-to-text ／ Text-to-image

Slide 41

Slide 41 text

1. Webなどから⼤量の画像とキャプションのペアを収集 2. 画像を系列データとして捉えて，テキストの単語系列と併せて Transformerエンコーダに⼊⼒ 3. ⽳埋め・マッチングタスクなどで事前学習 41 V&L事前学習の概要 Web 店内でオレンジジュースをカップに注いでいる⼥性⼤量に収集 https://cocodataset.org/#explore?id=306267 Transformerエンコーダ [SEP] 店内でオレンジ … ⼥性 [CLS] … 系列化⼥性? [MASK] 各トークンの⽳埋め問題本当に存在する画像とキャプションのペアか︖ True?

Slide 42

Slide 42 text

• Faster R-CNN [Ren+, NIPS15]などにより画像からオブジェクト（およびそのベクトル表現）を検出し，1つの系列に並べる • VQAなどのタスクではオブジェクトの種類や個数が問われる事が多いため，初期のV&Lモデルではこのアプローチが⼀般的であった 42 画像を系列データとして扱う画像 N個のオブジェクトの特徴ベクトル系列 … https://arxiv.org/abs/1908.03557 ℝ+×#

Slide 43

Slide 43 text

• BERTと同様に単語をマスクして⽳埋め問題を解く • 画像側のトークンをマスクした⽳埋め問題（特徴量の再現やオブジェクトのクラス分類）を解く場合もあり 43 事前学習タスク: Masked Language/Region Modeling Transformerエンコーダ⼥性 [SEP] 店内でオレンジ … ⼥性 [CLS] … [MASK] [MASK]

Slide 44

Slide 44 text

• データセットの中にあるペア（正例）とランダムサンプリングで作った負例のペアを⾒分けるタスク • このタスクも⼤量にデータを⽤意できる 44 事前学習タスク: Image-Text Matching ランダムに⼊れ替え Transformerエンコーダ Matching/ Not-matching [SEP] ⾺に跨って …… いる少年 [CLS] …

Slide 45

Slide 45 text

• 物体検出を1848クラス/524属性まで強化した事前学習モデル • さらに，検出された物体の名前（タグ）を同時に⼊⼒することで，⾔語・画像を結びつけた事前学習を強化 45 VinVL [Zhang(Microsoft)+, CVPR’21] https://openaccess.thecvf.com/content/CVPR2021/html/Zhang_VinVL_Revisitin g_Visual_Representations_in_Vision-Language_Models_CVPR_2021_paper.html 単語系列タグ系列物体系列マッチングタスクトークン⽳埋め

Slide 46

Slide 46 text

• 物体検出器がカバーする概念の広さと検出精度にV&Lモデルの性能が⼤きく依存してしまう è 物体検出に依存しない，汎⽤の画像エンコーダが得られないか︖ 46 物体検出による画像表現抽出の限界⾷品⾷器フォーク⾷器⾷器商⽤の物体検出APIの結果各種Webサービスのアイコンを認識できず⾷品や⾷器の細かい違いが認識できていないマットやコーヒーについて認識漏れオブジェクト検出なし

Slide 47

Slide 47 text

• パッチ︓画像を⼩さい領域に分割して埋め込みトークン化 • グリッド︓画像をそのまま⼊⼒しグリッド毎の特徴量を出⼒ 47 パッチ／グリッド⽅式による系列化 Transformer CNN パッチごとに線形変換パッチ分割画像特徴（グリッド数）画像特徴（パッチ数）

Slide 48

Slide 48 text

• 画像パッチを単語とみなすパラメータ数632MのTransformerエンコーダ • 3億枚以上の画像分類で事前学習し，画像分類タスクで最⾼精度を達成 • ただし，従来のCNNを圧倒する程の精度では無かった è 画像分類タスクでの事前学習に限界がある︖ 48 Vision Transformer (ViT) [Dosovitskiy(Google)+, ICLR’21] https://arxiv.org/abs/2010.11929 位置は1D 線形変換 ℝ(#!$%)×( パッチ ℝ#!$% 14x14あるいは16x16 分割クラス分類

Slide 49

Slide 49 text

CLIPの対照学習アプローチ

Slide 50

Slide 50 text

• Webから収集した4億件の画像とテキストのペアから事前学習された視覚・⾔語の基盤モデル • 画像エンコーダとテキストエンコーダが独⽴に⼊⼒をベクトル化 • 正しい画像と説明⽂のペアの内積が⼤きくなるように対照学習 50 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 正しいペアの内積を⼤きくするように学習 Vision Transformer やCNN Transformer 各テキストのベクトル各画像のベクトル https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 51

Slide 51 text

51 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 固定のクラスベクトル集合（学習パラメータ）テキストエンコーダが出⼒した任意のテキストの表現 CLIP（Contrastive Language-Image Pre-training）関係するテキスト表現との内積が⼤きくなるように両⽅のエンコーダを学習正解のクラスベクトルとの内積が⾼くなるように学習通常の画像分類 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 52

Slide 52 text

52 CLIP [Radford(OpenAI)+, 2021/01, ICML’21] • 事前学習後は，追加の学習無し（zero-shot）で任意のテキスト候補の中から画像にマッチするものを選ぶことが可能 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf

Slide 53

Slide 53 text

• 従来の画像分類や物体検出ではカバーできていない概念も理解 53 Zero-shot分類の例 ✔ワカモレ ✔癌化リンパ節 (正常リンパ節) ✘笑顔 (怒り) ✔TVスタジオ ✘キツネリス (オオヤマネコ) ✔バレーのスパイク ✔⾶⾏機 ✔⿃ ✔カンガルー https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf

Slide 54

Slide 54 text

• これまでの画像分類や物体検出で事前学習された画像エンコーダは，視覚と「有限個の記号」の結びつけであった • CLIPにより，視覚と「任意の⾔語」を結びつけた理解が⾰新的に進み，最近の急速なモデルの進化につながった 54 CLIPは何が凄いのか(1) Class: 11 画像エンコーダはこのクラスが何を意味しているのか理解していない画像分類・物体検出の場合 l੺ɺԫɺനɺࠇͳͲͰ઱΍͔ʹ ࠼ΒΕͨඒ͍͠খௗ͕໦ʹࢭ·͍ͬͯΔz CLIPの場合⾔語と結びつけた理解は様々な概念の共通理解に通づる https://salient-imagenet.cs.umd.edu/explore/class_11/feature_520.html

Slide 55

Slide 55 text

• 従来のImageNetデータセットでは，25,000⼈が1,400万枚の画像に対して 22,000クラスをWordNetの名詞と紐付けてアノテーション • CLIPはWebから収集したデータを⽤いて，（ノイズはあるが）⽐較的低コストで遥かに広い概念を⾔語と結びつけて学習可能 55 CLIPは何が凄いのか(2) ImageNetの ”Tench”（コイ科の淡⽔⿂）カテゴリの写真の例 ImageNetの ”Siberian Husky”カテゴリの写真の例本来不要な男性も含めてTenchが学習されてしまう⽝の数や動作については無考慮 https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html CLIP: 「釣り上げたTenchを抱えている男性」と学習 CLIP: 「3匹のシベリアンハスキーが芝⽣に座る」と学習

Slide 56

Slide 56 text

• 初期のV&Lモデルでも画像とテキストのマッチングの学習は⾏っていたが，画像とテキストを同時に⼊⼒するので学習効率を上げにくい • CLIPではエンコーダが分離されているので対照学習を⾏い易い – テキスト検索においては”In-batch Negatives”として知られるテクニック [Karpukhin, EMNLP’20] 56 CLIPは何が凄いのか(3) エンコーダが分離されていれば， B件のペアに対して B^2の組み合わせの学習が可能 https://cdn.openai.com/papers/Learning_Transferable_Visual_ Models_From_Natural_Language_Supervision.pdf 画像とテキストを同時に⼊⼒するクロスエンコーダタイプ

Slide 57

Slide 57 text

CLIPが可能にした技術

Slide 58

Slide 58 text

• CLIP空間上のテキストの変化⽅向を，StyleGAN [Karras+, CVPR’20] 空間に画像チャネル毎に射影し，⾃然⾔語による画像編集を可能にした • 各空間における画像の変化の関係を予め前処理として獲得しておくことで，画像編集時は学習なしで編集可能 StyleCLIP [Patashnik+, ICCV’21] https://openaccess.thecvf.com/content/ICCV2021/papers/Patashnik_StyleCL IP_Text-Driven_Manipulation_of_StyleGAN_Imagery_ICCV_2021_paper.pdf A female face A surprised female face CLIP空間 Style空間射影 58

Slide 59

Slide 59 text

• VQGAN [Esser+, CVPR’21] で⽣成した画像がCLIP空間でターゲットテキストと類似するように潜在変数（Z-vector）を最適化する • “AIアート”としてSNS・ニュースサイト等で話題に VQGAN+CLIP [Crowson(EleutherAI)+, 2021/07] Z-vector VQGAN Decoder CLIP 類似度のlossで学習学習パラメータ an astronaut in the style of van Gogh https://arxiv.org/abs/2204.08583 blue whales swimming through neon city 59 https://twitter.com/ak92501/status/1413360535685435396

Slide 60

Slide 60 text

• 視覚・⾔語で学習したCLIPを動画データを⽤いて⾳と結びつける • VQGAN+CLIPを利⽤して，⾳声に関連する画像を⽣成することが可能 Wav2Clip [Wu(Descript)+, ICASSP’22] 60 https://arxiv.org/abs/2110.11499 https://descriptinc.github.io/lyrebird-wav2clip/

Slide 61

Slide 61 text

• 学習時に，物体検出モデルの出⼒する領域の画像表現を，CLIP空間の画像表現に近づける（蒸留）ようにすることで，任意のテキスト（”open vocabulary”）で物体検出可能なモデル 61 ViLD [Gu(Google)+, ICLR’22] Toy duck CLIPのテキストエンコーダで任意のテキストクラスを指定可能物体検出器の出⼒ CLIPの画像エンコーダの出⼒に近づける Toy duck Green toy Blue toy https://arxiv.org/abs/2104.13921

Slide 62

Slide 62 text

• 画像からスケッチに変換．元画像とスケッチ画像がCLIP空間（画像エンコーダのみ利⽤）上で近くなるように，n本の曲線を最適化していく 62 CLIPasso [Vinker(EPFL)+, SIGGRAPH’22] https://clipasso.github.io/clipasso/ 初期化に利⽤最適化される n本のベジェ曲線パラメータ

Slide 63

Slide 63 text

63 MotionCLIP [Tevet(Tel Aviv U.)+,2022/03] • 運動（モーションキャプチャの系列）のオートエンコーダの潜在変数を CLIP空間の⾔語・視覚と結びつけて学習 • モーションの⽣成，任意の運動の認識，運動の合成などが可能に

Slide 64

Slide 64 text

DALL-E 2 [Ramesh(OpenAI)+,2022/04/13] • CLIP＋拡散モデル [Ho+, NeurIPS’20] によるテキストからの画像⽣成 • (1) CLIPのテキスト表現→画像表現を⽣成するpriorと，2) CLIPの画像表現 →画像を⽣成するdecoderにて画像を⽣成画像表現テキスト表現 https://cdn.openai.com/papers/dall-e-2.pdf 64 拡散モデル等拡散モデル

Slide 65

Slide 65 text

• Vision-and-Languageタスクも理解・⽣成に⼤別される • BERT以降，画像を物体検出して系列化し，⾔語の系列と合わせて Transformerでモデリングする⽅式の検討が進んできた • 2021/01の対照学習を⽤いるCLIPにより，画像分類や物体検出に依存した事前学習の限界を越え，視覚と⾔語の融合が⼤きく進んだ • 近年では，画像・テキスト検索のみならず，テキストからの画像⽣成など，様々なタスクでCLIPの導⼊が進んでいる 65 ここまでのまとめ

Slide 66

Slide 66 text

⽂書画像の理解 66

Slide 67

Slide 67 text

67 ⽂書を”視覚的に”読み解くAIを⽬指して上限料⾦ (税込) 5,800 円/⽉基本料⾦ (税込) 2,500 円/⽉使った分だけ利⽤料が増えます⽉額利⽤料回線利⽤量 2段階定額プラン 1,000MB 200MB ライトプラン利⽤料⾦イメージ 1,000MB の⽬安ホームページ閲覧とメールに加え，動画閲覧を⽉に1時間程度 2⽇に1回，1時間程度インターネット利⽤ 200MB の⽬安ホームページ閲覧とメールが中⼼ 2⽇に1回，30分程度インターネット利⽤ 1,200MB 動画を毎⽇1時間は⾒るのですが，ライトプランの料⾦は⽉額幾らになりますか︖ 上限料⾦の税込⽉額5,800円になります動画を毎⽇⾒るなら1200MB/⽉は確実に超えそうこのページに答えがありそうだな • ⼈間が⾒る⽂書の情報をそのまま理解可能なAIの実現を⽬指す • ⾔語情報，レイアウト，図やグラフ・表など多岐に渡る理解が必要

Slide 68

Slide 68 text

68 視覚情報に含まれる⾔語情報の理解画像に対する質問応答や画像の説明⽂⽣成，画像検索画像中のテキストも考慮したタスクへ単語レベルから⽂・⽂書へグラフや表なども併せた理解まで広がる • VQAやキャプショニングを発展させ，視覚情報に含まれる⾔語情報に着⽬したタスクやデータセットの整備が2019年頃から進む • さらに，2021年頃からは⽂書画像への取り組みが活発化している

Slide 69

Slide 69 text

• （⽐較的古い）⽂書画像に対するVQAデータセット • ⽂書あたり平均150単語程度が含まれる 69 DocVQA [Mathew+ (IIIT Hyderabad), WACV’21] https://openaccess.thecvf.com/content/WACV2021/html/Mathew_DocVQA_ A_Dataset_for_VQA_on_Document_Images_WACV_2021_paper.html

Slide 70

Slide 70 text

• Webページのスクリーンショットに基づく視覚的読解 • レイアウト理解と⽣成型機械読解を統合した問題設定とモデルを提案 70 VisualMRC [Tanaka & Nishida (NTT), AAAI’21, NLP’21最優秀賞] 全ての領域をアノテーション︓ 9つの意味クラスに分類約30,000件のQAを作成回答は⽣成型 https://arxiv.org/abs/2101.11272 約10,000枚の画像を収集 https://github.com/nttmdlabnlp/VisualMRC

Slide 71

Slide 71 text

71 ⼀般的な⽂書理解モデルの例 • ⽂書画像⽤のモデルはOCRで抽出された単語の2D座標を考慮する • 視覚表現はオブジェクト（図や段落など）/パッチ/グリッドのいずれか • ⽳埋め問題や，⾔語・視覚間の対応付けにより学習⽂書中座標このモデルでは画像をパッチ化 LayoutLMv3 [Huang(Microsoft)+,2022/04/18] OCRでテキスト抽出各モーダルの⽳埋め問題とパッチ⇔トークンの対応付 https://arxiv.org/abs/2204.08387 ⽂書画像

Slide 72

Slide 72 text

• インフォグラフィックに対するVQA．グラフやアイコンに対する理解が重要となるコンペティションが開催された • NTTは事前学習データ量を従来モデルの1/22に抑えつつ同程度のサイズのモデルの中で最も⾼い性能を達成し2位に⼊賞（18チーム337投稿中） 72 Infographics VQA [Mathe(IIIT)+, WACV’22] Q. How many females are affected by diabetes A. 3.6% Q. What percentage of cases can not be prevented A. 40% (100 – 60) Q. What could lead to blindness or stroke A. diabetes https://rrc.cvc.uab.es/?ch=17

Slide 73

Slide 73 text

1. 物体検出器を利⽤して視覚物体の領域，意味クラスを追加⼊⼒ 2. ⽳埋め事前学習 (MLM) により，テキストと視覚物体との対応づけ 3. （簡易的な）演算の過程を⽣成 73 IG-BERT [⽥中+,NLP’22] 配置情報トークン位置情報セグメントポイント2 キャプションポイント3: 簡易な演算を実施可能にポイント1︓アイコン⽤の物体検出器を作成 40(100-60) https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

Slide 74

Slide 74 text

• 演算の過程を学習可能な新たなデータ拡張⼿法を提案 74 IG-BERT [⽥中+,NLP’22] 質問: 糖尿病を防げた事例の割合は︖ 回答正解データ: 40% 4.3% 3.6% 1 10 $6 60% 1. ⽂書から数値データの抽出 2. 事前に⽤意した演算テンプレートに代⼊「60% + 4.3% = 64.3%」「100% - 60% = 40%」 3. 回答正解データと⼀致するならデータに加える．．． 100% - 60% 100-60=40の演算が必要この演算過程テキストそのものを⽣成する https://www.anlp.jp/proceedings/annual_meeting/2022/pdf_dir/C1-3.pdf

Slide 75

Slide 75 text

• 配置関係によるテキストの意味理解はだいぶ進んだ • ダイヤグラム・グラフ・イラストなどの視覚要素や，論理・数値演算の理解のレベルをもう1段上げる必要がありそう • OCRや物体認識を包含してend-to-endに理解できるか 75 ⽂書画像理解の現状とこれから Donut [Kim(NAVER)+, 2021/11] InfographicsVQA [Mathe(IIIT)+, WACV’22] 情報が視覚的に表された⽂書に対するQA．数値演算や視覚的理解の能⼒が必要 https://arxiv.org/pdf/2104.12756 OCR無しで⽂書画像を理解するTransformer モデル．運⽤や速度⾯で⼤きなメリット https://arxiv.org/abs/2111.15664

Slide 76

Slide 76 text

1. 深層学習による⾃然⾔語処理技術の動向 2. ビジョン＆ランゲージへの派⽣ 3. 最新動向と今後の展望 – モデル・データの⼤規模化 – プロンプトとファインチューニング – ⾔語を軸としたマルチモーダル理解へ 76 ⽬次

Slide 77

Slide 77 text

モデル・データの⼤規模化 77

Slide 78

Slide 78 text

• 280B（2800億）パラメータのモデルを⽤いて152タスクで徹底的な評価 • モデルを⼤規模化することにより，機械読解やファクトチェックなどで性能向上したが，論理的・数学的・常識の推論は⼤きく改善せず 78 Gopher [Rae(DeepMind)+, 2022/01/21] https://arxiv.org/abs/2112.11446 ⾔語モデリング，数学・常識・論理推論では改善幅が⼩さい 7.1Bと280Bモデルの性能⽐較．上に⾏くほど280Bが優位．

Slide 79

Slide 79 text

• 400種類のモデルと学習トークン数の組み合わせで実験 • Chinchilla（70Bパラメータ／1.4Tトークン）は，Gopher（280Bパラメータ／300Bトークン）の性能を多くのタスクで凌駕 • 近年の⼤規模モデルは学習データ数が不⾜していることを指摘 Chinchilla [Hoffman (DeepMind)+, 2022/03/29] https://arxiv.org/abs/2203.15556 Gopherは必要トークンの 1/17しか学習していない︖ モデルサイズごとの最適計算量・トークン数 79

Slide 80

Slide 80 text

• パラメータ数が 540B（denseなTransformerでは現在最⼤）のモデル • モデルサイズに対して，幾つかのタスクでモデルサイズの増加により，⾮連続的に性能が改善 PaLM [Chowdhery (Google)+, 2022/04/19] https://arxiv.org/abs/2204.02311 (b)は⾮連続的な改善モデルサイズ vs. タスク性能 80

Slide 81

Slide 81 text

• ⾔語モデルでは「⾮連続的な性能向上」など興味深い現象の解明に向かって⼤規模化が続きそう．sparseなTransformer（Mixture Of Experts）ではbillion（10億）を越えてtrillion（1兆）レベルへ進んでいる • ⼀⽅で，画像モデルはまだ3B（dense）〜15B（sparse）程度．⾔語に⽐べて，単純なサイズ増⼤が精度向上に繋がっていないモデルは今後さらに⼤きくなるか︖ SwitchTransformer [Fedus+, JMLR22] SwinTransformer V2 [Liu+, CVPR’22] Transformer構造を変更しモデルサイズ3B/ 解像度1536x1536までスケールアップに成功 MoE構造の1.6TBモデル．各トークンに対してexpertのみが動作するので省計算 2048 experts 81 https://arxiv.org/abs/2101.03961 https://arxiv.org/abs/2111.09883

Slide 82

Slide 82 text

• ⽇々新しい知識が発⽣することや，ニューラルモデルには不得意な分野の存在を考えると，全ての知識・機能を1モデル内に詰め込む必要は無い • 特に情報検索や数値計算などと組み合わせて利⽤可能なモデルの研究が活発化している外部ツールを使えるようになるか︖ LaMDA [Thoppilan(Google)+, 2022/01/20] 検索・計算・翻訳ツールをモデルの外に置き，随時呼び出して応答⽂作成に利⽤外部知識から得たテキストを基に⽣成した応答⽂ユーザ発話検索クエリ発⾏検索クエリ発⾏ 82 https://arxiv.org/abs/2201.08239

Slide 83

Slide 83 text

• （偏りの存在する）⼤量データで学習したことによる，⾔語モデルの出⼒に関するバイアスの存在や，有害なテキスト⽣成の問題が課題 • 近年の⼤規模⾔語モデルの評価観点として重要視されているモデルのバイアスを解消できるか︖ https://arxiv.org/pdf/2204.02311.pdf The nurse notified the patient that his shift would be ending in an hour. The “his” refers to … the patient ? the nurse? 指⽰語の性別バイアスの評価ステレオタイプと異なる組み合わせだと精度落ちるプロンプトに続く⽣成テキストが有害となる分布特定宗教に関して有害なテキストを⽣成しやすいスコア⼤︓有害 https://arxiv.org/abs/2204.02311 83 PaLM [Chowdhery (Google)+, 2022/04/19]

Slide 84

Slide 84 text

プロンプトチューニングとファインチューニング 84

Slide 85

Slide 85 text

85 PromptSource [Bach(Brown U)+, 2022/2/2, ACL’22 demo] https://arxiv.org/abs/2202.01279 • 追加学習が難しい⼤規模⾔語モデルで重要となる「プロンプト」の作成・共有・利⽤のためのツールキット 👉 pip install promptsource • 170を超えるデータセット⽤に2000個以上のプロンプトが作成済． – 良い結果を得るための「プロンプトチューニング」が⾏われている

Slide 86

Slide 86 text

• PaLMの翻訳の例では，540BのモデルでもFew-shot学習（プロンプトの例⽰だけ）ではFine-tuningモデルの性能に追いついていない • カザフ語(kk)などの低資源⾔語になると学習コーパスに含まれる量が激減し，対訳データを⽤いたモデルと⼤きく差が付く． ※ PaLMの学習コーパス中カザフ語は134Mトークン，ドイツ語(de)は26Bトークン． PaLM [Chowdhery (Google)+, 2022/04/19] 図︓ https://arxiv.org/abs/2204.02311 の情報をまとめて作成 0 5 10 15 20 25 30 35 40 45 50 en->fr en->de en->ro en->kk kk->en PaLM(0-shot) PaLM(1-shot) PaLM(few-shot) 対訳データ利⽤ 0-shot︓promptの翻訳例なし 1-shot︓promptに翻訳例を1ペア利⽤ Few-shot︓promptに9 or 11例利⽤ 86

Slide 87

Slide 87 text

• ⼈⼿で作成した「⼊⼒プロンプトに関する⽣成テキストの評価データ」を基に報酬モデルを構築．これを⽤いて強化学習で⾔語モデルを更新 • InstructGPTは1.3Bのモデルで，通常の175B事前学習モデルよりも事実性や有害性の観点で良い（より⼈間の感覚に合う）テキストを⽣成できた 87 InstructGPT [Ouyang (OpenAI)+, 2022/03/04] https://openai.com/blog/instruction-following/

Slide 88

Slide 88 text

• 教師あり学習で⼤規模モデルを特定のタスクに適応させるのは困難 • ⼩型のモデルで教師あり学習を組み合わせて，⼤型モデル並の優れた性能と運⽤のし易さを両⽴する研究も進んできている精度が良く使い易いモデルを作れるか︖ T0 [Sanh (Huggingface)+, ICLR’ 22] 55タスクをプロンプト付で同時学習することで新規タスクをzero-shotで実施可能． 11Bモデルで175BのGPT-3を時に上回る T-Few [Liu(UNC)+, 2022/05/11] モデル全体の0.02%程度にあたる追加パラメータのみを更新．11タスク/各50サンプル学習の平均精度でGPT-3を上回る 88 https://arxiv.org/abs/2205.05638 GPT-3 175B T-Few 3B 精度計算量 https://arxiv.org/abs/2110.08207

Slide 89

Slide 89 text

• ⾔語モデルにおけるプロンプトの考え⽅は，AIの⼊出⼒の「説明可能性」においても今後重要性を増していく • 思考の⾔語化・視覚化は，ヒトにとって分かりやすいだけでなく，難しいとされてきたタスクの解決にも期待できる 89 AIの思考過程を明らかにできるか︖ iACE [Lu+, NAACL’22] ⾔語理解タスクである含意認識のテキストを画像化（想像）して視覚・⾔語の両⾯から判断 Chain of thought [Wei+, 2022/1/28] 算数の⽂章題の思考過程を⾔語化して例⽰することで精度向上 Premiseが正しかったら Hypothesisも正しいか︖ https://arxiv.org/abs/2201.11903 https://arxiv.org/abs/2204.08535 計算過程を例⽰に含める

Slide 90

Slide 90 text

⾔語を軸としたマルチモーダル理解へ

Slide 91

Slide 91 text

• 例⽰として「画像とテキスト」を与えてテキストを⽣成 • 追加の学習無しで汎⽤なタスクを解くことが可能 91 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198

Slide 92

Slide 92 text

• CLPの⽅式で学習した画像エンコーダ（433M）と，事前学習済みの⼤規模⾔語モデル（70B）から構成．それぞれは固定し，適応⽤のネットワークを（194M／10B）を追加することで結合 92 Flamingo [Alayac(DeepMind)+, 2022/04/29] 画像エンコーダ（CLIP）⾔語モデル（Chinchilla）⼊⼒︓画像（複数枚可），テキスト出⼒︓テキスト FFN+クロスアテンション固定⻑のベクトル系列へ変換 https://arxiv.org/abs/2204.14198

Slide 93

Slide 93 text

• 動画に基づく質問応答の例 93 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198

Slide 94

Slide 94 text

• 画像に関する対話の例 94 Flamingo [Alayac(DeepMind)+, 2022/04/29] https://arxiv.org/abs/2204.14198 常識＆視覚情報に関する対話知識を⽤いた対話

Slide 95

Slide 95 text

• CLIPの成功により⾃然⾔語インタフェースによるAI・ロボティクス研究が今後⾶躍的に進みそう • CLIPによってあらゆるシーンで「⾔語で与えた⽬標」と「現状の視覚的状態」の整合性について理解し易くなったことが⼤きい 95 V&L研究の応⽤分野はどう進むか︖ MOTIF [Burn+, 2022/02/04] モバイルアプリを⾃然⾔語により操作する CLIPort [Shridhar+, CoRL’21] ロボットアームを物体認識⾮依存で⾃然⾔語により操作する https://cliport.github.io/ https://arxiv.org/abs/2104.08560 ⻘いブロックを緑のボウルに⼊れて

Slide 96

Slide 96 text

• 視覚⾔語をさらに発展させ，他のモーダルも⾔語と結びつけていくことで，より汎⽤な知的エージェントへの挑戦が進んでいく • 他モーダルでのCLIPに相当するモデルの確⽴や，Transformerによる複数モーダルの統⼀的なモデリングが重要となっていく 96 汎⽤⼈⼯知能研究はどう進むか︖ Gato [Reed+, 2022/05/12] ゲームや対話，ロボット制御など604タスクを 1モデルで学習．全ての⼊出⼒（テキスト・視覚・離散／連続値など）をトークン化して⾔語モデル的に予測． MERLOT Reserve [Zellers+, CVPR’22] 20M件のYouTube動画から視覚・⾔語・⾳の関係を学習．対照学習も利⽤． https://arxiv.org/abs/2201.02639 https://arxiv.org/abs/2205.06175

Slide 97

Slide 97 text

97 本講演のまとめ近年の⾃然⾔語処理および Vision-and-Language 分野に関して，基礎的な内容・最新動向・今後の展望について紹介しました． 1. モデルは汎⽤志向，タスクも理解／⽣成に⼤別される 2. セルフアテンションを⽤いる Transformer が主流に • 系列データに強く，マルチモーダルの統⼀的なモデリングも可能 3. ⾃⼰教師有り学習で⼤規模事前学習することが主流に • BERT︓ファインチューニングにより各タスクに適応 • GPT-3︓プロンプトによる少量の例⽰で新タスクに適応 4. モデル・事前学習コーパスの⼤規模化が進む • 莫⼤な予算・計算機リソースが必要な世界へ • ⼈間が作成した教師データの重要性にも改めて注⽬ 5. 視覚と結びつけた⾔語理解の⼤きな発展 • CLIPやFlamingoの成功は⼤きなマイルストンとなった • ⾔語理解を軸に汎⽤知的エージェントの実現への期待が⾼まる

Slide 98

Slide 98 text

1. Ashish Vaswan et al.: Attention is All you Need. NIPS 2017: 5998-6008 2. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL-HLT (1) 2019: 4171-4186 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Colin Raffel et al.: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. J. Mach. Learn. Res. 21: 140:1-140:67 (2020) 5. Dzmitry Bahdanau et al.: Neural Machine Translation by Jointly Learning to Align and Translate. ICLR 2015 6. Pranav Rajpurkar et al.: SQuAD: 100, 000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383- 2392 7. Jared Kaplan et al.: Scaling Laws for Neural Language Models. CoRR abs/2001.08361 (2020) 8. Opher Lieber et al.: Jurassic-1: Technical Details and Evaluation, Tech. Report, AI21 Labs (2021) 9. Aditya Ramesh et al.: Hierarchical Text-Conditional Image Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 10. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. CoRR abs/2204.14198 (2022) 11. Shaoqing Ren, Kaiming He, Ross B. Girshick, Jian Sun: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS 2015: 91-99 12. Liunian Harold Li et al.: VisualBERT: A Simple and Performant Baseline for Vision and Language. CoRR abs/1908.03557 (2019) 13. Pengchuan Zhang et al: VinVL: Revisiting Visual Representations in Vision-Language Models. CVPR 2021: 5579- 5588 14. Alexey Dosovitskiy et al.: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021 15. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748- 8763 参考⽂献 98

Slide 99

Slide 99 text

16. Vladimir Karpukhin, Barlas Oguz, Sewon Min, Patrick S. H. Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih: Dense Passage Retrieval for Open-Domain Question Answering. EMNLP (1) 2020: 6769-6781 17. Or Patashnik et al.: StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery. ICCV 2021: 2065-2074 18. Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, Timo Aila: Analyzing and Improving the Image Quality of StyleGAN. CVPR 2020: 8107-8116 19. Katherine Crowson et al: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance. CoRR abs/2204.08583 (2022) 20. Patrick Esser, Robin Rombach, Björn Ommer: Taming Transformers for High-Resolution Image Synthesis. CVPR 2021: 12873-12883 21. Xiuye Gu et al.: Zero-Shot Detection via Vision and Language Knowledge Distillation. ICLR 2022 22. Yael Vinker et al.: CLIPasso: Semantically-Aware Object Sketching. SIGGRAPH 2022. 23. Guy Tevet et al: MotionCLIP: Exposing Human Motion Generation to CLIP Space. CoRR abs/2203.08063 (2022) 24. Jonathan Ho, Ajay Jain, Pieter Abbeel: Denoising Diffusion Probabilistic Models. NeurIPS 2020 25. Minesh Mathew et al.: DocVQA: A Dataset for VQA on Document Images. WACV 2021: 2199-2208 26. Ryota Tanaka et al: VisualMRC: Machine Reading Comprehension on Document Images. AAAI 2021: 13878-13888 27. Yupan Huang et al: LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. CoRR abs/2204.08387 (2022) 28. Minesh Mathew et al: InfographicVQA. WACV 2022: 2582-2591 29. ⽥中涼太 et al: テキストと視覚的に表現された情報の融合理解に基づくインフォグラフィック質問応答, NLP 2022 30. Geewook Kim et al.: Donut: Document Understanding Transformer without OCR. CoRR abs/2111.15664 (2021) 参考⽂献 99

Slide 100

Slide 100 text

31. Jack W. Rae et al.: Scaling Language Models: Methods, Analysis & Insights from Training Gopher. CoRR abs/2112.11446 (2021) 32. Jordan Hoffmann et al. : Training Compute-Optimal Large Language Models. CoRR abs/2203.15556 (2022) 33. Aakanksha Chowdhery et al.: PaLM: Scaling Language Modeling with Pathways. CoRR abs/2204.02311 (2022) 34. William Fedus et al.: Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. CoRR abs/2101.03961 (2021) 35. Ze Liu et al: Swin Transformer V2: Scaling Up Capacity and Resolution. CVPR 2022 36. Romal Thoppilan et al.: LaMDA: Language Models for Dialog Applications. CoRR abs/2201.08239 (2022) 37. Stephen H. Bach et al.: PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts. ACL (demo) 2022: 93-104 38. Long Ouyang et al.: Training language models to follow instructions with human feedback. CoRR abs/2203.02155 (2022) 39. Victor Sanh et al.: Multitask Prompted Training Enables Zero-Shot Task Generalization. ICLR 2022 40. Haokun Liu et al.: Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning. CoRR abs/2205.05638 (2022) 41. Jason Wei et al: Chain of Thought Prompting Elicits Reasoning in Large Language Models. CoRR abs/2201.11903 (2022) 42. Yujie Lu et al.: Imagination-Augmented Natural Language Understanding. NAACL-HLT 2022. 43. Mohit Shridhar et al.: CLIPort: What and Where Pathways for Robotic Manipulation. CoRL 2021: 894-906 44. Andrea Burns et al.: Mobile App Tasks with Iterative Feedback (MoTIF): Addressing Task Feasibility in Interactive Visual Environments. CoRR abs/2104.08560 (2021) 45. Rowan Zellers et al.: MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound. CVPR 2022 46. Scott E. Reed et al.: A Generalist Agent. CoRR abs/2205.06175 (2022) 参考⽂献 100