Vision and Languageの現状と展望（GPT-4）

Slide 1

Slide 1 text

Vision and Languageの現状と展望 2023.03.24 (Fri.) 東北⼤学菅沼雅徳 CMSAIコロキウム

Slide 2

Slide 2 text

Vision and Languageの現状と展望 GPT-4の現状と展望 2023.03.24 (Fri.) 東北⼤学菅沼雅徳 CMSAIコロキウム

Slide 3

Slide 3 text

3 ⾃⼰紹介経歴 • 2017.10 ‒ 2021.09 特別研究員＠理研AIP • 2018.10 ‒ 現在助教@東北⼤（最近）関⼼のある研究分野 • Vision and Language NAS + 画像分類 [GECCOʼ17 (Best paper)] NAS＋画像復元 [ICMLʼ18, CVPRʼ19] GT-1: a child is brushing her hair in the mirror GT-2: a little girl is brushing GT-1: an ele to far from a GT-2: an ele GT-2: A cat is sleeping on a skateboard. M2: a kitten laying on the floor next to a skateboard GRIT: a cat laying on a skateboard on the floor GT-2: A small standing next to M2: an elephan two birds in the GRIT: a baby e walking in a fie GT-1: a kitchen with a refrigerator next to a sink. GT-2: a red bucket sits in a sink next to an open refrigerator M2: an open refrigerator with the door open in a kitchen GRIT: a kitchen with a sink and an open refrigerator GT-1: a woman luggage past an GT-2: a woman suitcase past a f M2: a person rid down a street w GRIT: a person suitcase next to GT-1: a small teddy bear is wedged into an opening in a car dashboard GT-1: horses ra track with jocke GT-2: a group o BHSPVQPGKPDLF POB BMJUUMFHJSMCSVTIJOHIFSIBJS XJUIBCSVTI V&L [ECCVʼ20, IJCAIʼ21, ECCVʼ22]

Slide 4

Slide 4 text

• 名前の通り，「画像」と「⾔語」を扱う研究分野 • 具体例：Visual Question Answering（VQA） 4 Vision and Languageとは？ Q．Where is the child sitting? A. fridge VQA v2, https://visualqa.org/

Slide 5

Slide 5 text

• 名前の通り，「画像」と「⾔語」を扱う研究分野 5 Vision and Language： VQA Q．What does the man who sits have trouble doing? A. Walking [Schewenk+, A-OKVQA, 2022]

Slide 6

Slide 6 text

6 Vision and Language：Text-to-image generation “An astronaut riding a horse in a photorealistic style” DALL-E 2 [Ramesh+, 2022]

Slide 7

Slide 7 text

7 Vision and Language：Text-to-image generation “a shiba inu wearing a beret and black turtleneck” DALL-E 2 [Ramesh+, 2022]

Slide 8

Slide 8 text

• ついに，テキストと「画像」の⼊⼒が可能に • つまり，V&Lの問題を解ける 8 GPT-4の登場 [OpenAI, 2023] The unusual thing about this image is that a man is ironing clothes on an ironing board attached to the roof of a moving taxi. GPT-4 以降，22pageまでの図はhttps://openai.com/research/gpt-4 から引⽤

Slide 9

Slide 9 text

9 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] Human ͜ͷࣸਅͷ͓΋͠Ζ͍ͱ͜Ζ͸ ͳΜͰ͔͢ʁ ύωϧ͝ͱʹઆ໌ͯ͠Լ͍͞ɽ ͜ͷը૾͸ɺʮϥΠτχϯάέʔϒϧʯ ΞμϓλͷύοέʔδΛ͓ࣔͯ͠Γɺ ͭͷύωϧ͕͋Γ·͢ɻ

Slide 10

Slide 10 text

10 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ εϚʔτϑΥϯͷॆిϙʔτʹ઀ଓ ͞Εͨ7("ίωΫλʢେ͖ͯ͘੨৭ ͷϐϯίωΫλͰɺ௨ৗ͸ίϯ ϐϡʔλϞχλʔ༻ʣ͕ඳ͔Ε͍ͯ ·͢ɻ ※ GPT-4の英語による回答を GPT-4で⽇本語に翻訳しています

Slide 11

Slide 11 text

11 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ ʮϥΠτχϯάέʔϒϧʯΞμϓλͷ ύοέʔδͰɺ7("ίωΫλͷը૾͕ ඳ͔Ε͍ͯ·͢ɻ

Slide 12

Slide 12 text

12 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ খ͞ͳϥΠτχϯάίωΫλ ʢJ1IPOF΍ଞͷ"QQMFσόΠεͷ ॆి༻ʣ͕ઌ୺ʹ෇͍ͨ7(" ίωΫλͷΫϩʔζΞοϓɻ

Slide 13

Slide 13 text

13 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ͜ͷը૾ͷ͓΋͠Ζ͍ͱ͜Ζ͸ɺ େ͖ͯ͘ݹ͍7("ίωΫλΛখ͘͞ ͯϞμϯͳεϚʔτϑΥϯͷॆి ϙʔτʹ઀ଓ͢Δͱ͍͏ߥ౜ແܤ͞ ͔Βདྷ͍ͯ·͢ɻ

Slide 14

Slide 14 text

14 GPT-4は⾼精度に画像理解ができる )VNBOɿ $BOZPVFYQMBJOUIJTNFNF ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

Slide 15

Slide 15 text

15 GPT-4は⾼精度に画像理解ができる ͜ͷϛʔϜ͸ɺӉ஦͔Βݟͨ ஍ٿͷࣸਅͱνΩϯφήοτ ͱ͍͏ͭͷແؔ܎ͳ΋ͷΛ ૊Έ߹Θͤͨ৑ஊͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

Slide 16

Slide 16 text

16 GPT-4は⾼精度に画像理解ができる ϛʔϜͷςΩετ͸ɺԼͷը૾͕ Ӊ஦͔Βݟͨඒ͍͠஍ٿͷࣸਅͰ ͋Δ͜ͱΛ͍ࣔࠦͯ͠·͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

Slide 17

Slide 17 text

17 GPT-4は⾼精度に画像理解ができる ͔͠͠ɺ࣮ࡍͷը૾͸ɺੈք஍ਤ Λ΅Μ΍Γͱ໛฿͢ΔΑ͏ʹ഑ஔ ͞ΕͨνΩϯφήοτͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

Slide 18

Slide 18 text

18 GPT-4は⾼精度に画像理解ができる ͜ͷϛʔϜͷϢʔϞϥε͞͸ɺ ςΩετͱը૾ͷ༧૝֎ͷฒஔ ͔Βདྷ͍ͯ·͢ɻςΩετ͸ ஍ٿͷ૖େͳը૾ͷظ଴Λઃఆ ͠·͕͢ɺ࣮ࡍͷը૾͸ฏຌͰ അࣛ͛ͨ΋ͷͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

Slide 19

Slide 19 text

19 GPT-4によるV&L

Slide 20

Slide 20 text

• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 20 個⼈的な所感 Panel 1: A smartphone with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. • この画像だけからでは，VGAが 15-pinのケーブルであることは判断できない • VGAがPCモニター⽤のものとして使⽤されているという知識も

Slide 21

Slide 21 text

• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 21 個⼈的な所感 • 宇宙から地球を⾒たときの世界地図に関する知識が表現できている • ⽇本がないのをつっこんで欲しいけど．．． This meme is a joke that combines two unrelated things: pictures of the earth from space and chicken nuggets.

Slide 22

Slide 22 text

• OCRの性能も⾼い • 最も⼀般的な⽅法は，OCRモデル＋V&L⽤モデルのような組み合わせ • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤ 22 個⼈的な所感 • OCRの性能も⾼い • 多⾔語に対応 Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.

Slide 23

Slide 23 text

23 個⼈的な所感 • OCRの性能も⾼い • 多⾔語に対応 • OCRの性能も⾼い • 最も⼀般的な⽅法は，OCRモデル＋V&L⽤モデルのような組み合わせ • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤

Slide 24

Slide 24 text

• 画像認識の精度も優れている • いわゆる分布外サンプル（通常のデータセットから⾒ると）にも対応できている 24 個⼈的な所感 User: Can you explain why this is funny. Think about it step-by-step.

Slide 25

Slide 25 text

• ほとんどのタスクで既存研究よりも⾼精度 • しかも，特定タスク上でのファインチューニング不要 25 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

Slide 26

Slide 26 text

逆にどのようなタスクで劣っているのか？ 26 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

Slide 27

Slide 27 text

• 最も標準的なVQAベンチマーク • 基本的に，「Yes/No, 5W1H」に関する質疑応答 27 VQAv2 [Goyal+, CVPRʼ17] [Goyal+, CVPRʼ17]から引⽤

Slide 28

Slide 28 text

• ⼈間による精度が約81%程度 • 最近のV&Lモデルでも80%-84%の精度 28 VQAv2はそこまで難しいタスクではない（はず） [Chen+, arXiv:2209.06794] から引⽤

Slide 29

Slide 29 text

• 最近のV&LモデルはVQAのデータセットを⽤いてファインチューニング • また，1000 or 3000の回答候補から回答を1つ選択＝クラス分類として定式化 29 ただし [Chen+, arXiv:2209.06794] から引⽤ VQAデータセット上でファインチューニングクラス分類として解く

Slide 30

Slide 30 text

逆にどのようなタスクで劣っているのか？ 30 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

Slide 31

Slide 31 text

動画説明⽂の⽣成タスク [Rohrbach+, IJCVʼ17] 31 Large Scale Movie Description Challenge (LSMDC) Someone, back in elf guise, is trying to calm the kids. Someone grabs a vodka bottle standing open on the counter and liberally pours some on the hand. [Rohrbach+, IJCVʼ17] から引⽤

Slide 32

Slide 32 text

• VQAv2やLSMDCは「画像理解」の能⼒がより試される • もし，few-shotやFTでもGPT-4の性能が向上しない場合は，画像認識部分が既存研究よりも劣っている可能性もあり • ただし，画像⼊⼒に対応可能なモデルは現状未公開のため検証不可 32 GPT-4の画像認識能⼒は？

Slide 33

Slide 33 text

• 詳細は不明 • ⾔語モデルで事前学習＋強化学習でファインチューニング 33 GPT-4のアーキテクチャは？ [OpenAI, 2023]から引⽤

Slide 34

Slide 34 text

• ⼊⼒は「テキスト」のみ，もしくは「テキスト＋画像」 • 出⼒は「テキスト」のみ 34 GPT-4のアーキテクチャは？ [OpenAI, 2023]から引⽤

Slide 35

Slide 35 text

とりあえず考えうる候補は3つ 35 GPT-4のアーキテクチャは？（※勝⼿な予想） Encoder Decoder DBQUJPO Encoder-Decoder型 • Encoder部分で画像情報とテキスト情報を結合して⼊⼒ • PaLI [Chen+, arXiv:2209.06794] ViT Decoder ViT DBQUJPO Decoder型 • ViTで抽出した画像特徴とテキスト情報をDecoderへ⼊⼒ • GIT [Wang+, arXiv:22015.14100] ViT Text encoder Decoder DBQUJPO • Decoder部分で画像情報を⼊⼒ • CoCa [Yu+, TMLRʼ22] Separate型

Slide 36

Slide 36 text

• ViTからの出⼒ベクトル系列をテキスト（キャプション）に結合して， Transformer Encoder/Decoderに⼊⼒ • ViTは4Bのモデルで，JFT-3B上で事前学習 • Transformer Encoder/DecoderはmT5-XXLを使⽤ [Xue+, 2021] 36 Encoder-Decoder型：PaLI [Chen+, arXiv:2209.06794] Encoder "CBCZTJUUJOHPOUIFGSJEHF ViT Tokenization & word embedding <#04> " Decoder Atten

Slide 37

Slide 37 text

37 Transformer Encoder / ViT Encoderは下記の基本素⼦から構成される • 単語・位置埋め込み • ⾃⼰注意機構（Self Attention） • 層正規化（Layer normalization） • フィードフォワード層（FFN） • 残差結合（Residual connection） Word/Position embedding Self Attention Layer norm FFN 𝑋 Layer norm × 𝐿 𝑵⼊⼒𝑵出⼒の特徴変換器

Slide 38

Slide 38 text

38 Transformer Decoder Decoderは下記の基本素⼦から構成される • ⾃⼰注意機構（Self Attention） • 層正規化（Layer normalization） • クロス注意機構（Cross Attention） • フィードフォワード層（FFN） • 残差結合（Residual connection） Layer norm Layer norm × 𝐿 Self Attention Layer norm Cross Attention FFN 𝑄 𝐾, 𝑉 𝑵⼊⼒𝟏出⼒の⽣成器

Slide 39

Slide 39 text

• 著者ら（Google）が独⾃にWebから収集したデータセット：WebLI • 約10Bの画像・alt-textペアをフィルタリングし，約1Bのデータを学習に利⽤ • GCP Vision APIを⽤いてOCRも実施し，学習に利⽤ • 上記に加えて，物体検出⽤のデータセットやVQA⽤のデータセットも利⽤ • データセットサイズは0.6B程度 39 PaLI：学習データ https://github.com/google-research/google-research/blob/master/pali/webli_data_card.pdf から引⽤

Slide 40

Slide 40 text

Slide 41

Slide 41 text

下記の8つのタスクを⾔語モデルの枠組みで解く • Span corruption on text-only data • Split-captioning • Image Captioning • OCR • English and Cross-Lingual VQA • English and Cross-Lingual visual question generation • English-only Object-Aware VQA • Object detection 41 PaLI：事前学習内容 𝐿 = # !"# $%# 𝐶𝐸 𝑦! , 𝑝 𝑦! | 𝐼, 𝑦& , 𝑗 = 0, … , 𝑖 − 1 次単語𝑦! とのクロスエントロピー損失画像𝐼と𝑖 − 1番⽬までの単語𝑦" よる次単語予測確率

Slide 42

Slide 42 text

テキストの⼀部を特殊トークンに置換し，置換されたトークンを予測 42 事前学習例：Span corruption on text-only data Encoder Decoder ViT 5IBOLZPVGPSJOWJUJOH NFUPZPVSQBSUZMBTU XFFL 原⽂ 5IBOLZPV9 NFUPZPVSQBSUZ: XFFL 9 GPS GPS JOWJUJOH : MBTU MBTU ;

Slide 43

Slide 43 text

• ⾔語モデルの枠組みで物体検出を解くことで，複雑なネットワークや損失関数が不要に • Decoderで物体位置のトークンとクラスカテゴリ（ID）を⾃⼰回帰予測 43 事前学習例：⾔語モデルによる物体検出 [Chen+, ICLRʼ22] Encoder （CNN or ViT） < CBCZ> < SFGSJHF> 正解データ <#04> SFGSJHF SFGSJHF <&04> Transformer Decoder ... ...

Slide 44

Slide 44 text

GPTのような⼿法は基盤技術に相当するもの（とも考えられる） • 代替⼿法を開発することも⼤事だがGPTの上で何ができるのかを考える事も重要 • 何ができて何ができないのか解析 • 学習済みモデルの活⽤ • 学習済みモデルの編集（知識の挿⼊と削除） • 軽量化と効果的なファインチューニング⽅法など 44 GPT-4（V&L）が利⽤可能になったとすると (15 ৽͍͠λεΫͷఏҊ ֶशࡁΈϞσϧͷ ׆༻ (15ͷฤू ʢ஌ࣝͷૠೖͱ࡟আʣ ܰྔԽ

Slide 45

Slide 45 text

• まずは様々なベンチマーク上での定量評価によって，性能を調査 • タスクの⼀部は，GPT-4で終わるものがあるかもしれない • 逆に，GPT-4のような強⼒なモデル評価・理解のための新たなベンチマークの設計が必要 • 多くのマイクロタスクが登場 45 何ができて何ができないのか調査

Slide 46

Slide 46 text

• GPT-4でどんなことができるか，逆にどんなことができないのかを検証 • 現在リリースされているGPT-4よりも古いバージョンのGPT-4を使⽤ • テキストのみを使って学習されたGPT-4を使っている • そのため，画像に関する知識はない，⼊⼒受付もできない 46 と思っていたら，昨⽇（3/23）こんな論⽂が．．． arXiv:2303.12712

Slide 47

Slide 47 text

• いわゆる下記のような⼀般的なAGIの定義を意味しているわけではない • 完全である • ⼈間ができるあらゆることができるなど • この論⽂内では，1994年に52名の⼼理学者が定義した知能のことを指す[*] • a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience • だが，そもそもAGIの定義⾃体が難しいとも⾔及している • この論⽂の趣旨は「GPT-4はどんなことができて，どんなことができないか」を共有すること 47 タイトルに「AGI」が⼊っているが [*] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997

Slide 48

Slide 48 text

• 現在の機械学習分野における，いわゆるベンチマークを⽤いた評価⽅法は適していない • GPT-4の詳細な学習データが不明であるため，テストデータもしくは酷似したデータが学習データに含まれている可能性を排除できない • 既存のベンチマークでは，GPT-4のような汎⽤性の⾼い⼿法を適切に評価できない 48 GPT-4の評価⽅法について • そこで，本論⽂では⼈間の創造性や好奇⼼をベースにした（主観的な）評価を⽤いる • 丸覚えでは対応できないような斬新かつ幅広い知識を必要とするタスクが解けるかどうかをみる（定量的には評価しない（できない）） • 特に，異なるドメイン知識が複数必要なタスクを解かせてみて，より⼀般的な知能が獲得されているかをみる • 例：「韻を踏ませながら数学の証明をさせる」「ユニコーンを描画するTiKZ（LaTex）コードを書かせる」

Slide 49

Slide 49 text

韻を踏みながら素数は無限個あることを証明 49 例：数学の証明シェークスピア⾵に対話形式で証明以降63 pageまでは [Bubeck+, arXivʼ23]から引⽤

Slide 50

Slide 50 text

• プロンプト • “Produce javascript code which generates random images in the style of the painter Kandinsky” • アートとプログラミングという異なる分野の能⼒を適切に使いこなしていることがわかる 50 例：アートを出⼒するコード⽣成 Composition 8, art by Wassily Kandinsky GPT-4 chatGPT

Slide 51

Slide 51 text

• 指定したベクター画像の⽣成も可能 • テキストのみを⽤いて学習しているのにも関わらず，視覚的な概念が獲得されている • 単なる丸覚えでは対応が困難 51 例：ベクター画像の⽣成

Slide 52

Slide 52 text

52 例：TikZコードの⽣成 • 「⼈をアルファベット⽂字で描画」するように命令 • こちらの例からも視覚的な概念が獲得されていることがわかる

Slide 53

Slide 53 text

• 既存のLLMと⽐べて⼤幅に優れている • text-davinci-003はChatGPTのベースモデル 53 例：コーディング（HumanEvalデータセット） HumanEval [Chen+, Evaluating large language models trained on code, 2021]上での評価結果

Slide 54

Slide 54 text

• ただし，GPT-4がHumanEvalのデータを学習に⽤いているかもしれない • そこで，GPT-4の学習終了後に投稿された100個の問題をLeetCodeからもってきて，評価 • 既存のLLMよりも優れた性能かつ⼈間に匹敵する性能を達成 54 例：コーディング（LeetCode） LeetCode上での評価結果．𝒌回の試⾏で正しいコードを⽣成できた精度

Slide 55

Slide 55 text

しかし，最近投稿されたweb記事[*]やSNSの指摘内容[**]とは結果が異なるので要検討 55 例：コーディング [*] https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks?utm_campaign=post&utm_medium=web [**] https://twitter.com/cHHillee/status/1635790330854526981 [*]から引⽤

Slide 56

Slide 56 text

56 例：深層学習に関するコーディング • 独⾃のオプティマイザの実装を命令 • Webや⽂献内には存在しないオプティマイザの仕様であるため，丸覚えでは対応できない

Slide 57

Slide 57 text

57 例：深層学習に関するコーディング • 仕様通りに独⾃のオプティマイザの実装が可能 • 単に丸覚えで対応しているわけではないことを⽰唆 • また，「モメンタム」などの深層学習に関する知識も獲得されていることがわかる（⻩⾊部分） • ChatGPTでは対応できない

Slide 58

Slide 58 text

58 例：擬似コードの実⾏も可能

Slide 59

Slide 59 text

59 そのほか⾊々なことが論⽂内で検証されています

Slide 60

Slide 60 text

60 GPT-4が苦⼿なこと：Symbolic manipulation 時事問題も苦⼿簡単な計算問題も苦⼿

Slide 61

Slide 61 text

61 GPT-4が苦⼿なこと：Symbolic manipulation 時事問題も苦⼿簡単な計算問題も苦⼿⽂字列を扱うのも苦⼿ただしGPT-4はWeb検索ができるので，検索を組み合わせればちゃんと回答できる途中結果も出⼒するようにすれば解ける

Slide 62

Slide 62 text

• ものすごい簡単な演算も普通に間違える • [0,9]の数字をランダムに4つサンプルして，下記のような積和計算をさせると， 58%しか正答できなかった • [10, 19]で試すと，正答率は16% • このようなタイプの問題に対しては，途中結果の保持がうまくできない • “Letʼs think step by step to solve the expression, write down all the intermediate the steps, and only then produce the final solution.” のようなプロンプトで改善可能ではある 62 演算に関しては特に苦⼿演算問題に対しては，ワーキングメモリがものすごく⼩さくなる？

Slide 63

Slide 63 text

• 「⽂頭の⽂を反転した⽂を⽂末においても，意味的にも⽂法的にも正しくなるように短詩を書く」ように命令 • プロンプト等を頑張っても，全くうまくいかない 63 次単語予測モデル（GPT）の限界

Slide 64

Slide 64 text

• 先の結果が⽰唆することは，GPT-4はプランニングができないということ • もしプランニングができるのであれば，⽂末⽂がどうなるべきか事前に予測してから，⽂頭の⽂を⽣成できるはず 64 次単語予測モデル（GPT）の限界 • また，⼀⽅向の推論しかできないこともわかる • もし，backtrackできるのなら，⽂末⽂がおかしい場合は⽂頭⽂を修正できるはず⽂末の⽂が正しくなるように予測してから，⽂頭の⽂を⽣成できていない

Slide 65

Slide 65 text

• 得意な事：Incremental task • 1単語（1⽂章）ずつ追加することで，徐々に正解に近づいていくような逐次的なタスク • 既存の知識を利⽤する，思考の⼤きな⾶躍が不必要なタスク • いわゆる「fast thinking」とか「System 1」 • 例：⽂書要約，質疑応答など 65 GPT-4の得意なこと・苦⼿なこと • 苦⼿な事：Discontinuous task • 解決が連続的に⾏われるのではなく不連続な思考の⾶躍を必要とするタスクやプランニングを必要とするタスク • いわゆる「slow thinking」とか「System 2」 • 例：ジョークや謎かけを⽣み出す，科学的仮説を思いつくなど

Slide 66

Slide 66 text

• Confidence calibration • Long-term memory • Continual learning • Personalization • Planning and conceptual leaps • Transparency, interpretability and consistency • Cognitive fallacies and irrationality • Challenges with sensitivity to inputs 66 より汎⽤的なAIへの道標

Slide 67

Slide 67 text

GPTのような⼿法は基盤技術に相当するもの（とも考えられる） • 代替⼿法を開発するというよりもGPTの上で何ができるのかを考える事も重要 • 何ができて何ができないのか解析 • 学習済みモデルの活⽤ • 学習済みモデルの編集（知識の挿⼊と削除） • 軽量化とファインチューニングなど 67 GPT-4（V&L）が利⽤可能になったとすると (15 ৽͍͠λεΫͷఏҊ ֶशࡁΈϞσϧͷ ׆༻ (15ͷฤू ʢ஌ࣝͷૠೖͱ࡟আʣ ܰྔԽ

Slide 68

Slide 68 text

• スクラッチからGPT-4クラスのモデルを訓練するのは（今は）⾮現実的 • 学習済みモデルをうまく活⽤するのが現実的 68 学習済みLLMの活⽤どうやって活⽤するか？ • 既存モデルの⼀部に組み込む • Soft prompt

Slide 69

Slide 69 text

• 実はV&Lの研究ではいくつか提案されている • 典型的なのは，OKVQA（Outside Knowledge VQA）[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法 69 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] Q. What does the man who sits have trouble doing? A. Walking ⾞椅⼦を利⽤している⼈は歩くことが困難であるという知識が必要

Slide 70

Slide 70 text

• 実はV&Lの研究ではいくつか提案されている • 典型的なのは，OKVQA（Outside Knowledge VQA）[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法 70 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] 折りたたみ椅⼦の知識が必要 Q. What makes those chairs easy to carry? A. Foldable

Slide 71

Slide 71 text

• GPT-3がもっている知識を [質問⽂，物体，画像キャプション，例⽰] で抽出 • 同時に，CLIPを⽤いてWikidataからも情報を検索 71 GPT-3を利⽤したOK-VQA [Gui+, NACCLʼ22] 物体検出 CLIP Transformer Encoder Transformer Decoder (15 画像キャプション⽣成 Q．What does the man who sits have trouble doing? A. walk

Slide 72

Slide 72 text

• 学習済み画像エンコーダの出⼒を学習済みLLMにフィットするように変換 • 計算コストのかかる画像エンコーダ・LLM部分は固定 • 学習するのは変換器部分のみ＝低コストにLLMを活⽤可能 72 学習済みモデルの活⽤：BLIPv2 [Li+, arXiv:2301.12597] Image Encoder ม׵ث LLM 8IJDIDJUZJTUIJT 4JOHBQPSF

Slide 73

Slide 73 text

73 BLIPv2との対話例（1/2）

Slide 74

Slide 74 text

74 BLIPv2との対話例（2/2）

Slide 75

Slide 75 text

１．画像エンコーダを固定して，変換器を学習 • Image-text contrastive learning • Image-grounded text generation • Image-text matching 75 BLIPv2の概要 4FMGBUUFO $SPTTBUUFO ''/ 4FMGBUUFO ''/ ×𝐿 ×𝐿 Image-text matching loss text generation loss JOQVUUFYU contrastive loss Image Encoder 変換器 -FBSOBCMFRVFSJFT

Slide 76

Slide 76 text

2. LLMを固定して，変換器につけた全結合層を学習 • Text generation 76 BLIPv2の概要 4FMGBUUFO $SPTTBUUFO ''/ 4FMGBUUFO ''/ JOQVUUFYU Image Encoder 変換器 -FBSOBCMFRVFSJFT -JOFBS LLM

Slide 77

Slide 77 text

• GPTが全知全能であるとは限らない • ⼿元のタスクを解くのに必要な知識を教えるにはどうすれば良いか？ 77 LLMの編集：新しい知識の挿⼊ • Adapterと呼ばれる⼩さいNNをLLMに取り付けて，新しい知識を記憶させる Adapterの例 [Houlsby+, ICMLʼ19] Encoder Decoder Adapter Adapter + + Adapterの挿⼊例 [Emelin+, EMNLPʼ22] Adapterの挿⼊例（LoRA） [Hu+, ICLRʼ22]

Slide 78

Slide 78 text

• モデルサイズの軽量化 • LLaMA [Touvron+, arXiv:2302.13971] ：13BサイズのモデルでGPT-3（175B）を上回り， 65BモデルでChinchilla（70B）やPaLM（540B）と同等 • そのかわり，1.4 trillion tokenで学習（GPT-3は0.3 trillion token） • LLMの量⼦化[*]：MacbookでLLMが動作可能 78 LLMの軽量化 • 学習データセットの軽量化 • オーダーが2桁〜3桁⼩さいデータセットでも，フルサイズで学習したモデルの90%の性能レベルを達成可能 [Suzuki+, Information Processing & Management, 2023] [*] : https://github.com/ggerganov/llama.cpp

Slide 79

Slide 79 text

⾃然⾔語による画像認識例

Slide 80

Slide 80 text

CLIP [Radford+, ICMLʼ21]の成功によって，⾃然⾔語（キャプション）を⽤いた画像認識器の学習が有効であることが判明 80 ⾃然⾔語による画像認識正しいペアの特徴ベクトル間の内積（類似度）を最⼤化特徴ベクトル …

Slide 81

Slide 81 text

CLIP [Radford+, ICMLʼ21]の成功によって，⾃然⾔語（キャプション）を⽤いた画像認識器の学習が有効であることが判明 81 ⾃然⾔語による画像認識個々のタスクで学習しなくても ResNetに勝てる [CLIPより引⽤]

Slide 82

Slide 82 text

• one-hotベクトルでは表現しきれない柔軟かつ膨⼤な概念を学習可能 • 数や形容詞の情報なども⼀緒に学習可能 • アノテーションコストが低い • Web上の画像・altテキストペアをもってくるだけ 82 ⾃然⾔語による画像認識のメリットこれまでの画像分類 CLIP 「有限個のクラスID Xの何か」 one-hotベクトルよりも圧倒的な情報量との関連付けが可能に l"CSPXOEPHJTTJUUJOHPOUIFHSBTTz 何を意味しているのか理解していない

Slide 83

Slide 83 text

83 ⾃然⾔語によるセマンティックセグメンテーション • セマンティックセグメンテーション＝画素ごとのクラス分類 • 学習には画素単位のラベル付けが必須なため，データの準備が⾮常に⾼コスト原画像画素単位のラベル付け

Slide 84

Slide 84 text

84 ⾃然⾔語によるセマンティックセグメンテーションキャプションのみからセマンティックセグメンテーションを学習可能な Vision Transformer（画素単位のラベルが必要ない！）[Xu+, CVPRʼ22] • 学習可能なGroupトークンで画像パッチをクラスタリング GroupViTの構造

Slide 85

Slide 85 text

• セマンティックセグメンテーションや深度推定などの画素ごとの予測タスクで，少数例（10サンプル）の学習だけで，⼤量データを⽤いた教師あり学習に匹敵 • ラベルの使⽤割合でいうと，0.04%以下 85 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

Slide 86

Slide 86 text

問題設定 • 10のタスクを学習セット（8タスク），テストセット（2タスク）に分割 • 学習セットで学習したモデルを，少数ラベル（テストセット）を⽤いてファインチューニングし，テストセット上での性能を評価 86 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] ※ GPT論⽂のfew-shot学習とは異なるので注意．今回[Kim+, ICLRʼ23]はパラメータの更新が伴う例えば，Fold1をテストセットとすると，Fold2-5が学習セットとなる

Slide 87

Slide 87 text

87 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

Slide 88

Slide 88 text

88 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] • ViTを使⽤（BeiT [Bao+, ICLRʼ21]） • クエリとサポート画像は共通の重みを利⽤ • ラベル画像の変換は別モデルを使⽤

Slide 89

Slide 89 text

89 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] ポイント • 様々なタスクかつ未知タスクに適応できるように，バイアスパラメータだけはタスクごとに⽤意 • メタ学習時に少数事例（サポート画像）を⽤いて，バイアスだけ最適化する • [Zaken+, ACLʼ22], [Cai, NeurIPSʼ20]

Slide 90

Slide 90 text

90 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 標準的なマルチヘッドQKV注意機構 Query : query images Key : support images Value : labels of support images

Slide 91

Slide 91 text

91 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] • [Ranftl+, ICCVʼ21]に従い，マルチスケールの特徴マップを ViTから抽出 • 指定の層出⼒に対して，転置畳み込み等を適⽤することで実現

Slide 92

Slide 92 text

学習⽅法 • 学習セットからクエリセットとサポートセットをサンプルし，サポートセットを⽤いてクエリ画像のラベルを正しく予測するように，モデルを学習 92 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 推論 • テストセットのサポートセットを⽤いて，バイアスのみをファインチューニング • その後，テストセットのクエリ画像を予測

Slide 93

Slide 93 text

学習⽅法 • 学習セットからクエリセットとサポートセットをサンプルし，サポートセットを⽤いてクエリ画像のラベルを正しく予測するように，モデルを学習 93 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 推論 • テストセットのサポートセットを⽤いて，バイアスのみをファインチューニング • その後，テストセットのクエリ画像を予測バイアスのファインチューニングは⾮常に重要

Slide 94

Slide 94 text

将来的には，LLMのように画像認識タスクもパラメータの更新なしに未知タスクを解けるようになるかもしれない 94 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

Slide 95

Slide 95 text

LLMを基盤技術と考えて，その上で何ができるかを考えるのも重要 • 効率的・効果的なファインチューニング • 解きたいタスクの知識をどうやって注⼊するか • 学習・推論の軽量化 • より適切なベンチマーク・評価⽅法の確⽴ • 理論解析 95 まとめ LLMに代わる新しい技術の提案 • （私のような）研究者はむしろこっちの⽅向性も • Transformerで本当に良いのか • next-word predictionで本当に良いのか