Vision and Languageの現状と展望（GPT-4）

Vision and Languageの現状と展望 2023.03.24 (Fri.) 東北⼤学菅沼雅徳 CMSAIコロキウム

Vision and Languageの現状と展望 GPT-4の現状と展望 2023.03.24 (Fri.) 東北⼤学菅沼雅徳 CMSAIコロキウム

3 ⾃⼰紹介経歴 • 2017.10 ‒ 2021.09 特別研究員＠理研AIP • 2018.10
‒ 現在助教@東北⼤（最近）関⼼のある研究分野 • Vision and Language NAS + 画像分類 [GECCOʼ17 (Best paper)] NAS＋画像復元 [ICMLʼ18, CVPRʼ19] GT-1: a child is brushing her hair in the mirror GT-2: a little girl is brushing GT-1: an ele to far from a GT-2: an ele GT-2: A cat is sleeping on a skateboard. M2: a kitten laying on the floor next to a skateboard GRIT: a cat laying on a skateboard on the floor GT-2: A small standing next to M2: an elephan two birds in the GRIT: a baby e walking in a fie GT-1: a kitchen with a refrigerator next to a sink. GT-2: a red bucket sits in a sink next to an open refrigerator M2: an open refrigerator with the door open in a kitchen GRIT: a kitchen with a sink and an open refrigerator GT-1: a woman luggage past an GT-2: a woman suitcase past a f M2: a person rid down a street w GRIT: a person suitcase next to GT-1: a small teddy bear is wedged into an opening in a car dashboard GT-1: horses ra track with jocke GT-2: a group o BHSPVQPGKPDLF POB BMJUUMFHJSMCSVTIJOHIFSIBJS XJUIBCSVTI V&L [ECCVʼ20, IJCAIʼ21, ECCVʼ22]

• 名前の通り，「画像」と「⾔語」を扱う研究分野 • 具体例：Visual Question Answering（VQA） 4 Vision and Languageとは？
Q．Where is the child sitting? A. fridge VQA v2, https://visualqa.org/

• 名前の通り，「画像」と「⾔語」を扱う研究分野 5 Vision and Language： VQA Q．What does the
man who sits have trouble doing? A. Walking [Schewenk+, A-OKVQA, 2022]

6 Vision and Language：Text-to-image generation “An astronaut riding a horse
in a photorealistic style” DALL-E 2 [Ramesh+, 2022]

7 Vision and Language：Text-to-image generation “a shiba inu wearing a
beret and black turtleneck” DALL-E 2 [Ramesh+, 2022]

• ついに，テキストと「画像」の⼊⼒が可能に • つまり，V&Lの問題を解ける 8 GPT-4の登場 [OpenAI, 2023] The unusual
thing about this image is that a man is ironing clothes on an ironing board attached to the roof of a moving taxi. GPT-4 以降，22pageまでの図はhttps://openai.com/research/gpt-4 から引⽤

9 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] Human ͜ͷࣸਅͷ͓΋͠Ζ͍ͱ͜Ζ͸ ͳΜͰ͔͢ʁ ύωϧ͝ͱʹઆ໌ͯ͠Լ͍͞ɽ
͜ͷը૾͸ɺʮϥΠτχϯάέʔϒϧʯ ΞμϓλͷύοέʔδΛ͓ࣔͯ͠Γɺ ͭͷύωϧ͕͋Γ·͢ɻ

10 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ εϚʔτϑΥϯͷॆిϙʔτʹ઀ଓ ͞Εͨ7("ίωΫλʢେ͖ͯ͘੨৭ ͷϐϯίωΫλͰɺ௨ৗ͸ίϯ
ϐϡʔλϞχλʔ༻ʣ͕ඳ͔Ε͍ͯ ·͢ɻ ※ GPT-4の英語による回答を GPT-4で⽇本語に翻訳しています

11 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ ʮϥΠτχϯάέʔϒϧʯΞμϓλͷ ύοέʔδͰɺ7("ίωΫλͷը૾͕ ඳ͔Ε͍ͯ·͢ɻ

12 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ύωϧɿ খ͞ͳϥΠτχϯάίωΫλ ʢJ1IPOF΍ଞͷ"QQMFσόΠεͷ ॆి༻ʣ͕ઌ୺ʹ෇͍ͨ7("
ίωΫλͷΫϩʔζΞοϓɻ

13 GPT-4の衝撃 [OpenAI+, 2023] [OpenAI, 2023] ͜ͷը૾ͷ͓΋͠Ζ͍ͱ͜Ζ͸ɺ େ͖ͯ͘ݹ͍7("ίωΫλΛখ͘͞ ͯϞμϯͳεϚʔτϑΥϯͷॆి ϙʔτʹ઀ଓ͢Δͱ͍͏ߥ౜ແܤ͞
͔Βདྷ͍ͯ·͢ɻ

14 GPT-4は⾼精度に画像理解ができる )VNBOɿ $BOZPVFYQMBJOUIJTNFNF ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

15 GPT-4は⾼精度に画像理解ができる ͜ͷϛʔϜ͸ɺӉ஦͔Βݟͨ ஍ٿͷࣸਅͱνΩϯφήοτ ͱ͍͏ͭͷແؔ܎ͳ΋ͷΛ ૊Έ߹Θͤͨ৑ஊͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

16 GPT-4は⾼精度に画像理解ができる ϛʔϜͷςΩετ͸ɺԼͷը૾͕ Ӊ஦͔Βݟͨඒ͍͠஍ٿͷࣸਅͰ ͋Δ͜ͱΛ͍ࣔࠦͯ͠·͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

17 GPT-4は⾼精度に画像理解ができる ͔͠͠ɺ࣮ࡍͷը૾͸ɺੈք஍ਤ Λ΅Μ΍Γͱ໛฿͢ΔΑ͏ʹ഑ஔ ͞ΕͨνΩϯφήοτͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

18 GPT-4は⾼精度に画像理解ができる ͜ͷϛʔϜͷϢʔϞϥε͞͸ɺ ςΩετͱը૾ͷ༧૝֎ͷฒஔ ͔Βདྷ͍ͯ·͢ɻςΩετ͸ ஍ٿͷ૖େͳը૾ͷظ଴Λઃఆ ͠·͕͢ɺ࣮ࡍͷը૾͸ฏຌͰ അࣛ͛ͨ΋ͷͰ͢ɻ ࣌ંɺӉ஦͔Βݟͨ஍ٿͷࣸਅΛோΊ ͯɺͦͷશͯͷඒ͠͞ʹڻ୰͠·͢ɻ

19 GPT-4によるV&L

• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 20 個⼈的な所感 Panel 1: A smartphone
with a VGA connector (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port. • この画像だけからでは，VGAが 15-pinのケーブルであることは判断できない • VGAがPCモニター⽤のものとして使⽤されているという知識も

• 画像からだけではわからない知識が獲得されている • こういった知識は標準的なV&L⽤のデータセットだけでは獲得できない 21 個⼈的な所感 • 宇宙から地球を⾒たときの世界地図に関する知識が表現できている •
⽇本がないのをつっこんで欲しいけど．．． This meme is a joke that combines two unrelated things: pictures of the earth from space and chicken nuggets.

• OCRの性能も⾼い • 最も⼀般的な⽅法は，OCRモデル＋V&L⽤モデルのような組み合わせ • 単⼀のTransformerモデルで両者を表現できているとすれば有⽤ 22 個⼈的な所感 • OCRの性能も⾼い
• 多⾔語に対応 Panel 2: The package for the "Lightning Cable" adapter with a picture of a VGA connector on it.

23 個⼈的な所感 • OCRの性能も⾼い • 多⾔語に対応 • OCRの性能も⾼い • 最も⼀般的な⽅法は，OCRモデル＋V&L⽤モデルのような組み合わせ
• 単⼀のTransformerモデルで両者を表現できているとすれば有⽤

• 画像認識の精度も優れている • いわゆる分布外サンプル（通常のデータセットから⾒ると）にも対応できている 24 個⼈的な所感 User: Can you explain
why this is funny. Think about it step-by-step.

• ほとんどのタスクで既存研究よりも⾼精度 • しかも，特定タスク上でのファインチューニング不要 25 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

逆にどのようなタスクで劣っているのか？ 26 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

• 最も標準的なVQAベンチマーク • 基本的に，「Yes/No, 5W1H」に関する質疑応答 27 VQAv2 [Goyal+, CVPRʼ17] [Goyal+,
CVPRʼ17]から引⽤

• ⼈間による精度が約81%程度 • 最近のV&Lモデルでも80%-84%の精度 28 VQAv2はそこまで難しいタスクではない（はず） [Chen+, arXiv:2209.06794] から引⽤

• 最近のV&LモデルはVQAのデータセットを⽤いてファインチューニング • また，1000 or 3000の回答候補から回答を1つ選択＝クラス分類として定式化 29 ただし [Chen+, arXiv:2209.06794]
から引⽤ VQAデータセット上でファインチューニングクラス分類として解く

逆にどのようなタスクで劣っているのか？ 30 GPT-4のV&Lベンチマーク上での定量評価結果 https://openai.com/research/gpt-4 から引⽤

動画説明⽂の⽣成タスク [Rohrbach+, IJCVʼ17] 31 Large Scale Movie Description Challenge (LSMDC)
Someone, back in elf guise, is trying to calm the kids. Someone grabs a vodka bottle standing open on the counter and liberally pours some on the hand. [Rohrbach+, IJCVʼ17] から引⽤

• VQAv2やLSMDCは「画像理解」の能⼒がより試される • もし，few-shotやFTでもGPT-4の性能が向上しない場合は，画像認識部分が既存研究よりも劣っている可能性もあり • ただし，画像⼊⼒に対応可能なモデルは現状未公開のため検証不可 32 GPT-4の画像認識能⼒は？

• 詳細は不明 • ⾔語モデルで事前学習＋強化学習でファインチューニング 33 GPT-4のアーキテクチャは？ [OpenAI, 2023]から引⽤

• ⼊⼒は「テキスト」のみ，もしくは「テキスト＋画像」 • 出⼒は「テキスト」のみ 34 GPT-4のアーキテクチャは？ [OpenAI, 2023]から引⽤

とりあえず考えうる候補は3つ 35 GPT-4のアーキテクチャは？（※勝⼿な予想） Encoder Decoder DBQUJPO Encoder-Decoder型 • Encoder部分で画像情報と
テキスト情報を結合して⼊⼒ • PaLI [Chen+, arXiv:2209.06794] ViT Decoder ViT DBQUJPO Decoder型 • ViTで抽出した画像特徴とテキスト情報をDecoderへ⼊⼒ • GIT [Wang+, arXiv:22015.14100] ViT Text encoder Decoder DBQUJPO • Decoder部分で画像情報を⼊⼒ • CoCa [Yu+, TMLRʼ22] Separate型

• ViTからの出⼒ベクトル系列をテキスト（キャプション）に結合して， Transformer Encoder/Decoderに⼊⼒ • ViTは4Bのモデルで，JFT-3B上で事前学習 • Transformer Encoder/DecoderはmT5-XXLを使⽤ [Xue+,
2021] 36 Encoder-Decoder型：PaLI [Chen+, arXiv:2209.06794] Encoder "CBCZTJUUJOHPOUIFGSJEHF ViT Tokenization & word embedding <#04> " Decoder Atten

37 Transformer Encoder / ViT Encoderは下記の基本素⼦から構成される • 単語・位置埋め込み • ⾃⼰注意機構（Self
Attention） • 層正規化（Layer normalization） • フィードフォワード層（FFN） • 残差結合（Residual connection） Word/Position embedding Self Attention Layer norm FFN 𝑋 Layer norm × 𝐿 𝑵⼊⼒𝑵出⼒の特徴変換器

38 Transformer Decoder Decoderは下記の基本素⼦から構成される • ⾃⼰注意機構（Self Attention） • 層正規化（Layer normalization）
• クロス注意機構（Cross Attention） • フィードフォワード層（FFN） • 残差結合（Residual connection） Layer norm Layer norm × 𝐿 Self Attention Layer norm Cross Attention FFN 𝑄 𝐾, 𝑉 𝑵⼊⼒𝟏出⼒の⽣成器

• 著者ら（Google）が独⾃にWebから収集したデータセット：WebLI • 約10Bの画像・alt-textペアをフィルタリングし，約1Bのデータを学習に利⽤ • GCP Vision APIを⽤いてOCRも実施し，学習に利⽤ • 上記に加えて，物体検出⽤のデータセットやVQA⽤のデータセットも利⽤
• データセットサイズは0.6B程度 39 PaLI：学習データ https://github.com/google-research/google-research/blob/master/pali/webli_data_card.pdf から引⽤

下記の8つのタスクを⾔語モデルの枠組みで解く • Span corruption on text-only data • Split-captioning •
Image Captioning • OCR • English and Cross-Lingual VQA • English and Cross-Lingual visual question generation • English-only Object-Aware VQA • Object detection 40 PaLI：事前学習内容

下記の8つのタスクを⾔語モデルの枠組みで解く • Span corruption on text-only data • Split-captioning •
Image Captioning • OCR • English and Cross-Lingual VQA • English and Cross-Lingual visual question generation • English-only Object-Aware VQA • Object detection 41 PaLI：事前学習内容 𝐿 = # !"# $%# 𝐶𝐸 𝑦! , 𝑝 𝑦! | 𝐼, 𝑦& , 𝑗 = 0, … , 𝑖 − 1 次単語𝑦! とのクロスエントロピー損失画像𝐼と𝑖 − 1番⽬までの単語𝑦" よる次単語予測確率

テキストの⼀部を特殊トークンに置換し，置換されたトークンを予測 42 事前学習例：Span corruption on text-only data Encoder Decoder ViT
5IBOLZPVGPSJOWJUJOH NFUPZPVSQBSUZMBTU XFFL 原⽂ 5IBOLZPV9 NFUPZPVSQBSUZ: XFFL 9 GPS GPS JOWJUJOH : MBTU MBTU ;

• ⾔語モデルの枠組みで物体検出を解くことで，複雑なネットワークや損失関数が不要に • Decoderで物体位置のトークンとクラスカテゴリ（ID）を⾃⼰回帰予測 43 事前学習例：⾔語モデルによる物体検出 [Chen+, ICLRʼ22] Encoder
（CNN or ViT） < CBCZ> < SFGSJHF> 正解データ <#04> SFGSJHF SFGSJHF <&04> Transformer Decoder ... ...

GPTのような⼿法は基盤技術に相当するもの（とも考えられる） • 代替⼿法を開発することも⼤事だがGPTの上で何ができるのかを考える事も重要 • 何ができて何ができないのか解析 • 学習済みモデルの活⽤ • 学習済みモデルの編集（知識の挿⼊と削除） •
軽量化と効果的なファインチューニング⽅法など 44 GPT-4（V&L）が利⽤可能になったとすると (15 ৽͍͠λεΫͷఏҊ ֶशࡁΈϞσϧͷ ׆༻ (15ͷฤू ʢ஌ࣝͷૠೖͱ࡟আʣ ܰྔԽ

• まずは様々なベンチマーク上での定量評価によって，性能を調査 • タスクの⼀部は，GPT-4で終わるものがあるかもしれない • 逆に，GPT-4のような強⼒なモデル評価・理解のための新たなベンチマークの設計が必要 • 多くのマイクロタスクが登場 45
何ができて何ができないのか調査

• GPT-4でどんなことができるか，逆にどんなことができないのかを検証 • 現在リリースされているGPT-4よりも古いバージョンのGPT-4を使⽤ • テキストのみを使って学習されたGPT-4を使っている • そのため，画像に関する知識はない，⼊⼒受付もできない 46 と思っていたら，昨⽇（3/23）こんな論⽂が．．．
arXiv:2303.12712

• いわゆる下記のような⼀般的なAGIの定義を意味しているわけではない • 完全である • ⼈間ができるあらゆることができるなど • この論⽂内では，1994年に52名の⼼理学者が定義した知能のことを指す[*] •
a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience • だが，そもそもAGIの定義⾃体が難しいとも⾔及している • この論⽂の趣旨は「GPT-4はどんなことができて，どんなことができないか」を共有すること 47 タイトルに「AGI」が⼊っているが [*] Linda S Gottfredson. Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997

• 現在の機械学習分野における，いわゆるベンチマークを⽤いた評価⽅法は適していない • GPT-4の詳細な学習データが不明であるため，テストデータもしくは酷似したデータが学習データに含まれている可能性を排除できない • 既存のベンチマークでは，GPT-4のような汎⽤性の⾼い⼿法を適切に評価できない 48 GPT-4の評価⽅法について
• そこで，本論⽂では⼈間の創造性や好奇⼼をベースにした（主観的な）評価を⽤いる • 丸覚えでは対応できないような斬新かつ幅広い知識を必要とするタスクが解けるかどうかをみる（定量的には評価しない（できない）） • 特に，異なるドメイン知識が複数必要なタスクを解かせてみて，より⼀般的な知能が獲得されているかをみる • 例：「韻を踏ませながら数学の証明をさせる」「ユニコーンを描画するTiKZ（LaTex）コードを書かせる」

韻を踏みながら素数は無限個あることを証明 49 例：数学の証明シェークスピア⾵に対話形式で証明以降63 pageまでは [Bubeck+, arXivʼ23]から引⽤

• プロンプト • “Produce javascript code which generates random images
in the style of the painter Kandinsky” • アートとプログラミングという異なる分野の能⼒を適切に使いこなしていることがわかる 50 例：アートを出⼒するコード⽣成 Composition 8, art by Wassily Kandinsky GPT-4 chatGPT

• 指定したベクター画像の⽣成も可能 • テキストのみを⽤いて学習しているのにも関わらず，視覚的な概念が獲得されている • 単なる丸覚えでは対応が困難 51 例：ベクター画像の⽣成

52 例：TikZコードの⽣成 • 「⼈をアルファベット⽂字で描画」するように命令 • こちらの例からも視覚的な概念が獲得されていることがわかる

• 既存のLLMと⽐べて⼤幅に優れている • text-davinci-003はChatGPTのベースモデル 53 例：コーディング（HumanEvalデータセット） HumanEval [Chen+, Evaluating large
language models trained on code, 2021]上での評価結果

• ただし，GPT-4がHumanEvalのデータを学習に⽤いているかもしれない • そこで，GPT-4の学習終了後に投稿された100個の問題をLeetCodeからもってきて，評価 • 既存のLLMよりも優れた性能かつ⼈間に匹敵する性能を達成 54 例：コーディング（LeetCode） LeetCode上での評価結果．𝒌回の試⾏で正しいコードを⽣成できた精度

しかし，最近投稿されたweb記事[*]やSNSの指摘内容[**]とは結果が異なるので要検討 55 例：コーディング [*] https://aisnakeoil.substack.com/p/gpt-4-and-professional-benchmarks?utm_campaign=post&utm_medium=web [**] https://twitter.com/cHHillee/status/1635790330854526981 [*]から引⽤

56 例：深層学習に関するコーディング • 独⾃のオプティマイザの実装を命令 • Webや⽂献内には存在しないオプティマイザの仕様であるため，丸覚えでは対応できない

57 例：深層学習に関するコーディング • 仕様通りに独⾃のオプティマイザの実装が可能 • 単に丸覚えで対応しているわけではないことを⽰唆 • また，「モメンタム」などの深層学
習に関する知識も獲得されていることがわかる（⻩⾊部分） • ChatGPTでは対応できない

58 例：擬似コードの実⾏も可能

59 そのほか⾊々なことが論⽂内で検証されています

60 GPT-4が苦⼿なこと：Symbolic manipulation 時事問題も苦⼿簡単な計算問題も苦⼿

61 GPT-4が苦⼿なこと：Symbolic manipulation 時事問題も苦⼿簡単な計算問題も苦⼿⽂字列を扱うのも苦⼿ただしGPT-4はWeb検索ができるので，検索を組み合わせればちゃ
んと回答できる途中結果も出⼒するようにすれば解ける

• ものすごい簡単な演算も普通に間違える • [0,9]の数字をランダムに4つサンプルして，下記のような積和計算をさせると， 58%しか正答できなかった • [10, 19]で試すと，正答率は16% • このようなタイプの問題に対しては，途中結果の保持がうまくできない
• “Letʼs think step by step to solve the expression, write down all the intermediate the steps, and only then produce the final solution.” のようなプロンプトで改善可能ではある 62 演算に関しては特に苦⼿演算問題に対しては，ワーキングメモリがものすごく⼩さくなる？

• 「⽂頭の⽂を反転した⽂を⽂末においても，意味的にも⽂法的にも正しくなるように短詩を書く」ように命令 • プロンプト等を頑張っても，全くうまくいかない 63 次単語予測モデル（GPT）の限界

• 先の結果が⽰唆することは，GPT-4はプランニングができないということ • もしプランニングができるのであれば，⽂末⽂がどうなるべきか事前に予測してから，⽂頭の⽂を⽣成できるはず 64 次単語予測モデル（GPT）の限界 • また，⼀⽅向の推論しかできないこともわかる •
もし，backtrackできるのなら，⽂末⽂がおかしい場合は⽂頭⽂を修正できるはず⽂末の⽂が正しくなるように予測してから，⽂頭の⽂を⽣成できていない

• 得意な事：Incremental task • 1単語（1⽂章）ずつ追加することで，徐々に正解に近づいていくような逐次的なタスク • 既存の知識を利⽤する，思考の⼤きな⾶躍が不必要なタスク • いわゆる「fast
thinking」とか「System 1」 • 例：⽂書要約，質疑応答など 65 GPT-4の得意なこと・苦⼿なこと • 苦⼿な事：Discontinuous task • 解決が連続的に⾏われるのではなく不連続な思考の⾶躍を必要とするタスクやプランニングを必要とするタスク • いわゆる「slow thinking」とか「System 2」 • 例：ジョークや謎かけを⽣み出す，科学的仮説を思いつくなど

• Confidence calibration • Long-term memory • Continual learning •
Personalization • Planning and conceptual leaps • Transparency, interpretability and consistency • Cognitive fallacies and irrationality • Challenges with sensitivity to inputs 66 より汎⽤的なAIへの道標

GPTのような⼿法は基盤技術に相当するもの（とも考えられる） • 代替⼿法を開発するというよりもGPTの上で何ができるのかを考える事も重要 • 何ができて何ができないのか解析 • 学習済みモデルの活⽤ • 学習済みモデルの編集（知識の挿⼊と削除） •
軽量化とファインチューニングなど 67 GPT-4（V&L）が利⽤可能になったとすると (15 ৽͍͠λεΫͷఏҊ ֶशࡁΈϞσϧͷ ׆༻ (15ͷฤू ʢ஌ࣝͷૠೖͱ࡟আʣ ܰྔԽ

• スクラッチからGPT-4クラスのモデルを訓練するのは（今は）⾮現実的 • 学習済みモデルをうまく活⽤するのが現実的 68 学習済みLLMの活⽤どうやって活⽤するか？ • 既存モデルの⼀部に組み込む •
Soft prompt

• 実はV&Lの研究ではいくつか提案されている • 典型的なのは，OKVQA（Outside Knowledge VQA）[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法
69 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] Q. What does the man who sits have trouble doing? A. Walking ⾞椅⼦を利⽤している⼈は歩くことが困難であるという知識が必要

• 実はV&Lの研究ではいくつか提案されている • 典型的なのは，OKVQA（Outside Knowledge VQA）[Marino+, CVPRʼ19] [Schewenk+, 2022] のための⼿法
70 LLMをVQAモデルに組み込む [Schewenk+, A-OKVQA, 2022] 折りたたみ椅⼦の知識が必要 Q. What makes those chairs easy to carry? A. Foldable

• GPT-3がもっている知識を [質問⽂，物体，画像キャプション，例⽰] で抽出 • 同時に，CLIPを⽤いてWikidataからも情報を検索 71 GPT-3を利⽤したOK-VQA [Gui+, NACCLʼ22]
物体検出 CLIP Transformer Encoder Transformer Decoder (15 画像キャプション⽣成 Q．What does the man who sits have trouble doing? A. walk

• 学習済み画像エンコーダの出⼒を学習済みLLMにフィットするように変換 • 計算コストのかかる画像エンコーダ・LLM部分は固定 • 学習するのは変換器部分のみ＝低コストにLLMを活⽤可能 72 学習済みモデルの活⽤：BLIPv2
[Li+, arXiv:2301.12597] Image Encoder ม׵ث LLM 8IJDIDJUZJTUIJT 4JOHBQPSF

73 BLIPv2との対話例（1/2）

74 BLIPv2との対話例（2/2）

１．画像エンコーダを固定して，変換器を学習 • Image-text contrastive learning • Image-grounded text generation •
Image-text matching 75 BLIPv2の概要 4FMGBUUFO $SPTTBUUFO ''/ 4FMGBUUFO ''/ ×𝐿 ×𝐿 Image-text matching loss text generation loss JOQVUUFYU contrastive loss Image Encoder 変換器 -FBSOBCMFRVFSJFT

2. LLMを固定して，変換器につけた全結合層を学習 • Text generation 76 BLIPv2の概要 4FMGBUUFO $SPTTBUUFO ''/
4FMGBUUFO ''/ JOQVUUFYU Image Encoder 変換器 -FBSOBCMFRVFSJFT -JOFBS LLM

• GPTが全知全能であるとは限らない • ⼿元のタスクを解くのに必要な知識を教えるにはどうすれば良いか？ 77 LLMの編集：新しい知識の挿⼊ • Adapterと呼ばれる⼩さいNNをLLMに取り付けて，新しい知識を記憶させる Adapterの例 [Houlsby+,
ICMLʼ19] Encoder Decoder Adapter Adapter + + Adapterの挿⼊例 [Emelin+, EMNLPʼ22] Adapterの挿⼊例（LoRA） [Hu+, ICLRʼ22]

• モデルサイズの軽量化 • LLaMA [Touvron+, arXiv:2302.13971] ：13BサイズのモデルでGPT-3（175B）を上回り， 65BモデルでChinchilla（70B）やPaLM（540B）と同等 • そのかわり，1.4
trillion tokenで学習（GPT-3は0.3 trillion token） • LLMの量⼦化[*]：MacbookでLLMが動作可能 78 LLMの軽量化 • 学習データセットの軽量化 • オーダーが2桁〜3桁⼩さいデータセットでも，フルサイズで学習したモデルの90%の性能レベルを達成可能 [Suzuki+, Information Processing & Management, 2023] [*] : https://github.com/ggerganov/llama.cpp

⾃然⾔語による画像認識例

CLIP [Radford+, ICMLʼ21]の成功によって，⾃然⾔語（キャプション）を⽤いた画像認識器の学習が有効であることが判明 80 ⾃然⾔語による画像認識正しいペアの特徴ベクトル間の内積（類似度）を最⼤化特徴ベクトル
…

CLIP [Radford+, ICMLʼ21]の成功によって，⾃然⾔語（キャプション）を⽤いた画像認識器の学習が有効であることが判明 81 ⾃然⾔語による画像認識個々のタスクで学習しなくても ResNetに勝てる [CLIPより引⽤]

• one-hotベクトルでは表現しきれない柔軟かつ膨⼤な概念を学習可能 • 数や形容詞の情報なども⼀緒に学習可能 • アノテーションコストが低い • Web上の画像・altテキストペアをもってくるだけ 82 ⾃然⾔語による画像認識のメリット
これまでの画像分類 CLIP 「有限個のクラスID Xの何か」 one-hotベクトルよりも圧倒的な情報量との関連付けが可能に l"CSPXOEPHJTTJUUJOHPOUIFHSBTTz 何を意味しているのか理解していない

83 ⾃然⾔語によるセマンティックセグメンテーション • セマンティックセグメンテーション＝画素ごとのクラス分類 • 学習には画素単位のラベル付けが必須なため，データの準備が⾮常に⾼コスト原画像画素単位のラベル付け

84 ⾃然⾔語によるセマンティックセグメンテーションキャプションのみからセマンティックセグメンテーションを学習可能な Vision Transformer（画素単位のラベルが必要ない！）[Xu+, CVPRʼ22] • 学習可能なGroupトークンで画像パッチをクラスタリング GroupViTの構造

• セマンティックセグメンテーションや深度推定などの画素ごとの予測タスクで，少数例（10サンプル）の学習だけで，⼤量データを⽤いた教師あり学習に匹敵 • ラベルの使⽤割合でいうと，0.04%以下 85 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

問題設定 • 10のタスクを学習セット（8タスク），テストセット（2タスク）に分割 • 学習セットで学習したモデルを，少数ラベル（テストセット）を⽤いてファインチューニングし，テストセット上での性能を評価 86 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]
※ GPT論⽂のfew-shot学習とは異なるので注意．今回[Kim+, ICLRʼ23]はパラメータの更新が伴う例えば，Fold1をテストセットとすると，Fold2-5が学習セットとなる

87 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

88 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] • ViTを使⽤（BeiT [Bao+, ICLRʼ21]） • クエリとサポート画像は共通の重みを
利⽤ • ラベル画像の変換は別モデルを使⽤

89 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] ポイント • 様々なタスクかつ未知タスクに適応できるように，バイアスパラメータだけはタスクごとに⽤意 •
メタ学習時に少数事例（サポート画像）を⽤いて，バイアスだけ最適化する • [Zaken+, ACLʼ22], [Cai, NeurIPSʼ20]

90 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 標準的なマルチヘッドQKV注意機構 Query : query images Key
: support images Value : labels of support images

91 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] • [Ranftl+, ICCVʼ21]に従い，マルチスケールの特徴マップを ViTから抽出 •
指定の層出⼒に対して，転置畳み込み等を適⽤することで実現

学習⽅法 • 学習セットからクエリセットとサポートセットをサンプルし，サポートセットを⽤いてクエリ画像のラベルを正しく予測するように，モデルを学習 92 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 推論 •
テストセットのサポートセットを⽤いて，バイアスのみをファインチューニング • その後，テストセットのクエリ画像を予測

学習⽅法 • 学習セットからクエリセットとサポートセットをサンプルし，サポートセットを⽤いてクエリ画像のラベルを正しく予測するように，モデルを学習 93 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23] 推論 •
テストセットのサポートセットを⽤いて，バイアスのみをファインチューニング • その後，テストセットのクエリ画像を予測バイアスのファインチューニングは⾮常に重要

将来的には，LLMのように画像認識タスクもパラメータの更新なしに未知タスクを解けるようになるかもしれない 94 画像認識におけるfew-shot学習 [Kim+, ICLRʼ23]

LLMを基盤技術と考えて，その上で何ができるかを考えるのも重要 • 効率的・効果的なファインチューニング • 解きたいタスクの知識をどうやって注⼊するか • 学習・推論の軽量化 • より適切なベンチマーク・評価⽅法の確⽴ •
理論解析 95 まとめ LLMに代わる新しい技術の提案 • （私のような）研究者はむしろこっちの⽅向性も • Transformerで本当に良いのか • next-word predictionで本当に良いのか

Vision and Languageの現状と展望（GPT-4）

Vision and Languageの現状と展望（GPT-4）

More Decks by Masanori Suganuma

Other Decks in Research

Featured

Transcript