⼤規模⾔語モデルとVision-and-Language

⼤規模⾔語モデルと Vision-and-Language NTT⼈間情報研究所⻄⽥光甫

• 名前 – ⻄⽥光甫 • 所属 – NTT⼈間情報研究所研究員
• 経歴 – 2017.3︓東京⼤学情報理⼯学系研究科修了（修⼠・岩⽥覚教授） – 2021.4〜︓東京⼤学情報理⼯学系研究科在学中（社会⼈博⼠・吉永直樹准教授） • 研究の興味 – ⾔語処理全般，特に⾔語処理x機械学習 2 講演者紹介

• 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が，視覚と⾔語を結びつけた理解にも派⽣し，急速に発展している 3 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,NeurIPSʼ22] “DALL-E
2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+, arXivʼ22.04] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck

• GPT-3やCLIPといった，NLP, V&Lの基盤モデルがどう学習され・何ができるのか • 基盤モデルを⼈間が使いやすくするための学習技術である Instruction-tuningとその代表的モデル • ChatGPT がどう学習され，9⽉に登場したGPT-4V(ision)
がどのようなV&L能⼒を獲得したのか 4 本講演で話すこと

基盤モデルと事前学習

• 超⼤量のテキストデータ（3000億トークン）で事前学習した，96層の超巨⼤なTransformerデコーダに基づく⾔語モデル • パラメータ数は175B＝1750億個（ファイルサイズで⾔うと700GB程度） • 次単語予測による学習はアノテーションなしの⽣のテキストデータを利⽤可能（⾃⼰教師あり学習） • （計算機が許せば）データ・モデルの⼤規模化が可能
6 GPT-3 [Brown(OpenAI)+, 2020/07, NeurIPS’20] 4ٶ୔ݡ࣏ ٶ୔ ݡ࣏ 次単語予測予測を⼊⼒として戻す ͸ ⽇本 ͸ ೔ຊ ͷ 「宮沢賢治は⽇本の⽂豪...」といったテキストさえあればOK

• タスク説明や少数の例を与えるのみでモデルの更新無しに問題を解く • ⼈間の様な「少数の例⽰による学習」が可能になってきた • ⼤量のテキストの中には同⼀タスクの例が繰返し現れるコンテキストも含まれており，こうした学習が例⽰による学習能⼒を向上させる 7 GPT-3によって実現した技術⼀つの系列としてGPT-3に⼊⼒
è 回答を続きの⽂章として出⼒する計算問題並び替え英仏翻訳

• Webから収集した4億件の画像とテキスト（画像の説明⽂）のペアから事前学習された視覚・⾔語の基盤モデル • 画像エンコーダとテキストエンコーダが独⽴に⼊⼒をベクトル化 • 正しい画像とテキストのペアの内積が⼤きくなるように対照学習 • （計算機が許せば）データ・モデルの⼤規模化が可能 8
CLIP [Radford(OpenAI)+, 2021/01, ICML’21] 正しいペアの内積を⼤きくするように学習 Vision Transformer やCNN Transformer 各テキストのベクトル各画像のベクトル

• 従来のImageNetデータセットでは，25,000⼈が1,400万枚の画像に対して 22,000クラスをアノテーション • CLIPはWebから収集したデータを⽤いて，（ノイズはあるが）⽐較的低コストで遥かに広い概念を⾔語と結びつけて学習可能 9 CLIPは何が凄いのか ImageNetの ”Tench”（コイ科の淡⽔⿂）カテゴリの写真の例
ImageNetの ”Siberian Husky”カテゴリの写真の例本来不要な男性も含めてTenchが学習されてしまう⽝の数や動作については無考慮 https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html CLIP: 「釣り上げたTenchを抱えている男性」と学習 CLIP: 「3匹のシベリアンハスキーが芝⽣に座る」と学習

10 CLIPによって実現した技術画像⽣成代表例: DALL-E 2 [Ramesh(OpenAI)+, arXivʼ22.04] CLIPと拡散モデルによるテキストからの画像⽣成モーション⽣成
代表例: MotionCLIP [Tevet+(Tel Aviv U.), ECCVʼ22] モーションの系列とCLIPの画像・テキスト表現を結びつけるモーション⽣成例モーション合成例

基盤モデルを活⽤する技術︓ Instruction-Tuning

• ⼈間の指⽰（プロンプト）に従ってNLPタスクを解くこと⾃体をモデルに追加学習させることを提案 • ⼤量の訓練・評価タスクを⽤意し，各タスクに適切な指⽰を書き下した • 指⽰付きの訓練タスク群に対する追加学習（Instruction tuning）をすることで，未知のタスク・指⽰に対しても精度良くテキストを⽣成 •
基盤モデルによるテキスト⽣成を「指⽰」することが可能に 12 Instruction Tuning [Wei(Google Research)+,ICLR2022] それぞれのタスクを表す指⽰を書き下す⼤量の訓練タスクを通じ指⽰に従うことを学習

• Instruction tuning（11タスク・62データ）で学習したFLANモデル（137B）はGPT-3（175B）を上回る性能を達成 • ⼀部タスクではタスク特化で学習したモデルを上回ると話題を集めた 13 FLAN [Wei(Google Research)+,ICLR2022]

14 Visual Instruction Tuning [Liu(Wisconsin-Madison U.)+, NeurIPS’23] GPT-4 テキスト情報 +
複数の⼊出⼒ペアを例⽰⼊出⼒ペア画像はキャプションかオブジェクト名+bounding boxに変換 • V&Lモデルに対しても，指⽰に従うことを学習させた • 画像をテキスト情報に変換 • 変換結果と複数の⼊出⼒ペアをGPT4に例⽰することでInstruction tuning データを⽣成

• ⼤規模⾔語モデル（LLM）と画像エンコーダの接続部 Projection 𝐖 を⽤いて，画像情報をLLMに伝搬 • ⼆段階の学習を実施 1. LLMと画像エンコーダのパラメータを固定し，𝐖のみCC3M*を
変換した擬似Instruction tuningデータで学習 2. LLM，𝐖を作成したInstruction tuningデータを⽤いて学習 15 LLaVA [Liu(Wisconsin-Madison U.)+, NeurIPS’23] • 画像とalt-textのペアデータセットCC3Mの⼀部 CLIP Vicuna Linear

16 LLaVAの⽣成例 [Liu(Wisconsin-Madison U.)+, NeurIPS’23] おかしな点は，⾞の後ろで男性がアイロンをかけている点です．この⾏動は普通は⾏わないですし，アイロンはアイロン台を⽤いて，⾃宅などのより安全な場所で⾏います． LLaVAは画像版のGPT-4よりも，画像の内容について詳細に⾔及ができている常識

• ⼈⼿で作成した⾃然⾔語テンプレートに対して，既存のV&Lデータセットのサンプルを当てはめ，Instruction tuningデータを作成 • Q-formerとFNN層 (合計100M程度) のみを学習し，その他のパラメータは固定 17
InstructBLIP [Dai(Salesforce)+, arXiv’23] ⻩⾊のデータで学習し，その他のデータでzero-shot評価テンプレート

• Instruction tuningによって，様々なV+Lタスクにおけるzero-shot性能が向上 18 InstructBLIPの評価 [Dai(Salesforce)+, arXiv’23] 動画は学習データに含まれないが，zero-shotでそこそこ解ける

ChatGPTとGPT-4V

• 対話に最適化したGPT • InstructGPTで採⽤されたReignforcement Learning from Human Feedback (RLHF)を⽤いて，⼈間のフィードバックを学習に組み込んだ •
モデル・パラメータ数など不明だが，GPT-3.5シリーズとして呼称 • その⾼い性能から最速でアクティブユーザ1億⼈に到達．社会に⼤きな影響を与えるレベルに到達 20 ChatGPT IUUQTUXJUUFSDPN&DPOPNZ"QQ TUBUVT

21 InstructGPTのRLHF (1/3) [Ouyang(OpenAI)+, NeurIPS’22] 1. ⼤規模⾔語モデル（GPT-3 175B）をベースに，⼈⼿で⽤意した「⼊⼒に対する望ましい応答」の学習データで教師あり学習を⾏う
⼈⼿で作成⼈⼿でアノテータが作成 / Playground APIでユーザが実際に投⼊

22 InstructGPTのRLHF (2/3) [Ouyang(OpenAI)+, NeurIPS’22] 2. 「⼊⼒＋モデル出⼒」に対して評価値を出⼒する報酬モデル（6B）を，学習データを⼈⼿で⽤意して作るモデル出⼒
評価値現状のモデルで，同じ⼊⼒に対して複数個の応答を出⼒⼈⼿で望ましさのランキングを作成

23 InstructGPTのRLHF (3/3) [Ouyang(OpenAI)+, NeurIPS’22] 3. 正解情報を⽤意せずに，⾔語モデルが「報酬モデルが⾼く評価する応答⽂」を出⼒できるように強化学習を⾏う 4.
ステップ2-3を繰り返して⾔語モデルと報酬モデルを相互に成⻑させることが可能⼤規模⾔語モデルの学習に Human-in-the-loopが取り⼊れられた点で⾰命的

• 詳細は未公開だが，基本的にInstructGPTの⽅式を踏襲 • ユーザ・AIアシスタント双⽅を⼈間が⾏うロールプレイにより「望ましい対話データ」を作成． GPT-3.5をさらにファインチューニング 24 ChatGPTにおけるRLHF

• 超⼤規模なGPT．RLHFも⾏っており，ChatGPTも超える性能を持つ • テキストと画像の⼊⼒を受け付け，テキストを出⼒する • モデル・訓練⽅法は⾮公開．なぜV&L理解能⼒を備えるのかも不明 • ⽇本の医師国家試験で合格ラインを超えるなど⼤きく話題に 25 GPT-4の登場
[OpenAI, arXiv’23.03]

• GPT-4V(ision)は論⽂での⾔及 [2023/03/15]のみで，APIはテキストのみ対応していた • OpenAIが画像⼊⼒を含むAPIを公開 [2023/09/25] • MicrosoftがGPT-4Vの評価論⽂を公開 [Yang(Microsoft)+,
arXiv’23.09] – 様々なタスクでGPT-4Vの能⼒を検証 – GPT-4Vの潜在的可能性を検証するための成功事例集 • 論⽂中で成功事例が紹介されているタスクでも，平均的な性能は未検証であることに注意（本講演では断定的に紹介します） • 今後のプロンプト（指⽰⽂）エンジニアリングで性能が向上する可能性 – 166ページの⼤作であり，本講演ではV&Lの基礎能⼒に絞って紹介 26 GPT-4Vの公開

27 GPT-4Vは指⽰に従って答える指定した単語数で説明単純な質問で間違える場合も「⾏ごとに数えて」と推論過程を指⽰することで正解できる

28 GPT-4Vは画像的な指⽰を理解する ◦などの注釈を理解⽮印や”Object1”などの参照表現を理解画像に書き込んだ質問も理解

29 GPT-4Vは画像を事例にした指⽰を理解する ︖に⼊るものを上下左右の類推から当てることを説明新しい問題にも答えられる =1-shot学習に成功

30 GPT-4Vは認識タスクに説明と共に答える伏⾒稲荷といった⽇本の観光地を当てる伏⾒稲荷の説明も正しいシーン全体の描写が可能

31 GPT-4Vは位置関係を理解する bounding boxの座標をテキストとして出⼒し位置を⽰すことができるまだ難しそう

32 GPT-4Vは画像中のユーモアを理解する「サイが⾃分⾃⾝を描いている」ことに⾔及できているそこから，個々⼈に独⾃の視点があることにも⾔及できている

33 GPT-4Vは画像中の常識を理解する⾷物連鎖における⽣産者の概念を理解しているこの図の中から適切に⽣産者を抜き出している

34 GPT-4Vは⽂書や図表を画像として理解する⼿書きフォントを理解するかわいい計算ミスもある（切り捨てればあってる）ラベルと数字の関係性を理解

35 GPT-4Vは⽂書画像に関する推論を⾏う論⽂を画像として⼊⼒し，要約間違いもある

36 GPT-4Vは画像をコードとして⽣成する数式や表を latex・Markdown 形式で⽣成可能

37 GPT-4Vは画像をコードとして⽣成するお絵かきは難しい

38 GPT-4Vは画像の系列を理解する個々の画像の意味を理解・画像系列としての意味を推論・正しい順序を推論する

39 GPT-4Vは画像に関する推論を⾏う IQテストのような「仲間外れ探し」もできる

• 基盤モデルは⾃⼰教師あり学習によってモデルサイズ・学習データ数を⼤規模化可能．様々なタスクに転移できる • Instruction-tuningを実施することで，基盤モデルは⼈間の指⽰に従ったzero-shotの汎化能⼒を獲得する • GPT-4VやChat-GPTは様々な可能性を⾒せている – ⾔語モデルと組み合わせることで，画像処理タスクにおいて
指⽰に従う能⼒・知識を説明する能⼒・推論する能⼒を獲得 – 何ができるのか・できないのかの定量・定性的な評価が今後重要 40 まとめ

• NTT研究所ではV&Lモデル・⼤規模⾔語モデルの研究開発に注⼒しています – 本資料も⻄⽥京介さん・⽥中涼太さんに多くの協⼒をいただきました • ⼀緒に研究する仲間を募集しています︕ 41 謝辞指⽰に従う要約⽣成
（⻄⽥光＋，NLP2023委員特別賞）スライド画像に対する質問応答（⽥中＋，AAAI2023, NLP2023優秀賞）

42 参考⽂献 1. Aditya Ramesh et al.: Hierarchical Text-Conditional Image
Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 2. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. NeurIPS 2022 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021 5. Tevet, Guy, et al.: Motionclip: Exposing human motion generation to clip space. ECCV 2022 6. Jason Wei et al.: Finetuned Language Models Are Zero-Shot Learners. ICLR 2022 7. Wenliang Daiet al.: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. CoRR abs/2305.06500 (2023) 8. Haotian Liu et al.: Visual Instruction Tuning, NeurIPS 2023 9. Long Ouyang et al.: Training language models to follow instructions with human feedback. NeurIPS 2022 10. OpenAI: GPT-4 Technical Report. CoRR abs/2303.08774 (2023) 11. Zhengyuan Yang et al.: The Dawn of LMMs: Preliminary Explorations with GPT- 4V(ision). CoRR abs/2309.17421 (2023)

⼤規模⾔語モデルとVision-and-Language

⼤規模⾔語モデルとVision-and-Language

Kosuke Nishida

More Decks by Kosuke Nishida

Other Decks in Research

Featured

Transcript