Upgrade to Pro — share decks privately, control downloads, hide ads and more …

⼤規模⾔語モデルとVision-and-Language

 ⼤規模⾔語モデルとVision-and-Language

IBIS2023の企画セッション「Vision and Languageの最前線」で講演した資料です.

Kosuke Nishida

October 30, 2023
Tweet

More Decks by Kosuke Nishida

Other Decks in Research

Transcript

  1. • 名前 – ⻄⽥ 光甫 • 所属 – NTT⼈間情報研究所 研究員

    • 経歴 – 2017.3︓東京⼤学情報理⼯学系研究科 修了 (修⼠・岩⽥覚教授) – 2021.4〜︓東京⼤学情報理⼯学系研究科 在学中 (社会⼈博⼠・吉永直樹准教授) • 研究の興味 – ⾔語処理全般,特に⾔語処理x機械学習 2 講演者紹介
  2. • 画像処理と⾃然⾔語処理の融合領域 • TransformerやBERTの成功が,視覚と⾔語を結びつけた理解にも派⽣し, 急速に発展している 3 Vision-and-Languageとは “Flamingo”による画像の内容に基づく対話 [Alayrac(Deepmind)+,NeurIPSʼ22] “DALL-E

    2”によりテキストから⽣成された画像 [Ramesh(OpenAI)+, arXivʼ22.04] vibrant portrait painting of Salvador Dalí with a robotic half face a shiba inu wearing a beret and black turtleneck
  3. • 従来のImageNetデータセットでは,25,000⼈が1,400万枚の画像に対して 22,000クラスをアノテーション • CLIPはWebから収集したデータを⽤いて,(ノイズはあるが)⽐較的 低コストで遥かに広い概念を⾔語と結びつけて学習可能 9 CLIPは何が凄いのか ImageNetの ”Tench”(コイ科の淡⽔⿂)カテゴリの写真の例

    ImageNetの ”Siberian Husky”カテゴリの写真の例 本来不要な男性も含めてTenchが 学習されてしまう ⽝の数や動作については無考慮 https://salient-imagenet.cs.umd.edu/explore/class_0/feature_686.html https://salient-imagenet.cs.umd.edu/explore/class_250/feature_829.html CLIP: 「釣り上げたTenchを 抱えている男性」と学習 CLIP: 「3匹のシベリアンハ スキーが芝⽣に座る」と学習
  4. 10 CLIPによって実現した技術 画像⽣成 代表例: DALL-E 2 [Ramesh(OpenAI)+, arXivʼ22.04] CLIPと拡散モデルによるテキストからの画像⽣成 モーション⽣成

    代表例: MotionCLIP [Tevet+(Tel Aviv U.), ECCVʼ22] モーションの系列とCLIPの画像・テキスト表現を結びつける モーション⽣成例 モーション合成例
  5. 14 Visual Instruction Tuning [Liu(Wisconsin-Madison U.)+, NeurIPS’23] GPT-4 テキスト情報 +

    複数の⼊出⼒ペアを例⽰ ⼊出⼒ペア 画像はキャプションか オブジェクト名+bounding boxに変換 • V&Lモデルに対しても,指⽰に従うことを学習させた • 画像をテキスト情報に変換 • 変換結果と複数の⼊出⼒ペアをGPT4に例⽰することでInstruction tuning データを⽣成
  6. • ⼤規模⾔語モデル(LLM)と画像エンコーダの接続部 Projection 𝐖 を ⽤いて,画像情報をLLMに伝搬 • ⼆段階の学習を実施 1. LLMと画像エンコーダのパラメータを固定し,𝐖のみCC3M*を

    変換した擬似Instruction tuningデータで学習 2. LLM,𝐖を作成したInstruction tuningデータを⽤いて学習 15 LLaVA [Liu(Wisconsin-Madison U.)+, NeurIPS’23] • 画像とalt-textのペアデータセットCC3Mの⼀部 CLIP Vicuna Linear
  7. • 対話に最適化したGPT • InstructGPTで採⽤されたReignforcement Learning from Human Feedback (RLHF)を⽤いて,⼈間のフィードバックを学習に組み込んだ •

    モデル・パラメータ数など不明だが,GPT-3.5シリーズとして呼称 • その⾼い性能から最速でアクティブユーザ1億⼈に到達.社会に⼤きな 影響を与えるレベルに到達 20 ChatGPT IUUQTUXJUUFSDPN&DPOPNZ"QQ TUBUVT
  8. 23 InstructGPTのRLHF (3/3) [Ouyang(OpenAI)+, NeurIPS’22] 3. 正解情報を⽤意せずに,⾔語モデルが 「報酬モデルが⾼く評価する応答⽂」を 出⼒できるように強化学習を⾏う 4.

    ステップ2-3を繰り返して⾔語モデルと報酬モデル を相互に成⻑させることが可能 ⼤規模⾔語モデルの学習に Human-in-the-loopが取り⼊れられた点で⾰命的
  9. • GPT-4V(ision)は論⽂での⾔及 [2023/03/15]のみで,APIはテキストのみ 対応していた • OpenAIが画像⼊⼒を含むAPIを公開 [2023/09/25] • MicrosoftがGPT-4Vの評価論⽂を公開 [Yang(Microsoft)+,

    arXiv’23.09] – 様々なタスクでGPT-4Vの能⼒を検証 – GPT-4Vの潜在的可能性を検証するための成功事例集 • 論⽂中で成功事例が紹介されているタスクでも,平均的な性能は未検証 であることに注意(本講演では断定的に紹介します) • 今後のプロンプト(指⽰⽂)エンジニアリングで性能が向上する 可能性 – 166ページの⼤作であり,本講演ではV&Lの基礎能⼒に絞って紹介 26 GPT-4Vの公開
  10. 42 参考⽂献 1. Aditya Ramesh et al.: Hierarchical Text-Conditional Image

    Generation with CLIP Latents. CoRR abs/2204.06125 (2022) 2. Jean-Baptiste Alayrac et al.: Flamingo: a Visual Language Model for Few-Shot Learning. NeurIPS 2022 3. Tom B. Brown et al.: Language Models are Few-Shot Learners. NeurIPS 2020 4. Alec Radford et al.: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021 5. Tevet, Guy, et al.: Motionclip: Exposing human motion generation to clip space. ECCV 2022 6. Jason Wei et al.: Finetuned Language Models Are Zero-Shot Learners. ICLR 2022 7. Wenliang Daiet al.: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. CoRR abs/2305.06500 (2023) 8. Haotian Liu et al.: Visual Instruction Tuning, NeurIPS 2023 9. Long Ouyang et al.: Training language models to follow instructions with human feedback. NeurIPS 2022 10. OpenAI: GPT-4 Technical Report. CoRR abs/2303.08774 (2023) 11. Zhengyuan Yang et al.: The Dawn of LMMs: Preliminary Explorations with GPT- 4V(ision). CoRR abs/2309.17421 (2023)