Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

自然言語とVision&Language

 自然言語とVision&Language

東京大学大学院の2024年度講義「知能情報論」で使用した資料です.
Vision&Language関連の研究について,深層学習初期から大規模モデルにいたるまでを概観しています.

なお,資料作成時期は2024年5月下旬であり,内容はその時点で発表されていた研究等に基づいています.

Kohei Uehara

June 05, 2024
Tweet

More Decks by Kohei Uehara

Other Decks in Research

Transcript

  1. • Vision(画像)とLanguage(言語)の両方のモダリティを対象とする研究分野 • 代表的なタスク: 入力:画像 出力:言語 → 画像キャプション生成 入力:画像 +

    言語 出力:言語 → 画像質問応答(VQA) 入力:言語 出力:画像 → 画像生成(Text-to-Image) 本講義では,入力が「画像 or 言語」,出力が「言語」の場合を取り扱う 1 Vision & Languageとは
  2. • 入力:画像 出力:言語 → 画像キャプション生成 入力された画像についての説明文(キャプション)を生成するタスク 2 Vision & Language

    のタスク ① Captioning Model A herd of zebras grazing with a rainbow behind. Stefanini et al. “ From show to tell: A survey on deep learning-based image captioning ” TPAMI 2022 をもとに作成
  3. • 入力:画像 + 言語 出力:言語 → VQA Visual Question Answering

    (VQA) … 画像に関する質問に回答するタスク 3 Vision & Language のタスク ② VQA Model zebra What kind of animal shown in this image?
  4. 2回のパラダイム・シフト(深層学習登場・Transformer登場) • 深層学習登場以前 • この時点で基本的な取り組みは存在 • 深層学習登場〜Transformer登場 • 大幅な性能向上 •

    モデルは各タスクに特化 • Transformer時代 • モデルの大規模化が可能に • マルチタスクを解くことができる大規模汎用モデルの開発 4 V&L 研究の歴史
  5. 目次 1. 基礎知識 2. 深層学習以前の研究 3. 深層学習時代の研究 4. 深層学習の発展 5.

    データセット 6. 事前学習モデル 7. 大規模V&Lモデル + LLM 8. 大規模V&Lモデルの技術 9. 大規模V&Lモデルの改良
  6. • エンコーダー(Encoder, 符号化器) • 入力から特徴量を抽出する • 画像の場合 :CNN,Vision Transformerなど(後述) •

    テキストの場合:LSTM,Transformerなど(後述) • デコーダー(Decoder,復号化器) • 入力された特徴量から出力を生成する • エンコーダー・デコーダーモデル • 入力を特徴量に変換し,変換された特徴量から出力を生成する 7 モデル構造に関する用語 エンコーダー デコーダー 入力 特徴量 出力
  7. • LSTM(Long Short Term Memory) • RNN(Recurrent Neural Network)の改良版 •

    RNN:系列データ(テキストなど)を処理するために回帰的に処理を行うNN 系列長が長くなると勾配が消失・爆発するため学習が難しい • 複数のゲート関数を用いることで,勾配の消失・爆発を防ぐ • テキストのエンコーダーやデコーダーとして使われる 9 代表的なニューラルネットワークのモジュール② https://colah.github.io/posts/2015-08-Understanding-LSTMs/
  8. Inputs Multi-Head Attention Position-wise FFN Add & Norm Add &

    Norm (Masked) Multi-Head Attention Position-wise FFN Add & Norm Add & Norm Multi-Head Attention Add & Norm Token Embedding Token Embedding Linear & Softmax (Shifted) Outputs Output Probabilities Positional Encodings Positional Encodings !⇥ ⇥! • Transformer • LSTMなどのRNN系列モデルは, 1ステップずつ計算を行う必要があるため, 学習が非効率 • Transformerは,self-attentionの積層に よって入力を処理する → 適切にマスクを適用することで, 複数ステップを並列処理することができる • CNNやLSTMと比べて表現力が大きく, 大規模計算に適しているため, 大規模モデルにおいては中核を担う 10 代表的なニューラルネットワークのモジュール③ Lin et al. “ A Survey of Transformers ” arXiv 2021.
  9. • 画像からトリプレット(<person, against, sofa> など)を予測 → テンプレート( The <adj> <obj1>

    is <prep> <obj2> など)にあてはめて文章を作成 13 Baby Talk Kulkarni et al. “ Baby talk: Understanding and generating simple image descriptions ” CVPR 2011.
  10. • 2012年,画像認識においてCNNがブレークスルーを実現 • 2014年,文章生成(機械翻訳)においてLSTMがブレークスルーを実現 • 2014年,キャプション生成にも深層学習の波が……! • 深層学習時代におけるV&L研究の特徴 • 画像認識・自然言語処理/生成の両分野の知見が適用できるため,進歩が早い

    • 例:画像認識分野からCNNエンコーダー,自然言語分野からLSTMデコーダー • V&Lならではの工夫をいかに取り入れるかが鍵 15 深層学習時代の到来 Krizhevsky et al. “ ImageNet Classification with Deep Convolutional Neural Networks. ” NIPS 2012. Sutskever et al., “Sequence to Sequence Learning with Neural Networks.” NIPS 2014.
  11. • 学習:交差エントロピー誤差を最小化するように学習 • V: 画像特徴量,yt : 文章中のt番目の単語 • 要するに:「画像とt-1番目までの単語」から, 「t番目の単語」をもっともよく予測できるようにモデルを最適化

    17 深層学習時代のキャプション生成 エンコーダー A herd of zebras grazing with a rainbow behind. デコーダー 画像 特徴量 t-1番目 までの単語 t番目の 予測単語
  12. • 深層学習によるキャプション生成の幕開け • アーキテクチャは非常にシンプル • エンコーダー: InceptionNet • デコーダー :

    LSTM • MS COCOデータセットの40万件近いキャプション データで学習 → 既存の非ニューラル手法を圧倒する性能 18 深層学習時代のキャプション生成:Show and Tell Vinyals et al. “ Show and Tell: A Neural Image Caption Generator ” CVPR 2015. エンコーダー デコーダー
  13. • 基本:画像とテキストのエンコーダー + 識別器(MLP) 19 深層学習によるVQA What is the mustache

    made of? 特 徴 量 合 成 識 別 器 banana apple yellow hair 画像 エンコーダー テキスト エンコーダー
  14. • 基本:画像とテキストのエンコーダー + 識別器(MLP) • 画像エンコーダー:CNNなど • テキストエンコーダー:LSTMなど 20 深層学習によるVQA

    What is the mustache made of? 特 徴 量 合 成 識 別 器 banana apple yellow hair 画像 エンコーダー テキスト エンコーダー
  15. • 基本:画像とテキストのエンコーダー + 識別器(MLP) • 識別器:回答を候補クラスの中から「識別」する(MLPなど) 22 深層学習によるVQA What is

    the mustache made of? 特 徴 量 合 成 識 別 器 banana apple yellow hair 画像 エンコーダー テキスト エンコーダー なぜ「生成」でなく「識別」として解くのか? 回答はせいぜい数単語程度の短いフレーズ(yes, no, banana, …)であり,バリエーションが少ない → 回答の出現頻度上位3000個程度で90%以上をカバーできてしまう → 3000クラスの識別問題とした方が性能が上がる
  16. • Attentionを考慮したキャプション生成:画像特徴量の重み付き平均をデコーダーに入力 α: アテンションの重み係数(総和は1になるように正規化) 28 Attentionの計算 A herd of zebras

    grazing with a rainbow behind. ը૾ Τϯίʔμ Attention ςΩετ σίʔμ 画像特徴量 アテンションの重み係数はどうやって得るのか?
  17. • h t : デコーダーLSTMのt番目の単語に対応する隠れ層の出力 • ht に対して何らかの計算を行うことで,et (正規化前の重み係数)を得る •

    つまり:t番目の単語を出力するために役に立ちそうな局所画像特徴量に,大きな重みを与えたい 29 Attentionの計算 アテンションの重み係数はどうやって得るのか? → NNに学習させる
  18. • h t : デコーダーLSTMのt番目の単語に対応する隠れ層の出力 • ht に対して 何らかの計算 を行うことで,et

    (正規化前の重み係数)を得る • 何らかの計算:デコーダーの隠れ層出力(と画像特徴量)にNNを適用して計算する (一例) 30 Attentionの計算 隠れ層出力 画像特徴 重み 重み 重み
  19. • 報酬として用いられる評価指標 • 例:BLEUスコア • n-gram(連続するn単語の組)単位でのprecisionをベースとした指標 34 強化学習によるfine-tune n-gram precisionの計算例(n=2の場合)

    正解文:A herd of zebras grazing with a rainbow behind. 生成文:Some zebras are standing with a rainbow behind. 2-gramの抽出 正解文:["A herd", "herd of", "of zebras", "zebras grazing", "grazing with", "with a", "a rainbow", "rainbow behind"] 生成文:["Some zebras", "zebras are", "are standing", "standing with", "with a", "a rainbow", "rainbow behind"] 一致する2-gram:[“with a”, “a rainbow”, “rainbow behind”] の3つ n-gram precision = (一致するn-gram数)/ (生成文の全n-gram数) = 3 / 7 ≒ 0.43 ※ BLEUスコアを計算する際は,文章長に基づくペナルティ項など,さらにいくつかの処理が行われる Papineni et al. “ BLEU: a method for automatic evaluation of machine translation ” ACL 2002.
  20. • 評価指標を最大化するような損失関数を設計したい (! ": 正解文,y: 生成文,v: 画像) • しかし,報酬の計算は微分できない操作を含む →

    勾配降下法で最適化できない → 方策勾配定理を用いると,報酬の勾配は「方策の確率の勾配」と「報酬」の積の期待値で表すこ とができる 35 強化学習によるfine-tune 報酬 報酬 方策の確率の勾配 損失の勾配
  21. • キャプション生成において,CIDErスコアを最適化 するように強化学習 • 特に,レアな状況における生成品質が改善 • 生成例 従来手法でのキャプション: a blue

    of a building with a blue umbrella on it 強化学習手法のキャプション: a blue boat is sitting on the side of a building 36 強化学習の応用例:Self-critical Sequence Training Rennie et al. “ Self-critical Sequence Training for Image Captioning ” CVPR 2017.
  22. • 画像キャプションや,VQAにおいて, 画像中の物体は頻繁に言及される → 画像全体を均一にとらえるより, 画像中の物体にフォーカスすべき? • 物体領域ベースの特徴量 1. 専用の物体検出モデル(Faster

    R-CNN)を訓練 2. 訓練した物体検出モデルで,物体領域を検出 3. 各領域ごとの特徴量を抽出 37 画像エンコーダーの工夫:検出モデルでの特徴抽出 Anderson et al. “ Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering ” CVPR 2018. Grid特徴量 (従来モデル) 領域特徴量
  23. • 画像特徴量を領域ベースに置き換えるだけで性能向上 • キャプション生成:MSCOCO BLEU-4 が 7%向上 • VQA:VQAv2 accuracy

    が 6%向上 38 画像エンコーダーの工夫:検出モデルでの特徴抽出 Question: What room are they in? Answer: kitchen Anderson et al. “ Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering ” CVPR 2018.
  24. • 要素和,要素積,連結(concat) ✅ シンプル ❌ 部分的にしか特徴量が組み合わせられていない • 外積(outer product) ✅

    すべての特徴量が組み合わせられる ❌ 特徴量のサイズが莫大になってしまう 40 特徴量の組み合わせ 要素和の場合:対応する要素しか組み合わせられない 外積の場合:組み合わせた後の特徴サイズが大きい 2048次元 2048次元 2048×2048 ≒ 400万
  25. • Multimodal Compact Bilinear Pooling • カウントスケッチ関数を用いて,各モーダルの特徴量を低次元に射影 • カウントスケッチベクトルの外積は,FFT(高速フーリエ変換)で効率的に計算可能 →

    通常の外積計算に比べて,パラメータ数を大幅に削減可能(論文中では約0.3%に削減) (Ψ: カウントスケッチ関数,⊗: 外積,⊙:要素積) 41 特徴量の組み合わせ:MCB Fukui et al. “ Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding ” EMNLP 2016.
  26. • 通常の双線型モデル y: 出力特徴量ベクトル(o次元) v1, v2: 入力ベクトル(m, n次元) W: 重みベクトル(m×n次元)

    • 問題:Wの次元が大きすぎる → Wを低次元行列U, Vの積に分解(m×ko次元,n×ko次元) • Multimodal Factorized Bilinear Pooling 合計プーリング(Sum Pooling)を用いることで,yを効率よく計算可能 42 特徴量の組み合わせ:行列分解に基づく方法 Yu et al. “ Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering ” ICCV 2017.
  27. • タスクごとにさまざまなデータセットが構築されている • クラウドソーシングを用いて構築されているものが多い • 右図:AMT(Amazon Mechanical Turk; https://www.mturk.com/ )での

    データ作成画面のスクリーンショット • AMT … Amazonが提供するクラウドソーシングサービス • 概して安価(安価すぎるという批判もあり) • クオリティ担保のための取り組みが必須 • 自明な質問によるフィルタリング • 複数人の回答を統合 • Qualified Workerの指定 44 V&Lデータセット Uehara&Harada. “ K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition ” WACV 2023.
  28. • 画像に対して様々なアノテーションが付与されたデータセット • 物体検出用のバウンディングボックス • セグメンテーション用のマスク • キャプション • V&Lタスク的には,キャプションが使われる

    • 1画像につき5個程度のキャプション • 画像:約8万件,キャプション:約40万件 • キャプション生成関連のあらゆる研究で使われる デファクトスタンダード的なデータセット 45 MSCOCO Lin et al. “ Microsoft COCO: Common Objects in Context ” ECCV 2014.
  29. • 画像に対して様々なアノテーションが付与された データセット • 基本的に,画像の領域ごとにアノテーションが付与 されている • 領域キャプション • 領域に関するVQA

    • 領域の物体ラベル • シーングラフ ※ シーングラフ:画像中の物体の関係性を グラフとして表したもの • 画像:約10万件,領域キャプション:約500万件, 領域VQA:約180万件 46 Visual Genome Krishna et al. “ Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations ” IJCV 2017.
  30. • VQAデータセット • 画像はMSCOCOのものを使用 • 1つの質問につき,10人のアノテーターが回答を付与 • VQA v1とv2の2世代のデータセットがある •

    v1はアノテーションバイアスが大きかった(例:Is there~系への回答がyesになりがち) → v2ではバイアスを減らす工夫が行われている 47 VQA Agrawal et al. “ VQA: Visual Question Answering ” ICCV 2015. Goyal et al., “Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering”, CVPR 2017.
  31. • 画像中の領域に関するキャプションのデータセット • 画像はMSCOCOを使用 • RefCOCO, RefCOCO+, RefCOCOgの3種類がよく用いられる • RefCOCO,

    RefCOCO+は,「キャプションをもとに物体を当てるゲーム」形式で収集 • RefCOCOgは,通常のアノテーション + 別のアノテーターによるバリデーション 48 RefCOCO Kazemzadeh et al. "ReferItGame: Referring to Objects in Photographs of Natural Scenes." EMNLP 2014. Yu et al. "Modeling Context in Referring Expressions." ECCV 2016.
  32. • 従来のデータセットは人手でアノテーションされており,高品質だが高コスト • web上にある画像と,画像に紐づけられたテキスト(altテキストなど)を活用すれば, 低コストで大量のデータを集められる……? • CCデータセット(Conceptual Captions) • web上の画像と,altテキストをもとに

    データセットを構築 • altテキストは非常にノイズが多いため, 様々なフィルタリング・クリーニングを適用 • 大規模モデルの事前学習(後述)など, 質より量が優先される学習で使われる 50 CC-3M, 12M Sharma et al. "Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning." ACL 2018. Changpinyo et al. “Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts” CVPR 2021.
  33. • エンコーダーonlyモデル • 主に入力の特徴量を得るための学習を行う • デコーダーonlyモデル • テキスト生成タスクでデコーダーを学習 • エンコーダー・デコーダーモデル

    • エンコーダー・デコーダーの両方を学習 54 事前学習モデルの構造 The hope <MASK> rings … Transformer Encoder Transformer Decoder The hope bell rings … The hope bell rings … the field bears fruit The hope <MASK> rings … the field bears <MASK> Transformer Encoder Transformer Decoder The hope bell rings … … the field bears fruit エンコーダーonly デコーダーonly エンコーダー・デコーダー
  34. • 単語予測の方法 • Masked Language Modeling(MLM)… ランダムにマスクした単語を予測する • 主にエンコーダーonlyモデルで採用される •

    Causal Language Modeling (CLM) … 前の単語列から,次の単語を予測する • 主にデコーダーonlyモデルで採用される 55 事前学習モデルの学習 Language Model the hope bell rings, the field bears fruit the hope <MASK> rings, the field bears <MASK> the hope bell rings, the field bears Language Model the hope bell rings, the field bears fruit MLM CLM
  35. • MLM派閥の代表的なモデル • マスクされたトークンを周辺文脈から予測する Masked Token Modeling と 2つの文章が連続するかどうかを予測する Next

    Sentence Prediction で学習 56 BERT Devlin et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." NAACL 2019.
  36. • CLM派閥の代表的なモデル • 大規模なTransformer Decoderを大量のテキストデータで学習 • モデルの大規模化に伴い,性能も向上(スケーリング則) 58 GPT GPT

    … | the | hope | bell | rings | , | the | field bears | fruits | … Radford et al. “Improving Language Understandingby Generative Pre-Training.” 2018. Radford et al. "Language Models are Unsupervised Multitask Learners." 2019. Brown et al., “Language Models are Few-Shot Learners” NeurIPS 2020.
  37. • V&L事前学習モデルの学習タスク • 基本的には言語事前学習にならったものが多い • Masked Language Modeling • 言語モデルの場合と同様

    • Masked Image Modeling • マスクされた画像領域の特徴量を予測 • Image-Text Matching • 画像とテキストがペアかどうかを予測(2値分類) etc… 60 V&Lモデルの事前学習
  38. • Two-stream型のモデル • 事前学習タスクはMLM, ITM, MRM, VQA 64 LXMERT Tan&Bansal

    "LXMERT: Learning Cross-Modality Encoder Representations from Transformers." EMNLP 2019.
  39. • 大量のテキストデータで学習された大規模モデル • モデルの規模:数Bパラメータ以上くらい?明確な定義はなし オープンな大規模モデルだと7B以上くらいが多い印象 • テキストデータの規模:数百Bトークン以上? • 事前学習 →

    Instruction Tuning → アラインメントという流れで学習されることが多い • 事前学習 :大量の雑多なテキストで学習 • Instruction Tuning:タスクに関する指示文・入力から適切な応答を行うように学習 • アラインメント :人間のフィードバックに従うように強化学習(RLHF) 70 LLMとは
  40. • LLaMAシリーズ(v1, v2, v3) • Metaが継続的に開発 • weightやコードが公開されており,性能も高いためよく使われる • Vicuna

    • LLaMAに対して追加でinstruction tuningを行ったモデル • 対話系タスクでの性能が向上,応答の自然さが強み • Gemma • Googleのモデル • これもweightやコードが公開されているため,最近の注目株 71 代表的な(オープンな)LLM Touvron et al., "LLaMA: Open and Efficient Foundation Language Models." arXiv 2023. Touvron et al., “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv 2023. Chiang et al., “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality.” at https://lmsys.org/blog/2023-03-30-vicuna/ Gemma Team, “Gemma: Open Models Based on Gemini Research and Technology.” arXiv 2024.
  41. • 画像エンコーダー + アダプター + LLM • 画像を特徴量に変換 • 訓練済みのモデル(主にCLIP)が用いられる

    72 大規模 V&Lモデルのパーツ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  42. • 画像エンコーダー + アダプター + LLM • 訓練済みのLLMを利用 • 例:LLaMA,

    vicuna, gemmaなど 74 大規模 V&Lモデルのパーツ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  43. • LLMの訓練同様,訓練を複数ステージに分けて行うことが多い • 事前訓練 → Instruction Tuning → Fine-tuning •

    各ステージごとに,訓練に使うデータの性質が大きく異なる 75 大規模 V&Lモデルの訓練 ~Billions ~Millions ~100K 事前訓練データ Instruction-tuning データ Fine-tuning データ 質より量 webクロールデータなど 量より質 指示文つきデータ 量より質 タスク特化
  44. • 事前訓練 → Instruction Tuning → Fine-tuning ※ 一例 •

    画像エンコーダーとLLMはフリーズ,アダプターのみ訓練 • アダプターによる画像特徴量とテキスト特徴量をAlignmentを学習 76 大規模 V&Lモデルの訓練①:事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  45. • 事前訓練 → Instruction Tuning → Fine-tuning • 学習に用いるデータセットは,webクロール系(CC, LAION,

    …)を用いることが多い • この段階では,画像とテキストの対応関係をざっくり学習できればよい • 質より量が重要 77 大規模 V&Lモデルの訓練①:事前訓練 Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  46. • 事前訓練 → Instruction Tuning → Fine-tuning ※ 一例 •

    画像エンコーダーはフリーズ,アダプターとLLMを訓練 • Instructionに応じたテキスト生成を学習 78 大規模 V&Lモデルの訓練②:Instruction Tuning Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  47. • 事前訓練 → Instruction Tuning → Fine-tuning • データセットは,Instruction(指示文)+ 回答の形式のデータ

    • なるべく品質もよいものを使いたい → MS COCOなど,高品質なデータに指示文を追加して使用 • 近年では,GPTなどにInstructionデータを自動生成させて学習に用いることも • 利用規約的にはグレーゾーン(GPTの出力を競合モデルの開発に用いることは禁止) 79 大規模 V&Lモデルの訓練②:Instruction Tuning 指示文の例(MultiInstruct) VQA:Answer the question <QUESTION> based on the content of the given image Grounded Captioning:Given the region <REGION> in the image, generate a caption for that region Xu et al. "MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning." ACL 2023.
  48. • 事前訓練 → Instruction Tuning → Fine-tuning • 画像エンコーダーはフリーズ,アダプターとLLMを訓練 •

    ダウンストリームタスクに特化した学習 80 大規模 V&Lモデルの訓練③ Image Encoder Adapter LLM A dog is sitting next to the teddy-bear. Please describe this image.
  49. • 学習 • Stage 1(アダプターの事前訓練):Q-Formerのみ訓練. 損失は,① 画像テキストマッチング損失,② 画像テキスト対象損失,③ テキスト生成損失 •

    Stage 2(LLMも含めた訓練):LLMのテキスト生成損失で訓練.ただしBLIPではLLM自体は訓練しない 82 大規模 V&Lモデル:BLIP-2 Li et al. "BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models." ICML 2023.
  50. • 画像エンコーダー:NFNet,LLM:Chinchilla • アダプター:Perceiver Resampler + Gated cross-attention 83 大規模

    V&Lモデル:Flamingo Alayrac et al. "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022.
  51. • Perceiver Resampler • 画像特徴量を固定長ベクトルに変換 • Gated cross-attention • 変換後の固定長ベクトルとテキスト特徴のAttentionを計算

    • LLMの各レイヤーに追加される 84 大規模 V&Lモデル:Flamingo Alayrac et al. "Flamingo: a Visual Language Model for Few-Shot Learning." NeurIPS 2022.
  52. • モデルをレイヤーごとに分割し, 各GPUに順番に配置・計算 • ナイーブに実装すると,Forward・Backward計算の 待ち時間(Bubble)が発生してしまう → 様々な方法でBubbleをなるべく減らす工夫が行われ ている 93

    分散学習:モデルパラレル(Pipeline Parallel) https://colossalai.org/docs/concepts/paradigms_of_parallelism Huang et al., “GPipe: Efficient Training of Giant Neural Networks using Pipeline Parallelism.” NeurIPS 2019.
  53. • Flash Attention (v1, v2) • GPUメモリにはHBMとSRAMの2種類 • HBM :メインメモリ.大容量だが低速

    • SRAM:キャッシュメモリ.高速だが低容量 • v1:なるべくHGMへのアクセスを減らすことで 高速化を実現 • v2:GPUに最適化された実装・並列化などにより v1と比べて2倍程度高速化 97 大規模モデルの推論:Transformerの高速化 Dao et al., “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” NeurIPS 2022. Dao. “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning.” ICLR 2024. https://huggingface.co/docs/text-generation-inference/conceptual/flash_attention
  54. • 訓練時はfloat16程度までの低精度計算が可能だった • 推論時は,勾配計算等が必要ないため,さらに大胆な量子化を行うことができる • 例:int8量子化 • int8は -128~127 の256種類の値しか表現できない

    → シンプルに量子化(均一量子化)すると小数や大きな数が表現できない • もとの数(x)をスケーリング係数(S)で割り,オフセット係数(Z)を足すことで, 適当な値へのマッピングを行う 98 大規模モデルの推論:量子化
  55. • 特定の画像領域に関する指示への対応 • 「画像中のこの場所について説明してほしい」など • 大規模モデル以前でも,領域に応じたキャプションを生成する研究は存在 例:参照表現生成(Referring Expression Generation) •

    画像と領域座標が与えられたとき, その領域について説明するキャプションを生成 • キャプション生成モデルと, キャプションから領域を推定するモデル (Listener)を同時に訓練 102 領域指示への対応 Yu et al., “A Joint Speaker-Listener-Reinforcer Model for Referring Expressions.” CVPR 2017.
  56. • 領域座標をテキストプロンプトとして与える 例: <s> <image> Image Embedding </image> <grounding> <p>

    It </p><box><loc44><loc863></box> seats next to <p> a campfire </p><box><loc4><loc1007></box> </s> • 領域座標は,32×32 = 1024のグリッドで表現し,<loc左上座標><loc右下座標> の形で表現 103 領域指示への対応:KOSMOS-2 Peng et al., “Grounding Multimodal Large Language Models to the World.” ICLR 2024.
  57. • 既存のVLMは,画像中の小さな物体を見逃してしまうことが多い 107 高解像度対応 Q. Based on that advertisement board,

    can you tell what type of shop is in the image? https://huggingface.co/blog/visheratin/vlm-resolution-curse
  58. • 既存のVLMは,画像中の小さな物体を見逃してしまうことが多い 108 高解像度対応 Q. Based on that advertisement board,

    can you tell what type of shop is in the image? GPT-4V: The shop in the image is a café or coffee shop. LLaVA: No, I cannot determine the type of shop in the image based on the advertisement board. The advertisement board is located near the sidewalk, but it does not provide enough information to identify the specific type of shop. GT. yoga practice https://huggingface.co/blog/visheratin/vlm-resolution-curse
  59. • 大規模モデルは時間計算量・空間計算量ともに大きい • なお,V&Lモデルの計算量・パラメータ数のほとんどはLLMによって占められている → 軽量なLLMの活用 + アダプターの軽量化 • 軽量なLLMの例

    • MobileLLaMA, TinyLLaMA • LLaMA2のダウンサイジング版(1B~2B程度) • Phi-1, 2, 3 • Microsoftが開発している軽量なLLM (2B程度) • 学習データの品質を高めることで,小さなモデルでも高性能を達成 113 学習・推論の効率化 Zhang et al., “TinyLlama: An Open-Source Small Language Model.” arXiv 2024. Gunasekar et al., “Textbooks Are All You Need.” arXiv 2023. Abdin et al., “Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone.” arXiv 2024.
  60. • アーキテクチャはLLaVAがベース • LLMをMobileLLaMAに変更 • アダプターのパラメータ削減を工夫 • LDP • Depthwise

    convolutionを用いた構造 • ストライドを2に設定し,出力トークン数を1/4に削減 • LDPv2 • Depthwise convolutionを一部廃し, Average Poolingに置き換え 114 学習・推論の効率化:MobileVLM v1, v2 Chu et al., “MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices.” arXiv 2023. Chu et al., “MobileVLM V2: Faster and Stronger Baseline for Vision Language Model.” arXiv 2024. LDP(v1) LDP(v2)
  61. • VLM分析論文による知見(分析するモデルによって異なる結論になることもあるので注意) • 事前学習フェーズは実は必要ない?[1, 4] • 画像の解像度は高い方がよい [2, 3, 4,

    5] • アダプターの構造はさほど影響がない [3] • V&Lデータだけでなく,テキストonlyデータも使って学習するとよい [3] • 画像エンコーダーのfine-tuneは不要 [4] • (パラメータ数が同等の場合)言語モデルの性能も大きくは影響しない? [4] • パラメータ数が同等でも,性能の高い言語モデルを使うべきという説も [2] • パラメータ数が大きい言語モデルの方が最終的な性能がよい [1] • 言語モデルだけでなく,画像モデルのパラメータ数も増やしたほうがよい [5] 115 その他の知見 [1] Lu et al., “DeepSeek-VL: Towards Real-World Vision-Language Understanding.” arXiv 2024. [2] Laurençon et al., “What matters when building vision-language models?” arXiv 2024. [3] McKinzie et al., “MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training.” arXiv 2024. [4] Karamcheti et al., “Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models.” ICML 2024. [5] Chen et al., “How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites.” arXiv 2024.
  62. • Vision&Language技術の研究 • Transformer以前:個別タスクごとに特化モデルを学習 • Transformer以後:汎用な大規模モデルを事前学習し,マルチタスク対応 • 最近の主流はLLMを統合した事前学習モデル • 画像エンコーダー

    + アダプター + テキストデコーダー (LLM) • Computer Vision・Natural Language Generation/Understandingの両分野の知見に加え, 融合分野ならではの工夫も必要 116 まとめ