CVIM 2025/03 チュートリアル画像認識における基盤モデル

by ksaito

Slide 1

Slide 1 text

画像認識における基盤モデル OMRON SINIC X Senior Researcher 齋藤邦章

Slide 2

Slide 2 text

2 画像認識における基盤モデル(VL-Model)とは • 入力画像に対し言語で様々な入出力を表現できるモデル – 言語モデルの発展 – 様々なタスクを言語タスクで表現可能 segmentation dog (x0 =250, y0 =320), (x1 =251, y1 =320), . . dog (xmin ,ymin ) = (240, 280), (xmax ,ymax )= (300, 350), object detection image classification dog image captioning A dog running on a grass VQA Q. What is the dog doing? A. running

Slide 3

Slide 3 text

今日の内容、目的 • 基盤モデルの現在までの変遷を見る • 重要なテクニック、学習の背後にある考え方を掴む – データ – アーキテクチャ – 学習Objective 3

Slide 4

Slide 4 text

4 AlexNet 爆誕 ! 2021 2012 CLIP 大量の画像とテキストペアを使ったモデル 2023 LVLM, MLLM (Large Vision Language Model) (Multimodal Large Language Model) LLMとの接続 LLAVA, BLIP 2024-2025 LVLM 群雄割拠の時代基盤モデルの変遷 1. CLIP 2. CLIPの改善 3. LLMとの接続

Slide 5

Slide 5 text

CLIP 5

Slide 6

Slide 6 text

CLIP 6 物体検出説明文生成猫と犬が2匹ずつピンクの背景の前にいます。識別猫、犬基盤モデル猫と犬が2匹ずつピンクの背景の前にいます。猫、犬 2021 2012 CLIP以前 CLIP以後

Slide 7

Slide 7 text

学習データセット • Common Crawlののテキストと対応する画像 • 400Mのペア • ドメインが多様 • 多分LAIONデータ（CLIP論文に明確にそうとは書いてない） 7 https://laion.ai/blog/laion-400-open-dataset/

Slide 8

Slide 8 text

8 Unified Contrastive Learning in Image-Text-Label Space, CVPR2022 画像エンコーダテキストエンコーダオレンジと灰色の鳥共通空間 Objective ペアの類似度を上げたい。非ペアは類似度を下げたい。目的：ペアが近くに配置されるような埋込を学習説明文(キャプション)

Slide 9

Slide 9 text

画像とテキスト間のContrastive Loss 9 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか合計するペアの類似度を上げたい。非ペアは類似度を下げたい。

Slide 10

Slide 10 text

10 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

Slide 11

Slide 11 text

11 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

Slide 12

Slide 12 text

12 ペアの類似度を上げたい。非ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるかバッチサイズが一つの鍵! ・Negative サンプルを増やすことができる・CLIPでは32,768 ・異なるGPUから特徴を集めて計算・256 V100, 12 days, ViT-L/14

Slide 13

Slide 13 text

識別タスクへの応用 13 画像エンコーダテキストエンコーダ Bird Dog Cat Horse Human A photo of a {class name}. T1 T2 T3 T4 T5 I A photo of a bird. クラス候補テンプレートで文章化特定のデータに対する学習を行わなずに識別を行う。 Zero-shotな識別プロンプト 0.8 0.3 0.2 0.1 0.05

Slide 14

Slide 14 text

Locked Image Tuning: 画像側の学習を行わない 14 LiT : Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 仮説: ある程度強い学習済みの画像モデルがあれば、画像側の学習必要ないのでは？ Image Encoder 事前学習なし Text Encoder 1. どちらもFull Scratch: CLIP Image Encoder 事前学習済み Text Encoder 2. 画像側 Unlock Image Encoder 事前学習済み Text Encoder 3. 画像側をLock

Slide 15

Slide 15 text

15 画像側Lock 画像側Unlock スクラッチ画像側Lock 画像側Unlock スクラッチ画像側の学習しなくても良さそう。 4Bのペアデータセットに対する結果 Locked Image Tuning: 画像側の学習を行わない LiT : Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 15Mペアでの学習学習イテレーション ✓ VLLMに使う場合にも、Freezeする場合は多い。 ✓ 事前学習に使ったデータと評価データによる。

Slide 16

Slide 16 text

16 AlexNet 爆誕 ! 2021 2012 2023 2024-2025 CLIPからLVLMまで ⚫ CLIPは識別はできるが、生成には不向き ⚫ CLIPにはできないタスクを解く動き ⚫ 言語モデルの要素が色濃くなる！

Slide 17

Slide 17 text

CLIP以後の流れ • CLIPはVLタスクへの比重は大きくはなかった • VLタスクを解くながれ – ALBEF [Li et al., 2021], BLIP [Li et al., 2022], by Salesforce – CoCa [Yu et al., 2022] by Google 17 https://visualqa.org/ Visual Question Answer (VQA) Image Captioning A man surfing in sunny day

Slide 18

Slide 18 text

言語モデルとVLタスクへの改善 18

Slide 19

Slide 19 text

19 言語モデルと画像モデルの接続言語モデル (Transformer) 画像エンコーダ ⚫ 言語モデルに画像を理解してもらう必要がある。 ⚫ どんな言語モデル、学習を行うのか？出力

Slide 20

Slide 20 text

Masked Language Modeling と Causal Language Modeling 20 Transformer [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed

Slide 21

Slide 21 text

Masked Language Modeling と Causal Language Modeling 21 Transformer [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] Causal Language Modeling (CLM) (推論時) ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ a [s] a dog sleeping in bed

Slide 22

Slide 22 text

Masked Language Modeling と Causal Language Modeling 22 Transformer [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a a dog ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed

Slide 23

Slide 23 text

Masked Language Modeling と Causal Language Modeling 23 Transformer [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 Transformer [s] a dog a dog sleeping ⚫ ある時点までのトークンは与えられる ⚫ 次のトークンを予測する ⚫ 推論は1トークンずつ ⚫ Decoderとも呼ぶ Causal Language Modeling (CLM) (推論時) [s] a dog sleeping in bed

Slide 24

Slide 24 text

Masked Language Modeling と Causal Language Modeling 24 [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed Causal Language Modeling (CLM) (学習時) sleeping bed ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理 Transformer a dog sleeping in bed [e] Transformer Teacher Forcing Ground-truthのトークン列を使う [s] a dog sleeping in bed

Slide 25

Slide 25 text

Masked Language Modeling と Causal Language Modeling 25 [s] a sleeping in bed dog Masked Language Modeling (MLM) ⚫ ランダムにトークンをトークンに置き換える ⚫ 置き換えた場所のトークンを正しく予測 [s] a dog sleeping in bed sleeping bed Attention Maskを操作することで、どのトークンを見るか制御している Causal Language Modeling (CLM) (学習時) ⚫ 1個1個生成されるのを待つと遅い ⚫ 学習時には、GTのトークン列で一気に学習 ⚫ Attentionでどのトークンが見えるか管理

Slide 26

Slide 26 text

画像を言語モデルに理解させるには？ 26 Transformer [s] a sleeping in bed dog Masked Language Modeling (MLM) Transformer [s] a dog sleeping in bed Causal Language Modeling (CLM) ⚫ 文を画像から生成できる？ ⚫ ある時点までのトークン+ 画像特徴を見る。 ⚫ 生成タスクに使われる ⚫ Captioning loss a dog sleeping in bed [e] ⚫ 画像から情報を補完できる？ [s] a dog sleeping in bed

Slide 27

Slide 27 text

画像の情報をどう与えるのか 27 Transformer 画像エンコーダ a dog sleeping a dog ClipCap: CLIP Prefix for Image Captioning, Mokady et al., arxiv 2021 ⚫ 画像を言語トークンと同じ次元に変換。(MLPなど) ⚫ 言語トークンと同様にTransformerに入力。 ⚫ 現在最も広く使われているであろう方法。シンプル Connector

Slide 28

Slide 28 text

画像の情報をどう与えるのか 28 画像エンコーダ [s] a dog K V Q X Cross-Attention (Transformer内) Updated embedding ⚫ 言語側のTransformer内で条件付する ⚫ ALBEF等で使われている。 ⚫ LLMとの組み合わせではあまり使われない印象

Slide 29

Slide 29 text

29 ALBEF: VLタスクに焦点をおいたモデル Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Li et al., Neurips 2021 • 多様なVLタスクに使えるようなEncoderを学習した – Image-Text contrastive loss (ITC) – Masked Language Modeling (MLM) – Image-Text Matching (ITM) • ペアに対して1 • 非ペアに対して0 Image Encoder Text Encoder Multimodal Encoder A dog sleeping in a bed ITC MLM ITM 言語モデルのObjectiveを入れることで、 VLタスクでの精度向上を図った。

Slide 30

Slide 30 text

ダウンストリームタスクに適合する方法 30 ⚫ VQAやImage2Text Retrieval等のVLタスクに対して評価。 ⚫ ダウンストリームタスクに対してDecoder (CLM) を学習する必要があり。 Image Encoder Text Encoder Multimodal Encoder A dog sleeping in a bed 学習したモジュール

Slide 31

Slide 31 text

ALBEFの評価 31 ⚫ Image-Text Contrastive Learning (ITC)がないと性能が低い。 ⚫ 多くの損失やモジュールが精度を支えている。

Slide 32

Slide 32 text

CoCa: Captioning + Contrastive Learning 32 ⚫ Data: 1.8B Image-Text Pair + JFT-3B classification ⚫ Contrastive loss + Captioning loss CoCa: Contrastive Captioners are Image-Text Foundation Models, Yu et al., 2022 +9.8 Caption lossでVQAが大きく向上

Slide 33

Slide 33 text

CoCa: Captioning + Contrastive Learning 33 ⚫ CLIPを大きく上回る識別精度 ⚫ 様々なVLタスクにおける精度向上

Slide 34

Slide 34 text

Contrastive Lossは必須なのか？ • Contrastive Loss無しでは、画像特徴が良くない!という意見が多かったが… • Captioning Lossのみでも、良い特徴が獲得できる場合があると示した 34 Image Captioners Are Scalable Vision Learners Too, Tschannen et al., Neurips2023

Slide 35

Slide 35 text

Contrastive Lossは必須なのか？ 35 ⚫ Cap: Captioning lossのみで学習したモデル ⚫ CapPa: 入力全てMaskしたMLM + Captioning loss

Slide 36

Slide 36 text

なぜCapPaが良い？ 36 • 画像情報により依存した予測をしてほしいため • 文頭は画像情報が必要だが、あとになるほど、画像を見なくても推測できてしまう Transformer [s] a dog sleeping in bed 犬が寝てるのは、ソファーとかベッドとかだろ。えいや！

Slide 37

Slide 37 text

なぜCapPaが良い？ 37 • 画像情報により依存した予測をしてほしいため • 文頭は画像情報が必要だが、あとになるほど、画像を見なくても推測できてしまう Transformer bed ベッドで寝てる犬が入力だから、 bedかな…?

Slide 38

Slide 38 text

38 ⚫ Cap: Captioning lossのみで学習したモデルもCLIPと同等の性能を示している。 ⚫ CapPaは更に良い。

Slide 39

Slide 39 text

39 ⚫ Cap: Captioning lossのみで学習したモデルもCLIPと同等の性能を示している。 ⚫ CapPaは更に良い。

Slide 40

Slide 40 text

40 ⚫ モデルのサイズを大きく、データサイズを大きくするとCapPaが良くなる傾向 ⚫ 逆に言うと、↑の条件が満たされていない場合は、Contrastive Lossが必須なのかも

Slide 41

Slide 41 text

BLIP: データをどうカサ増しするか 41 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation, [Li et al., 2022] • Webから収集した画像は説明文がノイジー • 人がアノテーションしたデータは少ないノイズが少ない大量のデータを得たい

Slide 42

Slide 42 text

BLIP: データをどうカサ増しするか 42 人手で付与した画像説明文データセット Webから収集画像説明文データセット説明文生成モデル事前学習 1. 事前学習 A dog sleeping in a bed A dog sleeping 類似度出力モデル 0.8

Slide 43

Slide 43 text

BLIP: データをどうカサ増しするか 43 説明文生成モデル Web画像 2. 説明文付与 ⚫ 大量のWeb画像と説明文のペアが生成される生成説明文画像+ 生成説明文

Slide 44

Slide 44 text

BLIP: データをどうカサ増しするか 44 3. データフィルタリング、データセット作成類似度出力モデル画像+ 生成説明文 Webから収集画像＋説明文類似度出力モデルフィルタ済み画像説明文 ⚫ 出力された類似度の高いものだけをキープ ⚫ 説明文にノイズの多いものを除去する。

Slide 45

Slide 45 text

45 ⚫ カサ増し＋Filteringを行うことで、精度向上が確認できている。 ⚫ データのスケールが大きくなっても、精度向上が確認できる。データをカサ増し+Filteringの効果

Slide 46

Slide 46 text

LLMとの接続 46

Slide 47

Slide 47 text

LVLM時代に突入 47 AlexNet 爆誕 ! 2021 2012 2023 ⚫ LLMと接続させる。 ⚫ シンプルにCaption lossで学習するのが一番良さそう ⚫ 生成したデータを使うのは有効 2024-2025

Slide 48

Slide 48 text

Instruction Tuningとは 48 Self-supervised Training Instruction Tuning Task-specific tuning (Optional) • ラベルなしDocumentで学習 • 人手で作ったQAデータ • 多様なタスクを統合する学習 • Zero-shotで高い汎化性能を持つ • 人手で作ったQAデータ • 単一のタスクで学習

Slide 49

Slide 49 text

Instruction Tuningとは 49 FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS, Wei et al., ICLR2022 ⚫ 従来は、異なるQAタスクに対して別々にチューニングしていたが, ⚫ Instructionと言われるテンプレートを用いて、様々なタスクを統一的に扱って学習

Slide 50

Slide 50 text

LVLM時代に突入 50 BLIP-2 [Li et.al., 2023] • LLMと接続する手法が提案される (BLIP-2, LLaVA) BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models, Li et al., 2023 ✓ Connector: 画像を説明できるようなトークンを得る ✓ Two stage学習: Connectorの学習 -> 全体(or一部)のチューニングが一般的

Slide 51

Slide 51 text

LLMを使うメリットはどこにあるのか？ 51 • LLMの持つ言語能力を継承できる。 – 画像を言語として理解できれば、強いはず。 Zero-shotなVQAの例 ✓ BLIP-2は画像説明文のデータでのみ学習している ✓ 画像を言語として理解できている一例

Slide 52

Slide 52 text

LLaVA • 構造: MLPで画像特徴量を変換 • 画像説明文: 595K + Instruction-Tuning: 158K • Two-stage 学習: Connector -> LLMを含めたチューニング 52 Visual Instruction Tuning, Liu et al., Neurips2023

Slide 53

Slide 53 text

✓ Instruction-tuningにより、会話能力向上

Slide 54

Slide 54 text

54 ⚫ データの拡張 ⚫ デザインの良し悪しを再評価 ⚫ 評価方法の検討 AlexNet 爆誕 ! 2021 2012 2023 2024-2025

Slide 55

Slide 55 text

その後のモデルは？ • データを増やす、高品質にする – 詳細で間違いの少ない説明文 55 ShareGPT4V: Improving Large Multi-Modal Models with Better Captions, Chen et al., ECCV2024 GPT-4Vで生成

Slide 56

Slide 56 text

どうして詳細だと良いのか？ 56 LLM 画像エンコーダ質問文 • ここに画像のあらゆる情報がLLMに解釈可能な形で格納されている • LLMが強い  ２つが満たされれば、どんな質問にも答えられるはず！ • 画像情報を言語的に理解してもらうには、リッチな教師情報が必要

Slide 57

Slide 57 text

57 その後のモデルは？ • 画像特徴量をリッチにする – 複数のImage Encoder – 画像解像度を大きく by Qwen, InternVL2 Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs, Tong et al., CVPR2024 CLIP + DINOの特徴量を組み合わせる！ https://internvl.github.io/blog/2024-07-02-InternVL-2.0/ 画像の入力を高解像に

Slide 58

Slide 58 text

どう評価するのか 58 https://mmmu-benchmark.github.io/ • 多様なドメイン＋タスクで評価を試みる – Reasoning + Knowledge MMMU

Slide 59

Slide 59 text

それぞれのデザインを再評価する試み 59 Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs, Tong et al., Neurips2024

Slide 60

Slide 60 text

✓ Connectorを最初に学習することは大事。より多くのデータを使ってconnectorを学習させるのも大事。 ✓ Vision Modelを再学習させるのも大事。 ✓ Language supervisedなモデルCLIP, SigLiPが多くのタスクで良い。 ✓ 高解像度なEncoder, Conv-baseモデルがOCR, Chart, Vision Centricで良い。 ✓ 複数のEncoderを組み合わせると強くなる。 60

Slide 61

Slide 61 text

61 AlexNet 爆誕 ! 2021 2012 CLIP 大量の画像とテキストペアを使ったモデル 2023 LVLM LLMとの接続 LLAVA, BLIP LVLM 群雄割拠の時代基盤モデルの変遷 2024-2025

Slide 62

Slide 62 text

まとめ • CLIPから現在のLVLMに至るまで • 多様なObjective, デザイン • 現在のLVLM – アーキテクチャ – 学習方法 – はFixされつつある • 改善のためのベンチーマークや手法が提案され続ける 62