SSII2024 [TS3] 画像認識におけるマルチモーダル基盤モデル～基盤モデル、あなたのタスクに役立つかも？～

画像認識におけるマルチモーダル基盤モデル OMRON SINIC X Senior Researcher 齋藤邦章

基盤モデルとは 2 https://blogs.nvidia.co.jp/2023/06/19/what-are-foundation-models/ • アノテーションコストの低い⼤量のデータからの教師なし学習を利⽤ • 幅広いタスク、多様な⼊⼒に適応可能 https://www.aidanscannell.com/project/amazon-picking-challenge/featured.jpg

3 https://openai.com/research/clip, • 様々なモデルに使われている • Vision, Vision-languageタスクに使える

画像認識、Vision-Language研究の歩み 4 CLIP爆誕︕ AlexNet 爆誕 ! 物体検出説明⽂⽣成
猫と⽝が2匹ずつピンクの背景の前にいます。識別猫、⽝基盤モデル猫と⽝が2匹ずつピンクの背景の前にいます。猫、⽝多様なタスクそれぞれに対するモデル⼤規模⾔語モデルの合流 2021 2012 2024

アウトライン • 今更聞けないCLIPの基礎知識 • CLIPが⽕をつけた基盤モデルに関する研究トピック – 研究事例からCLIPをより深く理解する 5

CLIPの基礎 6

学習データセット • Common Crawlの<alt text>のテキストと対応する画像 • 400Mのペア • ドメインが多様 •
多分LAIONデータ（CLIP論⽂に明確にそうとは書いてない） 7 https://laion.ai/blog/laion-400-open-dataset/

8 Unified Contrastive Learning in Image-Text-Label Space, CVPR2022 画像エンコーダ
テキストエンコーダオレンジと灰⾊の⿃共通空間 Objective ペアの類似度を上げたい。⾮ペアは類似度を下げたい。ペアが近くに配置されるような埋め込みを学習したい学習対象︓400Mの画像テキストペア説明⽂(キャプション)

画像とテキスト間のContrastive Loss 9 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるかペアの類似度を上げたい。⾮ペアは類似度を下げたい。合計する

10 ペアの類似度を上げたい。⾮ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

11 ペアの類似度を上げたい。⾮ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 合計する 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

12 バッチサイズが⼀つの鍵! ・Negative サンプルを増やすことができる・CLIPでは32,768 ・異なるGPUから特徴を集めて計算・256 V100, 12 days,
ViT-L/14 ペアの類似度を上げたい。⾮ペアは類似度を下げたい。画像とテキスト間のContrastive Loss 1. 画像からテキストを持ってこれるか 2. テキストから画像を持ってこれるか

識別タスクへの応⽤ 13 画像エンコーダテキストエンコーダ Bird Dog Cat Horse
Human A photo of a {class name}. T1 T2 T3 T4 T5 I A photo of a bird. クラス候補類似度テンプレートで⽂章化特定のデータに対する学習を⾏わない中で、識別を⾏う。 -> Zero-shotな識別プロンプト 0.8 0.3 0.2 0.1 0.05

14 線形識別器を教師ありで学習した場合より Zero-shotで強い! 弱いドメインの例 Learning Transferable Visual Models From Natural
Language Supervision CLIPのZero-shot識別 vs. ResNet50の線形層教師あり学習多様なデータに対して識別が可能︕ RESISC45 PatchCamelyon EuroSAT DTD

ロバストなZero-shot識別器 15 Learning Transferable Visual Models From Natural Language Supervision
CLIPは多様なドメインに強い! 従来のモデルは異なるドメインへの汎化性能が低かった

CLIPが⽕をつけた研究トピック 16

CLIPが⽕をつけた研究 17 ・精度向上・データ効率・計算効率 VLアプリケーションの進化・Open-Vocabulary 認識・⾔語と画像に関する拘束・ロバストなモデル実現
・パラメータ効率基盤モデルのチューニング発展的なVLモデルの提案・⾔語モデルとの組み合わせ・タスクの統合 CLIPの改善, 理解

CLIPが⽕をつけた研究 18 ・精度向上・データ効率・計算効率 CLIPの改善, 理解 VLアプリケーションの進化・Open-Vocabulary 認識
・⾔語と画像に関する拘束・ロバストなモデル実現・パラメータ効率基盤モデルのチューニング発展的なVLモデルの提案スライドの最後を参照ください! ・⾔語モデルとの組み合わせ・タスクの統合

CLIPの理解 19

20 Data Determines Distributional Robustness in Contrastive Language Image Pre-training
(CLIP), 2022 ImageNet vs. ImageNet-Captions ⾔語でロバストネスは向上しなかった。 YFCC-classification vs. YFCC-Caption ⾔語を使わなくてもロバストだった。画像データの分布が⼤事! ⾔語によるSupervisionではない。画像特徴について︓ロバストさは何に⽀えられているのか︖ 検証: ⾔語を画像のSupervisionにすることで、ロバストになっているという意⾒

Locked Image Tuning: 画像側の学習を⾏わない 21 LiT : Zero-Shot Transfer with
Locked-image text Tuning, CVPR2022 仮説: ある程度強い学習済みの画像モデルがあれば、画像側の学習必要ないのでは︖ Image Encoder 事前学習なし Text Encoder 1. どちらもFull Scratch: CLIP Image Encoder 事前学習済み Text Encoder 2. 画像側 Unlock Image Encoder 事前学習済み Text Encoder 3. 画像側をLock

22 画像側Lock 画像側Unlock スクラッチ画像側Lock 画像側Unlock スクラッチ画像側の学習しなくても良さそう。 4Bのペアデータセットに対する結果。 Locked
Image Tuning: 画像側の学習を⾏わない LiT : Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 仮説: ある程度強い学習済みの画像モデルがあれば、画像側の学習必要ないのでは︖ 15Mペアでの学習

なぜなのか 23 画像側Lock 画像側Unlock スクラッチ画像側Lockは Lossが⼤きい画像側Lockが⼀番良い! LiT :
Zero-Shot Transfer with Locked-image text Tuning, CVPR2022 テストデータにおけるloss 学習データにおけるloss

画像特徴量の改善:画像に対する⾃⼰教師学習を取り⼊れる 24 SLIP: Self-supervision meets Language-Image Pre-training, 2021 SLIP: 画像に対するSelf-supervisionを組み合わせる
DeCLIP: SUPERVISION EXISTS EVERYWHERE: A DATA EFFICIENT CONTRASTIVE LANGUAGE-IMAGE PRE-TRAINING PARADIGM, ICLR2022 DeCLIP: 画像と⾔語両⽅のデータ拡張データ拡張データ拡張

⾔語特徴に対する検証︓どこまで⾔語を理解できているのか︖ 25 Winoground: Probing Vision and Language Models for Visio-Linguistic
Compositionality, CVPR2022 物体の⼊れ替え関係性⼊れ替え全然理解できていない。 Bag-of-wordsのように捉えているらしい.. Contrastive Learning最⼩化において、関係性を理解しなければならないケースが少ないー＞Bag-of-words的な理解で⼗分

画像⽣成モデルを通した⾔語エンコーダについての解析 26 Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding,
2022 Imagenの結果 Human Rating ・⾔語モデルに負ける・関係性等を捉えられないからでは

CLIPの改善 27

28 効率の良い学習: データを減らす SemDeDup: Data-efficient learning at web-scale through semantic
deduplication, 2023 ⾒た⽬が酷似⾒た⽬は違うが、意味的には似ている仮説: ⼤規模データセット内(LAION400M)のデータ全てが有益であるとは限らないのでは︖

29 SemDeDup: Data-efficient learning at web-scale through semantic deduplication, 2023
仮説: ⼤規模データセット内(LAION440M)のデータ全てが有益であるとは限らないのでは︖ 画像の埋め込みに基づいて、代表的な点のみをピックアップ 50%程度に減らしても精度をキープできる+ 冗⻑なサンプルを減らし、学習が早く進む。効率の良い学習: データを減らす

効率の良い学習: 損失を変える 30 Sigmoid Loss for Language Image Pre-Training, ICCV2023
Contrastive Loss ・他のGPUから特徴を集める必要がある(all gather) ・Bg * Bg の計算を⾏う必要があり・サンプルごとに独⽴に計算できない Sigmoid Loss ・各サンプル独⽴にlossを計算・ペアは1, ⾮ペアは0にする・ Bg * Bg のMatrixは必要無い。＝＞バッチサイズを効率よく⼤きくできる

31 バッチサイズが⼩さい場合に、Sigmoidがより効果的! Sigmoid Loss for Language Image Pre-Training, ICCV2023

効率の良い学習: トークン数を減らす 32 An Inverse Scaling Law for CLIP Training,
NeurIPS2024 Transformerモデルの計算量はトークン数に⼤きく依存する。画像: ResizeまたはMaskingによって減らすテキスト: Masking、truncation

33 画像トークン数テキストトークン数モデルサイズが⼤きければ、トークン数を減らす影響は少なくなる。

34 精度を保ちつつ、GPU hoursを⼤きく削減することに成功している。

VLアプリケーションの進化 35

Open-Vocabulary Object Detection: ⾔語をクエリにした物体検出 36 OPEN-VOCABULARY OBJECT DETECTION VIA VISION
AND LANGUAGE KNOWLEDGE DISTILLATION, ICLR2022 領域を切り取って、CLIPにいれるだけで、それなりに上⼿くは⾏くが、速度等を考えると、物体検出モデル化したい。

37 CLIP テキストエンコーダ Stop Sign Dice ・・・
Horse Car A photo of a {class name}. T1 T2 T3 T4 T5 R1 R2 Cross-Entropy ⾔語ー領域間のアラインメント領域ごと特徴⽬的: 領域毎の画像特徴量とテキスト特徴量を揃えるデータセット: 物体検出データセット物体検出器・学習する物体検出データセットにないカテゴリーに対しても⾼い性能を出したい。・CLIP画像テキストエンコーダのペアは⾼い性能を出すはず。その性能を引き継ぎたい。・CLIP画像特徴っぽい特徴を領域特徴にしてあげれば、良いのでは︖

38 CLIP 画像エンコーダ CLIP テキストエンコーダ Stop Sign Dice
・・・ Horse Car A photo of a {class name}. T1 T2 T3 T4 T5 R1 R2 Cross-Entropy Cropされた領域 R1 R2 L1 distillation ⾔語ー領域間のアラインメント CLIP画像特徴に領域特徴量を揃える領域ごと特徴⽬的: 領域毎の画像特徴量とテキスト特徴量を揃えるデータセット: 物体検出データセット物体検出器

Open-Vocabulary Semantic Segmentation : ⾔語クエリSemantic Segmentation 40 Scaling Open-Vocabulary Image
Segmentation with Image-Level Labels, ECCV2022 ALIGN OpenSeg ・CLIP等のモデルをピクセル毎に適⽤してもあまり上⼿くいかない。・データを作るにはコストが⾼い。 -> Image-Captionデータを⽤いて学習する︕ どの領域と、どの単語が対応しているのかが分からない。画像特徴量 = 領域毎の特徴量の組み合わせ説明⽂特徴量 = 単語毎の特徴量の組み合わせ

41 Scaling Open-Vocabulary Image Segmentation with Image-Level Labels, ECCV2022 各物体に対するマスク
各物体に対応する特徴量・画像をN個の領域(マスク内)特徴で表現・CaptionをK個の単語特徴で表現画像 x Captionの類似度を NxKの類似度の総和のようなもので表現得られた類似度を⽤いてバッチ内の画像CaptionでContrastive Learning 単語特徴領域特徴 x 説明⽂画像 x 単語毎の特徴量

Segment Anything Model 42 https://segment-anything.com/

43 Image Encoder SAMデータセットには、テキストの情報は無い. SAM CLIP 学習時 Text Encoder
SAM テストテキスト特徴として使うオレンジの⿃テキスト特徴と画像特徴を等価に扱えるような空間を CLIPは学習していた!

⾔語モデルとの接続 44

Vision-Language 研究の歩み 45 CLIP爆誕︕ ・⾔語モデルとの接続! 2021 2024 Image Encoder Text
Encoder ・⾔語モデルとはいえ、Captionのみで学習 Image Encoder + LLM Web ・より多様なタスクに適⽤・多様なタスクを1モデルで扱う

46 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and
Large Language Models, 2023 ・事前学習済みのLLM, Image Encoderを使⽤・画像と説明⽂のペアのみから学習画像を⾔語トークンに変換するモジュール. Contrastive Loss, Captioning Loss等画像の説明⽂を復元できるようなトークンを推定している。 BLIP-2: ⾔語モデルとVLモデルの接続

47 質問応答可能なLLMを⽤いると、質問応答の例・関係学習には質問データは使っていない・しかし、質問応答可能。

Pix2Seq: Visionタスクを⾔語⽣成タスクとみなす 48 A Unified Sequence Interface for Vision Tasks
PIX2SEQ: A LANGUAGE MODELING FRAMEWORK FOR OBJECT DETECTION 矩形 (x1 , y1 , x2 , y2 )やポリゴンを⾔語系列とみなして⽣成

49 • 精度は既存のBasicな⼿法と⽐べて遜⾊ないレベルになっている。デメリット • ⾃⼰回帰的に⽣成を⾏うので、スピードが遅い（はず） • タスク間の損失のバランスを取る必要がある: マルチタスクによる精度上昇は少ないのかも。

その他の動き 50 UNIFIED-IO: A UNIFIED MODEL FOR VISION, LANGUAGE, AND
MULTI-MODAL TASKS Unified-IO ・あらゆる出⼒に対応・ほぼタスク固有のヘッドを使⽤ VisionLLM VisionLLM: Large Language Model is also an Open-Ended Decoder for Vision-Centric Tasks ・LLMを使⽤したPix2Seq ・物体検出を⾃⼰回帰ではなく、識別タスクとみなす

まとめ • CLIP: ロバストで多様なアプリケーションを持つFramework – データがCLIPを⽀える – 改善案を通して理解するCLIPの性質 • 画像モデルと⾔語モデルの接続
– ⼤規模⾔語モデルの知識との合流 – 単⼀モデルの多様なタスクへの適⽤ 51

基盤モデルのチューニング: Parameter Efficientな⽅法 54

55 ⼤規模データセット数億, 数10億なにが基盤モデルを⽀えているのか事前学習 • ⼤量のデータに関する知識を持つ必要がある=Fitしなければならない

56 ⼤規模データセット数億, 数10億なにが基盤モデルを⽀えているのか • ⼤量のデータに関する知識を持つ必要がある=Fitしなければならない事前学習 •
個々のドメイン（データセット）に対して簡単にFitしないといけない • 基盤の知識を失いたくはないダウンストリーム学習

57 ⼤規模データセット数億, 数10億事前学習ダウンストリーム学習ダウンストリームタスクに特化したモデル

58 ダウンストリームタスクに特化したモデル • 基盤モデルの優秀さを引き継ぎたい • 学習コストを⼩さくしたいモチベーション

59 少量の学習パラメータダウンストリームタスクに特化したモデル • 基盤モデルの優秀さを引き継ぎたい • 学習コストを⼩さくしたいモチベーション

60 少量の学習パラメータダウンストリームタスクに特化したモデル • 基盤モデルの優秀さを引き継ぎたい • 学習コストを⼩さくしたいモチベーション

61 猫は髭を持つ? Yes or No, QAデータセット⻲は髭を持つ? 猫は髭を持つ? ⻲は髭を持つ? チューニング
基盤モデルの優秀さとは

62 猫は髭を持つ? Yes or No, QAデータセット⻲は髭を持つ? チーターは髭を持つ Yes ???
猫は髭を持つ? ⻲は髭を持つ? チューニング基盤モデルの優秀さとは

63 猫は髭を持つ? Yes or No, QAデータセット⻲は髭を持つ? チーターは髭を持つ Yes ???
猫は髭を持つ? ⻲は髭を持つ? チューニング基盤モデルの優秀さとはダウンストリームで学習するデータセットに無い知識をカバーできる︕

Taskを切り替えるPrompt学習 64 The Power of Scale for Parameter-Efficient Prompt Tuning,
EMNLP 2021

Taskを切り替えるPrompt学習 65 Transformer I have a pen Prompt Tuning 学習可能プロンプト
（パラメータ） • 少量パラメータの学習でDownstreamタスクへの学習を可能にする • モデルのタスクを切り替えるためのスイッチとも⾒なせる The Power of Scale for Parameter-Efficient Prompt Tuning, EMNLP 2021

（パラメータ） The Power of Scale for Parameter-Efficient Prompt Tuning, EMNLP 2021

（パラメータ）基盤モデルのパラメータが多ければ、Full-tuningと遜⾊ない精度 The Power of Scale for Parameter-Efficient Prompt Tuning, EMNLP 2021

Visual Prompt Tuning: ViT⽤のPrompt学習 68 Visual Prompt Tuning, ECCV2022

様々なParameter-EfficientなTuning⼿法 69 Neural Prompt Search, Arxiv 2022 Scaling & Shifting
Your Features: A New Baseline for Efficient Model Tuning, NeurIPS2022 • Prompt Tuning • Input Layer • 低ランクな⾏列アップデート • MLP, Self-Attention層 • スケールパラメータの学習 • 層と層の間導⼊するモジュールの数（Promptの数等）を変えることで、アップデートをコントロールする。

結局どれが⼀番いいのか • パラメータ効率 – 少ないParameter量でどれだけ精度があがるのか • 学習効率 – 少ない学習コストでどれだけ精度があがるのか 70
データセット, 事前学習モデル依存である。

なぜなのか 71 事前学習データ（モデル）がカバーしている知識ダウンストリームタスク

なぜなのか 72 事前学習データ（モデル）がカバーしている知識アップデートされたモデルの知識

なぜなのか 73 事前学習データ（モデル）がカバーしている知識ダウンストリームタスク

なぜなのか 74 事前学習データ（モデル）がカバーしている知識⼤きな知識のアップデートが求められるアップデートされたモデルの知識

なぜなのか 75 事前学習データ（モデル）がカバーしている知識アップデートされたモデルの知識

なぜなのか 76 事前学習データ（モデル）がカバーしている知識実際のテスト領域

なぜなのか 77 • 知識アップデート能⼒は⼿法固有であるはず – 能⼒⼤︕ => アップデートしすぎる可能性がある (Over Fitting)
– 能⼒⼩ ! => アップデートしきれない (Under Fitting)

+ Neural Architecture Search 78 • どれがいいのかよく分からないので、組み合わせをSearchした概ね良いが、単⼀⼿法に勝てないケースはある Neural Prompt
Search, Arxiv 2022

79 各データセットに特化したモデル基盤モデル

80 各データセットに特化したモデル知識を統合したモデル

データセットの知識を統合する学習 81 モデルA モデルB データセットA データセットB モデルデータセットA データセットB +
• モデル間でデータセットAとBの知識は共有されない • AとBの知識を共有したモデルを作りたい • テスト時にタスクの切り替えもしたい

データセットによる違い 82 Captionの詳細さにおける違いりんご 3つの⾚いりんごが⽊⽬の板の上にある⿃オレンジと⽩の⿃猫シャム猫が
こっちをみている画像のドメインに関する違い

識別⽤データセットと説明⽂データセットの統合 83 識別データセット説明⽂データセット + Two brown puppies on grass
A airplane flying over the shiny clouds Beautiful purple flower is centered ü 多様な画像のドメイン ü 多様な語彙 ü Fine-grainedなクラス ü ラベル分布が均⼀⾔語エンコーダー画像エンコーダー Prefix Conditioning Unifies Language and Label Supervision, CVPR2023

84 ⾔語エンコーダー画像エンコーダー説明⽂データセット A airplane flying over
the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別）データセット A close-up of a persian cat A photo of a redbone A picture of american robin 損失 (Contrastive Loss)

the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別）データセット A close-up of a persian cat A photo of a redbone A picture of american robin Two brown grass a airplane clouds beautiful purple image … … … a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize 損失 (Contrastive Loss)

the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別）データセット A close-up of a persian cat A photo of a redbone A picture of american robin <説明⽂> Two brown grass a airplane clouds beautiful purple image … … … <識別> <識別> <識別> a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize Prompt Prompt <説明⽂> <説明⽂> 損失 (Contrastive Loss)

the shiny clouds . Two brown puppies are playing on the grass. Beautiful purple flower centered on the image. Classification (識別）データセット A close-up of a persian cat A photo of a redbone A picture of american robin <説明⽂> Two brown grass a airplane clouds beautiful purple image … … … <識別> <識別> <識別> a photo redbone a close-up cat a picture robin … … … Tokenize Tokenize Prompt Prompt <説明⽂> <説明⽂> 損失 (Contrastive Loss) ・効率よく知識統合できる! ・推論時にスイッチングできる︕

88 ⾚︓Classification データセットプロンプト⻘︓Caption データセットプロンプト⾔語Embeddingの分布 (プロンプトのみをスイッチ) Training Dataset IN21K
CC12M IN21K + CC12M IN21K + CC12M CLIP UniCL CLIP+ Ours UniCL+ Ours Accuracy (%) on 11 standard zero-shot benchmark 知識統合のメリット＋タスクの切り替えを観測

説明⽂の質を考慮する学習 89 Noise-aware Learning from Web-crawled Image-Text Data for Image
Captioning, ICCV 2023 画像ー説明⽂ペアデータセット説明⽂⽣成モデル

Captioning, ICCV 2023 画像ー説明⽂ペアデータセット説明⽂⽣成モデル詳細、普通, 雑な説明⽂、全てがデータセットに含まれる。 => ⽣成される⽂の質をうまくコントロールできない。問題点

説明⽂の質を考慮する学習 91 画像ー説明⽂ペアデータセット Z=1: 雑な説明⽂ Z=2: 普通の説明⽂ Z=3: 詳細な説明⽂
キャプションのグループ分け

説明⽂の質を考慮する学習 92 説明⽂⽣成モデル画像ー説明⽂ペアデータセット Z=1: 雑な説明⽂ Z=2: 普通の説明⽂
Z=3: 詳細な説明⽂クラスタID: 1 + 説明⽂a クラスタID: 2 クラスタID: 3 + 説明⽂b + 説明⽂c 学習! 学習可能Prompt キャプションのグループ分け

Captioning, ICCV 2023

Parameter Efficientなチューニングのまとめ • Parameter Efficientなチューニング – 精度向上はデータセット依存な部分が⼤きい – 組み合わせのSearch等 •
タスク切り替えとしてのParameter Efficientなモデル – データセットの違いを考慮しつつ、知識を統合する学習 94

基盤モデルのチューニング : ロバストな適合 95

ファインチューニングはドメイン汎化能⼒を落とす︖ 96 事前学習済みモデル事前学習に使った識別器 (線形層）事前学習済みモデル全層学習
⼀般的なファインチューニング (FT) ランダムに初期化線形層 • 学習データに対して、しっかりFitする。 • 事前学習済みモデルは更新されてしまう。 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, ICLR2022

ファインチューニングはドメイン汎化能⼒を落とす︖ 97 事前学習済みモデル事前学習に使った識別器 (線形層）事前学習済みモデル全層学習
事前学習済みモデルランダムに初期化線形層線形層のみ学習 (Linear Probing) ⼀般的なファインチューニング (FT) ランダムに初期化線形層 • 学習データに対して、しっかりFitする。 • 事前学習済みモデルは更新されてしまう。 • 線形層のみでは、しっかりFitできないかも。 • 事前学習済みモデルは完全に保持できる。 Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, ICLR2022

98 事前学習済みモデル事前学習に使った識別器 (線形層）事前学習済みモデル全層学習事前学習済み
モデル線形層のみ学習 (Linear Probing) 事前学習済みモデル学習された線形層⼀般的なファインチューニング (FT) 全層学習全層学習 (FT) ランダムに初期化線形層ランダムに初期化線形層 ?? ファインチューニングはドメイン汎化能⼒を落とす︖ Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution, ICLR2022

99 テストドメイン学習ドメイン線形層学習ファインチューニング線形層学習後ファインチューニング線形層をチューニングせずに学習すると、線形層をチューニングしていれば、起こらなかったアップデートが事前学習部分で起こる。事前学習で持っていた性能を落としてしまう。何が起こっているのかを⼤雑把にいうと、
ファインチューニングはドメイン汎化能⼒を落とす︖

Model Soup: モデルの重みアンサンブル 100 Model soups: averaging weights of multiple
fine-tuned models improves accuracy without increasing inference time, ICML2022 ⽝キツネキツネキツネ⼀般的なアンサンブル: 予測結果を統合する学習モデル学習モデル学習モデル

Model Soup: モデルの重みアンサンブル 101 学習モデル学習モデル学習モデル
平均モデル Model Soup: 重み空間でアンサンブルをとるしかし, 普通に平均化するのでは、ダメそう.. Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time, ICML2022 重みの平均⽝キツネキツネキツネ⼀般的なアンサンブル: 予測結果を統合する学習モデル学習モデル学習モデル

102 事前学習済みモデル線形層線形層のみ学習 (Linear Probing) 学習モデル線形層
学習モデル線形層学習モデル線形層・・・モデル初期化各モデルを独⽴に学習

103 事前学習済みモデル線形層線形層のみ学習 (Linear Probing) 学習モデル線形層
学習モデル線形層学習モデル線形層・・・モデル初期化各モデルを独⽴に学習平均化モデル線形層重み付け平均

様々なドメインで汎化する! 104 普通に学習した場合と⽐べて精度が⾼い 72 Modelからの Soup 学習ドメインにおける精度 (横軸）vs 異なるドメインにおける精度
(縦軸) Uniform: 全モデル⾜し合わせる Greedy: ⾜し合わせて精度が上がるかどうかで、取捨選択

様々なドメインで汎化する! 105 https://wilds.stanford.edu/datasets/ ・実世界のドメインギャップを評価するために提案された・⾮常にChallengingなデータセット WILDS

SSII2024 [TS3] 画像認識におけるマルチモーダル基盤モデル ～基盤モデル、あなた...

SSII2024 [TS3] 画像認識におけるマルチモーダル基盤モデル ～基盤モデル、あなたのタスクに役立つかも？～

More Decks by 画像センシングシンポジウム

Other Decks in Research

Featured

Transcript

SSII2024 [TS3] 画像認識におけるマルチモーダル基盤モデル～基盤モデル、あなた...

SSII2024 [TS3] 画像認識におけるマルチモーダル基盤モデル～基盤モデル、あなたのタスクに役立つかも？～