第59回名古屋CV・PRMU勉強会

第59回名古屋CV・PRMU勉強会 ICCV2023論文読み～ Visual Prompt ～

自己紹介 2 発表する人加藤聡太名城大学堀田研究室 D3 日本学術振興会特別研究員（DC2）名古屋CV・PRMU勉強会幹事
来年4月～センスタイムジャパン（予定）研究内容 Class imbalanced learning Medical & biological vision 趣味古着, 楽器（ドラム）, 恋愛リアリティショー @usagisukisuki_ usagisukisuki

本日の発表  ICCV2023で発表されたPrompt learning関連について  ICCV2023の採択論文 (main)でpromptと名の付く発表は46件  Foundation model
(基盤モデル)と仲良くなるにはPrompt技術は必須 3

Promptとは... 4  人間が基盤モデルに与える指示 (設定)  大規模な基盤モデルに適切な指示を与えることで, 欲しい答えが学習なしで返ってくる Stable Diffusion
Input 妖精調で動け Prompt

Promptとは... 5  従来法との違い Pre-training New task 𝒇𝜽 (a) Fine
turning (b) Linear learning (c) Prompt learning Linear 𝒇𝜽 𝒇𝜽 𝒇𝜽 Prediction Prediction Prediction Prediction Text prompt or Visual prompt

Prompt tuning 6 Prompt × Transformer  対象情報の入力＋Prompt情報の入力 (Transformerは推論時にTokenが増えても問題ない) 
Transformerでまぜる I like fruits . I like . fruits Prompt Positive Attention pool (とかたまに呼ぶ)

ICCV2023で発表されたPrompt learningの研究（一部略） 7 Vision & Language  PromptCap: Prompt-Guided Image
Captioning for VQA with GPT-3  Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering  LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models  Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models  Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval  A Retrospect to Multi-prompt Learning across Vision and Language  Towards Unifying Medical Vision-and-Language Pre-Training via Soft Prompts  Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?  Read-only Prompt Optimization for Vision-Language Few-shot Learning  Distribution-Aware Prompt Tuning for Vision-Language Models  Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models  Continual learning  Generating Instance-level Prompts for Rehearsal-free Continual Learning  Space-time Prompting for Video Class-incremental Learning  Introducing Language Guidance in Prompt-based Continual Learning  When Prompt-based Incremental Learning Does Not Meet Strong Pretraining  Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt Tuning  3D  Spatio-temporal Prompting Network for Robust Video Feature Extraction  Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models  PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning  Order-Prompted Tag Sequence Generation for Video Tagging  Open Set Video HOI detection from Action-Centric Chain-of-Look Prompting Image Generation  PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization  Prompt Tuning Inversion for Text-driven Image Editing Using Diffusion Models Detection  FS-DETR: Few-Shot DEtection TRansformer with Prompting and without Re-Training  Generative Prompt Model for Weakly Supervised Object Localization  Unsupervised Prompt Tuning for Text-Driven Object Detection  CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection

8  Visual Prompt  What does CLIP know about
a red circle? Visual prompt engineering for VLMs  Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World  E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning  Action recognition  Generative Action Description Prompts for Skeleton-based Action Recognition  Domain adaptation  PODA: Prompt-driven Zero-shot Domain Adaptation  Segmentation  SegPrompt: Boosting Open-World Segmentation via Category-Level Prompt Learning  Other  Self-regulating Prompts: Foundational Model Adaptation without Forgetting  Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning  What Does a Platypus Look Like? Generating Customized Prompts for Zero-Shot Image Classification  Iterative Prompt Learning for Unsupervised Backlit Image Enhancement  Prompt-aligned Gradient for Prompt Tuning ICCV2023で発表されたPrompt learningの研究（一部略）  Vision & Languageが圧倒的に多い  Continual learning (継続学習), Object detection, 3D系も増えてきている  Promptは基本的にテキスト(文章)が多い

CLIP 9 文章と画像の対照学習  文章と画像使う系は大体Pre-trained CLIP入ってる(Diffusion系)  インターネット上から4億組の画像とテキストのデータセットを構築

Visual Prompt 10 画像情報をPromptにしたい場合がありますネ...  自然言語のPrompt tuningだけでは表現ができない場合がある  テキスト：画像の意味を表現可能 
画像：位置など幾何学的情報の表現に適している  CLIPに含まれない特殊な単語の場合は難しい (CLIPも闇が深い...)  テキストPromptよりも画像Promptの方が難しいと言われている  Imageの大規模モデルではまだ不十分 (Vision & Language modelで初めて有効になる研究もある)  現状は ① Visual promptを用いてZero-shotで任意のタスクを解く (Visual prompt × Zero-shot) ② 最低限の学習で任意のタスクを解く(Visual prompt × Fine tuning)

Visual prompt × Zero-shot 11 Exploring Visual Prompts for Adapting
Large-Scale Models (2022)  CLIPを任意のデータセットに適応させるため共通の画像を外挿する「Visual Prompting」を提唱  ホワイトノイズ状のPadding → Fine-tuningに準じる精度向上  ResNetやViTではうまく行かない（CLIPでのみ有効）

Visual prompt × Fine tuning 12 Visual Prompt Tuning (2022)
 ViTの新しいファインチューニングの方法を提案 (学習は最低限する)  モデル全体の学習は効率が悪い  入力に学習可能なパラメータを追加する  Backboneを固定したファインチューニング

Visual promptの代用的な研究 13 ICCV2023で発表されたVisual promptの研究は(おそらく)3つ  What does CLIP know
about a red circle? Visual prompt engineering for VLMs  Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World  E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning

Visual Prompt 14 Visually-Prompted Language Model for Fine-Grained Scene Graph
Generation in an Open World  タスク：シーングラフ生成 (SGG)  述語を予測するタスク（One-hot labelになっている）

Generation in an Open World  SGGにおける述語の分布が不均衡  頻出する述語に予測が偏る  既存のクラス不均衡の解決手法は有益ではない  大規模言語モデルからの広範な知識を活用  低コストでシーングラフの少数述語を強化  問題点 ① 言語だけでは細かい述語生成が出来ない ② 述語タイプは多くの異なる言語表現に対応する必要がある (He walks through / is passing through / passed by)

Generation in an Open World  Cross-modal predicate boosting (CaCao)  Prompt → 画像とキャプションのセット言語知識の獲得多様な述語表現と述語強化のための適応的調整 Open worldへの対応 Mr. Otani is cosplaying for Halloween.

Generation in an Open World  Visual Transformer layerは学習する...  Textの埋め込み特徴と合わせてLLMに入力  Adaptive Sematic Cluster Loss  出力述語をBERTによって埋め込み特徴に変換  K-meansによりクラスタ化 → 閾値により重心決定  同じクラスタ内に含まれる述語の相関を大きくする  特定の単語に過度に偏らないようにする

Generation in an Open World  従来よりも高精度  Open-world問題でも適応可能

Visual Prompt 19 E^2VPT: An Effective and Efficient Approach for
Visual Prompt Tuning  大規模ViTモデル適応のための効果的かつ効率的なVisual Prompt turning  Prompt tuning → 完全なFine-tuningの精度には及ばない  Partial tuning : 識別器だけ学習  Extra module : 学習する専用モジュールを追加  Transformerをもっとチューニングすべき！

Visual Prompt Tuning  Effective and Efficient Visual Prompt Tuning (E2VPT)  学習可能なKey-PromptとVisual PromptをそれぞれSelf-Attention層と入力層に導入 → モデルの微調整の有効性を向上  Visual Prompt Tuning (VPT)では入力にVisual promptだけだった

Visual Prompt Tuning  Visual Promptの中には逆に精度低下を招くものもある  いらないので消したい → Tokenごとのプルーニング → セグメントごとのプルーニングを実行  モデルの計算効率を大幅に向上  すでにLLMで提案されていたことの焼き直しでは？？

Visual Prompt Tuning  ImageNet-21k → FGVC, VTAB-1k  FGVC → Fine-Grained Image Classification  VTAB-1k → 様々な領域にまたがる19の評価タスク

まとめ 23  Visual Prompt learningを紹介しました  全く学習しないタイプと, 最低限学習するタイプの2つ 
先行研究が少ない  現状Visual promptのみでは, LLMのような柔軟なZero-shot leanringには程遠い  CLIPが強すぎる (データ数？言語の学習が強い？)  CVでは出力形式がタスクによって全く異なるので, 最後を学習せざるを得ない... (Linear Classifier以外にはないのか...??)  将来的にはAnomaly detection, Segmentation, Detectionでもできそうな気がする（Anomaly detectionなら異常画像, Segmentationならラベル画像, DetectionならBoxをPromptとして）

第59回名古屋CV・PRMU勉強会

第59回名古屋CV・PRMU勉強会

soba_zuruzuru

More Decks by soba_zuruzuru

Featured

Transcript

第59回名古屋CV・PRMU勉強会 ICCV2023論文読み～ Visual Prompt ～

自己紹介 2 発表する人加藤聡太名城大学堀田研究室 D3 日本学術振興会特別研究員（DC2）名古屋CV・PRMU勉強会幹事

本日の発表  ICCV2023で発表されたPrompt learning関連について  ICCV2023の採択論文 (main)でpromptと名の付く発表は46件  Foundation model

Promptとは... 4  人間が基盤モデルに与える指示 (設定)  大規模な基盤モデルに適切な指示を与えることで, 欲しい答えが学習なしで返ってくる Stable Diffusion

Promptとは... 5  従来法との違い Pre-training New task 𝒇𝜽 (a) Fine

Prompt tuning 6 Prompt × Transformer  対象情報の入力＋Prompt情報の入力 (Transformerは推論時にTokenが増えても問題ない) 

ICCV2023で発表されたPrompt learningの研究（一部略） 7 Vision & Language  PromptCap: Prompt-Guided Image

8  Visual Prompt  What does CLIP know about

CLIP 9 文章と画像の対照学習  文章と画像使う系は大体Pre-trained CLIP入ってる(Diffusion系)  インターネット上から4億組の画像とテキストのデータセットを構築

Visual Prompt 10 画像情報をPromptにしたい場合がありますネ...  自然言語のPrompt tuningだけでは表現ができない場合がある  テキスト：画像の意味を表現可能 

Visual prompt × Zero-shot 11 Exploring Visual Prompts for Adapting

Visual prompt × Fine tuning 12 Visual Prompt Tuning (2022)

Visual promptの代用的な研究 13 ICCV2023で発表されたVisual promptの研究は(おそらく)3つ  What does CLIP know

Visual Prompt 14 Visually-Prompted Language Model for Fine-Grained Scene Graph

Visual Prompt 15 Visually-Prompted Language Model for Fine-Grained Scene Graph

Visual Prompt 16 Visually-Prompted Language Model for Fine-Grained Scene Graph

Visual Prompt 17 Visually-Prompted Language Model for Fine-Grained Scene Graph

Visual Prompt 18 Visually-Prompted Language Model for Fine-Grained Scene Graph

Visual Prompt 19 E^2VPT: An Effective and Efficient Approach for

Visual Prompt 20 E^2VPT: An Effective and Efficient Approach for

Visual Prompt 21 E^2VPT: An Effective and Efficient Approach for

Visual Prompt 22 E^2VPT: An Effective and Efficient Approach for

まとめ 23  Visual Prompt learningを紹介しました  全く学習しないタイプと, 最低限学習するタイプの2つ 