Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第59回名古屋CV・PRMU勉強会

soba_zuruzuru
November 20, 2023
91

 第59回名古屋CV・PRMU勉強会

ICCV論文読み会(Visual Prompt)

soba_zuruzuru

November 20, 2023
Tweet

Transcript

  1. 自己紹介 2 発表する人 加藤 聡太 名城大学 堀田研究室 D3 日本学術振興会特別研究員(DC2) 名古屋CV・PRMU勉強会幹事

    来年4月~センスタイムジャパン(予定) 研究内容 Class imbalanced learning Medical & biological vision 趣味 古着, 楽器(ドラム), 恋愛リアリティショー @usagisukisuki_ usagisukisuki
  2. Promptとは... 5  従来法との違い Pre-training New task 𝒇𝜽 (a) Fine

    turning (b) Linear learning (c) Prompt learning Linear 𝒇𝜽 𝒇𝜽 𝒇𝜽 Prediction Prediction Prediction Prediction Text prompt or Visual prompt
  3. Prompt tuning 6 Prompt × Transformer  対象情報の入力+Prompt情報の入力 (Transformerは推論時にTokenが増えても問題ない) 

    Transformerでまぜる I like fruits . I like . fruits Prompt Positive Attention pool (とかたまに呼ぶ)
  4. ICCV2023で発表されたPrompt learningの研究(一部略) 7 Vision & Language  PromptCap: Prompt-Guided Image

    Captioning for VQA with GPT-3  Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering  LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models  Gradient-Regulated Meta-Prompt Learning for Generalizable Vision-Language Models  Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval  A Retrospect to Multi-prompt Learning across Vision and Language  Towards Unifying Medical Vision-and-Language Pre-Training via Soft Prompts  Why Is Prompt Tuning for Vision-Language Models Robust to Noisy Labels?  Read-only Prompt Optimization for Vision-Language Few-shot Learning  Distribution-Aware Prompt Tuning for Vision-Language Models  Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models  Continual learning  Generating Instance-level Prompts for Rehearsal-free Continual Learning  Space-time Prompting for Video Class-incremental Learning  Introducing Language Guidance in Prompt-based Continual Learning  When Prompt-based Incremental Learning Does Not Meet Strong Pretraining  Online Class Incremental Learning on Stochastic Blurry Task Boundary via Mask and Visual Prompt Tuning  3D  Spatio-temporal Prompting Network for Robust Video Feature Extraction  Instance-aware Dynamic Prompt Tuning for Pre-trained Point Cloud Models  PointCLIP V2: Prompting CLIP and GPT for Powerful 3D Open-world Learning  Order-Prompted Tag Sequence Generation for Video Tagging  Open Set Video HOI detection from Action-Centric Chain-of-Look Prompting Image Generation  PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization  Prompt Tuning Inversion for Text-driven Image Editing Using Diffusion Models Detection  FS-DETR: Few-Shot DEtection TRansformer with Prompting and without Re-Training  Generative Prompt Model for Weakly Supervised Object Localization  Unsupervised Prompt Tuning for Text-Driven Object Detection  CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection
  5. 8  Visual Prompt  What does CLIP know about

    a red circle? Visual prompt engineering for VLMs  Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World  E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning  Action recognition  Generative Action Description Prompts for Skeleton-based Action Recognition  Domain adaptation  PODA: Prompt-driven Zero-shot Domain Adaptation  Segmentation  SegPrompt: Boosting Open-World Segmentation via Category-Level Prompt Learning  Other  Self-regulating Prompts: Foundational Model Adaptation without Forgetting  Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning  What Does a Platypus Look Like? Generating Customized Prompts for Zero-Shot Image Classification  Iterative Prompt Learning for Unsupervised Backlit Image Enhancement  Prompt-aligned Gradient for Prompt Tuning ICCV2023で発表されたPrompt learningの研究(一部略)  Vision & Languageが圧倒的に多い  Continual learning (継続学習), Object detection, 3D系も増えてきている  Promptは基本的にテキスト(文章)が多い
  6. Visual Prompt 10 画像情報をPromptにしたい場合がありますネ...  自然言語のPrompt tuningだけでは表現ができない場合がある  テキスト:画像の意味を表現可能 

    画像:位置など幾何学的情報の表現に適している  CLIPに含まれない特殊な単語の場合は難しい (CLIPも闇が深い...)  テキストPromptよりも画像Promptの方が難しいと言われている  Imageの大規模モデルではまだ不十分 (Vision & Language modelで初めて有効になる研究もある)  現状は ① Visual promptを用いてZero-shotで任意のタスクを解く (Visual prompt × Zero-shot) ② 最低限の学習で任意のタスクを解く(Visual prompt × Fine tuning)
  7. Visual prompt × Zero-shot 11 Exploring Visual Prompts for Adapting

    Large-Scale Models (2022)  CLIPを任意のデータセットに適応させるため共通の画像を外挿する「Visual Prompting」を提唱  ホワイトノイズ状のPadding → Fine-tuningに準じる精度向上  ResNetやViTではうまく行かない(CLIPでのみ有効)
  8. Visual prompt × Fine tuning 12 Visual Prompt Tuning (2022)

     ViTの新しいファインチューニングの方法を提案 (学習は最低限する)  モデル全体の学習は効率が悪い  入力に学習可能なパラメータを追加する  Backboneを固定したファインチューニング
  9. Visual promptの代用的な研究 13 ICCV2023で発表されたVisual promptの研究は(おそらく)3つ  What does CLIP know

    about a red circle? Visual prompt engineering for VLMs  Visually-Prompted Language Model for Fine-Grained Scene Graph Generation in an Open World  E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning
  10. Visual Prompt 14 Visually-Prompted Language Model for Fine-Grained Scene Graph

    Generation in an Open World  タスク:シーングラフ生成 (SGG)  述語を予測するタスク(One-hot labelになっている)
  11. Visual Prompt 15 Visually-Prompted Language Model for Fine-Grained Scene Graph

    Generation in an Open World  SGGにおける述語の分布が不均衡  頻出する述語に予測が偏る  既存のクラス不均衡の解決手法は有益ではない  大規模言語モデルからの広範な知識を活用  低コストでシーングラフの少数述語を強化  問題点 ① 言語だけでは細かい述語生成が出来ない ② 述語タイプは多くの異なる言語表現に対応 する必要がある (He walks through / is passing through / passed by)
  12. Visual Prompt 16 Visually-Prompted Language Model for Fine-Grained Scene Graph

    Generation in an Open World  Cross-modal predicate boosting (CaCao)  Prompt → 画像とキャプションのセット 言語知識の獲得 多様な述語表現と述語強化のための適応的調整 Open worldへの対応 Mr. Otani is cosplaying for Halloween.
  13. Visual Prompt 17 Visually-Prompted Language Model for Fine-Grained Scene Graph

    Generation in an Open World  Visual Transformer layerは学習する...  Textの埋め込み特徴と合わせてLLMに入力  Adaptive Sematic Cluster Loss  出力述語をBERTによって埋め込み特徴に変換  K-meansによりクラスタ化 → 閾値により重心決定  同じクラスタ内に含まれる述語の相関を大きくする  特定の単語に過度に偏らないようにする
  14. Visual Prompt 18 Visually-Prompted Language Model for Fine-Grained Scene Graph

    Generation in an Open World  従来よりも高精度  Open-world問題でも適応可能
  15. Visual Prompt 19 E^2VPT: An Effective and Efficient Approach for

    Visual Prompt Tuning  大規模ViTモデル適応のための効果的かつ効率的なVisual Prompt turning  Prompt tuning → 完全なFine-tuningの精度には及ばない  Partial tuning : 識別器だけ学習  Extra module : 学習する専用モジュールを追加  Transformerをもっとチューニングすべき!
  16. Visual Prompt 20 E^2VPT: An Effective and Efficient Approach for

    Visual Prompt Tuning  Effective and Efficient Visual Prompt Tuning (E2VPT)  学習可能なKey-PromptとVisual PromptをそれぞれSelf-Attention層と入力層に導入 → モデルの微調整の有効性を向上  Visual Prompt Tuning (VPT)では入力にVisual promptだけだった
  17. Visual Prompt 21 E^2VPT: An Effective and Efficient Approach for

    Visual Prompt Tuning  Visual Promptの中には逆に精度低下を招くものもある  いらないので消したい → Tokenごとのプルーニング → セグメントごとのプルーニング を実行  モデルの計算効率を大幅に向上  すでにLLMで提案されていたことの焼き直しでは??
  18. Visual Prompt 22 E^2VPT: An Effective and Efficient Approach for

    Visual Prompt Tuning  ImageNet-21k → FGVC, VTAB-1k  FGVC → Fine-Grained Image Classification  VTAB-1k → 様々な領域にまたがる19の評価タスク
  19. まとめ 23  Visual Prompt learningを紹介しました  全く学習しないタイプと, 最低限学習するタイプの2つ 

    先行研究が少ない  現状Visual promptのみでは, LLMのような柔軟なZero-shot leanringには程遠い  CLIPが強すぎる (データ数?言語の学習が強い?)  CVでは出力形式がタスクによって全く異なるので, 最後を学習せざるを得ない... (Linear Classifier以外にはないのか...??)  将来的にはAnomaly detection, Segmentation, Detectionでもできそうな気がする (Anomaly detectionなら異常画像, Segmentationならラベル画像, DetectionならBoxをPromptとして)