Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介 CLIP, LLaVA, Penguin-VL

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for kyad kyad
March 14, 2026

論文紹介 CLIP, LLaVA, Penguin-VL

Avatar for kyad

kyad

March 14, 2026

More Decks by kyad

Other Decks in Technology

Transcript

  1. CLIP •書誌情報 [2103.00020] Learning Transferable Visual Models From Natural Language

    Supervision 研究機関:OpenAI •何をするもの? 画像とテキストを同じ埋め込み空間に対応付けるように学習させる仕組み Contrastive Language-Image Pre-training
  2. CLIP •アーキテクチャ ResNetやViTなど ViT-L/14がベスト GPT-2のデコーダのみのTransformer [EOS]に対する特徴ベクトルが使われる 長さが合うように 重み行列をかける 長さが合うように 重み行列をかける

    Nはデータ数 (32768) 1番目のテキストの 特徴ベクトル 1番目の画像の 特徴ベクトル •学習疑似コード T達とI達のそれぞれの内積が 単位行列になるように学習 ⇒ 学習してできたText Encoderや Image Encoderは、 良い特徴量抽出器になっている
  3. CLIP •Text Retrieval / Image Retrieval 評価 Text Retrievalの評価方法 ①クエリ画像を学習済みImage

    Encoderに入れる ②候補テキスト達を学習済みText Encoderに入れる ③①と②それぞれの類似度を計算してランキング Image Retrievalの評価方法 ①クエリテキストを学習済みText Encoderに入れる ②候補画像達を学習済みImage Encoderに入れる ③①と②それぞれの類似度を計算してランキング
  4. LLaVA •アーキテクチャ CLIPの ViT-L/14 Vicuna (LlamaベースのLLM) 線形層 単語埋め込みに 繋げるだけ •学習方法

    Step 1: 特徴アラインメント Step 2: End to End Fine tuning ⇒画像とテキストを入れるとテキストで応答が出る チャット的な使い方が可能
  5. Penguin-VL •書誌情報 [2603.06569] Penguin-VL: Exploring the Efficiency Limits of VLM

    with LLM-based Vision Encoders 研究機関:Tencent プロジェクトページ:Penguin-VL •何をするもの? CLIPベースの画像エンコーダを使わないVLM
  6. Penguin-VL •アーキテクチャ “Penguin-Encoder” テキストのLLM Qwen3-0.6B から初期化したもの 特長①Native Alignment: 最初からテキスト特徴と整合 特長②テキストで学んだ

    概念知識を生かせる 画像では前後関係は関係ないので Attention maskの向きを 時系列方向のみから双方向に変更 2D-RoPEで 位置エンコーディング 動画のエンコーディングは Temporal Redundancy-Aware compression (TRA)で圧縮して扱う 変化の大きいキーフレームと、変化の小さい中間フレームに分類し 最大トークン長に収まるようにキーフレーム優先で圧縮 Qwen3-2B/8Bベース 2層MLP
  7. Penguin-VL •2D-RoPE 1次元RoPE [2104.09864] RoFormer: Enhanced Transformer with Rotary Position

    Embedding 苏剑林. (May. 10, 2021). 《Transformer升级之路:4、二维位置的旋转式位置编码 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/8397 2次元RoPE