論文紹介 CLIP, LLaVA, Penguin-VL

論文紹介 CLIP, LLaVA, Penguin-VL @kyad 2026/3/14 本資料中の図は論文から引用しています

CLIP •書誌情報 [2103.00020] Learning Transferable Visual Models From Natural Language
Supervision 研究機関：OpenAI •何をするもの？画像とテキストを同じ埋め込み空間に対応付けるように学習させる仕組み Contrastive Language-Image Pre-training

CLIP •アーキテクチャ ResNetやViTなど ViT-L/14がベスト GPT-2のデコーダのみのTransformer [EOS]に対する特徴ベクトルが使われる長さが合うように重み行列をかける長さが合うように重み行列をかける
Nはデータ数 (32768) 1番目のテキストの特徴ベクトル 1番目の画像の特徴ベクトル •学習疑似コード T達とI達のそれぞれの内積が単位行列になるように学習 ⇒ 学習してできたText Encoderや Image Encoderは、良い特徴量抽出器になっている

CLIP •Few-shot分類評価 CLIPをFew-shot画像分類器として使う方法 ①学習画像(1クラスあたり1,2,4,8,16枚)を学習済み Image Encoderに入れて特徴量を取り出す ②ロジスティック回帰で学習する •Zero-shot分類評価 CLIPをZero-shot画像分類器として使う方法 ①テスト画像を、Image
Encoderに入れる ②データセット内の全てのクラス名を、Text Encoderに入れる ③①と②それぞれのコサイン類似度を算出し、Softmaxをかける ④Softmaxが一番高いやつが答え

CLIP •Text Retrieval / Image Retrieval 評価 Text Retrievalの評価方法 ①クエリ画像を学習済みImage
Encoderに入れる ②候補テキスト達を学習済みText Encoderに入れる ③①と②それぞれの類似度を計算してランキング Image Retrievalの評価方法 ①クエリテキストを学習済みText Encoderに入れる ②候補画像達を学習済みImage Encoderに入れる ③①と②それぞれの類似度を計算してランキング

LLaVA •書誌情報 [2304.08485] Visual Instruction Tuning 研究機関：Microsoft •何をするもの？ LLMで画像とテキストのマルチモーダル学習するシンプルな方法強力なマルチモーダルチャット機能を実現

LLaVA •アーキテクチャ CLIPの ViT-L/14 Vicuna (LlamaベースのLLM) 線形層単語埋め込みに繋げるだけ •学習方法
Step 1: 特徴アラインメント Step 2: End to End Fine tuning ⇒画像とテキストを入れるとテキストで応答が出るチャット的な使い方が可能

LLaVA •データ CLIP: 画像とキャプションを学習するのみ LLaVa: ①会話②詳細説明③複雑な推論を学習させる学習データは、COCOの①キャプションと ②Bounding boxのみからGPT-4で生成(画
像はGPT-4に入れていない)

LLaVA LLaVAは、画像の説明をするのみならず、理由も含めて説明できている点が従来の方法と異なる •マルチモーダルチャット評価

Penguin-VL •書誌情報 [2603.06569] Penguin-VL: Exploring the Efficiency Limits of VLM
with LLM-based Vision Encoders 研究機関：Tencent プロジェクトページ：Penguin-VL •何をするもの？ CLIPベースの画像エンコーダを使わないVLM

Penguin-VL •課題従来のVLMは、CLIP等のcontrastive learning事前学習モデルベースのものが多かったしかし、これらは分類ベースの事前学習のため、細かい粒度の情報を欠落させるように学習してしまう課題があるまた、VLMモデルは一般的に重く、軽量モデルが無い課題がある ⇒ Penguin-VLでは、 contrastive
learningベースのモデルを使わずに、LLMに入れるVision Encoderを学習する

Penguin-VL •アーキテクチャ “Penguin-Encoder” テキストのLLM Qwen3-0.6B から初期化したもの特長①Native Alignment: 最初からテキスト特徴と整合特長②テキストで学んだ
概念知識を生かせる画像では前後関係は関係ないので Attention maskの向きを時系列方向のみから双方向に変更 2D-RoPEで位置エンコーディング動画のエンコーディングは Temporal Redundancy-Aware compression (TRA)で圧縮して扱う変化の大きいキーフレームと、変化の小さい中間フレームに分類し最大トークン長に収まるようにキーフレーム優先で圧縮 Qwen3-2B/8Bベース 2層MLP

Penguin-VL •2D-RoPE 1次元RoPE [2104.09864] RoFormer: Enhanced Transformer with Rotary Position
Embedding 苏剑林. (May. 10, 2021). 《Transformer升级之路：4、二维位置的旋转式位置编码》[Blog post]. Retrieved from https://spaces.ac.cn/archives/8397 2次元RoPE

Penguin-VL •学習方法最初はPenguin encoderのみ学習後で全体をFine-tune 蒸留ロスで学習する何を教師とするかは論文では示されていない Amplitude Direction Relation

Penguin-VL •データセット(画像とテキスト) まず、画像に対して項目ごとにアノテーション付与するその後、視覚的特徴、空間的関係、 OCRで認識可能なテキストを含む長文のアノテーションを付与する

Penguin-VL •データセット(動画とテキスト) 動画に対しては、複数の時間粒度で説明文を付与さらに、複数の画像から正しい順序を推定させる問題と、特定の行動からタイムスタンプを答えさせるQAデータを作成

Penguin-VL •評価画像理解でも動画理解でも同規模のモデルより高性能

参考文献 • VLM視覚言語モデルの歴史整理（2025年9月まで） • alphaXiv

論文紹介 CLIP, LLaVA, Penguin-VL

論文紹介 CLIP, LLaVA, Penguin-VL

kyad

More Decks by kyad

Other Decks in Technology

Featured

Transcript