Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
論文紹介 CLIP, LLaVA, Penguin-VL
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
kyad
March 14, 2026
Technology
17
0
Share
論文紹介 CLIP, LLaVA, Penguin-VL
kyad
March 14, 2026
More Decks by kyad
See All by kyad
論文紹介 mHC
kyad
0
23
論文紹介 Attention Residuals
kyad
0
11
Other Decks in Technology
See All in Technology
生成AIはソフトウェア開発の革命か、ソフトウェア工学の宿題再提出なのか -ソフトウェア品質特性の追加提案-
kyonmm
PRO
2
870
Oracle Base Database Service 技術詳細
oracle4engineer
PRO
15
100k
色を視る
yuzneri
0
330
生成AI時代に信頼性をどう保ち続けるか - Policy as Code の実践
akitok_
1
190
そのSLO 99.9%、本当に必要ですか? 〜優先度付きSLOによる責任共有の設計思想〜 / Is that 99.9% SLO really necessary? Design philosophy of shared responsibility through prioritized SLOs
vtryo
0
500
SLI/SLO、「完全に理解した」から「チョットデキル」へ
maruloop
2
180
AI時代の品質はテストプロセスの作り直し #scrumniigata
kyonmm
PRO
4
1.4k
10サービス以上のメール到達率改善を地道に継続的に進めている話 / Continue to improve email delivery rates across multiple services
yamaguchitk333
4
260
ボトムアップの改善の火を灯し続けろ!〜支援現場で学んだ、消えないための3つの打ち手〜 / 20260509 Kazuki Mori
shift_evolve
PRO
2
620
CyberAgent YJC Connect
shimaf4979
1
170
「QA=テスト」「シフトレフト=スクラムイベントの参加者の一員」の呪縛を解く。アジャイルな開発を止めないために、10Xで挑んだ「右側のしわ寄せ」解消記 #scrumniigata
nihonbuson
PRO
5
980
拝啓、あの夏の僕へ〜あなたも知っているApp Runnerの世界〜
news_it_enj
0
230
Featured
See All Featured
Testing 201, or: Great Expectations
jmmastey
46
8.1k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Designing for Timeless Needs
cassininazir
0
220
Odyssey Design
rkendrick25
PRO
2
610
A brief & incomplete history of UX Design for the World Wide Web: 1989–2019
jct
1
370
Making Projects Easy
brettharned
120
6.6k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
The Anti-SEO Checklist Checklist. Pubcon Cyber Week
ryanjones
0
130
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
170
The Illustrated Guide to Node.js - THAT Conference 2024
reverentgeek
1
340
It's Worth the Effort
3n
188
29k
A designer walks into a library…
pauljervisheath
211
24k
Transcript
論文紹介 CLIP, LLaVA, Penguin-VL @kyad 2026/3/14 本資料中の図は論文から引用しています
CLIP •書誌情報 [2103.00020] Learning Transferable Visual Models From Natural Language
Supervision 研究機関:OpenAI •何をするもの? 画像とテキストを同じ埋め込み空間に対応付けるように学習させる仕組み Contrastive Language-Image Pre-training
CLIP •アーキテクチャ ResNetやViTなど ViT-L/14がベスト GPT-2のデコーダのみのTransformer [EOS]に対する特徴ベクトルが使われる 長さが合うように 重み行列をかける 長さが合うように 重み行列をかける
Nはデータ数 (32768) 1番目のテキストの 特徴ベクトル 1番目の画像の 特徴ベクトル •学習疑似コード T達とI達のそれぞれの内積が 単位行列になるように学習 ⇒ 学習してできたText Encoderや Image Encoderは、 良い特徴量抽出器になっている
CLIP •Few-shot分類評価 CLIPをFew-shot画像分類器として使う方法 ①学習画像(1クラスあたり1,2,4,8,16枚)を学習済み Image Encoderに入れて特徴量を取り出す ②ロジスティック回帰で学習する •Zero-shot分類評価 CLIPをZero-shot画像分類器として使う方法 ①テスト画像を、Image
Encoderに入れる ②データセット内の全てのクラス名を、Text Encoderに入れる ③①と②それぞれのコサイン類似度を算出し、Softmaxをかける ④Softmaxが一番高いやつが答え
CLIP •Text Retrieval / Image Retrieval 評価 Text Retrievalの評価方法 ①クエリ画像を学習済みImage
Encoderに入れる ②候補テキスト達を学習済みText Encoderに入れる ③①と②それぞれの類似度を計算してランキング Image Retrievalの評価方法 ①クエリテキストを学習済みText Encoderに入れる ②候補画像達を学習済みImage Encoderに入れる ③①と②それぞれの類似度を計算してランキング
LLaVA •書誌情報 [2304.08485] Visual Instruction Tuning 研究機関:Microsoft •何をするもの? LLMで画像とテキストのマルチモーダル学習するシンプルな方法 強力なマルチモーダルチャット機能を実現
LLaVA •アーキテクチャ CLIPの ViT-L/14 Vicuna (LlamaベースのLLM) 線形層 単語埋め込みに 繋げるだけ •学習方法
Step 1: 特徴アラインメント Step 2: End to End Fine tuning ⇒画像とテキストを入れるとテキストで応答が出る チャット的な使い方が可能
LLaVA •データ CLIP: 画像とキャプションを学習するのみ LLaVa: ①会話②詳細説明③複雑な推論を 学習させる 学習データは、COCOの①キャプションと ②Bounding boxのみからGPT-4で生成(画
像はGPT-4に入れていない)
LLaVA LLaVAは、画像の説明をするのみならず、理由も 含めて説明できている点が従来の方法と異なる •マルチモーダルチャット評価
Penguin-VL •書誌情報 [2603.06569] Penguin-VL: Exploring the Efficiency Limits of VLM
with LLM-based Vision Encoders 研究機関:Tencent プロジェクトページ:Penguin-VL •何をするもの? CLIPベースの画像エンコーダを使わないVLM
Penguin-VL •課題 従来のVLMは、CLIP等のcontrastive learning事前学習モデルベースのものが多かった しかし、これらは分類ベースの事前学習のため、細かい粒度の情報を欠落させるように学習 してしまう課題がある また、VLMモデルは一般的に重く、軽量モデルが無い課題がある ⇒ Penguin-VLでは、 contrastive
learningベースの モデルを使わずに、LLMに入 れるVision Encoderを学習する
Penguin-VL •アーキテクチャ “Penguin-Encoder” テキストのLLM Qwen3-0.6B から初期化したもの 特長①Native Alignment: 最初からテキスト特徴と整合 特長②テキストで学んだ
概念知識を生かせる 画像では前後関係は関係ないので Attention maskの向きを 時系列方向のみから双方向に変更 2D-RoPEで 位置エンコーディング 動画のエンコーディングは Temporal Redundancy-Aware compression (TRA)で圧縮して扱う 変化の大きいキーフレームと、変化の小さい中間フレームに分類し 最大トークン長に収まるようにキーフレーム優先で圧縮 Qwen3-2B/8Bベース 2層MLP
Penguin-VL •2D-RoPE 1次元RoPE [2104.09864] RoFormer: Enhanced Transformer with Rotary Position
Embedding 苏剑林. (May. 10, 2021). 《Transformer升级之路:4、二维位置的旋转式位置编码 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/8397 2次元RoPE
Penguin-VL •学習方法 最初はPenguin encoderのみ学習 後で全体をFine-tune 蒸留ロスで学習する 何を教師とするかは論文では示されていない Amplitude Direction Relation
Penguin-VL •データセット(画像とテキスト) まず、画像に対して項目ごとに アノテーション付与する その後、視覚的特徴、空間的関係、 OCRで認識可能なテキストを含む 長文のアノテーションを付与する
Penguin-VL •データセット(動画とテキスト) 動画に対しては、複数の時間粒度で 説明文を付与 さらに、複数の画像から正しい順序を 推定させる問題と、特定の行動から タイムスタンプを答えさせるQAデータ を作成
Penguin-VL •評価 画像理解でも動画理解でも 同規模のモデルより高性能
参考文献 • VLM視覚言語モデルの歴史整理(2025年9月まで) • alphaXiv