Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Prototypical Contrastive Learnin...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
1
1k
[Journal club] Prototypical Contrastive Learning of Unsupervised Representations
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
47
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
49
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
15
[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
keio_smilab
PRO
0
30
[Journal club] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
keio_smilab
PRO
0
43
[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions
keio_smilab
PRO
1
210
[MIRU25] An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
keio_smilab
PRO
1
210
[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks
keio_smilab
PRO
0
180
Semantic Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
3
470
Other Decks in Technology
See All in Technology
自治体職員がガバクラの AWS 閉域ネットワークを理解するのにやって良かった個人検証環境
takeda_h
2
380
イオン店舗一覧ページのパフォーマンスチューニング事例 / Performance tuning example for AEON store list page
aeonpeople
1
220
広島銀行におけるAWS活用の取り組みについて
masakimori
0
120
ZOZOTOWNフロントエンドにおけるディレクトリの分割戦略
zozotech
PRO
15
5k
モダンな現場と従来型の組織——そこに生じる "不整合" を解消してこそチームがパフォーマンスを発揮できる / Team-oriented Organization Design 20250825
mtx2s
5
500
キャリアを支え組織力を高める「多層型ふりかえり」 / 20250821 Kazuki Mori
shift_evolve
PRO
2
290
帳票Vibe Coding
terurou
0
130
Amazon Bedrock AgentCore でプロモーション用動画生成エージェントを開発する
nasuvitz
6
400
Product Management Conference -AI時代に進化するPdM-
kojima111
0
200
RAID6 を楔形文字で組んで現代人を怖がらせましょう(実装編)
mimifuwa
0
300
Yahoo!ニュースにおけるソフトウェア開発
lycorptech_jp
PRO
0
300
[kickflow]20250319_少人数チームでのAutify活用
otouhujej
0
210
Featured
See All Featured
Faster Mobile Websites
deanohume
309
31k
How to train your dragon (web standard)
notwaldorf
96
6.2k
KATA
mclloyd
32
14k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
33
2.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
Balancing Empowerment & Direction
lara
2
580
We Have a Design System, Now What?
morganepeng
53
7.7k
Optimising Largest Contentful Paint
csswizardry
37
3.4k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
183
54k
Code Reviewing Like a Champion
maltzj
525
40k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Transcript
Prototypical Contrastive Learning of Unsupervised Representations Junnan Li, Pan Zhou,
Caiming Xiong, Steven C.H. Hoi (Salesforce Research) Li, Pan Zhou, Caiming Xiong and Steven C. H. Hoi. Prototypical Contrastive Learning of Unsupervised Representations, ICLR2021 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 ICLR 2021
和田唯我 / Yuiga Wada
概要 2 ü 教師なし表現学習⼿法 Prototypical Contrastive Learning (PCL) を提案 ü
EM-algorithmに基づき, プロトタイプを基準とした損失 ProtoNCE Loss を提案 ü 様々な画像認識タスクで既存⼿法を超える結果を記録
背景: Instance-wiseな対照学習は, 本質的な意味情報を獲得できない 3 o Instance-wiseな教師なし表現学習 • 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 o Instance-wiseな⼿法における2つの問題点
1. 低次元の特徴だけで識別できるため,識別はNNにとって簡単なタスク ⇒ ⾼密度な情報をエンコードしているとは⾔い難い 2. ペア間の類似度が⾼くても, 負例は負例として扱う ⇒ 負例ペアにおける類似性についての 意味情報は獲得できない
既存⼿法: 対照学習⼿法には改善の余地がある 4 既存⼿法 種類 問題点 • SimCLR[Chen+, ICML20] •
MoCo[He+, CVPR20] Instance-wise Instance-wiseな⼿法であり, 前述の問題点有り • DeepCluster[Caron+, ECCV18] prototype-wise PCAによる次元削減処理を挟む ⇒クラスタリングによる最適化が 直接的でない DeepCluster[Caron+, ECCV18] PCA not good
提案⼿法: Prototypical Contrastive Learning (PCL) 5 Prototypical Contrastive Learning (PCL)
• EM-Algorithmに基づき, クラスタリングを⾏いながら特徴表現を学習 1. E-Step : kNN法によるクラスタリングでプロトタイプの事後分布を決定 2. M-Step : 対数尤度の期待値を最⼤化するパラメタを計算 提案⼿法における更新⼿順
EM-Algorithm: PCLでは対数尤度最⼤化のためEMを⽤いる 6 1. E-Step : kNN法によるクラスタリングでプロトタイプの事後分布を決定 2. M-Step :
対数尤度の期待値を最⼤化するパラメタを計算 提案⼿法における更新⼿順 プロトタイプ 𝒄𝒊 を潜在変数として, 対数尤度を最⼤化するモデルのパラメタ 𝜃 を獲得したい (プロトタイプ : クラスタの重⼼のこと) 提案⼿法の⽬標
前準備: 最適化における⽬的関数の整理 7 上式を直接求めるのは困難なので, Jensenの不等式より, 最右辺を最⼤化すれば良いので,最右辺からパラメタ 𝜃 依存部だけ取り出した下式 を⽬的関数とする. ただし,
𝑄 𝐜𝐢 ≔ 𝑝 𝒄𝒊 ; 𝒙𝒊 , 𝜽 (∵ ∑𝑄 𝐜𝐢 = 1 ⇒ − ∑ ∑𝑄 𝐜𝐢 𝑙𝑜𝑔𝑄 𝐜𝐢 は定数)
E-Step: クラスタリングによりプロトタイプの事後分布を決定 8 E-Step • Momentum Encoderの出⼒についてクラスタリングを実⾏ • kNN法によりプロトタイプ 𝒄𝒊
の事後分布 𝑝 𝒄𝒊; 𝒙𝒊, 𝜽 を決定 Encoderの指数移動平均
M-Step (1/3): 対数尤度を最⼤化するパラメタ 𝜃 を求める 9 M-Step • 対数尤度を最⼤化するパラメタ 𝜃
を求める • 事前分布を 1/𝑘 とすると, • ⼊⼒ {𝒙𝒊 } がプロトタイプを中⼼に等⽅的に分布してると仮定すると, 𝑝 𝒙𝒊; 𝒄𝒊, 𝜽 は
M-Step (2/3): 対数尤度を最⼤化するパラメタ 𝜃 を求める 10 以上より, 対数尤度を最⼤化するパラメタ 𝜃 は
(具体的な計算過程は省略) ・ ・ ・
M-Step (3/3): 対数尤度を最⼤化する損失関数を提案 11 M-Step • 対数尤度を最⼤化するパラメタ 𝜃 は 損失に組み込む
損失関数 ProtoNCE Loss (提案⼿法)
ProtoNCE Lossはインスタンスのペアも損失に⽤いる 12 ProtoNCE Loss ⇒ ProtoNCE Lossはインスタンスのペアも損失に使⽤ InfoNCE Loss[Oord+,
2018] → MoCoで使⽤される損失関数 instance-wise prototype-wise
定性的結果: 特徴ごとに適切なクラスタが形成 13 • 各クラスタに属する画像をランダムに選択 ⇒ 教師なし学習にも拘らず, 特徴ごとに適切なクラスタが形成 Cluster X
Cluster Y
定量的結果: 画像分類タスクにおいて既存⼿法を上回る結果 14 • ResNet + 線形分類器による画像分類 ⇒ MoCoやSimCLRといった既存⼿法を上回る結果を記録
定量的結果: 物体検出タスクにおいて既存⼿法を上回る結果 15 • ImageNet-1Mを⽤いた物体検出 ⇒ MoCoによる事前学習や教師あり学習を上回る結果を記録
Ablation: 損失関数はインスタンスのペアも考慮するのが最良 16 • ProtoNCE Lossはinstance-wiseであり, prototype-wiseでもある → 損失を変えて画像分類タスクを実施 ⇒
”instance”・”proto”の両者を使うのが最良 instance-wise → “instance” prototype-wise → “proto”
PCL動かしてみた: Encoderの出⼒を線形SVMで⼆値分類 17 o 実験設定 • データセット: PASCAL VOC2007 [Everingham+,
IJCV10] • Encoderの出⼒ 𝒉 を線形SVMに通し, 各クラスについて⼆値分類 Linear SVM 𝒉 5 𝒚
PCL動かしてみた: 極めて単純なモデルでも⾼精度で画像分類可能に 18 • 全クラスにおいて mAP = 85.45を記録 • 例:
“airplain”の⼆値分類結果 (全クラスの画像を⼊⼒) → 線形SVMという⾮常に単純なモデルで極めて良い性能を記録 True Positive False Positive
まとめ 19 ü 教師なし表現学習⼿法 Prototypical Contrastive Learning (PCL) を提案 ü
EM-algorithmに基づき, プロトタイプを基準とした損失 ProtoNCE Loss を提案 • ただし, 純粋にprototype-wiseな損失にすると精度が落ちる ü 様々な画像認識タスクで既存⼿法を超える結果を記録
Appendix: 擬似コード 20
Appendix: t-SNEによる可視化結果 21
Appendix: プロトタイプの種類 22 • クラスタは包含関係を許容する (fine-grained / coarse-grained)