Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Prototypical Contrastive Learnin...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
1
1.1k
[Journal club] Prototypical Contrastive Learning of Unsupervised Representations
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations
keio_smilab
PRO
0
16
[Journal club] FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
keio_smilab
PRO
0
63
[Journal club] Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
keio_smilab
PRO
0
120
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
68
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
160
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
120
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
99
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
86
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
150
Other Decks in Technology
See All in Technology
Mackerelにおけるインシデント対応とポストモーテム - 現場での工夫と学び
taxin
0
110
短期間でRAGシステムを実現 お客様と歩んだ生成AI内製化への道のり
taka0709
1
190
AWS IAM Identity Centerによる権限設定をグラフ構造で可視化+グラフRAGへの挑戦
ykimi
2
140
メタプログラミングRuby読書会の活用
willnet
0
120
20251102 WordCamp Kansai 2025
chiilog
1
550
Databricks Free Editionで始めるMLflow
taka_aki
0
800
データとAIで明らかになる、私たちの課題 ~Snowflake MCP,Salesforce MCPに触れて~ / Data and AI Insights
kaonavi
0
340
CloudComposerによる大規模ETL 「制御と実行の分離」の実践
leveragestech
0
190
Pythonで構築する全国市町村ナレッジグラフ: GraphRAGを用いた意味的地域検索への応用
negi111111
0
200
20251106 Offers DeepDive 知識を民主化!あらゆる業務のスピードと品質を 改善するためのドキュメント自動更新・活用術
masashiyokota
1
220
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
340
AWS 環境で GitLab Self-managed を試してみた/aws-gitlab-self-managed
emiki
0
190
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Building a Modern Day E-commerce SEO Strategy
aleyda
44
8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
Keith and Marios Guide to Fast Websites
keithpitt
412
23k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.2k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
127
54k
Side Projects
sachag
455
43k
Context Engineering - Making Every Token Count
addyosmani
8
340
Done Done
chrislema
186
16k
Transcript
Prototypical Contrastive Learning of Unsupervised Representations Junnan Li, Pan Zhou,
Caiming Xiong, Steven C.H. Hoi (Salesforce Research) Li, Pan Zhou, Caiming Xiong and Steven C. H. Hoi. Prototypical Contrastive Learning of Unsupervised Representations, ICLR2021 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 ICLR 2021
和田唯我 / Yuiga Wada
概要 2 ü 教師なし表現学習⼿法 Prototypical Contrastive Learning (PCL) を提案 ü
EM-algorithmに基づき, プロトタイプを基準とした損失 ProtoNCE Loss を提案 ü 様々な画像認識タスクで既存⼿法を超える結果を記録
背景: Instance-wiseな対照学習は, 本質的な意味情報を獲得できない 3 o Instance-wiseな教師なし表現学習 • 加⼯された画像(instance)のペアが同じ元画像に由来するかを識別 o Instance-wiseな⼿法における2つの問題点
1. 低次元の特徴だけで識別できるため,識別はNNにとって簡単なタスク ⇒ ⾼密度な情報をエンコードしているとは⾔い難い 2. ペア間の類似度が⾼くても, 負例は負例として扱う ⇒ 負例ペアにおける類似性についての 意味情報は獲得できない
既存⼿法: 対照学習⼿法には改善の余地がある 4 既存⼿法 種類 問題点 • SimCLR[Chen+, ICML20] •
MoCo[He+, CVPR20] Instance-wise Instance-wiseな⼿法であり, 前述の問題点有り • DeepCluster[Caron+, ECCV18] prototype-wise PCAによる次元削減処理を挟む ⇒クラスタリングによる最適化が 直接的でない DeepCluster[Caron+, ECCV18] PCA not good
提案⼿法: Prototypical Contrastive Learning (PCL) 5 Prototypical Contrastive Learning (PCL)
• EM-Algorithmに基づき, クラスタリングを⾏いながら特徴表現を学習 1. E-Step : kNN法によるクラスタリングでプロトタイプの事後分布を決定 2. M-Step : 対数尤度の期待値を最⼤化するパラメタを計算 提案⼿法における更新⼿順
EM-Algorithm: PCLでは対数尤度最⼤化のためEMを⽤いる 6 1. E-Step : kNN法によるクラスタリングでプロトタイプの事後分布を決定 2. M-Step :
対数尤度の期待値を最⼤化するパラメタを計算 提案⼿法における更新⼿順 プロトタイプ 𝒄𝒊 を潜在変数として, 対数尤度を最⼤化するモデルのパラメタ 𝜃 を獲得したい (プロトタイプ : クラスタの重⼼のこと) 提案⼿法の⽬標
前準備: 最適化における⽬的関数の整理 7 上式を直接求めるのは困難なので, Jensenの不等式より, 最右辺を最⼤化すれば良いので,最右辺からパラメタ 𝜃 依存部だけ取り出した下式 を⽬的関数とする. ただし,
𝑄 𝐜𝐢 ≔ 𝑝 𝒄𝒊 ; 𝒙𝒊 , 𝜽 (∵ ∑𝑄 𝐜𝐢 = 1 ⇒ − ∑ ∑𝑄 𝐜𝐢 𝑙𝑜𝑔𝑄 𝐜𝐢 は定数)
E-Step: クラスタリングによりプロトタイプの事後分布を決定 8 E-Step • Momentum Encoderの出⼒についてクラスタリングを実⾏ • kNN法によりプロトタイプ 𝒄𝒊
の事後分布 𝑝 𝒄𝒊; 𝒙𝒊, 𝜽 を決定 Encoderの指数移動平均
M-Step (1/3): 対数尤度を最⼤化するパラメタ 𝜃 を求める 9 M-Step • 対数尤度を最⼤化するパラメタ 𝜃
を求める • 事前分布を 1/𝑘 とすると, • ⼊⼒ {𝒙𝒊 } がプロトタイプを中⼼に等⽅的に分布してると仮定すると, 𝑝 𝒙𝒊; 𝒄𝒊, 𝜽 は
M-Step (2/3): 対数尤度を最⼤化するパラメタ 𝜃 を求める 10 以上より, 対数尤度を最⼤化するパラメタ 𝜃 は
(具体的な計算過程は省略) ・ ・ ・
M-Step (3/3): 対数尤度を最⼤化する損失関数を提案 11 M-Step • 対数尤度を最⼤化するパラメタ 𝜃 は 損失に組み込む
損失関数 ProtoNCE Loss (提案⼿法)
ProtoNCE Lossはインスタンスのペアも損失に⽤いる 12 ProtoNCE Loss ⇒ ProtoNCE Lossはインスタンスのペアも損失に使⽤ InfoNCE Loss[Oord+,
2018] → MoCoで使⽤される損失関数 instance-wise prototype-wise
定性的結果: 特徴ごとに適切なクラスタが形成 13 • 各クラスタに属する画像をランダムに選択 ⇒ 教師なし学習にも拘らず, 特徴ごとに適切なクラスタが形成 Cluster X
Cluster Y
定量的結果: 画像分類タスクにおいて既存⼿法を上回る結果 14 • ResNet + 線形分類器による画像分類 ⇒ MoCoやSimCLRといった既存⼿法を上回る結果を記録
定量的結果: 物体検出タスクにおいて既存⼿法を上回る結果 15 • ImageNet-1Mを⽤いた物体検出 ⇒ MoCoによる事前学習や教師あり学習を上回る結果を記録
Ablation: 損失関数はインスタンスのペアも考慮するのが最良 16 • ProtoNCE Lossはinstance-wiseであり, prototype-wiseでもある → 損失を変えて画像分類タスクを実施 ⇒
”instance”・”proto”の両者を使うのが最良 instance-wise → “instance” prototype-wise → “proto”
PCL動かしてみた: Encoderの出⼒を線形SVMで⼆値分類 17 o 実験設定 • データセット: PASCAL VOC2007 [Everingham+,
IJCV10] • Encoderの出⼒ 𝒉 を線形SVMに通し, 各クラスについて⼆値分類 Linear SVM 𝒉 5 𝒚
PCL動かしてみた: 極めて単純なモデルでも⾼精度で画像分類可能に 18 • 全クラスにおいて mAP = 85.45を記録 • 例:
“airplain”の⼆値分類結果 (全クラスの画像を⼊⼒) → 線形SVMという⾮常に単純なモデルで極めて良い性能を記録 True Positive False Positive
まとめ 19 ü 教師なし表現学習⼿法 Prototypical Contrastive Learning (PCL) を提案 ü
EM-algorithmに基づき, プロトタイプを基準とした損失 ProtoNCE Loss を提案 • ただし, 純粋にprototype-wiseな損失にすると精度が落ちる ü 様々な画像認識タスクで既存⼿法を超える結果を記録
Appendix: 擬似コード 20
Appendix: t-SNEによる可視化結果 21
Appendix: プロトタイプの種類 22 • クラスタは包含関係を許容する (fine-grained / coarse-grained)