Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[Journal club] Surrogate Gap Minimization Impro...
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
Technology
2.8k
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
[Journal club] Surrogate Gap Minimization Improves Sharpness-Aware Training
慶應義塾⼤学 杉浦孔明研究室 B4 和田唯我 / Yuiga Wada
Semantic Machine Intelligence Lab., Keio Univ.
PRO
August 01, 2022
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club ] PHyCLIP: 𝒍𝟏-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning
keio_smilab
PRO
0
35
[Journal club] ReMEmbR: Building and Reasoning Over Long-Horizon Spatio-Temporal Memory for Robot Navigation
keio_smilab
PRO
0
95
[Journal club] ReLaGS: Relational Language Gaussian Splatting
keio_smilab
PRO
0
92
[Journal club] Flow as the Cross-Domain Manipulation Interface
keio_smilab
PRO
0
86
Mobi-𝜋: Mobilizing Your Robot Learning Policy
keio_smilab
PRO
0
150
A Gentle Introduction to Transformers
keio_smilab
PRO
16
6.7k
FlowAR: Scale-wise Autoregressive Image Generation Meets Flow Matching
keio_smilab
PRO
0
58
[Journal club] VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model
keio_smilab
PRO
0
130
[Journal club] Improved Mean Flows: On the Challenges of Fastforward Generative Models
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
AIを「創る」と「使う」の循環 — HRテックが実践するリアルなAI組織実装
taketo957
0
1.5k
Unlocking the Apps
pimterry
0
230
ChatworkとBPaaS 異なる特性で学んだAI機能開発の ベストプラクティス
kubell_hr
2
2.7k
JJUG CCC 2026 Spring AI時代の開発こそ標準化を武器に! ― 方式・プロセス・プラットフォームの標準化
s27watanabe
2
720
トークン数だけでは測れない — Claude Code 組織展開の効果検証から学んだこと
makikub
0
130
先取りMaven4 ~16年ぶりのメジャーアップデート、その進化とは?~
ogiwarat
0
140
新アーキテクチャ「TiDB X」解説とDedicated比較 TiDB Cloud Premiumのゲーム運用活用を検証
staffrecruiter
0
110
正解のないAIプロダクトをどう導くか?dodaが挑む、ユーザーの『本音』を構造化する評価設計と検証のリアル
techtekt
PRO
0
180
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
50k
SIer20年! 培ったスキルがスタートアップで輝く時
shucho0103
0
350
BigQuery の Cross-cloud Lakehouse への歩み
phaya72
2
550
イベントストーミングとKiroの仕様駆動開発で実現する要件の認識合わせプロセス
syobochim
7
1.2k
Featured
See All Featured
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
580
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.6k
Are puppies a ranking factor?
jonoalderson
1
3.5k
Why Our Code Smells
bkeepers
PRO
340
58k
エンジニアに許された特別な時間の終わり
watany
107
250k
Technical Leadership for Architectural Decision Making
baasie
3
400
Utilizing Notion as your number one productivity tool
mfonobong
4
310
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Jamie Indigo - Trashchat’s Guide to Black Boxes: Technical SEO Tactics for LLMs
techseoconnect
PRO
0
160
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
How Software Deployment tools have changed in the past 20 years
geshan
0
34k
Transcript
Surrogate Gap Minimization Improves Sharpness-Aware Training Juntang Zhuang1, Boqing Gong2,
Liangzhe Yuan2, Yin Cui2, Hartwig Adam2, Nicha C Dvornek1, sekhar tatikonda1, James s Duncan1, Ting Liu2 (1Yale University, 2Google Research) 慶應義塾⼤学 杉浦孔明研究室 和⽥唯我 Juntang Zhuang , et al., “Surrogate gap minimization improves sharpness-aware training”, in ICLR(2022) ICLR 2022
和田唯我 / Yuiga Wada
概要 2 ü 最適化⼿法GSAM(Gap Guided Sharpness-Aware Minimization)を提案 ü Surrogate gapの導⼊によりSAMを改良
ü Surrogate gapがHessianの最⼤固有値と相関を持つことを理論的に証明 ü 様々なモデル・データセットでSAMを超える性能を達成
既存⼿法: SAM(Sharpness-Aware Minimization) 3 o 最適化⼿法 SAM(Sharpness-Aware Minimization) [Foret+, ICLR21]
• ⽬的関数 𝑓 𝑤 だけでなく, その近傍までを最⼩化 ⇒ フラットな損失点を得ることができると主張
背景: SAMの更新式は理論保証されていない 4 o SAMは常にフラットな点に到達できるか? • 下図だと𝑓 𝑤! が最もフラットで 𝑓
𝑤" は最もシャープ • ⼀⽅, 近傍については 𝑓# 𝑤" = 𝑓# 𝑤! < 𝑓# 𝑤$ が成り⽴つ → SAMの場合最もシャープな⻘の点 𝑤" に収束してしまう ⇒ SAMが本当にフラットな点に収束するとは限らない
提案⼿法: Gap Guided Sharpness-Aware Minimization (GSAM) 5 o Gap Guided
Sharpness-Aware Minimization (GSAM) • Surrogate gapを補助関数としてSAMを改良 o Surrogate gap • 以下の式で定義. すなわち, 近傍と⽬的関数 𝑓 𝑤 の差分(gap) • Surrogate gap ℎ 𝑤 はHessianの最⼤固有値と相関を持ち, 平坦な損失平⾯へと到達可 (次⾴にて証明)
補題1: Surrogate gapは⾮負数を取る 6 o Surrogate gap ℎ 𝑤 を局所解
𝑤 の周りでTaylor展開すると (Dual Norm Problem を解くとこの解が得られる) ⇒
補題2: Surrogate gapはHessianの最⼤固有値と相関を持つ 7 o Surrogate gap ℎ 𝑤 を局所解
𝑤 の周りでTaylor展開すると 局所解において ∇𝑓 ≈ 0なので 第⼆項を最⼤化するとき, 𝑓# はHessian 𝐻 の最⼤固有値 𝜎%&' 𝐻 を⽤いて よって, → 補題1, 2より Surrogate gapの最⼩化は平坦な損失平⾯へと到達可
理論: 更新⽅向のコンフリクトを防ぐため直交成分を使⽤ 8 o ⽬標: 𝑓 𝑤 を最⼩化しつつ, 𝑓# 𝑤
とℎ 𝑤 も最⼩化したい o ∇ℎ 𝑤 と∇𝑓#(𝑤)の解の更新 • ∇ℎ 𝑤 ⋅ ∇𝑓# 𝑤 と∇ℎ 𝑤 ⋅ ∇𝑓(𝑤) を⾒ると • 内積が負の値を取る可能性がある ⇒ 更新⽅向が互いの更新を邪魔する可能性 ∇ℎ 𝑤 については直交成分のみ使⽤する ∇ℎ 𝑤 ⇒
提案⼿法: GSAMの更新アルゴリズム 9 GSAM ① ② ③ ① 近傍 ρ
内で損失が最⼤となる𝑤!"#を求める ② 𝑤!"# における更新⽅向を求める ③ surrogate gap の直交成分を⾜した⽅向へ解を更新する
実験: SAMが到達できないフラットな解にGSAMは到達可能 10
定量的結果: 様々な条件でSAMを超える性能を達成 11 • Models: ResNet, ViT, MLP-Mixer • Datasets:
ImageNet-〇 • 様々な条件でSAMを超える性能を達成 • 特に帰納バイアスの少ないMLP-Mixer では性能の向上が顕著
実験: Hessianの最⼤固有値と Surrogate gap には相関が確認できる 12 • Surrogate gapによって推定したHessianの最⼤固有値(左)と本来の値(右)を⽐較 →
α によってバラツキがあるものの, 同じような曲線を描いている ⇒ Hessianの最⼤固有値と Surrogate gap には相関が確認できる
Ablation: min 𝑓, ℎ よりもmin 𝑓! , ℎ を最適化するのが最良 13
o GSAMは 𝑚𝑖𝑛 𝑓#, ℎ を最適化している • min 𝑓, ℎ を最適化した場合の結果を⽐較 ⇒ min 𝑓# , ℎ を最適化するのが最良
まとめ 14 ü 最適化⼿法GSAM(Gap Guided Sharpness-Aware Minimization)を提案 ü Surrogate gapの導⼊によりSAMを改良
ü Surrogate gapがHessianの最⼤固有値と相関を持つことを理論的に証明 ü 様々なモデル・データセットでSAMを超える性能を達成
Appendix: 実験設定 15