Post-hoc EMA - EMAの減衰パラメータの事後最適化

AI 2024/07/26 内田祐介 GO株式会社 Post-hoc EMA EMAの減衰パラメータの事後最適化

AI 2 通常のEMAの指数減衰ではランダムな初期パラメータの影響が大きすぎるため、べき関数を用いた重み付けを定式化複数の減衰パラメータのcheckpointを一定間隔で保存しておくことで、減衰パラメータを事後的に最適化することを提案 Kaggleとかでも使えそう！ Post-hoc EMA

AI 3 同一モデルのweightを平均することで汎化性能を向上 1. モデルを一度学習 2. 上記のモデルを学習率をcyclicに変化させながらfinetune、複数weightを取得 3. 上記のweight全てを平均し
新たなモデルのweightとする 4. 学習データでforwardして BNのパラメータをアップデート Stochastic Weight Averaging (SWA) P. Izmailov, et al., "Averaging Weights Leads to Wider Optima and Better Generalization," in Proc. of UAI'18.

AI 4 PyTorch実装はあるが1回の学習でpretrain + annealingするのでややこしい。pytorch lightningのwrapperもあるがexperimental https://pytorch.org/docs/stable/optim.html#weight-averaging-swa-and-ema Stochastic Weight
Averaging (SWA)

AI 5 1回の学習で複数のweightを取得しアンサンブル等間隔にM個取得しておいて最後のm≦M個を利用 SWAと異なりweightを平均して利用するわけではない Learning rateをcyclicに高くして異なる局所解を得ることが目的 cosine LRスケジューリング
Snapshot Ensembles G. Huang, et al., "Snapshot Ensembles: Train 1, Get M for Free," in Proc. of ICLR'17.

AI 6 （余談）みんな大好きcosine LRスケジューリングの始祖はこちらもはや誰もrestartはしていない気がするけど SGDR: Stochastic Gradient Descent
with Warm Restarts I. Loshchilov and F. Hutter, "SGDR: Stochasitc Gradient Descent with Warm Restarts," in Proc. of ICLR'17.

AI 7 同一モデルのweightを平均することで汎化性能を向上 1. 一定間隔 (step) 毎にEMAモデルをアップデートするだけ！ EMAも torch.optim.swa_utils に実装がある
timm.utils.ModelEmaV2 を使っていたが ModelEmaV3 がある… （もちろん ModelEmaもある…） V3は減衰率のwarmupができる模様後述のEMAの問題（初期weightの影響）が軽減されそう Exponential Moving Average (EMA)

AI 8 Diffusionモデルに関するCVPR’24の論文の提案手法の一部画像生成ではEMAの利用とそのパラメータ調整が重要複数のEMA checkpointを保存しておくことで事後的に EMAの減衰パラメータを最適化することを提案 arXivの論文のほうがappendixが充実してて良い Post-hoc EMA
T. Karras, et al., "Analyzing and Improving the Training Dynamics of Diffusion Models," in Proc. of CVPR'24.

AI 9 下記の2点の理由から、EMAを指数減衰からべき関数に基づいた平均を行うように変更する長時間の平均を利用したいが初期値付近の重みは0にしたい訓練時間に対して自動的に減衰パラメータをスケーリングしたい準備指数減衰では初期パラメータのweightが 0にならない

AI 10 通常のEMAの更新式べき関数に基づいたパラメータ平均の定義べき関数に基づいたEMA更新式べき関数に基づいたパラメータ平均 Weightが t 依存に正規化係数
τ時のweigtht τ時のパラメータ

AI 11 パラメータ設定時には、γと互換性のある relative standard deviation σrel を利用べき関数に基づいたパラメータ平均

AI 12 複数の γ (σrel ) で、複数タイミングでweightを保存学習後にこれらのweightから所望の γ (σrel
) で学習した際のweightを最小二乗法で事後的に算出再構築アルゴリズム

AI 13 γ (σrel ) は2パラメータスナップショット数は学習時間に応じて。画像生成タスクでなければそこまで大量じゃなくても良いかも再構築アルゴリズム

AI 14 Diffusionモデルの結果ではあるがモデルによって最適なパラメータがかなり違う＝調整の意義あり（EMA前提のパラメータ設定だと思われるが）EMAなし（左側）の性能が低い再構築による最適化結果

AI 15 https://github.com/NVlabs/edm2 https://github.com/mmathew23/improved_edm 実装

AI 16 いっぱい保存すれば良いじゃない説も D. Morales-Brotons., et al., "Exponential Moving Average
of Weights in Deep Learning: Dynamics and Benefits," in TMLR'24.

Post-hoc EMA - EMAの減衰パラメータの事後最適化

Post-hoc EMA - EMAの減衰パラメータの事後最適化

yu4u

More Decks by yu4u

Other Decks in Technology

Featured

Transcript

AI 2024/07/26 内田祐介 GO株式会社 Post-hoc EMA EMAの減衰パラメータの事後最適化

AI 3 同一モデルのweightを平均することで汎化性能を向上 1. モデルを一度学習 2. 上記のモデルを学習率をcyclicに変化させながらfinetune、複数weightを取得 3. 上記のweight全てを平均し

AI 4 PyTorch実装はあるが1回の学習でpretrain + annealingするのでややこしい。pytorch lightningのwrapperもあるがexperimental https://pytorch.org/docs/stable/optim.html#weight-averaging-swa-and-ema Stochastic Weight

AI 6 （余談）みんな大好きcosine LRスケジューリングの始祖はこちらもはや誰もrestartはしていない気がするけど SGDR: Stochastic Gradient Descent

AI 7 同一モデルのweightを平均することで汎化性能を向上 1. 一定間隔 (step) 毎にEMAモデルをアップデートするだけ！ EMAも torch.optim.swa_utils に実装がある

AI 10 通常のEMAの更新式べき関数に基づいたパラメータ平均の定義べき関数に基づいたEMA更新式べき関数に基づいたパラメータ平均 Weightが t 依存に正規化係数

AI 11 パラメータ設定時には、γと互換性のある relative standard deviation σrel を利用べき関数に基づいたパラメータ平均

AI 12 複数の γ (σrel ) で、複数タイミングでweightを保存学習後にこれらのweightから所望の γ (σrel

AI 13 γ (σrel ) は2パラメータスナップショット数は学習時間に応じて。画像生成タスクでなければそこまで大量じゃなくても良いかも再構築アルゴリズム

AI 14 Diffusionモデルの結果ではあるがモデルによって最適なパラメータがかなり違う＝調整の意義あり（EMA前提のパラメータ設定だと思われるが）EMAなし（左側）の性能が低い再構築による最適化結果

AI 15 https://github.com/NVlabs/edm2 https://github.com/mmathew23/improved_edm 実装

AI 16 いっぱい保存すれば良いじゃない説も D. Morales-Brotons., et al., "Exponential Moving Average