[論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure

[論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure Edmund Lau2,
Zach Furman1, George Wang1, Daniel Murfet2, Susan Wei3 (1:Timaeus, 2:University of Melbourne, 3:Monash University) https://arxiv.org/abs/2308.12108v2 2025/10/19 xiangze

目次 • 論文概要 • 特異学習理論と局所学習係数(LLC)の復習 • LLCの推定手法 • 計算実験とその結果 •
LLC概念の問題点、議論 • 今後の課題と取り組み

論文概要 • DNNの”正則化項”にあたる局所学習係数(LLC)の提唱とその大規模ネットワークに数値計算による推定、その傾向に関する主張 • 数値計算手法の特徴の説明 • 関連研究、概念との関係の解説 Resnet18+CIFAR10で学習率、bacthsize、momentumを変えた場合のλ*の変化の度合い

3.特異学習理論: 特異モデルと実対数閾値λ(RLCT, 学習係数)、多重度mの導出 (負の)対数尤度 KL divergence: ゼータ関数; 特異な(Hessianの退化した)K-K0に対して特異点解消定理を適用し λの意味:
自由エネルギーFnのデータ数の対数lognの係数が実対数閾値(RLCT, 学習係数) W w

3.局所学習係数(LLC)の定義と性質アイデア: 学習途中/完了後のDNNの性質を見るには事後分布が高い局所解の周辺だけ考えれば良い体積V(ε),ε→0に対して有理数λ(w∗ )と正の整数m(w∗ ) が存在するとも書くことができる。物理的理解はデータ数Nと体積の関係
正規モデルの場合λ=d/2は(コルモゴロフ)複雑さの次元でその拡張になっている LLCは既存の誤差εが十分小さい場合に、ε をさらに半分にするために必要な追加ビット数 B 移項して

4.LLCの推定手法分配関数事前分布φ(w)をガウシアンとし、パラメータγ、温度βとして固定した期待値で wをw*中心に展開するとこの事後分布を使って以下を定義し、さらに β*=1/lognととるとと書ける。前ページから

4.LLCの推定手法 Stochastic Gradient Langevin Dynamics(SGLD) を用いる Langevin方程式のStep Δwtを以下のようにして HMC NUTS
pyro(pytorch)を用いる方法もある(Stepsizeを最適にしてくれるが計算コストが高い) →線形ニューラルネット(行列分解モデル)では厳密解が得られるのでそれと比較する

Computing λSGLD https://github.com/edmundlth/scalable_learning_coefficient_with_sgld https://github.com/suswei/RLCT （コード解説）

大規模線系NN(行列分解モデル)の学習係数、計算実験とその結果行列分解モデルのRLCTは解析解が存在する。 (Appendix I)これと比較すると全体的に数値近似のほう厳密解より小さいが一部大きいところもある(中程度の次元では逆転している？) 億次元単位の双有理不変量 (代数的不変量)の推定は史上
初？

LLC for Resnet 図1:ResNet18をCIFAR10データセットで学習させる際の SGD学習率（上段）、バッチサイズ（中段）、およびモーメンタム係数（下段）学習時間経過に伴う LLC推定値（左）、テスト精度（中段）、および訓練損失（右）暗黙的な正則化の強度が増大 — 学習率の上昇、バッチサイズの縮小、モーメンタムの増加によって
— LLCは減少し（ネットワークは「単純化」され）テスト精度は向上する。ほとんどの場合に訓練誤差が0になる場合でも、LLCは訓練条件によって異なる暗黙的正則化を識別することができる。

LLC概念の問題点 • 定義自体はWell Defined local triplet (p, q, φ¯) ,
local zeta-function • 局所性, 統計物理的にはミクロな状態w*に依存する量であり、データ数nの対数の係数局所エントロピーとは熱力学的には何を表しているのか？ • SGDとベイズ推定の違い、相転移(Singular Learning Theory with Daniel Murfet(Blog)) ”ベイジアン学習プロセスが、 SGD訓練の終点付近のパラメータ分布、あるいは少なくともそれに近い分布で終了すると考える場合 ――あるいは、SGD実行時のテスト誤差の平均値が、ベイジアン理論において意味のある一般化量のベイジアン事後分布を平均したものとある程度類似していると考える場合 ――これら二つの概念の間に何らかの関連性を見出すことは可能かもしれません。　この問題はまだ解決されていません。ベイジアン事後分布と確率的勾配降下法（ SGD）の関係性に関するこれらの問題は非常に複雑で、少なくとも私の見解では、近い将来に解決される見込みは薄いように思われます。 ”

議論(Appendix) • 関連研究 ◦ Basin bloadness ◦ NNは縮退している　 LLCはその多重度を表していると言える ◦
Loss landscape, wide/flat minima ◦ Rademacher複雑性との違い PAC-Vayes(Deep Learning is Not So Mysterious or Different)　と並行した議論 (実験https://github.com/xiangze/soft_inductive_bias) 正規モデルの場合は“事後分布”q(w|w*)がガウシアンλPAC-bayesはｌの二次微分、HessianのTraceに比例する(BICと一致) • Model Complexity vs Model independent Complexity “Thus, while in general LLC is not a model-independent complexity measure, it seems distinctly possible that for neural networks (perhaps even models in some broader “universality class"), the LLC could be model-independent in some way. This would theoretically establish the inductive biases of neural networks. We believe this to be an intriguing direction for future work.” ”My Criticism of Singular Learning Theory”の例 f1(x) has a learning coefficient of λ = 1/2, whereas f2(x) has a learning coefficient of λ = 1/ 16 . Therefore, despite f1(x) being more Kolmogorov-simple, it is more complex for f(x,w) to implement — the model is biased towards f2(x) instead of f1(x), f1(x) requires relatively more information to learn

今後の課題と取り組みアイデア • 多次元非線形モデルのLLC推定 ◦ 線形NNから非線形NNのLLCを推定する ▪ softmaxの場合　傾きを徐々に大きくするhttps://github.com/xiangze/RLCT ▪ 法則性はあるのか？ ▪
ReLuの場合　局所に限れば線形だが著しく性質が異なる (DNN:大域的最適解、DLN:多数の局所解) • 数式処理的手法は条件数が爆発してしまう • HMCの結果のSGLDによる外挿　https://github.com/xiangze/RLCT • 層に分けて計算を軽くしてみる (c.f 量子化) • 残課題: 自由エネルギーを通じた相転移 (特にランダム行列系、拡散モデル)、Grokkingとの関係 Soft inductive biasとの関係 https://github.com/xiangze/soft_inductive_bias double descentとの関係(N=Pの場合から考えていくのがいい？ ”Effective Model Complexity ”) p n

関連研究 • 著者ら Loss Landscape Degeneracy and Stagewise Development in
Transformers We thank Google’s TPU Research Cloud program for supporting some of our experiments with Cloud TPUs Quantifying degeneracy in singular models via the learning coefficient Variational Bayesian Neural Networks via Resolution of Singularities Singular Learning Theory with Daniel Murfet(interview Blog) 内容 • LLCの推定、SLTの一般化 • NTKなど他の理論との関係 • AIアラインメントとの関係、未解決問題 • SLTはAIの性能を上げるか • 幾何学と情報　など

関連研究 • 線型ニューラルネット(行列)の最適解に関する研究 Stochastic complexities of reduced rank regression in
Bayesian estimation (式解説 ) 本論文のベースとなった行列モデルの RLCTの厳密解の計算 The loss surface of deep linear networks(DLN)viewed through the algebraic geometry lens 正則化項を入れると局所最適解が増え大域最適解に到達できなくなってしまうらしい。  そのうえでホモトピー的手法を用いて解の個数を数え上げている。個数はNNの層、幅に対して組み合わせ的に増える  • 相転移との関係(拡散モデルの場合)  ◦ [2305.19693] Spontaneous Symmetry Breaking in Generative Diffusion Models  ◦ [2508.19897] The Information Dynamics of Generative Diffusion 

[論文紹介]The Local Learning Coefficient: A Singula...

[論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure

xiangze

More Decks by xiangze

Featured

Transcript

[論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure Edmund Lau2,

目次 • 論文概要 • 特異学習理論と局所学習係数(LLC)の復習 • LLCの推定手法 • 計算実験とその結果 •

3.特異学習理論: 特異モデルと実対数閾値λ(RLCT, 学習係数)、多重度mの導出 (負の)対数尤度 KL divergence: ゼータ関数; 特異な(Hessianの退化した)K-K0に対して特異点解消定理を適用し λの意味:

4.LLCの推定手法分配関数事前分布φ(w)をガウシアンとし、パラメータγ、温度βとして固定した期待値で wをw中心に展開するとこの事後分布を使って以下を定義し、さらに β=1/lognととるとと書ける。前ページから

4.LLCの推定手法 Stochastic Gradient Langevin Dynamics(SGLD) を用いる Langevin方程式のStep Δwtを以下のようにして HMC NUTS

Computing λSGLD https://github.com/edmundlth/scalable_learning_coefficient_with_sgld https://github.com/suswei/RLCT （コード解説）

LLC概念の問題点 • 定義自体はWell Defined local triplet (p, q, φ¯) ,

議論(Appendix) • 関連研究 ◦ Basin bloadness ◦ NNは縮退している　 LLCはその多重度を表していると言える ◦

今後の課題と取り組みアイデア • 多次元非線形モデルのLLC推定 ◦ 線形NNから非線形NNのLLCを推定する ▪ softmaxの場合　傾きを徐々に大きくするhttps://github.com/xiangze/RLCT ▪ 法則性はあるのか？ ▪

関連研究 • 著者ら Loss Landscape Degeneracy and Stagewise Development in

関連研究 • 線型ニューラルネット(行列)の最適解に関する研究 Stochastic complexities of reduced rank regression in