Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[論文紹介]The Local Learning Coefficient: A Singula...

Avatar for xiangze xiangze
October 18, 2025
12

[論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure

DNNの”正則化項”にあたる局所学習係数(LLC)の提唱とその大規模ネットワークに数値計算による推定、その傾向に関する主張
数値計算手法の特徴の説明
関連研究、概念との関係の解説

Avatar for xiangze

xiangze

October 18, 2025
Tweet

Transcript

  1. [論文紹介]The Local Learning Coefficient: A Singularity-Aware Complexity Measure Edmund Lau2,

    Zach Furman1, George Wang1, Daniel Murfet2, Susan Wei3 (1:Timaeus, 2:University of Melbourne, 3:Monash University) https://arxiv.org/abs/2308.12108v2 2025/10/19 xiangze
  2. 3.局所学習係数(LLC)の定義と性質 アイデア: 学習途中/完了後のDNNの性質を見るには 事後分布が高い局所解の周辺だけ考えれば良い 体積V(ε),ε→0に対して有理数λ(w∗ )と正の整数m(w∗ ) が存在する とも書くことができる。物理的理解は データ数Nと体積の関係

    正規モデルの場合λ=d/2は(コルモゴロフ)複雑さ の次元でその拡張になっている LLCは既存の誤差εが十分小さい場合に、ε をさらに半分にするために必要な追加ビット 数 B 移項して
  3. 4.LLCの推定手法 Stochastic Gradient Langevin Dynamics(SGLD) を用いる Langevin方程式のStep Δwtを以下のようにして HMC NUTS

    pyro(pytorch)を用いる方法もある(Stepsizeを最適にしてくれるが計算コストが高い) →線形ニューラルネット(行列分解モデル)では厳密解が得られるのでそれと比較する
  4. LLC概念の問題点 • 定義自体はWell Defined local triplet (p, q, φ¯) ,

    local zeta-function • 局所性, 統計物理的にはミクロな状態w*に依存する量であり、データ数nの対数の係数局所エントロピーとは熱力学的には 何を表しているのか? • SGDとベイズ推定の違い、相転移(Singular Learning Theory with Daniel Murfet(Blog)) ”ベイジアン学習プロセスが、 SGD訓練の終点付近のパラメータ分布、あるいは少なくともそれに近い分布で終了すると考える場合 ――あるいは、SGD実行時のテスト誤 差の平均値が、ベイジアン理論において意味のある一般化量のベイジアン事後分布を平均したものとある程度類似していると考える場合 ――これら二つの概念の間に何らかの関 連性を見出すことは可能かもしれません。   この問題はまだ解決されていません。ベイジアン事後分布と確率的勾配降下法( SGD)の関係性に関するこれらの問題は非常に複雑で、少なくとも私の見解では、近い 将来に解決される見込みは薄いように思われます。 ”
  5. 議論(Appendix) • 関連研究 ◦ Basin bloadness ◦ NNは縮退している  LLCはその多重度を表していると言える ◦

    Loss landscape, wide/flat minima ◦ Rademacher複雑性との違い PAC-Vayes(Deep Learning is Not So Mysterious or Different) と並行した議論 (実験https://github.com/xiangze/soft_inductive_bias) 正規モデルの場合は“事後分布”q(w|w*)がガウシアンλPAC-bayesはlの二次微分、HessianのTraceに比例する(BICと一致) • Model Complexity vs Model independent Complexity “Thus, while in general LLC is not a model-independent complexity measure, it seems distinctly possible that for neural networks (perhaps even models in some broader “universality class"), the LLC could be model-independent in some way. This would theoretically establish the inductive biases of neural networks. We believe this to be an intriguing direction for future work.” ”My Criticism of Singular Learning Theory”の例 f1(x) has a learning coefficient of λ = 1/2, whereas f2(x) has a learning coefficient of λ = 1/ 16 . Therefore, despite f1(x) being more Kolmogorov-simple, it is more complex for f(x,w) to implement — the model is biased towards f2(x) instead of f1(x), f1(x) requires relatively more information to learn
  6. 今後の課題と取り組みアイデア • 多次元非線形モデルのLLC推定 ◦ 線形NNから非線形NNのLLCを推定する ▪ softmaxの場合 傾きを徐々に大きくするhttps://github.com/xiangze/RLCT ▪ 法則性はあるのか? ▪

    ReLuの場合 局所に限れば線形だが著しく性質が異なる (DNN:大域的最適解、DLN:多数の局所解) • 数式処理的手法は条件数が爆発してしまう • HMCの結果のSGLDによる外挿 https://github.com/xiangze/RLCT • 層に分けて計算を軽くしてみる (c.f 量子化) • 残課題: 自由エネルギーを通じた相転移 (特にランダム行列系、拡散モデル)、Grokkingとの関係 Soft inductive biasとの関係 https://github.com/xiangze/soft_inductive_bias double descentとの関係(N=Pの場合から考えていくのがいい? ”Effective Model Complexity ”) p n
  7. 関連研究 • 著者ら Loss Landscape Degeneracy and Stagewise Development in

    Transformers We thank Google’s TPU Research Cloud program for supporting some of our experiments with Cloud TPUs Quantifying degeneracy in singular models via the learning coefficient Variational Bayesian Neural Networks via Resolution of Singularities Singular Learning Theory with Daniel Murfet(interview Blog) 内容 • LLCの推定、SLTの一般化 • NTKなど他の理論との関係 • AIアラインメントとの関係、未解決問題 • SLTはAIの性能を上げるか • 幾何学と情報 など
  8. 関連研究 • 線型ニューラルネット(行列)の最適解に関する研究 Stochastic complexities of reduced rank regression in

    Bayesian estimation (式解説 ) 本論文のベースとなった行列モデルの RLCTの厳密解の計算 The loss surface of deep linear networks(DLN)viewed through the algebraic geometry lens 正則化項を入れると局所最適解が増え大域最適解に到達できなくなってしまうらしい。
 そのうえでホモトピー的手法を用いて解の個数を数え上げている。個数はNNの層、幅に対して組み合わせ的に増え る
 • 相転移との関係(拡散モデルの場合)
 ◦ [2305.19693] Spontaneous Symmetry Breaking in Generative Diffusion Models
 ◦ [2508.19897] The Information Dynamics of Generative Diffusion