論文紹介: Deep Learning is Not So Mysterious or Different

論文紹介 Deep Learning is Not So Mysterious or Different Andrew
Gordon Wilson https://arxiv.org/abs/2503.02113 2025/6/29 xiangze

目次 • 概要 • 既存の概念、PAC-Bayes、Rademacher Complexityの復習 • Soft Inductive Bias
◦ Residual pathway priors ◦ 次数に応じた正則化項 • Benign overfitting(良性過学習) • その他の概念との関係 ◦ overparameterization ◦ double descent(二重降下) ◦ Deep learning特有の問題 ▪ 表現学習、Universal Learning、Mode Connectivity • 特異学習理論との関係 (私見) • Link, Reference 2

概要 • DNNの汎化性能、過学習が起こりづらいこと、パラメーター数を増やすとむしろ汎化性能が向上すること(double descent)はDNN特有の現象と見られがちだがそうではない。 • Soft Inductive Bias,
Benign overfittingと呼ばれるそれらの現象がPAC-Bayesなど既存のモデル複雑性の概念で説明できること、Rademacher Complexity、VC次元などの概念との違いの関係についても説明し、overparametrization, double descentなどの諸概念との関係を整理をしている。 • この概念はDNN以外にも適用可能だが、それでは説明できないDNN特有の性質、問題も挙げられている。 • 新しい数理モデル、数値計算結果の提唱は論文中にはない。 • 特異学習理論(SLT)との関係に関する私見を追加した。 3

既存の概念: PAC-Bayes理論とKolmogorov複雑性 PAC-Bayes:仮説の空間を数え上げるというアイデア数え上げることが可能(有限個に分割される)な仮説(パラメーター)hの集合h∈Hを考える hの事前分布P(h)に対して risk emprical risk を定義すると確率1-δでが成り立つ。(Hoeffdingの不等式(さらにはJensenの不等式)を使って導出する
) P(h)としてKolmogorov複雑性K(h)によるSolomonoff事前分布を使ってと書かれる。仮説 hを表現するために必要なビット数 C(h)を用いるとと書ける。さらに仮説が分布関数 qに従う場合はK(h)はKLダイバージェンス KL(q//p)に置き換えられる。 (Solomonoff事前分布のDNNへの使用に関しては Why Neural Networks Generalise, and Why They Are (Kind of) Bayesian で議論が行われている) 4

既存の概念:Rademacher Complexity Rademacher Complexity: 仮説(パラメーター)が連続的に分布している時のモデル(f)の表現能力の指標 Pac-Bayesと同様な形の不等式を与える (https://www.cs.cmu.edu/~ninamf/ML11/lect1117.pdf) 経験Rademacher Complexityを用いた別の不等式もある。
VC次元: F がある与えられた有限集合 Xn = {x1, . . . , xn} を細分する (任意のラベル Yn = {y1, . . . , yn} (yi ∈ {±1}) に対して、XnをFが正しく判別) できる時に、F が細分できる集合が存在しないような nの最小値 (直感的にはnが増えるとXnを判別しづらくなっていくのの度合い、関数の表現能力 ) →無限個のパラメータがある場合、事前分布関数が定義できない場合に Rademacher Complexityをそのまま適用していいのか？　有限個の元で代表させるカーネル法と深層学習の数理 (2020)より引用 5

Soft Inductive Bias • CNNは明示的にデータの局所性などの制約をアーキテクチャに組み込んでいたが、大量のデータを学習させた場合(Visual) Transformerのほうが汎化性が高いことが知られてきた。 • より柔軟(Soft)な制約(bias)が暗黙に仮定されていると予想できる
• 直感的には右図のように汎化性能の高い解での値が大きい理想的な事前分布 ◦ 疑問: 仮説空間の高次元性、その中での解空間の低次元性をどう事前分布の式として表現するのか ?   左: 一様事前分布汎化性能の悪い解領域に到達しがち (過学習)(高次元空間での体積が大きいから？ ) 中:Soft inductive bias 仮説空間をいい感じ区切った事前分布を仮定するため汎化性能の高い解領域に到達可能右:制約の強いbias 表現力が低く解に到達できない 6

例: 次数に応じた正則化項(Rasmussen & Ghahramani, 2000) PRML原著第3章168ページでは周辺尤度は、小さい多項式や大きい多項式ではなく、中間次数の多項式を選択するため、モデル選択の従来の概念と一致すると主張している。 7 多項式fのxの次数j

関連研究Residual pathway priors(2021) RPPs encode an Occam’s razor approach to
modeling. - Highly flexible models like MLPs lack the inductive biases to assign high prior mass to relevant solutions for a given problem - models with strict constraints(EMLP) are not flexible enough to support solutions with only approximate symmetry. Resnetから着想を得てモデルを異なる事前分布を持つ 2経路の和として表現する　簡単な例: model: A(x)+B(x) priors: 物理的な対称性を組み込んだ RPPの具体的な作成方法と性能も説明されていて本論文の補完的役割を果たす 8

Benign overfitting(良性過学習) • 学習の結果モデルが損失 0でノイズに適合する能力、現象のこと • 単純に考えると過学習していそうだが ”構造化されたデータ ”(通常の自然界、産業界のデータ分類問題とでも言うべきか)に対しては過学習の傾向はない
• 論文”Understanding deep learning requires re-thinking generalization” (Zhang et al., 2016) ではCNNがランダムなラベルも学習できるが CIFARのような典型的な画像認識問題に対して汎化性能を持っている。 • Zhangらは既存の指標 (Rademacher complexity, VC次元等)では説明できない現象だとしているが本論文ではそうではないと主張している • 直感的にはモデルの次数に応じた正則化項がデータに含まれるノイズに応じて適切な複雑さのモデルを選択するとしている。 ◦ 圧縮可能性が正則化項になっているためノイズの少ない単純なデータ集合は圧縮率の高い単純なモデルが選択され、ノイズの多いモデルは複雑なモデルが選択される。 ◦ (だがこれがDNN等に暗黙的に含まれているとどう主張するのか ) • CNN(Cao et al. (2022))の他にGaussian Process(Wilson &Izmailov (2020)), 線型回帰(Bartlett et al. (2020)) でもBenign overfittingは生じる • Double Descentの説明では有効次元の概念を通じて理解される (Maddox et al. (2020))(後述) 9

Overparametrizationとの関係: 有効次元 • 損失ランドスケープ(loss landscape)における平坦な解はより圧縮しやすく、パラメータ数が増加するとこれらの平坦な解が相対的に大きな体積を占めるようになることが示唆されている。 • 有効次元 (Effective dimensionality)は、Hessianの固有値を用いて損失ランドスケープの「鋭さ」を測る指標であり、データから決定されるパラメータの数に関連する
(Sharpness-Aware Minimization(SAM) 、混合精度量子化手法 HAWQと関係するかもしれない )。行列Aで書かれる線形モデルの場合、 Aの固有値λiと正則化係数αを用いて (c.f. (W)BICの導出、Morse理論) (疑問: 通常”体積”は次元によって計算方法が変わるのではないか、それの計算方法を有効次元に応じて変えるのが圧縮アルゴリズムなのだろうか ?) • overparametrazation状態では、有効次元が (パラメータ数に対して？ )低下する傾向が見られる。 ◦ 平坦な解はより圧縮可能であり、より良い Occam factorを持ち、より広い決定境界につながる傾向があり、よりタイトな汎化境界を持つ（Hinton & Van Camp, 1993; Hochreiter & Schmidhuber, 1997; MacKay, 2003; Keskar et al., 2016; Izmailov et al., 2018; Foret et al., 2020; Maddox et al., 2020）。 ◦ Rademacher complexityと同様に、有効次元はそれ自体が汎化境界ではないが、汎化境界に組み込むことができる（ MacKay, 2003; Dziugaite & Roy, 2017; Maddox et al., 2020; Jiang et al., 2019）。 ◦ モデルのeffective rank (Bartlett et al., 2020) や sloppy models (Quinn et al., 2022) など、汎化現象の説明によく現れる他の概念とも密接に関連している 10

Double Descent(二重降下) • データの個数に対してモデルのパラメータを増やしていくと汎化誤差が一旦上昇し (過学習)、その後低下する大規模なDNN特有の現象と見られがちだがDouble Descent Demystifiedなどの論文によると線型回帰においても生じうる現象とされる。 • 導出
線形回帰モデルでデータ{xn,yn}の分布から最小二乗法によって推定される係数 βを考える。 Underparametrize領域では Overparametrize領域ではと定義されXのGram行列を用いてと書かれる(未定乗数法を用いて導出する)。 • 誤差の計算 11

Double Descent(二重降下) Xの特異値σ1>σ2>...σRを考えるとと書け、右の項は 1. 訓練データ(の特徴量) X が各方向にどれだけ変化するか : 特徴量
X の特異値の逆数 1/σr 2. テストデータ(の特徴量) xtestがXに対してどれだけ、どの方向に変化するか : xtestがXの右特異ベクトル V にどのように射影されるか xtest·vr 3.最良のモデルが、 Xの分散をターゲット Yとどれだけうまく相関させることができるか。最良のモデルの残差 EがXの左特異ベクトル U にどのように射影されるか ur·E の因子に分けられそれぞれが Double Descentが現れるかに影響を与える 12

Double Descent 結果として（i）Xはいくつかの特異な方向に小さくてもゼロではない分散を含む（ii）XとEはこの特異値に対応する方向(固有ベクトル)に沿って大きな射影を持つ（iii）xtestがこの特異モードに沿って大きく変化する場合にDouble Descentはみられる。 Double Descent
Demystifiedでは人工データ(右図)、実際のデータセットに対してDouble Descentの発生を実証している。 13

Double Descentとの関係 • “モデルの容量が小さいうちは、有効次元が増加し、データに対するフィットが向上するが、ある点を過ぎると過学習が始まる。さらに容量を増やすと、モデルはデータを完全に補間できるようになるが、その中でより有効次元が低い(より平坦な)解が探索されやすくなり、再び汎化性能が向上する” • 私見: 特異学習理論の絵的にはデータ数nが小さいと事後分布は広範な範囲(W全
体に近い)に及び、nを増やしていくと中間では複雑性の高い解周辺の集合(W1)が選ばれ、nがパラメータ数に比べて多いとより単純なモデル(W2)が選択される、と言えないだろうか(パラメータ数を変えるDouble Descentの図とは逆)。 14

Deep learning特有の問題 • 表現学習 DNNが(カーネル法などと異なり )適応的に基底関数を選択できる理由は説明できない。 • Universal Learning Transformerが画像、自然言語などモダリティーによらず高い性能を示すこと
In-Context learning (推論時学習) Transformerが推論時に線型回帰学習を行っていることを示した論文 (日本語解説) • Mode Connectivity ◦ mode connecting curveは、パラメータの対称性などのモデル仕様の縮退を表すのではなく、異なる予測を行う異なる関数に対応している(そうなのか？モデルの対称性、縮退と Mode Connectivityを関連付けた研究は数多くある) ◦ 解のつながり、特異点をもつモデル特有の性質か？ 15

特異学習理論(SLT)との関係(私見) 特異点と対称性の関係が圧縮可能性、具体的な圧縮アルゴリズムと関連付けられるのか？ • 2次元複素数の場合の特異点は Du Val特異点(Mckay対応、Lie環のDynkin図形との対応 )として分類されている。対応する RLCT(実対数閾値、学習係数 )は
次数nに対して(n+1)/n と計算できるがモデルが小さすぎる • 高次元の場合の対称性はどう分類され、？多重種数、不正則数、小平次元などの代数幾何的量との関係は？大域最適解への到達しやすさは Soft Inductive Biasとは独立という主張だが、特異点とその連結が mode connectivityだとすると両者は同時に現れると言えるかもせれない。あるいは特異性とは独立に Soft Inductive Biasが成立する場合があるかもしれない (特にDNN以外) D.Murfet先生のグループの研究 LOSS LANDSCAPE DEGENERACY DRIVES STAGEWISE DEVELOPMENT IN TRANSFORMERS The Local Learning Coefficient: A Singularity-Aware Complexity Measure Modes of Sequence Models and Learning Coefficients 等では数値的な局所学習係数 (LLC)(Local RLCT)λ^の計算を多くのモデルで行っている。 ”My Criticism of Singular Learning Theory”では"RLCTが低い領域は複雑度の低い関数に対応するという仮定 "を満たさない場合として多項式の集合を挙げているが、これはパラメーター θとデータxの内積に非線形関数を施す DNNやカーネル法の形 ( σ(θ・x) )とは異なる。これが逆に SLTが適用できるモデル≒現実的な性能が出るモデルの形を決めている？さらに細かく CNN,Attensionの性能の違いに関して主張できることはないか？ LOSS LANDSCAPE DEGENERACY DRIVES STAGEWISE DEVELOPMENT IN TRANSFORMERS 体積の減り方の指数が学習係数 (体積に仮説空間の意味をもたせられないか 16

ベイズ情報量基準(BIC)とPAC bayesの関係 • 単純な対応づけはできず WBICとは少し異なる情報量基準を提唱し対応づけている論文が多い • PAC Bayesian measure Computing
Nonvacuous Generalization Bounds for Deep (Stochastic) Neural Networks with Many More Parameters than Training Data(2017) (Not) Bounding the True Error(2001) 日本語解説ブログ→ • A PAC-Bayesian Perspective on the Interpolating Information Criterion IIC(Interpolating Information Criterion) という新しい情報量基準を提唱し、 overparametrizationにおけるPAC-Bayes不等式がと書けることを示している。 • A Geometric Modeling of Occam’s Razor in Deep Learning 情報幾何(Fisher情報行列、 Jeffreys分布)を用いた情報量基準の提唱 • PAC-Bayesian Theory Meets Bayesian Inference(NIPS2016) 17 https://www.alignmentforum.org/posts/CZHwwDd7t9aYra5HN/dslt-2-wh y-neural-networks-obey-occam-s-razor そこでもし学習したネットワークが flat minimaに存在していた場合、その周囲の誤差はネットワークのそれと近い値になることが期待できるわけだから、その flat minimaのあたりで確率的に揺れてるネットワークを事後分布とすることで上手くいきそうな気がするさらに、flatであればあるほど事後分布が感覚的に大きくなるわけだから、事前分布とマッチしやすくなり (つまりKLダイバージェンスが小さくなり )結果として汎化誤差の上界が小さくなりそう、、、という話らしい https://dora119.hateblo.jp/entry/2020/05/20/032806

Link, Reference • 日本語 ◦ カーネル法と深層学習の数理 ◦ PACベイズの基礎についてまとめる  ◦ ニューロコンピューティングと情報論的学習理論(赤穂昭太郎
2003)  ◦ 特異学習理論に関するブログ　 ▪ 「Deep Learning is Singular, and That's Good」(論文)とpyro実装を読む ▪ シンギュラリティーと汎化 ◦ 論文まとめ ▪ DNNの汎化、平坦性、圧縮アプローチ、 PAC-bayes理論の適用 ▪ NNの特異点とLLC(局所学習係数 )の推定についての研究メモ • PAC Bayes関連研究 ◦ User-friendly Introduction to PAC-Bayes Bounds ◦ A PRIMER ON PAC-BAYESIAN LEARNING ◦ PAC-Bayesian bounds for sparse regression estimation with exponential weights ◦ PAC-Bayesian Theory Meets Bayesian Inference 18

論文紹介: Deep Learning is Not So Mysterious or Dif...

論文紹介: Deep Learning is Not So Mysterious or Different

xiangze

More Decks by xiangze

Featured

Transcript

論文紹介 Deep Learning is Not So Mysterious or Different Andrew

目次 • 概要 • 既存の概念、PAC-Bayes、Rademacher Complexityの復習 • Soft Inductive Bias

概要 • DNNの汎化性能、過学習が起こりづらいこと、パラメーター数を増やすとむしろ汎化性能が向上すること(double descent)はDNN特有の現象と見られがちだがそうではない。 • Soft Inductive Bias,

関連研究Residual pathway priors(2021) RPPs encode an Occam’s razor approach to

Double Descent(二重降下) Xの特異値σ1>σ2>...σRを考えるとと書け、右の項は 1. 訓練データ(の特徴量) X が各方向にどれだけ変化するか : 特徴量

Deep learning特有の問題 • 表現学習 DNNが(カーネル法などと異なり )適応的に基底関数を選択できる理由は説明できない。 • Universal Learning Transformerが画像、自然言語などモダリティーによらず高い性能を示すこと

ベイズ情報量基準(BIC)とPAC bayesの関係 • 単純な対応づけはできず WBICとは少し異なる情報量基準を提唱し対応づけている論文が多い • PAC Bayesian measure Computing

Link, Reference • 日本語 ◦ カーネル法と深層学習の数理 ◦ PACベイズの基礎についてまとめる  ◦ ニューロコンピューティングと情報論的学習理論(赤穂昭太郎