Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介: Deep Learning is Not So Mysterious or Dif...

Avatar for xiangze xiangze
June 28, 2025
38

論文紹介: Deep Learning is Not So Mysterious or Different

Andrew Gordon Wilson https://arxiv.org/abs/2503.02113
の紹介です。
特異学習理論(SLT)と䛾関係に関する私見を追加しました。

Avatar for xiangze

xiangze

June 28, 2025
Tweet

Transcript

  1. 論文紹介 Deep Learning is Not So Mysterious or Different Andrew

    Gordon Wilson https://arxiv.org/abs/2503.02113 2025/6/29 xiangze
  2. 目次 • 概要 • 既存の概念、PAC-Bayes、Rademacher Complexityの復習 • Soft Inductive Bias

    ◦ Residual pathway priors ◦ 次数に応じた正則化項 • Benign overfitting(良性過学習) • その他の概念との関係 ◦ overparameterization ◦ double descent(二重降下) ◦ Deep learning特有の問題 ▪ 表現学習、Universal Learning、Mode Connectivity • 特異学習理論との関係 (私見) • Link, Reference 2
  3. 概要 • DNNの汎化性能、過学習が起こりづらいこと、パラメーター数を増やすとむしろ汎 化性能が向上すること(double descent)はDNN特有の現象と見られがちだがそう ではない。 • Soft Inductive Bias,

    Benign overfittingと呼ばれるそれらの現象がPAC-Bayesな ど既存のモデル複雑性の概念で説明できること、Rademacher Complexity、VC次 元などの概念との違いの関係についても説明し、overparametrization, double descentなどの諸概念との関係を整理をしている。 • この概念はDNN以外にも適用可能だが、それでは説明できないDNN特有の性 質、問題も挙げられている。 • 新しい数理モデル、数値計算結果の提唱は論文中にはない。 • 特異学習理論(SLT)との関係に関する私見を追加した。 3
  4. 既存の概念: PAC-Bayes理論とKolmogorov複雑性 PAC-Bayes:仮説の空間を数え上げるというアイデア 数え上げることが可能(有限個に分割される)な仮説(パラメーター)hの集合h∈Hを考える hの事前分布P(h)に対して risk emprical risk を定義すると確率1-δで が成り立つ。(Hoeffdingの不等式(さらにはJensenの不等式)を使って導出する

    ) P(h)としてKolmogorov複雑性K(h)によるSolomonoff事前分布 を使って と書かれる。仮説 hを表現するために必要なビット数 C(h)を用いると と書ける。 さらに仮説が分布関数 qに従う場合はK(h)はKLダイバージェンス KL(q//p)に置き換えられる。 (Solomonoff事前分布のDNNへの使用に関しては Why Neural Networks Generalise, and Why They Are (Kind of) Bayesian で議論が行われている) 4
  5. 既存の概念:Rademacher Complexity Rademacher Complexity: 仮説(パラメーター)が連続的に分布している時の モデル(f)の表現能力の指標 Pac-Bayesと同様な形の不等式を与える (https://www.cs.cmu.edu/~ninamf/ML11/lect1117.pdf) 経験Rademacher Complexityを用いた別の不等式もある。

    VC次元: F がある与えられた有限集合 Xn = {x1, . . . , xn} を細分する (任意のラベル Yn = {y1, . . . , yn} (yi ∈ {±1}) に対して、XnをFが正しく判別) できる時に、F が細分できる集合が存在しないような nの最小値 (直感的にはnが増えるとXnを判別しづらくなっていくのの度合い、関数の表現能力 ) →無限個のパラメータがある場合、事前分布関数が定義できない場合に Rademacher Complexityをそのまま適用していいのか?  有限個の元で代表させる カーネル法と深層学習の数理 (2020)より引用 5
  6. Soft Inductive Bias • CNNは明示的にデータの局所性などの制約をアーキテクチャに組み込んでいたが、大量 のデータを学習させた場合(Visual) Transformerのほうが汎化性が高いことが知られてき た。 • より柔軟(Soft)な制約(bias)が暗黙に仮定されていると予想できる

    • 直感的には右図のように汎化性能の高い解での値が大きい理想的な事前分布 ◦ 疑問: 仮説空間の高次元性、その中での解空間の低次元性をどう事前分布の式として表現するのか ? 
 左: 一様事前分布 汎化性能の悪い解領域に到達しがち (過学習)(高次元空間での体 積が大きいから? ) 中:Soft inductive bias 仮説空間をいい感じ区切った事前分布を仮定するため汎化性能 の高い解領域に到達可能 右:制約の強いbias 表現力が低く解に到達できない 6
  7. 関連研究Residual pathway priors(2021) RPPs encode an Occam’s razor approach to

    modeling. - Highly flexible models like MLPs lack the inductive biases to assign high prior mass to relevant solutions for a given problem - models with strict constraints(EMLP) are not flexible enough to support solutions with only approximate symmetry. Resnetから着想を得てモデルを異なる事前分布を持つ 2経路の和として表 現する  簡単な例: model: A(x)+B(x) priors: 物理的な対称性を組み込んだ RPPの具体的な作成方法と性能も説明され ていて本論文の補完的役割を果たす 8
  8. Benign overfitting(良性過学習) • 学習の結果モデルが損失 0でノイズに適合する能力、現象のこと • 単純に考えると過学習していそうだが ”構造化されたデータ ”(通常の自然界、産業界のデータ分類問題とでも言 うべきか)に対しては過学習の傾向はない

    • 論文”Understanding deep learning requires re-thinking generalization” (Zhang et al., 2016) ではCNNがラン ダムなラベルも学習できるが CIFARのような典型的な画像認識問題に対して汎化性能を持っている。 • Zhangらは既存の指標 (Rademacher complexity, VC次元等)では説明できない現象だとしているが本論文で はそうではないと主張している • 直感的にはモデルの 次数に応じた正則化項 がデータに含まれるノイズに応じて適切な複雑さのモデルを選択 するとしている。 ◦ 圧縮可能性が正則化項になっているためノイズの少ない単純なデータ集合は圧縮率の高い単純なモデ ルが選択され、ノイズの多いモデルは複雑なモデルが選択される。 ◦ (だがこれがDNN等に暗黙的に含まれているとどう主張するのか ) • CNN(Cao et al. (2022))の他にGaussian Process(Wilson &Izmailov (2020)), 線型回帰(Bartlett et al. (2020)) でもBenign overfittingは生じる • Double Descentの説明では有効次元の概念を通じて理解される (Maddox et al. (2020))(後述) 9
  9. Overparametrizationとの関係: 有効次元 • 損失ランドスケープ(loss landscape)における平坦な解はより圧縮しやすく、パラメータ数が増加するとこれらの平坦な解が相対的に大きな体積を占める ようになることが示唆されている。 • 有効次元 (Effective dimensionality)は、Hessianの固有値を用いて損失ランドスケープの「鋭さ」を測る指標であり、データから決定されるパラメータの数に関連する

    (Sharpness-Aware Minimization(SAM) 、混合精度量子化手法 HAWQと関係するかもしれない )。 行列Aで書かれる線形モデルの場合、 Aの固有値λiと正則化係数αを用いて (c.f. (W)BICの導出、Morse理論) (疑問: 通常”体積”は次元によって計算方法が変わるのではないか、それの計算方法を有効次元に応じて変えるのが圧縮アルゴリズムなのだろうか ?) • overparametrazation状態では、有効次元が (パラメータ数に対して? )低下する傾向が見られる。 ◦ 平坦な解はより圧縮可能であり、より良い Occam factorを持ち、より広い決定境界につながる傾向があり、よりタイトな汎化境界を持つ (Hinton & Van Camp, 1993; Hochreiter & Schmidhuber, 1997; MacKay, 2003; Keskar et al., 2016; Izmailov et al., 2018; Foret et al., 2020; Maddox et al., 2020)。 ◦ Rademacher complexityと同様に、有効次元はそれ自体が汎化境界ではないが、汎化境界に組み込むことができる( MacKay, 2003; Dziugaite & Roy, 2017; Maddox et al., 2020; Jiang et al., 2019)。 ◦ モデルのeffective rank (Bartlett et al., 2020) や sloppy models (Quinn et al., 2022) など、汎化現象の説明によく現れる他の概念とも密接に関連している 10
  10. Double Descent(二重降下) • データの個数に対してモデルのパラメータを増やしていくと汎化誤差が一旦上昇し (過学習)、その後低下する 大規模なDNN特有の現象と見られがちだがDouble Descent Demystifiedなどの論文によると線型回帰においても生じうる現象とされる。 • 導出

    線形回帰モデルでデータ{xn,yn}の分布から最小二乗法によって推定される係数 βを考える。 Underparametrize領域では Overparametrize領域では と定義されXのGram行列 を用いて と書かれる(未定乗数法を用いて導出する)。 • 誤差の計算 11
  11. Double Descent(二重降下) Xの特異値σ1>σ2>...σRを考えると と書け、右の項は 1. 訓練データ(の特徴量) X が各方向にどれだけ変化するか : 特徴量

    X の特異値の逆数 1/σr 2. テストデータ(の特徴量) xtestがXに対してどれだけ、どの方向に変化するか : xtestがXの右特異ベクトル V にどのように射影されるか xtest·vr 3.最良のモデルが、 Xの分散をターゲット Yとどれだけうまく相関させることができるか。 最良のモデルの残差 EがXの左特異ベクトル U にどのように射影されるか ur·E の因子に分けられそれぞれが Double Descentが現れるかに影響を与える 12
  12. Deep learning特有の問題 • 表現学習 DNNが(カーネル法などと異なり )適応的に基底関数を選択できる理由は説明できない。 • Universal Learning Transformerが画像、自然言語などモダリティーによらず高い性能を示すこと

    In-Context learning (推論時学習) Transformerが推論時に線型回帰学習を行っていることを示した論文 (日本語解説) • Mode Connectivity ◦ mode connecting curveは、パラメータの対称性などのモデル仕様の縮退を表すのではなく、異なる予測を行う異なる関数に対応し ている(そうなのか?モデルの対称性、縮退と Mode Connectivityを関連付けた研究は 数多くある) ◦ 解のつながり、特異点をもつモデル特有の性質か? 15
  13. 特異学習理論(SLT)との関係(私見) 特異点と対称性の関係が圧縮可能性、具体的な圧縮アルゴリズムと関連付けられるのか? • 2次元複素数 の場合の特異点は Du Val特異点(Mckay対応、Lie環のDynkin図形との対応 )として分類されている。対応する RLCT(実対数閾値、学習係数 )は

    次数nに対して(n+1)/n と計算できるがモデルが小さすぎる • 高次元の場合の対称性はどう分類され、?多重種数、不正則数、小平次元などの代数幾何的量との関係は? 大域最適解への到達しやすさは Soft Inductive Biasとは独立という主張だが、特異点とその連結が mode connectivityだとすると両者は同時に現れると言えるかもせれな い。あるいは特異性とは独立に Soft Inductive Biasが成立する場合があるかもしれない (特にDNN以外) D.Murfet先生のグループの研究 LOSS LANDSCAPE DEGENERACY DRIVES STAGEWISE DEVELOPMENT IN TRANSFORMERS The Local Learning Coefficient: A Singularity-Aware Complexity Measure Modes of Sequence Models and Learning Coefficients 等では数値的な 局所学習係数 (LLC)(Local RLCT)λ^の計算を多くのモデルで行っている。 ”My Criticism of Singular Learning Theory”では"RLCTが低い領域は複雑度の低い関数に対応するという仮定 "を満たさない場合として多項式の集合 を挙げているが、これはパラメーター θとデータxの内積に非線形関数を施す DNNやカーネル法の形 ( σ(θ・x) )とは異なる。 これが逆に SLTが適用できるモデル≒現実的な性能が出るモデルの形を決めている?さらに細かく CNN,Attensionの性能の違いに関して主張できることはないか? LOSS LANDSCAPE DEGENERACY DRIVES STAGEWISE DEVELOPMENT IN TRANSFORMERS 体積の減り方の指数が学習係数 (体積に仮説空間の意味をもたせられないか 16
  14. ベイズ情報量基準(BIC)とPAC bayesの関係 • 単純な対応づけはできず WBICとは少し異なる情報量基準を提唱し対応づけている論文が多い • PAC Bayesian measure Computing

    Nonvacuous Generalization Bounds for Deep (Stochastic) Neural Networks with Many More Parameters than Training Data(2017) (Not) Bounding the True Error(2001) 日本語解説ブログ→ • A PAC-Bayesian Perspective on the Interpolating Information Criterion IIC(Interpolating Information Criterion) という新しい情報量基準を提唱し、 overparametrizationにおけるPAC-Bayes不等式が と書けることを示している。 • A Geometric Modeling of Occam’s Razor in Deep Learning 情報幾何(Fisher情報行列、 Jeffreys分布)を用いた情報量基準の提唱 • PAC-Bayesian Theory Meets Bayesian Inference(NIPS2016) 17 https://www.alignmentforum.org/posts/CZHwwDd7t9aYra5HN/dslt-2-wh y-neural-networks-obey-occam-s-razor そこでもし学習したネットワークが flat minimaに存在していた場合、その周囲の 誤差はネットワークのそれと近い値になることが期待できるわけだから、その flat minimaのあたりで確率的に揺れてるネットワークを事後分布とすることで 上手くいきそうな気がする さらに、flatであればあるほど事後分布が感覚的に大きくなるわけだから、事前 分布とマッチしやすくなり (つまりKLダイバージェンスが小さくなり )結果として汎 化誤差の上界が小さくなりそう、、、という話らしい https://dora119.hateblo.jp/entry/2020/05/20/032806
  15. Link, Reference • 日本語 ◦ カーネル法と深層学習の数理 ◦ PACベイズの基礎についてまとめる
 ◦ ニューロコンピューティングと情報論的学習理論(赤穂昭太郎

    2003)
 ◦ 特異学習理論に関するブログ  ▪ 「Deep Learning is Singular, and That's Good」(論文)とpyro実装を読む ▪ シンギュラリティーと汎化 ◦ 論文まとめ ▪ DNNの汎化、平坦性、圧縮アプローチ、 PAC-bayes理論の適用 ▪ NNの特異点とLLC(局所学習係数 )の推定についての研究メモ • PAC Bayes関連研究 ◦ User-friendly Introduction to PAC-Bayes Bounds ◦ A PRIMER ON PAC-BAYESIAN LEARNING ◦ PAC-Bayesian bounds for sparse regression estimation with exponential weights ◦ PAC-Bayesian Theory Meets Bayesian Inference 18