Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニューラルネットの良性過適合

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for RyotaUshio RyotaUshio
December 28, 2022

 ニューラルネットの良性過適合

Avatar for RyotaUshio

RyotaUshio

December 28, 2022
Tweet

Other Decks in Research

Transcript

  1. Benign Overfitting without Linearity: Neural Network Classifier Trained by Gradient

    Descent for Noisy Linear Data Spencer Frei, Niladri S. Chatterji & Peter L. Bartlett 牛尾 凌太 / Ryota Ushio 新領域創成科学研究科 複雑理工学専攻 杉山・横矢・石田研究室 M1
  2. 概要 ジャンル:複雑性誤差 × 最適化 • 勾配降下法で学習させた 2 層ニューラルネットワークの汎化誤差の tight な上界を導出

    • 有限サンプル(非漸近論) • ノイジーな訓練データに完全に fit しながらも、小さいテスト誤差 を達成 • 非 NTK レジーム 2/91
  3. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 3/91
  4. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 5/91
  5. Notation S = {(xi , yi )}n i=1 :訓練データ (i.i.d.)

    • xi ∈ Rp:入力ベクトル • yi ∈ R (回帰) or {+1, −1} (分類) :出力 • X =    x1 . . . xn    横長(n < p) ∈ Rn×p, y =    y1 . . . yn    ∈ Rn ベクトル v に対して、 v 2 は v の Euclid ノルム 行列 M に対して、 M op は M のスペクトルノルム、 M F は Frobenius ノルム ベクトル v と正定値行列 Σ に対して、 v Σ := √ v Σv [n] := {1, . . . , n} C, C , c, c , . . .:正の定数 6/91
  6. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 7/91
  7. 関数の強凸性・平滑性・PL 不等式 関数 f : Rn → R が λ-強凸

    • f (·) − λ 2 · 2 2 が凸関数 • Hesse 行列 ∇2f の最小固有値 ≥ λ > 0 関数 f : Rn → R が H-平滑 • 勾配 ∇f が H-Lipschitz • Hesse 行列 ∇2f の最大固有値 ≤ H • ∀ x, x0 ∈ Rn, f (x) − f (x0) + ∇f (x0) (x − x0) ≤ H 2 x − x0 2 2 (2 次関数で上下からはさめる) • Descent lemma: (ステップ幅が十分小さい)勾配降下法で、毎ステップ関数値が 減少 関数 f : Rn → R が PL(Polyak-Lojasiewicz)関数 • ある λ > 0 に対して、以下の PL 不等式を満たす: ∀ x ∈ Rn, 1 2 ∇f (x) 2 2 ≥ λ(f (x) − min x f (x)) • 強凸 =⇒ PL 関数 8/91
  8. sub-Gaussian 変数 Definition (Vershynin, 2018, Definition 2.5.6) 確率変数 X が

    sub-Gaussian def ⇐⇒ ∃ K > 0, E exp X2 K2 ≤ 2 X ψ2 := inf K > 0 | E exp X2 K2 ≤ 2 を X の sub-Gaussian ノルムという(本当にノルム) 。 等価な定義:∃ σ > 0, ∀ λ ∈ R, E eλ(X−E[X]) ≤ exp σ2λ2 2 具体例:Gauss 分布、すべての有界な分布、... Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 9/91
  9. sub-Gaussian ノルム sub-Gaussian ノルムは「集中の度合い」を表す X ψ2 ≤ K ⇐⇒ ∀

    t ≥ 0, P {|X| ≥ t} ≤ 2 exp − ct2 K2 裾の重さが Gauss 分布くらい “sub-Gaussian パラメータ” σ とだいたい同じもの Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 10/91
  10. Hoeffding の不等式 sub-Gaussian な確率ベクトルの線形関数の裾の確率を評価したい Theorem (Vershynin, 2018, Theorem 2.6.3) 仮定:

    • X = (X1 , . . . , Xd ) の各成分は独立な sub-Gaussian • Xi ψ2 ≤ K (i = 1, . . . , d) このとき、X の線形関数 a X の裾の確率は P a X − a µ ≥ t ≤ 2 exp − ct2 K2 a 2 2 と評価できる。 ( a X − a t ψ2 ≤ CK a 2 と書いても同じ) Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 11/91
  11. Concentration of measure 確率ベクトルの非線形関数の裾の確率も評価したい Theorem (Wainwright, 2019, Theorem 3.16; Vershynin,

    2018, Theorem 5.2.15) 仮定: • 確率ベクトル X ∈ Rd の分布は λ-strongly log-concave (各成分は独立でなくても OK) • f : Rd → R は L-Lipschitz このとき、P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 ( f (X) − E [f (X)] ψ2 ≤ CL/ √ λ と書いても同じ) λ-strongly log-concave な分布:確率密度関数 p が存在して、 p(x) = exp(−U(x)) (U: λ-強凸関数) とかける分布。Gauss 分布など 最近、講義動画が公開! https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic viewpoint (Vol. 48). 12/91
  12. 集中不等式まとめ • 確率変数 X ∈ R が sub-Gaussian ならば ∀

    t ≥ 0, P {|X − µ| ≥ t} ≤ 2 exp − ct2 X 2 ψ2 • 確率ベクトル X ∈ Rd の各成分が独立な sub-Gaussian で、 Xi ψ2 ≤ K (i = 1, . . . , d) ならば a X − a µ ψ2 ≤ CK a 2 ⇐⇒ ∀ t ≥ 0, P a X − a µ ≥ t ≤ 2 exp − ct2 K2 a 2 2 • 確率ベクトル X ∈ Rd の分布が γ-strongly log-concave で、 f : Rd → R が L-Lipschitz ならば f (X) − E [f (X)] ψ2 ≤ C L √ λ ⇐⇒ ∀ t ≥ 0, P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 13/91
  13. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 15/91
  14. 線形回帰における良性過適合 • Bartlett et al., 2020:正則化なしの線形回帰(講義で紹介) • Tsigler and Bartlett,

    2020:リッジ回帰 (12 月 6 日に大改訂されてました) Bartlett, P. L., Long, P. M., Lugosi, G., & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. Tsigler, A., & Bartlett, P. L. (2020). Benign overfitting in ridge regression. arXiv preprint arXiv:2009.14286. 16/91
  15. 線形回帰における最小ノルム補間量 最小ノルム補間量 (minimum norm interpolator) ˆ θ := arg min

    θ 2 2 s.t. θ ∈ arg min θ∈Rp Xθ − y 2 2 原点を初期点とする勾配降下法 θ(t+1) = θ(t) − α ∇θ Xθ − y 2 2 θ=θ(t) は最小ノルム補間量に収束する。 Theorem (Hastie et al., 2022, Proposition 1) 初期点を θ(0) = 0 とすると、十分小さいステップ幅 α に対して lim t→∞ θ(t) = ˆ θ Hastie, T., Montanari, A., Rosset, S., & Tibshirani, R. J. (2022). Surprises in high-dimensional ridgeless least squares interpolation. The Annals of Statistics, 50(2), 949–986. Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2021). Understanding deep learning (still) requires rethinking generalization. Communications of the ACM, 64(3), 107–115. 17/91
  16. 証明の概要 最小ノルム補間量は陽に表示できる: ˆ θ = X†y = X (XX )†y

    (n < p のときに便利な表示) バイアス・バリアンス分解 Lemma (Bartlett et al., 2020, Lemma 7) 少なくとも 1 − δ の確率(ノイズ ε に関して)で R(ˆ θ) 余剰誤差 ≤ 2θ∗ (I − X†X)Σ(I − X†X)θ∗ バイアス + cσ2 log(1/δ) tr (X†) ΣX† バリアンス → バイアスとバリアンスをそれぞれ集中不等式で評価 Bartlett, P. L., Long, P. M., Lugosi, G., & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. 18/91
  17. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 19/91
  18. 線形分類における良性過適合 解析対象はもっぱら hard margin SVM wSVM := arg min w∈Rp

    1 2 w 2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) KKT 条件から、最適解は訓練データの線形結合:wSVM = n i=1 βi xi Support vector:係数が βi = 0 である訓練データ点 • 制約式の等号が成立する(∵ 相補性条件) • 分離超平面からもっとも近くにある Mohri et al., 2018, Figure 5.1 20/91
  19. Hard margin SVM を解析する意義 • n < p のとき、高い確率で訓練データは線形分離可能 ∵)

    連立線形方程式 Xw = y は解をもつ • 正則化なしの勾配降下法で学習したロジスティック回帰モデル (=隠れ層なしの NN)との対応 21/91
  20. ロジスティック回帰 × 勾配降下法と SVM の関係 線形分類器を、正則化なしの勾配降下法で学習させる: L(w) := 1 n

    n i=1 (yi · w xi ), w(t+1) = w(t) − α∇L(w(t)) 仮定: • 損失関数 は “exponentially-tailed”: (u) e−cu たとえば • ロジスティック損失 (u) = log(1 + e−u) • 指数損失 (u) = e−u • 訓練データは線形分離可能 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. 22/91
  21. ロジスティック回帰 × 勾配降下法と SVM の関係 このとき、重み w(t) のノルムは発散するが、方向は hard margin

    SVM の解 wSVM と同じ方向に収束する。 Theorem (Soudry et al., 2018, Theorem 3; Ji et al., 2020, Proposition 10) 先の仮定のもとで、任意の初期点 w(0) と十分小さいステップ幅 α に対 して lim t→∞ w(t) w(t) 2 = wSVM wSVM 2 • 暗黙的正則化の一種 • ただし、この収束は非常に遅い (Soudry et al., 2018, Theorem 5)。 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. 23/91
  22. 参考 線形分類器に対する勾配降下法の implicit bias / 暗黙的正則化 • exponentially-tailed な損失 •

    線形分離可能な場合:Soudry et al., 2018 • 線形分離不可能な場合:Ji and Telgarsky, 2019 • 一般の損失への拡張とさらなる特徴づけ:Ji et al., 2020 ニューラルネットに対しても拡張されつつある(Lyu and Li, 2019; Ji and Telgarsky, 2020; Ji and Telgarsky, 2020) Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., & Telgarsky, M. (2019). The implicit bias of gradient descent on nonseparable data. Conference on Learning Theory, 1772–1798. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. Lyu, K., & Li, J. (2019). Gradient descent maximizes the margin of homogeneous neural networks. arXiv preprint arXiv:1906.05890. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. 24/91
  23. 線形分類における良性過適合解析の戦略 分類の解析の難しさ:解が陽に書けない! 戦略 1 回帰(最小ノルム補間量)に帰着させる • Muthukumar et al., 2021:単峰

    Gauss 分布 • Wang and Thrampoulidis, 2021:Gauss 混合分布 • Wang and Thrampoulidis, 2020:上の論文のアップデート版 • Cao et al., 2021:sub-Gauss 混合分布 戦略 2 勾配降下法のダイナミクスを追跡する • Chatterji and Long, 2021:sub-Gauss 混合分布 今回紹介する論文に直接つながる どちらも途中までは同じ Muthukumar, V., Narang, A., Subramanian, V., Belkin, M., Hsu, D., & Sahai, A. (2021). Classification vs regression in overparameterized regimes: Does the loss function matter? The Journal of Machine Learning Research, 22(1), 10104–10172. Wang, K., & Thrampoulidis, C. (2021). Benign overfitting in binary classification of gaussian mixtures. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4030–4034. Wang, K., & Thrampoulidis, C. (2020). Binary classification of gaussian mixtures: Abundance of support vectors, benign overfitting and regularization. arXiv preprint arXiv:2011.09148. Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 25/91
  24. データ分布の仮定 Cao et al., 2021 の設定: • sub-Gaussian 混合分布 クラスラベル

    yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ、共分散行列は Σ = VΛV で共通 qi = VΛ1/2ui , xi = yi · µ + qi (i = 1, . . . , n) • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、分散 1、 uij ψ2 ≤ σu の sub-Gaussian Chatterji and Long, 2021 も類似の設定(後述) Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 26/91
  25. 汎化誤差の上界 データ分布についての仮定(sub-Gaussian)を最大限に活かす。 Lemma (Cao et al., 2021, Lemma 4.2) 任意の

    w ∈ Rp \ {0} に対して P y = sgn w x 汎化誤差 ≤ exp −C (µ w)2 w 2 Σ • これはただの Hoeffding の不等式 • 他の論文でも類似の補題を利用 (Chatterji and Long, 2021, Lemma 6; Wang and Thrampoulidis, 2020, Lemma 1) → (µ wSVM )2 wSVM 2 Σ の評価に帰着。でも、wSVM の具体的な形はわからない... Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 27/91
  26. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 28/91
  27. 戦略 1(回帰への帰着)の概要 Hard margin SVM: min w∈Rp 1 2 w

    2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) もし最適解が制約式をすべて等式で満たしたら? min w∈Rp 1 2 w 2 2 s.t. w xi = yi (i = 1, . . . , n) これは線形回帰における最小ノルム補間量そのもの → 解が陽に書ける! wSVM = X (XX )−1y 29/91
  28. すべての訓練データが support vector となる条件 Hard margin SVM の主問題: min w∈Rp

    1 2 w 2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) Lagrange 双対問題: max β∈Rn y β − 1 2 β (XX )β s.t. yi βi ≥ 0 (i = 1, . . . , n) Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 30/91
  29. すべての訓練データが support vector となる条件 Lagrange 双対問題: max β∈Rn y β

    − 1 2 β (XX )β s.t. yi βi ≥ 0 (i = 1, . . . , n) もし制約がなかったら? → 最適解は β = (XX )−1y Theorem (Hsu et al., 2021, Lemma 1) 訓練データが線形独立なとき すべての訓練データが support vector ⇐⇒ β = (XX )−1y が yi βi > 0 (i = 1, . . . , n) を満たす Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 31/91
  30. 線形回帰への帰着 この条件はちゃんと満たされる。 Lemma (Cao et al., 2021, Proposition 4.1) tr(Σ)

    ≥ C max n3/2 Σ 2 , n Σ F , n √ log n µ Σ ならば、 少なくとも 1 − O(n−2) の確率で前補題の条件が成立し、したがって wSVM = X (XX )−1y Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 32/91
  31. 線形回帰への帰着 wSVM = X (XX )−1y を代入すれば、 (µ wSVM )2

    wSVM 2 Σ を X の関数として 陽に書けるので、評価できる! Gram 行列 QQ = qi qj ij の固有値の集中不等式による評価など、 線形回帰のときの解析 (Bartlett et al., 2020 など) と類似の議論へ Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 33/91
  32. 主結果 Theorem (Cao et al., 2021, Theorem 3.1) 任意の δ

    > 0 をとる。 仮定:        n ≥ 1 δ µ 2 2 ≥ C µ Σ tr(Σ) ≥ C max n3/2 Σ 2 , n Σ F , n √ log n µ Σ このとき、少なくとも 1 − δ の確率で P y = sgn w SVM x ≤ exp − C n µ 4 2 n µ 2 Σ + Σ 2 F + n Σ 2 2 次元 p に明示的には依存せず、かわりに共分散行列の固有値構造に依存? Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 34/91
  33. 古典的な学習理論との比較 Rademacher 複雑度ベースの汎化誤差上界:高い確率で (汎化誤差) ≤ (訓練 hinge 損失) =0 +2

    × (Rademacher 複雑度) + (小さい項) すべての訓練データが support vector のとき、Rademacher 複雑度は 1/ √ 2 ≈ 0.7 より小さくならない!(Hsu et al., 2021) 古典的な汎化誤差上界 • 任意の分布に対応 • 任意のモデルに対応 今回の汎化誤差上界 • 分布の仮定 (sub-Gaussian) をフルに利用 • 線形モデル専門 Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 35/91
  34. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 36/91
  35. 戦略 2(勾配法のダイナミクスの追跡)の概要 目標: (µ wSVM )2 wSVM 2 2 =

    µ, wSVM wSVM 2 2 を評価したい wSVM の陽な表示を得るのは諦める。 SVM は勾配法 w(t+1) = w(t) − α∇L(w(t)) の収束先: wSVM wSVM 2 = lim t→∞ w(t) w(t) 2 → µ, w(t) w(t) 2 の更新を追跡すればよい! µ, w(t+1) = µ, w(t) − α µ, ∇L(w(t)) (解析の動機としてだけでなく、証明の強力なツールとして利用) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 37/91
  36. データ分布の仮定 sub-Gaussian 混合分布 + ラベル反転ノイズ 1. (xi , ˜ yi

    ) ∼ ˜ P:clean な sub-Gaussian 混合分布 • clean なクラスラベル ˜ yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ qi = Vui , xi = ˜ yi · µ + qi • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、 uij ψ2 ≤ 1 の sub-Gaussian 2. (xi , yi ) ∼ P:˜ P にラベルノイズを付加した noisy な分布 • 入力 x に関する周辺分布は ˜ P と同じ • 確率 η でラベルを反転:y = −˜ y Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 38/91
  37. 汎化誤差の上界 データの sub-Gaussian 性から、さっき(p.27)とほぼ同様にして次が成立 Lemma (Chatterji and Long, 2021, Lemma

    6) 任意の w ∈ Rp \ {0} に対して P (x,y)∼P {sgn ( w, x ) = y} ≤ η + exp −c ( µ, w )2 w 2 2 → ( µ, wSVM )2 wSVM 2 2 の評価へ:勾配降下法の極限としての特徴づけを利用 (意味:平均的な正規化マージン) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 39/91
  38. 復習:SVM は勾配降下法の収束先 勾配法で線形分類器を学習させる: L(w) := 1 n n i=1 (yi

    · w, xi ), w(t+1) = w(t) − α∇L(w(t)) 損失として • ロジスティック損失 (u) = log(1 + e−u)、または • 指数損失 (u) = e−u を使うと、任意の初期点 w(0) と十分小さいステップ幅 α に対して lim t→∞ w(t) w(t) 2 = wSVM wSVM 2 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. 40/91
  39. 勾配法で追跡 理論解析の道具としては、指数損失 (u) = e−u のほうがはるかに便利。 zi := yi xi

    として • 訓練損失 L(w) := n i=1 exp(− w, zi ) • 勾配 ∇L(w) = − n i=1 zi exp(− w, zi ) • 重み w(t) の更新式 w(t+1) = w(t) − α∇L(w(t)) = w(t) + α n i=1 zi exp(− w, zi ) これより、 µ, w(t) の更新式は µ, w(t+1) = µ, w(t) + α n i=1 µ, zi exp(− w, zi ) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 41/91
  40. ノイズありデータは高次元では「悪さをしない」 µ, w(t+1) 1−δ ≥ µ, w(t) + µ 2

    2 2 αL(w(t))−2 µ 2 2 α zi:noisy exp(− w(t), zi ) Lemma (Chatterji and Long, 2021, Lemma 11) 十分小さいステップ幅 α に対して、任意の t ≥ 0 において ∀i, j ∈ [n], exp(− w(t), zi ) exp(− w(t), zj ) ≤ const. ここでは高次元性が重要な役割を果たす。 この補題より、noisy な訓練データの損失はそれほど暴れない: zi:noisy exp(− w(t), zi ) ≤ 1 4 L(w(t)) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 42/91
  41. Frame Title これより µ, w(t+1) ≥ µ, w(t) + α

    µ 2 2 4 L(w(t)) 帰納的に、任意の T ≥ 0 に対して µ, w(T) ≥ α µ 2 2 4 T−1 t=0 L(w(t)) 両辺を w(T) 2 で割って、 w(T) 2 ≤ cα √ p T−1 t=0 L(w(t)) を用いると µ, w(T) w(T) 2 ≥ α µ 2 2 4 T−1 t=0 L(w(t)) w(T) 2 ≥ µ 2 2 4c √ p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 43/91
  42. 平均的な正規化マージンの下界 したがって、この両辺で T → ∞ とすれば µ, wSVM wSVM 2

    ≥ µ 2 2 4c √ p Lemma (Chatterji and Long, 2021, Lemma 7) 少なくとも 1 − δ の確率で ( µ, wSVM )2 wSVM 2 2 ≥ µ 4 2 c p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 44/91
  43. 主結果 Theorem (Chatterji and Long, 2021, Theorem 1) 任意の δ

    > 0 をとる。 仮定:              n ≥ C log 1 δ µ 2 2 ≥ C log n δ p ≥ C max µ 2 2 n, n2 log n δ tr(Σ) ≥ κp (κ ∈ (0, 1)) このとき、少なくとも 1 − δ の確率で P y = sgn w SVM x ≤ exp −c µ 4 2 p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 45/91
  44. Cao et al., 2021 との比較 Cao et al., 2021:exp −c

    ( µ, w )2 w 2 Σ Chatterji and Long, 2021:exp −c ( µ, w )2 w 2 2 データ分布の仮定を変えれば Σ に依存させられるが、勾配法ベースの証 明は Euclid ノルムに対してしか走らない。 46/91
  45. Cao et al., 2021 との比較 Σ = I の場合で汎化誤差上界を比較(δ:失敗確率) •

    Cao et al., 2021: n ≥ δ−1, µ 2 ≥ C1 , p ≥ C1 max n2, n √ log n のもとで exp −c1 n µ 4 2 n µ 2 2 + p • Chatterji and Long, 2021: n ≥ C2 log δ−1, p ≥ C2 max µ 2 2 n, n2 log n δ , µ 2 2 ≥ C2 log n δ のもとで exp −c2 µ 4 2 p 特に、p n µ 2 2 ならば Cao et al., 2021 のほうがタイト(と Cao et al., 2021 は主張している) 47/91
  46. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 48/91
  47. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 49/91
  48. 線形分類からニューラルネットへ 線形分類は解析できた → ニューラルネットによる分類問題の解析へ 2 層(隠れ 1 層)NN:f (x; W)

    := m j=1 aj φ( wj , x ) どうすればいい? • 戦略 1「線形回帰への帰着」は、非線形な NN ではもはや使えなさ そう(解が陽に書けるわけない) • 戦略 2「勾配法の追跡」ならできそう(収束先がなにか/収束するのかを知 らなくても使える) • そもそも訓練誤差を 0 にできるの? • 線形分類/回帰:解が一意に決まるので、それを解析するところから スタート • NN:どんな解に行くかわからない 50/91
  49. 問題設定:ネットワーク f (x; W) := m j=1 aj φ( wj

    , x ) • aj i.i.d. ∼ Unif ({±1/ √ m}):固定 • W = [w1 , . . . , wm ] :学習 W(0) ij i.i.d. ∼ N(0, ω2 init )(NTK は ωinit = 1) • φ は γ-leaky, 1-Lipschitz, H-smooth: ∀ z ∈ R, 0 < γ ≤ φ (z) ≤ 1, |φ (z)| ≤ H (NN や損失が滑らかになって扱いやすい) Smoothed leaky ReLU 51/91
  50. 問題設定:損失 損失関数はロジスティック損失(交差エントロピー) : (z) = log(1 + e−z) 訓練損失: L(W)

    := 1 n n i=1 (yi f (xi ; W)) フルバッチ勾配降下法で学習: W(t+1) = W(t) − α∇L(W(t)) 52/91
  51. 問題設定:データ分布 strongly log-concave な sub-Gaussian 混合分布 + ラベル反転ノイズ 1. (xi

    , ˜ yi ) ∼ ˜ P:clean な sub-Gaussian 混合分布 • clean なクラスラベル ˜ yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ qi = Vui , xi = ˜ yi · µ + qi • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、 uij ψ2 ≤ 1 の sub-Gaussian、さらに λ-strongly log-concave 2. (xi , yi ) ∼ P:˜ P にラベルノイズを付加した noisy な分布 • 入力 x に関する周辺分布は ˜ P と同じ • 確率 η でラベルを反転:y = −˜ y Frei, S., Chatterji, N. S., & Bartlett, P. (2022). Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data. Conference on Learning Theory, 2668–2703. 53/91
  52. 仮定 失敗確率 δ ∈ (0, 1/2) に対して 1. 訓練データ数:n ≥

    C log(1/δ) 2. データの次元:p ≥ C max n µ 2 2 , n2 log(n/δ) , tr Σ ≥ κp 3. 平均ベクトルのノルム: µ 2 2 ≥ C log(n/δ) 4. ノイズレベル:η ≥ 1/C 5. ステップ幅:α ≤ C max 1, H √ m p2 −1 6. 中間層の初期化の分散:ωinit √ mp ≈ W(0) F ≤ α • 仮定 1–4 は線形モデル(Chatterji and Long, 2021)と共通 • 仮定 6 は、初期化のスケールに比べて勾配法の 1 ステップが支配的 になるようにするため(脱 NTK) 54/91
  53. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 55/91
  54. NTK レジームとの違い ネットワークの幅 m • NTK は m ≥ poly(·

    · · ) を要求 • 本論文の結果は任意の m ≥ 1 で成立 線形近似(初期値近く)か? • NTK は線形近似が有効な領域 • 本論文の結果は、訓練損失を 0 にするために初期値から遠くへ (NTK レジームから脱出) Du, S. S., Zhai, X., Poczos, B., & Singh, A. (2018). Gradient descent provably optimizes over-parameterized neural networks. arXiv preprint arXiv:1810.02054. 56/91
  55. NTK レジームとの違い 最初の 1 ステップだけでも、パラメータ W は初期値から遠く離れる: Theorem (Frei et

    al., 2022, Proposition 2) 少なくとも 1 − 2δ の確率で W(1) − W(0) F W(0) F ≥ γ µ 2 C (ここからは私見)仮定より µ 2 log(n/δ) なので W(1) − W(0) F W(0) F γ log(n/δ) 一方、NTK の設定 (Du et al., 2018) では、任意の t ≥ 0 で W(t) − W(0) F W(0) F W(0) F ≈ √ mp n λ0 √ mpδ m n6 λ4 0δ3 λ0 δ n2 √ p 確かに、NTK よりもはるかに大きく移動していそう(ただし、初期値のス ケールは全然違う) 。 57/91
  56. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 58/91
  57. シグモイド損失 シグモイド損失:訓練には使わないが、理論解析の道具として使う g(z) := − (z) = 1 1 +

    ez , G(W) := 1 m n i=1 g(yi f (xi ; W)) 4 2 0 2 4 z 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 60/91
  58. ランダムネスを先にまとめて処理 少なくとも 1 − 2δ の確率で、以下が同時に成り立つ。 これ以降は、これらがすべて成り立つと仮定して話を進める。 1. W(0) 2

    F ≤ 3 2 ω2 init mp 2. W(0) op ≤ C0 ωinit ( √ m + √ p) 3. すべての訓練データについて、p/C1 ≤ xi 2 2 ≤ C1 p 4. 訓練データのすべてのペア(i = j)について、 | xi , xj | ≤ C1 µ 2 2 + p log(n/δ) 5. すべてのクリーンな訓練データ (xi , yi ) について µ, yi xi − µ 2 2 ≤ µ 2 2 /2 6. すべてのノイジーな訓練データ (xi , yi ) について µ, yi xi − (− µ 2 2 ) ≤ µ 2 2 /2 7. ノイジーな訓練データの数は、高々 (η + c )n Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 61/91
  59. 滑らかさなど 活性化関数 φ を 1-Lipschitz, H-smooth と仮定したおかげで、NN や損 失が滑らかになる。 ネットワーク

    f (x; W) は • 入力 x に関して W op -Lipschitz • パラメータ W に関して x 2 -Lipschitz • パラメータ W に関して H x 2 2 √ m -smooth 訓練損失 L(W), G(W) は • パラメータ W に関して C1 p 1 + H √ m -smooth (パラメータ W に関する Lipschitz 性や平滑性は、勾配法の 1 ステップでの変化を評価す るのに有益) 62/91
  60. 汎化誤差の上界 Lemma 任意の W ∈ Rm×p に対して P (x,y)∼P {y

    = sgn (f (x; W))} ≤ η+2 exp  −cλ E(x,˜ y)∼˜ P [˜ yf (x; W)] W F 2  • 線形分類と同じく、平均的な正規化マージン E(x,˜ y)∼˜ P [˜ yf (x;W)] W F の下 界の評価に帰着 • 証明のテクニック:非線形関数用の集中不等式(Hoeffding の代わり) 63/91
  61. 補題の証明(概略) P {y = sgn (f (x; W))} = P

    {yf (x; W) < 0} = P yf (x; W) − E [yf (x; W)] < − E [yf (x; W)] マージン yf (x; W) が平均より左にずれる確率 x は sub-Gaussian。f が線形なら、 Hoeffding の不等式で評価可能。 しかし、NN は非線形 → concentration of measure(次頁) • これを使うために λ-strongly log-concave を仮定していた • f は x に関して W op -Lipschitz なので OK 64/91
  62. Concentration of measure 確率ベクトルの非線形関数の裾の確率も評価したい Theorem (Wainwright, 2019, Theorem 3.16; Vershynin,

    2018, Theorem 5.2.15) 仮定: • 確率ベクトル X ∈ Rd の分布は λ-strongly log-concave (各成分は独立でなくても OK) • f : Rd → R は L-Lipschitz このとき、P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 ( f (X) − E [f (X)] ψ2 ≤ CL/ √ λ と書いても同じ) λ-strongly log-concave な分布:確率密度関数 p が存在して、 p(x) = exp(−U(x)) (U: λ-強凸関数) とかける分布。Gauss 分布など 最近、講義動画が公開! https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic viewpoint (Vol. 48). 65/91
  63. 勾配法を追跡 平均的な正規化マージン E(x,˜ y)∼˜ P [˜ yf (x; W)] W

    F の評価に帰着 → 分子・分母に分けて、勾配法の更新 W(t+1) = W(t) − α∇L(W(t)) を追跡する • 分子は下界: E (x,˜ y)∼˜ P ˜ y f (x; Wt+1) − f (x; Wt) ≥ . . . • 分母は上界: W(t) F = W(0) + α t−1 s=0 ∇L(W(t)) F ≤ W(0) F +α t−1 s=0 ∇L(W(t)) F 66/91
  64. 分子を追跡 E(x,˜ y)∼˜ P ˜ y f (x; W(t+1)) −

    f (x; W(t)) を下界したい。 パラメータ W が少し変化したときの f (x; W) の変化 → 平滑性が使える(活性化関数の平滑性の仮定のおかげ) 計算すると E (x,˜ y)∼˜ P ˜ y f (x; W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 2  (· · · ) · G(W(t)) − (· · · ) · 1 n i: noisy g(yi f (xi ; W(t)))   ノイジーな訓練データの損失が「暴れる」と、下界できなくて困る 67/91
  65. Loss ratio bound 実は、それほど暴れない。 Lemma 任意の t ≥ 0 において、訓練データのすべてのペア

    i = j に対して g(yi f (xi ; W(t))) g(yj f (xj ; W(t))) ≤ Cr • 線形分類(Chatterji and Long, 2021)でも重要な役割を果たした補題 • 高次元性が効いている(気持ちをこの後説明) • 著者は「次元の恵み (blessing of dimensionality)」と呼んでいる • ちゃんとした証明は、t に関する数学的帰納法 68/91
  66. 気持ち(線形分類の場合) 勾配降下法の更新式 w(t+1) = w(t) − α∇Lexp (w(t)) = w(t)

    − α n n i=1 (yi xi ) exp (yi w(t), wi ) 高次元の確率ベクトルはほぼ直交 ∀ i ∈ [n], p/C1 ≤ xi 2 2 ≤ C1 p, ∀ i, j ∈ [n] s.t. i = j, | xi , xj | ≤ C1 µ 2 2 + p log(n/δ) →「各訓練データごとに独立に・対等に学習している」ような感じ Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 69/91
  67. 気持ち(ニューラルネットの場合) (ここから私見が入ります) 線形分類での xi が ∇f (xi ; W) に置き換わる(これは

    NTK 特徴量) 。 勾配降下法の更新式 W(t+1) = W(t)−α∇L(W(t)) = W(t)+ α n n i=1 (yi ∇f (xi ; W(t)))g(yi f (xi ; W(t))) 実は直交性も保たれる:任意の W に対して ∀ i ∈ [n], γ2p/C1 ≤ ∇f (xi ; W) 2 F ≤ C1 p, ∀ i, j ∈ [n] s.t. i = j, | ∇f (xi ; W), ∇f (xj ; W) | ≤ C1 µ 2 2 + p log(n/δ) 「活性化関数 φ が γ-leaky」という仮定はこの直交性を保つため? 70/91
  68. 分子の追跡に戻る 先ほどの式を再掲: E (x,˜ y)∼˜ P ˜ y f (x;

    W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 2  (· · · ) · G(W(t)) − (· · · ) · 1 n i: noisy g(yi f (xi ; W(t)))   ノイジーな訓練データの損失は、loss ratio bound によって 1 n i: noisy g(yi f (xi ; W(t))) ≤ 2Cr ηG(W(t)) と抑えられるので、さらに計算して E (x,˜ y)∼˜ P ˜ y f (x; W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 8 G(W(t)) 71/91
  69. 分子の追跡 再掲: E (x,˜ y)∼˜ P ˜ y f (x;

    W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 8 G(W(t)) 辺々加えて E (x,˜ y)∼˜ P ˜ yf (x; W(t)) ≥ αγ2 µ 2 2 8 t−1 s=0 G(W(s)) 72/91
  70. 分母の追跡 今度は分母の W(t) F を追跡する: W(t) F = W(0) +

    α t−1 s=0 ∇L(W(t)) F ≤ W(0) F +α t−1 s=0 ∇L(W(t)) F ∇L(W(t)) 2 F = 1 n n i=1 (yi ∇f (xi ; W(t))) g(yi f (xi ; W(t))) =: g(t) i と略記 2 F ≤ 1 n2     i ∇f (xi ; W(t))) 2 F ≤C1p (g(t) i )2 + i=j ∇f (xi ; W(t))), ∇f (xj ; W(t))) C1( µ 2 2 + p log(n/δ)) g(t) i g(t) j      73/91
  71. 分母の追跡 再び loss ratio bound を使って ∇L(W(t)) 2 F ≤

    3C2 1 Cr p n G(W(t)) 2 C2 := 3C2 1 Cr として、結局分母は W(t) F ≤ W(0) F + C2 α p n t−1 s=0 G(W(s)) と上界できた。 74/91
  72. 平均的な正規化マージンの下界 分子・分母それぞれの評価を合わせる。 Lemma (Frei et al., 2022, Lemma 13) 任意の

    t ≥ 1 において E(x,˜ y)∼˜ P ˜ yf (x; W(t)) W(t) F ≥ γ2 µ 2 2 √ n 8 max √ C1 , C2 √ p これで主定理の後半(テスト誤差の上界)は証明終わり。 75/91
  73. 訓練損失・訓練誤差の解析 あとは、主定理の前半: • 訓練誤差が 0 になること • 訓練損失 L(W(t)) をいくらでも小さくできること

    を示すのみ。 • NTK 的な手法は使えない • 代理 PL 不等式(Frei and Gu, 2021)という新しい道具 76/91
  74. 復習:PL 不等式 H-平滑な関数 f : Rn → R が PL

    不等式 1 2 ∇f (x) 2 2 ≥ ν(f (x) − min x f (x)) を満たすとき、以下が成立: Theorem ステップ幅 α < 1/H の勾配降下法は、任意の ε > 0 に対して、 T = O(log(1/ε)) 回の更新で f (x(t)) − min x f (x) ≤ ε を達成する(線形収束) 。 77/91
  75. PL 不等式はニューラルネットに使える? PL 不等式(再掲) : 1 2 ∇f (x) 2

    2 ≥ ν(f (x) − min x f (x)) • すべての停留点は大域最適解 →NN には使えなさそう • 代理 PL 不等式 (proxy PL inequality):NN にも使えるように PL 不等式を拡張 78/91
  76. 代理 PL 不等式:一般論 H-平滑な非負関数 f : Rn → R が

    (g, ξ, β, ν)-PL 不等式 1 2 ∇f (x) β 2 ≥ ν(g(x) − ξ) を満たすとき、以下が成立: Theorem (Frei and Gu, 2021, Theorem 3.1) ステップ幅 α < 1/H の勾配降下法は、任意の ε > 0 に対して、 T = 2f (x(0)) α(2νε)2/β 回の更新で min t<T g(w(t)) ≤ ξ + ε を達成する。 つまり、g に f の代理をさせる。 あとは、g についての保証を f についての保証に言い換えられれば ゴール。 Frei, S., & Gu, Q. (2021). Proxy convexity: A unified framework for the analysis of neural networks trained by gradient descent. Advances in Neural Information Processing Systems, 34, 7937–7949. 79/91
  77. 代理 PL 不等式を利用する 1. L(W(t)) に対する代理 PL 不等式を示しに行く:G(W(t)) が代理を してくれる

    2. 代理 PL 不等式から G(W(t)) < ε 2 を示す 3. G(W(t)) についての保証を訓練誤差と L(W(t)) についての保証に 変換する 80/91
  78. 1. L(W(t)) の代理 PL 不等式を示す ∇L(W(t)) F の下界を得たい。→ 変分形式 ∇L(W(t))

    F = sup V: V F =1 −∇L(W(t)), V を利用する。特に、vj = aj µ µ 2 を第 j 行とする V をとると ∇L(W(t)) F ≥ −∇L(W(t)), V ≥ γ µ 2 4 G(W(t)) → L は (G, 0, 1, γ µ 2 8 )-PL 不等式を満たす (ここでも γ-leaky の仮定が必要) 81/91
  79. 2. G(W(t)) → 0 を保証する G(W(t)) が代理をしてくれたので、G(W(t)) についての保証を証明で きる: 先ほどの定理から、T

    = O(1/ε2) 回の更新によって min t<T G(W(t)) ≤ 0 + ε 2 となる。 さらに、G(W(t)) は平滑だから、L(W(t)) と同様に t の減少関数。よって mint<T G(W(t)) = G(W(T−1)) したがって、 G(W(T−1)) ≤ ε 2 82/91
  80. 3. G(W(t)) の保証を訓練誤差と L(W(t)) の保証に変換 訓練誤差 • ∀ z ∈

    R, 1[z ≤ 0] 0-1 損失 ≤ 2 g(z) シグモイド損失 だから 1 n n i=1 1 yi f (xi ; W(T−1)) ≤ 0 訓練誤差 ≤ 2G(W(t)) ≤ ε 2 · 2 = ε • ε < 1 2n だから、訓練誤差は 0! 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 83/91
  81. 3. G(W(t)) の保証を訓練誤差と L(W(t)) の保証に変換 訓練損失 L(W(T−1)) • 訓練誤差が 0

    だから、∀ i ∈ [n], yi f (xi ; W(T−1)) > 0 • ∀ z > 0, (z) ≤ 2g(z) だから L(W(T−1)) 訓練損失 ≤ 2G(W(t)) ≤ ε 2 · 2 = ε 4 2 0 2 4 z 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 84/91
  82. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 85/91
  83. 結論 • テクニック: • 非線形関数用の集中不等式 • Loss ratio bound:高次元性によってラベルノイズの影響が吸収さ れる

    • 代理 PL 不等式とシグモイド損失 • Loss ratio bound: 「次元の恵み」→ 過剰パラメータほど良性過適 合が容易に起こると考えられる • 本論文では p > n が必要だったが、実際のところはどうなのだろう か? mp > n ではダメなのか? 86/91
  84. 参考文献 i Bartlett, P. L., Long, P. M., Lugosi, G.,

    & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. Du, S. S., Zhai, X., Poczos, B., & Singh, A. (2018). Gradient descent provably optimizes over-parameterized neural networks. arXiv preprint arXiv:1810.02054. 87/91
  85. 参考文献 ii Frei, S., Chatterji, N. S., & Bartlett, P.

    (2022). Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data. Conference on Learning Theory, 2668–2703. Frei, S., & Gu, Q. (2021). Proxy convexity: A unified framework for the analysis of neural networks trained by gradient descent. Advances in Neural Information Processing Systems, 34, 7937–7949. Hastie, T., Montanari, A., Rosset, S., & Tibshirani, R. J. (2022). Surprises in high-dimensional ridgeless least squares interpolation. The Annals of Statistics, 50(2), 949–986. Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 88/91
  86. 参考文献 iii Ji, Z., Dudı́k, M., Schapire, R. E., &

    Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. Ji, Z., & Telgarsky, M. (2019). The implicit bias of gradient descent on nonseparable data. Conference on Learning Theory, 1772–1798. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. Lyu, K., & Li, J. (2019). Gradient descent maximizes the margin of homogeneous neural networks. arXiv preprint arXiv:1906.05890. Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of machine learning. MIT press. 89/91
  87. 参考文献 iv Muthukumar, V., Narang, A., Subramanian, V., Belkin, M.,

    Hsu, D., & Sahai, A. (2021). Classification vs regression in overparameterized regimes: Does the loss function matter? The Journal of Machine Learning Research, 22(1), 10104–10172. Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Tsigler, A., & Bartlett, P. L. (2020). Benign overfitting in ridge regression. arXiv preprint arXiv:2009.14286. Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 90/91
  88. 参考文献 v Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic

    viewpoint (Vol. 48). Cambridge University Press. Wang, K., & Thrampoulidis, C. (2020). Binary classification of gaussian mixtures: Abundance of support vectors, benign overfitting and regularization. arXiv preprint arXiv:2011.09148. Wang, K., & Thrampoulidis, C. (2021). Benign overfitting in binary classification of gaussian mixtures. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4030–4034. Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2021). Understanding deep learning (still) requires rethinking generalization. Communications of the ACM, 64(3), 107–115. 91/91