Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ニューラルネットの良性過適合

Avatar for RyotaUshio RyotaUshio
December 28, 2022

 ニューラルネットの良性過適合

Avatar for RyotaUshio

RyotaUshio

December 28, 2022
Tweet

Other Decks in Research

Transcript

  1. Benign Overfitting without Linearity: Neural Network Classifier Trained by Gradient

    Descent for Noisy Linear Data Spencer Frei, Niladri S. Chatterji & Peter L. Bartlett 牛尾 凌太 / Ryota Ushio 新領域創成科学研究科 複雑理工学専攻 杉山・横矢・石田研究室 M1
  2. 概要 ジャンル:複雑性誤差 × 最適化 • 勾配降下法で学習させた 2 層ニューラルネットワークの汎化誤差の tight な上界を導出

    • 有限サンプル(非漸近論) • ノイジーな訓練データに完全に fit しながらも、小さいテスト誤差 を達成 • 非 NTK レジーム 2/91
  3. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 3/91
  4. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 5/91
  5. Notation S = {(xi , yi )}n i=1 :訓練データ (i.i.d.)

    • xi ∈ Rp:入力ベクトル • yi ∈ R (回帰) or {+1, −1} (分類) :出力 • X =    x1 . . . xn    横長(n < p) ∈ Rn×p, y =    y1 . . . yn    ∈ Rn ベクトル v に対して、 v 2 は v の Euclid ノルム 行列 M に対して、 M op は M のスペクトルノルム、 M F は Frobenius ノルム ベクトル v と正定値行列 Σ に対して、 v Σ := √ v Σv [n] := {1, . . . , n} C, C , c, c , . . .:正の定数 6/91
  6. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 7/91
  7. 関数の強凸性・平滑性・PL 不等式 関数 f : Rn → R が λ-強凸

    • f (·) − λ 2 · 2 2 が凸関数 • Hesse 行列 ∇2f の最小固有値 ≥ λ > 0 関数 f : Rn → R が H-平滑 • 勾配 ∇f が H-Lipschitz • Hesse 行列 ∇2f の最大固有値 ≤ H • ∀ x, x0 ∈ Rn, f (x) − f (x0) + ∇f (x0) (x − x0) ≤ H 2 x − x0 2 2 (2 次関数で上下からはさめる) • Descent lemma: (ステップ幅が十分小さい)勾配降下法で、毎ステップ関数値が 減少 関数 f : Rn → R が PL(Polyak-Lojasiewicz)関数 • ある λ > 0 に対して、以下の PL 不等式を満たす: ∀ x ∈ Rn, 1 2 ∇f (x) 2 2 ≥ λ(f (x) − min x f (x)) • 強凸 =⇒ PL 関数 8/91
  8. sub-Gaussian 変数 Definition (Vershynin, 2018, Definition 2.5.6) 確率変数 X が

    sub-Gaussian def ⇐⇒ ∃ K > 0, E exp X2 K2 ≤ 2 X ψ2 := inf K > 0 | E exp X2 K2 ≤ 2 を X の sub-Gaussian ノルムという(本当にノルム) 。 等価な定義:∃ σ > 0, ∀ λ ∈ R, E eλ(X−E[X]) ≤ exp σ2λ2 2 具体例:Gauss 分布、すべての有界な分布、... Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 9/91
  9. sub-Gaussian ノルム sub-Gaussian ノルムは「集中の度合い」を表す X ψ2 ≤ K ⇐⇒ ∀

    t ≥ 0, P {|X| ≥ t} ≤ 2 exp − ct2 K2 裾の重さが Gauss 分布くらい “sub-Gaussian パラメータ” σ とだいたい同じもの Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 10/91
  10. Hoeffding の不等式 sub-Gaussian な確率ベクトルの線形関数の裾の確率を評価したい Theorem (Vershynin, 2018, Theorem 2.6.3) 仮定:

    • X = (X1 , . . . , Xd ) の各成分は独立な sub-Gaussian • Xi ψ2 ≤ K (i = 1, . . . , d) このとき、X の線形関数 a X の裾の確率は P a X − a µ ≥ t ≤ 2 exp − ct2 K2 a 2 2 と評価できる。 ( a X − a t ψ2 ≤ CK a 2 と書いても同じ) Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 11/91
  11. Concentration of measure 確率ベクトルの非線形関数の裾の確率も評価したい Theorem (Wainwright, 2019, Theorem 3.16; Vershynin,

    2018, Theorem 5.2.15) 仮定: • 確率ベクトル X ∈ Rd の分布は λ-strongly log-concave (各成分は独立でなくても OK) • f : Rd → R は L-Lipschitz このとき、P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 ( f (X) − E [f (X)] ψ2 ≤ CL/ √ λ と書いても同じ) λ-strongly log-concave な分布:確率密度関数 p が存在して、 p(x) = exp(−U(x)) (U: λ-強凸関数) とかける分布。Gauss 分布など 最近、講義動画が公開! https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic viewpoint (Vol. 48). 12/91
  12. 集中不等式まとめ • 確率変数 X ∈ R が sub-Gaussian ならば ∀

    t ≥ 0, P {|X − µ| ≥ t} ≤ 2 exp − ct2 X 2 ψ2 • 確率ベクトル X ∈ Rd の各成分が独立な sub-Gaussian で、 Xi ψ2 ≤ K (i = 1, . . . , d) ならば a X − a µ ψ2 ≤ CK a 2 ⇐⇒ ∀ t ≥ 0, P a X − a µ ≥ t ≤ 2 exp − ct2 K2 a 2 2 • 確率ベクトル X ∈ Rd の分布が γ-strongly log-concave で、 f : Rd → R が L-Lipschitz ならば f (X) − E [f (X)] ψ2 ≤ C L √ λ ⇐⇒ ∀ t ≥ 0, P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 13/91
  13. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 15/91
  14. 線形回帰における良性過適合 • Bartlett et al., 2020:正則化なしの線形回帰(講義で紹介) • Tsigler and Bartlett,

    2020:リッジ回帰 (12 月 6 日に大改訂されてました) Bartlett, P. L., Long, P. M., Lugosi, G., & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. Tsigler, A., & Bartlett, P. L. (2020). Benign overfitting in ridge regression. arXiv preprint arXiv:2009.14286. 16/91
  15. 線形回帰における最小ノルム補間量 最小ノルム補間量 (minimum norm interpolator) ˆ θ := arg min

    θ 2 2 s.t. θ ∈ arg min θ∈Rp Xθ − y 2 2 原点を初期点とする勾配降下法 θ(t+1) = θ(t) − α ∇θ Xθ − y 2 2 θ=θ(t) は最小ノルム補間量に収束する。 Theorem (Hastie et al., 2022, Proposition 1) 初期点を θ(0) = 0 とすると、十分小さいステップ幅 α に対して lim t→∞ θ(t) = ˆ θ Hastie, T., Montanari, A., Rosset, S., & Tibshirani, R. J. (2022). Surprises in high-dimensional ridgeless least squares interpolation. The Annals of Statistics, 50(2), 949–986. Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2021). Understanding deep learning (still) requires rethinking generalization. Communications of the ACM, 64(3), 107–115. 17/91
  16. 証明の概要 最小ノルム補間量は陽に表示できる: ˆ θ = X†y = X (XX )†y

    (n < p のときに便利な表示) バイアス・バリアンス分解 Lemma (Bartlett et al., 2020, Lemma 7) 少なくとも 1 − δ の確率(ノイズ ε に関して)で R(ˆ θ) 余剰誤差 ≤ 2θ∗ (I − X†X)Σ(I − X†X)θ∗ バイアス + cσ2 log(1/δ) tr (X†) ΣX† バリアンス → バイアスとバリアンスをそれぞれ集中不等式で評価 Bartlett, P. L., Long, P. M., Lugosi, G., & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. 18/91
  17. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 19/91
  18. 線形分類における良性過適合 解析対象はもっぱら hard margin SVM wSVM := arg min w∈Rp

    1 2 w 2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) KKT 条件から、最適解は訓練データの線形結合:wSVM = n i=1 βi xi Support vector:係数が βi = 0 である訓練データ点 • 制約式の等号が成立する(∵ 相補性条件) • 分離超平面からもっとも近くにある Mohri et al., 2018, Figure 5.1 20/91
  19. Hard margin SVM を解析する意義 • n < p のとき、高い確率で訓練データは線形分離可能 ∵)

    連立線形方程式 Xw = y は解をもつ • 正則化なしの勾配降下法で学習したロジスティック回帰モデル (=隠れ層なしの NN)との対応 21/91
  20. ロジスティック回帰 × 勾配降下法と SVM の関係 線形分類器を、正則化なしの勾配降下法で学習させる: L(w) := 1 n

    n i=1 (yi · w xi ), w(t+1) = w(t) − α∇L(w(t)) 仮定: • 損失関数 は “exponentially-tailed”: (u) e−cu たとえば • ロジスティック損失 (u) = log(1 + e−u) • 指数損失 (u) = e−u • 訓練データは線形分離可能 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. 22/91
  21. ロジスティック回帰 × 勾配降下法と SVM の関係 このとき、重み w(t) のノルムは発散するが、方向は hard margin

    SVM の解 wSVM と同じ方向に収束する。 Theorem (Soudry et al., 2018, Theorem 3; Ji et al., 2020, Proposition 10) 先の仮定のもとで、任意の初期点 w(0) と十分小さいステップ幅 α に対 して lim t→∞ w(t) w(t) 2 = wSVM wSVM 2 • 暗黙的正則化の一種 • ただし、この収束は非常に遅い (Soudry et al., 2018, Theorem 5)。 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. 23/91
  22. 参考 線形分類器に対する勾配降下法の implicit bias / 暗黙的正則化 • exponentially-tailed な損失 •

    線形分離可能な場合:Soudry et al., 2018 • 線形分離不可能な場合:Ji and Telgarsky, 2019 • 一般の損失への拡張とさらなる特徴づけ:Ji et al., 2020 ニューラルネットに対しても拡張されつつある(Lyu and Li, 2019; Ji and Telgarsky, 2020; Ji and Telgarsky, 2020) Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Ji, Z., & Telgarsky, M. (2019). The implicit bias of gradient descent on nonseparable data. Conference on Learning Theory, 1772–1798. Ji, Z., Dudı́k, M., Schapire, R. E., & Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. Lyu, K., & Li, J. (2019). Gradient descent maximizes the margin of homogeneous neural networks. arXiv preprint arXiv:1906.05890. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. 24/91
  23. 線形分類における良性過適合解析の戦略 分類の解析の難しさ:解が陽に書けない! 戦略 1 回帰(最小ノルム補間量)に帰着させる • Muthukumar et al., 2021:単峰

    Gauss 分布 • Wang and Thrampoulidis, 2021:Gauss 混合分布 • Wang and Thrampoulidis, 2020:上の論文のアップデート版 • Cao et al., 2021:sub-Gauss 混合分布 戦略 2 勾配降下法のダイナミクスを追跡する • Chatterji and Long, 2021:sub-Gauss 混合分布 今回紹介する論文に直接つながる どちらも途中までは同じ Muthukumar, V., Narang, A., Subramanian, V., Belkin, M., Hsu, D., & Sahai, A. (2021). Classification vs regression in overparameterized regimes: Does the loss function matter? The Journal of Machine Learning Research, 22(1), 10104–10172. Wang, K., & Thrampoulidis, C. (2021). Benign overfitting in binary classification of gaussian mixtures. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4030–4034. Wang, K., & Thrampoulidis, C. (2020). Binary classification of gaussian mixtures: Abundance of support vectors, benign overfitting and regularization. arXiv preprint arXiv:2011.09148. Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 25/91
  24. データ分布の仮定 Cao et al., 2021 の設定: • sub-Gaussian 混合分布 クラスラベル

    yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ、共分散行列は Σ = VΛV で共通 qi = VΛ1/2ui , xi = yi · µ + qi (i = 1, . . . , n) • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、分散 1、 uij ψ2 ≤ σu の sub-Gaussian Chatterji and Long, 2021 も類似の設定(後述) Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 26/91
  25. 汎化誤差の上界 データ分布についての仮定(sub-Gaussian)を最大限に活かす。 Lemma (Cao et al., 2021, Lemma 4.2) 任意の

    w ∈ Rp \ {0} に対して P y = sgn w x 汎化誤差 ≤ exp −C (µ w)2 w 2 Σ • これはただの Hoeffding の不等式 • 他の論文でも類似の補題を利用 (Chatterji and Long, 2021, Lemma 6; Wang and Thrampoulidis, 2020, Lemma 1) → (µ wSVM )2 wSVM 2 Σ の評価に帰着。でも、wSVM の具体的な形はわからない... Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 27/91
  26. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 28/91
  27. 戦略 1(回帰への帰着)の概要 Hard margin SVM: min w∈Rp 1 2 w

    2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) もし最適解が制約式をすべて等式で満たしたら? min w∈Rp 1 2 w 2 2 s.t. w xi = yi (i = 1, . . . , n) これは線形回帰における最小ノルム補間量そのもの → 解が陽に書ける! wSVM = X (XX )−1y 29/91
  28. すべての訓練データが support vector となる条件 Hard margin SVM の主問題: min w∈Rp

    1 2 w 2 2 s.t. yi · w xi ≥ 1 (i = 1, . . . , n) Lagrange 双対問題: max β∈Rn y β − 1 2 β (XX )β s.t. yi βi ≥ 0 (i = 1, . . . , n) Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 30/91
  29. すべての訓練データが support vector となる条件 Lagrange 双対問題: max β∈Rn y β

    − 1 2 β (XX )β s.t. yi βi ≥ 0 (i = 1, . . . , n) もし制約がなかったら? → 最適解は β = (XX )−1y Theorem (Hsu et al., 2021, Lemma 1) 訓練データが線形独立なとき すべての訓練データが support vector ⇐⇒ β = (XX )−1y が yi βi > 0 (i = 1, . . . , n) を満たす Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 31/91
  30. 線形回帰への帰着 この条件はちゃんと満たされる。 Lemma (Cao et al., 2021, Proposition 4.1) tr(Σ)

    ≥ C max n3/2 Σ 2 , n Σ F , n √ log n µ Σ ならば、 少なくとも 1 − O(n−2) の確率で前補題の条件が成立し、したがって wSVM = X (XX )−1y Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 32/91
  31. 線形回帰への帰着 wSVM = X (XX )−1y を代入すれば、 (µ wSVM )2

    wSVM 2 Σ を X の関数として 陽に書けるので、評価できる! Gram 行列 QQ = qi qj ij の固有値の集中不等式による評価など、 線形回帰のときの解析 (Bartlett et al., 2020 など) と類似の議論へ Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 33/91
  32. 主結果 Theorem (Cao et al., 2021, Theorem 3.1) 任意の δ

    > 0 をとる。 仮定:        n ≥ 1 δ µ 2 2 ≥ C µ Σ tr(Σ) ≥ C max n3/2 Σ 2 , n Σ F , n √ log n µ Σ このとき、少なくとも 1 − δ の確率で P y = sgn w SVM x ≤ exp − C n µ 4 2 n µ 2 Σ + Σ 2 F + n Σ 2 2 次元 p に明示的には依存せず、かわりに共分散行列の固有値構造に依存? Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. 34/91
  33. 古典的な学習理論との比較 Rademacher 複雑度ベースの汎化誤差上界:高い確率で (汎化誤差) ≤ (訓練 hinge 損失) =0 +2

    × (Rademacher 複雑度) + (小さい項) すべての訓練データが support vector のとき、Rademacher 複雑度は 1/ √ 2 ≈ 0.7 より小さくならない!(Hsu et al., 2021) 古典的な汎化誤差上界 • 任意の分布に対応 • 任意のモデルに対応 今回の汎化誤差上界 • 分布の仮定 (sub-Gaussian) をフルに利用 • 線形モデル専門 Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 35/91
  34. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 36/91
  35. 戦略 2(勾配法のダイナミクスの追跡)の概要 目標: (µ wSVM )2 wSVM 2 2 =

    µ, wSVM wSVM 2 2 を評価したい wSVM の陽な表示を得るのは諦める。 SVM は勾配法 w(t+1) = w(t) − α∇L(w(t)) の収束先: wSVM wSVM 2 = lim t→∞ w(t) w(t) 2 → µ, w(t) w(t) 2 の更新を追跡すればよい! µ, w(t+1) = µ, w(t) − α µ, ∇L(w(t)) (解析の動機としてだけでなく、証明の強力なツールとして利用) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 37/91
  36. データ分布の仮定 sub-Gaussian 混合分布 + ラベル反転ノイズ 1. (xi , ˜ yi

    ) ∼ ˜ P:clean な sub-Gaussian 混合分布 • clean なクラスラベル ˜ yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ qi = Vui , xi = ˜ yi · µ + qi • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、 uij ψ2 ≤ 1 の sub-Gaussian 2. (xi , yi ) ∼ P:˜ P にラベルノイズを付加した noisy な分布 • 入力 x に関する周辺分布は ˜ P と同じ • 確率 η でラベルを反転:y = −˜ y Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 38/91
  37. 汎化誤差の上界 データの sub-Gaussian 性から、さっき(p.27)とほぼ同様にして次が成立 Lemma (Chatterji and Long, 2021, Lemma

    6) 任意の w ∈ Rp \ {0} に対して P (x,y)∼P {sgn ( w, x ) = y} ≤ η + exp −c ( µ, w )2 w 2 2 → ( µ, wSVM )2 wSVM 2 2 の評価へ:勾配降下法の極限としての特徴づけを利用 (意味:平均的な正規化マージン) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 39/91
  38. 復習:SVM は勾配降下法の収束先 勾配法で線形分類器を学習させる: L(w) := 1 n n i=1 (yi

    · w, xi ), w(t+1) = w(t) − α∇L(w(t)) 損失として • ロジスティック損失 (u) = log(1 + e−u)、または • 指数損失 (u) = e−u を使うと、任意の初期点 w(0) と十分小さいステップ幅 α に対して lim t→∞ w(t) w(t) 2 = wSVM wSVM 2 Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. 40/91
  39. 勾配法で追跡 理論解析の道具としては、指数損失 (u) = e−u のほうがはるかに便利。 zi := yi xi

    として • 訓練損失 L(w) := n i=1 exp(− w, zi ) • 勾配 ∇L(w) = − n i=1 zi exp(− w, zi ) • 重み w(t) の更新式 w(t+1) = w(t) − α∇L(w(t)) = w(t) + α n i=1 zi exp(− w, zi ) これより、 µ, w(t) の更新式は µ, w(t+1) = µ, w(t) + α n i=1 µ, zi exp(− w, zi ) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 41/91
  40. ノイズありデータは高次元では「悪さをしない」 µ, w(t+1) 1−δ ≥ µ, w(t) + µ 2

    2 2 αL(w(t))−2 µ 2 2 α zi:noisy exp(− w(t), zi ) Lemma (Chatterji and Long, 2021, Lemma 11) 十分小さいステップ幅 α に対して、任意の t ≥ 0 において ∀i, j ∈ [n], exp(− w(t), zi ) exp(− w(t), zj ) ≤ const. ここでは高次元性が重要な役割を果たす。 この補題より、noisy な訓練データの損失はそれほど暴れない: zi:noisy exp(− w(t), zi ) ≤ 1 4 L(w(t)) Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 42/91
  41. Frame Title これより µ, w(t+1) ≥ µ, w(t) + α

    µ 2 2 4 L(w(t)) 帰納的に、任意の T ≥ 0 に対して µ, w(T) ≥ α µ 2 2 4 T−1 t=0 L(w(t)) 両辺を w(T) 2 で割って、 w(T) 2 ≤ cα √ p T−1 t=0 L(w(t)) を用いると µ, w(T) w(T) 2 ≥ α µ 2 2 4 T−1 t=0 L(w(t)) w(T) 2 ≥ µ 2 2 4c √ p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 43/91
  42. 平均的な正規化マージンの下界 したがって、この両辺で T → ∞ とすれば µ, wSVM wSVM 2

    ≥ µ 2 2 4c √ p Lemma (Chatterji and Long, 2021, Lemma 7) 少なくとも 1 − δ の確率で ( µ, wSVM )2 wSVM 2 2 ≥ µ 4 2 c p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 44/91
  43. 主結果 Theorem (Chatterji and Long, 2021, Theorem 1) 任意の δ

    > 0 をとる。 仮定:              n ≥ C log 1 δ µ 2 2 ≥ C log n δ p ≥ C max µ 2 2 n, n2 log n δ tr(Σ) ≥ κp (κ ∈ (0, 1)) このとき、少なくとも 1 − δ の確率で P y = sgn w SVM x ≤ exp −c µ 4 2 p Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 45/91
  44. Cao et al., 2021 との比較 Cao et al., 2021:exp −c

    ( µ, w )2 w 2 Σ Chatterji and Long, 2021:exp −c ( µ, w )2 w 2 2 データ分布の仮定を変えれば Σ に依存させられるが、勾配法ベースの証 明は Euclid ノルムに対してしか走らない。 46/91
  45. Cao et al., 2021 との比較 Σ = I の場合で汎化誤差上界を比較(δ:失敗確率) •

    Cao et al., 2021: n ≥ δ−1, µ 2 ≥ C1 , p ≥ C1 max n2, n √ log n のもとで exp −c1 n µ 4 2 n µ 2 2 + p • Chatterji and Long, 2021: n ≥ C2 log δ−1, p ≥ C2 max µ 2 2 n, n2 log n δ , µ 2 2 ≥ C2 log n δ のもとで exp −c2 µ 4 2 p 特に、p n µ 2 2 ならば Cao et al., 2021 のほうがタイト(と Cao et al., 2021 は主張している) 47/91
  46. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 48/91
  47. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 49/91
  48. 線形分類からニューラルネットへ 線形分類は解析できた → ニューラルネットによる分類問題の解析へ 2 層(隠れ 1 層)NN:f (x; W)

    := m j=1 aj φ( wj , x ) どうすればいい? • 戦略 1「線形回帰への帰着」は、非線形な NN ではもはや使えなさ そう(解が陽に書けるわけない) • 戦略 2「勾配法の追跡」ならできそう(収束先がなにか/収束するのかを知 らなくても使える) • そもそも訓練誤差を 0 にできるの? • 線形分類/回帰:解が一意に決まるので、それを解析するところから スタート • NN:どんな解に行くかわからない 50/91
  49. 問題設定:ネットワーク f (x; W) := m j=1 aj φ( wj

    , x ) • aj i.i.d. ∼ Unif ({±1/ √ m}):固定 • W = [w1 , . . . , wm ] :学習 W(0) ij i.i.d. ∼ N(0, ω2 init )(NTK は ωinit = 1) • φ は γ-leaky, 1-Lipschitz, H-smooth: ∀ z ∈ R, 0 < γ ≤ φ (z) ≤ 1, |φ (z)| ≤ H (NN や損失が滑らかになって扱いやすい) Smoothed leaky ReLU 51/91
  50. 問題設定:損失 損失関数はロジスティック損失(交差エントロピー) : (z) = log(1 + e−z) 訓練損失: L(W)

    := 1 n n i=1 (yi f (xi ; W)) フルバッチ勾配降下法で学習: W(t+1) = W(t) − α∇L(W(t)) 52/91
  51. 問題設定:データ分布 strongly log-concave な sub-Gaussian 混合分布 + ラベル反転ノイズ 1. (xi

    , ˜ yi ) ∼ ˜ P:clean な sub-Gaussian 混合分布 • clean なクラスラベル ˜ yi は等確率で +1 or −1 平均はそれぞれ +µ, −µ qi = Vui , xi = ˜ yi · µ + qi • 「種」の確率ベクトル ui は各要素 uij が独立で平均 0、 uij ψ2 ≤ 1 の sub-Gaussian、さらに λ-strongly log-concave 2. (xi , yi ) ∼ P:˜ P にラベルノイズを付加した noisy な分布 • 入力 x に関する周辺分布は ˜ P と同じ • 確率 η でラベルを反転:y = −˜ y Frei, S., Chatterji, N. S., & Bartlett, P. (2022). Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data. Conference on Learning Theory, 2668–2703. 53/91
  52. 仮定 失敗確率 δ ∈ (0, 1/2) に対して 1. 訓練データ数:n ≥

    C log(1/δ) 2. データの次元:p ≥ C max n µ 2 2 , n2 log(n/δ) , tr Σ ≥ κp 3. 平均ベクトルのノルム: µ 2 2 ≥ C log(n/δ) 4. ノイズレベル:η ≥ 1/C 5. ステップ幅:α ≤ C max 1, H √ m p2 −1 6. 中間層の初期化の分散:ωinit √ mp ≈ W(0) F ≤ α • 仮定 1–4 は線形モデル(Chatterji and Long, 2021)と共通 • 仮定 6 は、初期化のスケールに比べて勾配法の 1 ステップが支配的 になるようにするため(脱 NTK) 54/91
  53. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 55/91
  54. NTK レジームとの違い ネットワークの幅 m • NTK は m ≥ poly(·

    · · ) を要求 • 本論文の結果は任意の m ≥ 1 で成立 線形近似(初期値近く)か? • NTK は線形近似が有効な領域 • 本論文の結果は、訓練損失を 0 にするために初期値から遠くへ (NTK レジームから脱出) Du, S. S., Zhai, X., Poczos, B., & Singh, A. (2018). Gradient descent provably optimizes over-parameterized neural networks. arXiv preprint arXiv:1810.02054. 56/91
  55. NTK レジームとの違い 最初の 1 ステップだけでも、パラメータ W は初期値から遠く離れる: Theorem (Frei et

    al., 2022, Proposition 2) 少なくとも 1 − 2δ の確率で W(1) − W(0) F W(0) F ≥ γ µ 2 C (ここからは私見)仮定より µ 2 log(n/δ) なので W(1) − W(0) F W(0) F γ log(n/δ) 一方、NTK の設定 (Du et al., 2018) では、任意の t ≥ 0 で W(t) − W(0) F W(0) F W(0) F ≈ √ mp n λ0 √ mpδ m n6 λ4 0δ3 λ0 δ n2 √ p 確かに、NTK よりもはるかに大きく移動していそう(ただし、初期値のス ケールは全然違う) 。 57/91
  56. Outline 準備 基本的な道具の確認 線形回帰における良性過適合 線形分類における良性過適合 戦略 1: 回帰への帰着 戦略 2:

    勾配法のダイナミクスの追跡 ニューラルネットの良性過適合 問題設定と主結果 証明のポイント 58/91
  57. シグモイド損失 シグモイド損失:訓練には使わないが、理論解析の道具として使う g(z) := − (z) = 1 1 +

    ez , G(W) := 1 m n i=1 g(yi f (xi ; W)) 4 2 0 2 4 z 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 60/91
  58. ランダムネスを先にまとめて処理 少なくとも 1 − 2δ の確率で、以下が同時に成り立つ。 これ以降は、これらがすべて成り立つと仮定して話を進める。 1. W(0) 2

    F ≤ 3 2 ω2 init mp 2. W(0) op ≤ C0 ωinit ( √ m + √ p) 3. すべての訓練データについて、p/C1 ≤ xi 2 2 ≤ C1 p 4. 訓練データのすべてのペア(i = j)について、 | xi , xj | ≤ C1 µ 2 2 + p log(n/δ) 5. すべてのクリーンな訓練データ (xi , yi ) について µ, yi xi − µ 2 2 ≤ µ 2 2 /2 6. すべてのノイジーな訓練データ (xi , yi ) について µ, yi xi − (− µ 2 2 ) ≤ µ 2 2 /2 7. ノイジーな訓練データの数は、高々 (η + c )n Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 61/91
  59. 滑らかさなど 活性化関数 φ を 1-Lipschitz, H-smooth と仮定したおかげで、NN や損 失が滑らかになる。 ネットワーク

    f (x; W) は • 入力 x に関して W op -Lipschitz • パラメータ W に関して x 2 -Lipschitz • パラメータ W に関して H x 2 2 √ m -smooth 訓練損失 L(W), G(W) は • パラメータ W に関して C1 p 1 + H √ m -smooth (パラメータ W に関する Lipschitz 性や平滑性は、勾配法の 1 ステップでの変化を評価す るのに有益) 62/91
  60. 汎化誤差の上界 Lemma 任意の W ∈ Rm×p に対して P (x,y)∼P {y

    = sgn (f (x; W))} ≤ η+2 exp  −cλ E(x,˜ y)∼˜ P [˜ yf (x; W)] W F 2  • 線形分類と同じく、平均的な正規化マージン E(x,˜ y)∼˜ P [˜ yf (x;W)] W F の下 界の評価に帰着 • 証明のテクニック:非線形関数用の集中不等式(Hoeffding の代わり) 63/91
  61. 補題の証明(概略) P {y = sgn (f (x; W))} = P

    {yf (x; W) < 0} = P yf (x; W) − E [yf (x; W)] < − E [yf (x; W)] マージン yf (x; W) が平均より左にずれる確率 x は sub-Gaussian。f が線形なら、 Hoeffding の不等式で評価可能。 しかし、NN は非線形 → concentration of measure(次頁) • これを使うために λ-strongly log-concave を仮定していた • f は x に関して W op -Lipschitz なので OK 64/91
  62. Concentration of measure 確率ベクトルの非線形関数の裾の確率も評価したい Theorem (Wainwright, 2019, Theorem 3.16; Vershynin,

    2018, Theorem 5.2.15) 仮定: • 確率ベクトル X ∈ Rd の分布は λ-strongly log-concave (各成分は独立でなくても OK) • f : Rd → R は L-Lipschitz このとき、P f (X) − E [f (X)] ≥ t ≤ 2 exp −c λt2 L2 ( f (X) − E [f (X)] ψ2 ≤ CL/ √ λ と書いても同じ) λ-strongly log-concave な分布:確率密度関数 p が存在して、 p(x) = exp(−U(x)) (U: λ-強凸関数) とかける分布。Gauss 分布など 最近、講義動画が公開! https://www.math.uci.edu/~rvershyn/teaching/hdp/hdp.html Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic viewpoint (Vol. 48). 65/91
  63. 勾配法を追跡 平均的な正規化マージン E(x,˜ y)∼˜ P [˜ yf (x; W)] W

    F の評価に帰着 → 分子・分母に分けて、勾配法の更新 W(t+1) = W(t) − α∇L(W(t)) を追跡する • 分子は下界: E (x,˜ y)∼˜ P ˜ y f (x; Wt+1) − f (x; Wt) ≥ . . . • 分母は上界: W(t) F = W(0) + α t−1 s=0 ∇L(W(t)) F ≤ W(0) F +α t−1 s=0 ∇L(W(t)) F 66/91
  64. 分子を追跡 E(x,˜ y)∼˜ P ˜ y f (x; W(t+1)) −

    f (x; W(t)) を下界したい。 パラメータ W が少し変化したときの f (x; W) の変化 → 平滑性が使える(活性化関数の平滑性の仮定のおかげ) 計算すると E (x,˜ y)∼˜ P ˜ y f (x; W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 2  (· · · ) · G(W(t)) − (· · · ) · 1 n i: noisy g(yi f (xi ; W(t)))   ノイジーな訓練データの損失が「暴れる」と、下界できなくて困る 67/91
  65. Loss ratio bound 実は、それほど暴れない。 Lemma 任意の t ≥ 0 において、訓練データのすべてのペア

    i = j に対して g(yi f (xi ; W(t))) g(yj f (xj ; W(t))) ≤ Cr • 線形分類(Chatterji and Long, 2021)でも重要な役割を果たした補題 • 高次元性が効いている(気持ちをこの後説明) • 著者は「次元の恵み (blessing of dimensionality)」と呼んでいる • ちゃんとした証明は、t に関する数学的帰納法 68/91
  66. 気持ち(線形分類の場合) 勾配降下法の更新式 w(t+1) = w(t) − α∇Lexp (w(t)) = w(t)

    − α n n i=1 (yi xi ) exp (yi w(t), wi ) 高次元の確率ベクトルはほぼ直交 ∀ i ∈ [n], p/C1 ≤ xi 2 2 ≤ C1 p, ∀ i, j ∈ [n] s.t. i = j, | xi , xj | ≤ C1 µ 2 2 + p log(n/δ) →「各訓練データごとに独立に・対等に学習している」ような感じ Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. 69/91
  67. 気持ち(ニューラルネットの場合) (ここから私見が入ります) 線形分類での xi が ∇f (xi ; W) に置き換わる(これは

    NTK 特徴量) 。 勾配降下法の更新式 W(t+1) = W(t)−α∇L(W(t)) = W(t)+ α n n i=1 (yi ∇f (xi ; W(t)))g(yi f (xi ; W(t))) 実は直交性も保たれる:任意の W に対して ∀ i ∈ [n], γ2p/C1 ≤ ∇f (xi ; W) 2 F ≤ C1 p, ∀ i, j ∈ [n] s.t. i = j, | ∇f (xi ; W), ∇f (xj ; W) | ≤ C1 µ 2 2 + p log(n/δ) 「活性化関数 φ が γ-leaky」という仮定はこの直交性を保つため? 70/91
  68. 分子の追跡に戻る 先ほどの式を再掲: E (x,˜ y)∼˜ P ˜ y f (x;

    W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 2  (· · · ) · G(W(t)) − (· · · ) · 1 n i: noisy g(yi f (xi ; W(t)))   ノイジーな訓練データの損失は、loss ratio bound によって 1 n i: noisy g(yi f (xi ; W(t))) ≤ 2Cr ηG(W(t)) と抑えられるので、さらに計算して E (x,˜ y)∼˜ P ˜ y f (x; W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 8 G(W(t)) 71/91
  69. 分子の追跡 再掲: E (x,˜ y)∼˜ P ˜ y f (x;

    W(t+1)) − f (x; W(t)) ≥ αγ2 µ 2 2 8 G(W(t)) 辺々加えて E (x,˜ y)∼˜ P ˜ yf (x; W(t)) ≥ αγ2 µ 2 2 8 t−1 s=0 G(W(s)) 72/91
  70. 分母の追跡 今度は分母の W(t) F を追跡する: W(t) F = W(0) +

    α t−1 s=0 ∇L(W(t)) F ≤ W(0) F +α t−1 s=0 ∇L(W(t)) F ∇L(W(t)) 2 F = 1 n n i=1 (yi ∇f (xi ; W(t))) g(yi f (xi ; W(t))) =: g(t) i と略記 2 F ≤ 1 n2     i ∇f (xi ; W(t))) 2 F ≤C1p (g(t) i )2 + i=j ∇f (xi ; W(t))), ∇f (xj ; W(t))) C1( µ 2 2 + p log(n/δ)) g(t) i g(t) j      73/91
  71. 分母の追跡 再び loss ratio bound を使って ∇L(W(t)) 2 F ≤

    3C2 1 Cr p n G(W(t)) 2 C2 := 3C2 1 Cr として、結局分母は W(t) F ≤ W(0) F + C2 α p n t−1 s=0 G(W(s)) と上界できた。 74/91
  72. 平均的な正規化マージンの下界 分子・分母それぞれの評価を合わせる。 Lemma (Frei et al., 2022, Lemma 13) 任意の

    t ≥ 1 において E(x,˜ y)∼˜ P ˜ yf (x; W(t)) W(t) F ≥ γ2 µ 2 2 √ n 8 max √ C1 , C2 √ p これで主定理の後半(テスト誤差の上界)は証明終わり。 75/91
  73. 訓練損失・訓練誤差の解析 あとは、主定理の前半: • 訓練誤差が 0 になること • 訓練損失 L(W(t)) をいくらでも小さくできること

    を示すのみ。 • NTK 的な手法は使えない • 代理 PL 不等式(Frei and Gu, 2021)という新しい道具 76/91
  74. 復習:PL 不等式 H-平滑な関数 f : Rn → R が PL

    不等式 1 2 ∇f (x) 2 2 ≥ ν(f (x) − min x f (x)) を満たすとき、以下が成立: Theorem ステップ幅 α < 1/H の勾配降下法は、任意の ε > 0 に対して、 T = O(log(1/ε)) 回の更新で f (x(t)) − min x f (x) ≤ ε を達成する(線形収束) 。 77/91
  75. PL 不等式はニューラルネットに使える? PL 不等式(再掲) : 1 2 ∇f (x) 2

    2 ≥ ν(f (x) − min x f (x)) • すべての停留点は大域最適解 →NN には使えなさそう • 代理 PL 不等式 (proxy PL inequality):NN にも使えるように PL 不等式を拡張 78/91
  76. 代理 PL 不等式:一般論 H-平滑な非負関数 f : Rn → R が

    (g, ξ, β, ν)-PL 不等式 1 2 ∇f (x) β 2 ≥ ν(g(x) − ξ) を満たすとき、以下が成立: Theorem (Frei and Gu, 2021, Theorem 3.1) ステップ幅 α < 1/H の勾配降下法は、任意の ε > 0 に対して、 T = 2f (x(0)) α(2νε)2/β 回の更新で min t<T g(w(t)) ≤ ξ + ε を達成する。 つまり、g に f の代理をさせる。 あとは、g についての保証を f についての保証に言い換えられれば ゴール。 Frei, S., & Gu, Q. (2021). Proxy convexity: A unified framework for the analysis of neural networks trained by gradient descent. Advances in Neural Information Processing Systems, 34, 7937–7949. 79/91
  77. 代理 PL 不等式を利用する 1. L(W(t)) に対する代理 PL 不等式を示しに行く:G(W(t)) が代理を してくれる

    2. 代理 PL 不等式から G(W(t)) < ε 2 を示す 3. G(W(t)) についての保証を訓練誤差と L(W(t)) についての保証に 変換する 80/91
  78. 1. L(W(t)) の代理 PL 不等式を示す ∇L(W(t)) F の下界を得たい。→ 変分形式 ∇L(W(t))

    F = sup V: V F =1 −∇L(W(t)), V を利用する。特に、vj = aj µ µ 2 を第 j 行とする V をとると ∇L(W(t)) F ≥ −∇L(W(t)), V ≥ γ µ 2 4 G(W(t)) → L は (G, 0, 1, γ µ 2 8 )-PL 不等式を満たす (ここでも γ-leaky の仮定が必要) 81/91
  79. 2. G(W(t)) → 0 を保証する G(W(t)) が代理をしてくれたので、G(W(t)) についての保証を証明で きる: 先ほどの定理から、T

    = O(1/ε2) 回の更新によって min t<T G(W(t)) ≤ 0 + ε 2 となる。 さらに、G(W(t)) は平滑だから、L(W(t)) と同様に t の減少関数。よって mint<T G(W(t)) = G(W(T−1)) したがって、 G(W(T−1)) ≤ ε 2 82/91
  80. 3. G(W(t)) の保証を訓練誤差と L(W(t)) の保証に変換 訓練誤差 • ∀ z ∈

    R, 1[z ≤ 0] 0-1 損失 ≤ 2 g(z) シグモイド損失 だから 1 n n i=1 1 yi f (xi ; W(T−1)) ≤ 0 訓練誤差 ≤ 2G(W(t)) ≤ ε 2 · 2 = ε • ε < 1 2n だから、訓練誤差は 0! 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 83/91
  81. 3. G(W(t)) の保証を訓練誤差と L(W(t)) の保証に変換 訓練損失 L(W(T−1)) • 訓練誤差が 0

    だから、∀ i ∈ [n], yi f (xi ; W(T−1)) > 0 • ∀ z > 0, (z) ≤ 2g(z) だから L(W(T−1)) 訓練損失 ≤ 2G(W(t)) ≤ ε 2 · 2 = ε 4 2 0 2 4 z 0.0 0.5 1.0 1.5 2.0 logistic sigmoid 0-1 84/91
  82. 主結果 Theorem (Frei et al., 2022, Theorem 1) 任意の ε

    ∈ (0, 1 2n ) に対して、勾配法の T ≥ CL(W(0)) µ 2 2 αε2 ステップの更新 のあと、少なくとも 1 − 2δ の確率(初期化と訓練データの選び方)で 1. 訓練誤差は 0、訓練損失は L(W(T)) ≤ ε 2. テスト誤差は P (x,y)∼P y = sgn f (x; W(T)) ≤ η + 2 exp − n µ 4 2 Cp これは良性過適合。つまり • ノイジーな訓練データに完全に fit しながら • テスト誤差はミニマックス最適を達成 85/91
  83. 結論 • テクニック: • 非線形関数用の集中不等式 • Loss ratio bound:高次元性によってラベルノイズの影響が吸収さ れる

    • 代理 PL 不等式とシグモイド損失 • Loss ratio bound: 「次元の恵み」→ 過剰パラメータほど良性過適 合が容易に起こると考えられる • 本論文では p > n が必要だったが、実際のところはどうなのだろう か? mp > n ではダメなのか? 86/91
  84. 参考文献 i Bartlett, P. L., Long, P. M., Lugosi, G.,

    & Tsigler, A. (2020). Benign overfitting in linear regression. Proceedings of the National Academy of Sciences, 117(48), 30063–30070. Cao, Y., Gu, Q., & Belkin, M. (2021). Risk bounds for over-parameterized maximum margin classification on sub-gaussian mixtures. Advances in Neural Information Processing Systems, 34, 8407–8418. Chatterji, N. S., & Long, P. M. (2021). Finite-sample analysis of interpolating linear classifiers in the overparameterized regime. The Journal of Machine Learning Research, 22, 129–1. Du, S. S., Zhai, X., Poczos, B., & Singh, A. (2018). Gradient descent provably optimizes over-parameterized neural networks. arXiv preprint arXiv:1810.02054. 87/91
  85. 参考文献 ii Frei, S., Chatterji, N. S., & Bartlett, P.

    (2022). Benign overfitting without linearity: Neural network classifiers trained by gradient descent for noisy linear data. Conference on Learning Theory, 2668–2703. Frei, S., & Gu, Q. (2021). Proxy convexity: A unified framework for the analysis of neural networks trained by gradient descent. Advances in Neural Information Processing Systems, 34, 7937–7949. Hastie, T., Montanari, A., Rosset, S., & Tibshirani, R. J. (2022). Surprises in high-dimensional ridgeless least squares interpolation. The Annals of Statistics, 50(2), 949–986. Hsu, D., Muthukumar, V., & Xu, J. (2021). On the proliferation of support vectors in high dimensions. International Conference on Artificial Intelligence and Statistics, 91–99. 88/91
  86. 参考文献 iii Ji, Z., Dudı́k, M., Schapire, R. E., &

    Telgarsky, M. (2020). Gradient descent follows the regularization path for general losses. Conference on Learning Theory, 2109–2136. Ji, Z., & Telgarsky, M. (2019). The implicit bias of gradient descent on nonseparable data. Conference on Learning Theory, 1772–1798. Ji, Z., & Telgarsky, M. (2020). Directional convergence and alignment in deep learning. Advances in Neural Information Processing Systems, 33, 17176–17186. Lyu, K., & Li, J. (2019). Gradient descent maximizes the margin of homogeneous neural networks. arXiv preprint arXiv:1906.05890. Mohri, M., Rostamizadeh, A., & Talwalkar, A. (2018). Foundations of machine learning. MIT press. 89/91
  87. 参考文献 iv Muthukumar, V., Narang, A., Subramanian, V., Belkin, M.,

    Hsu, D., & Sahai, A. (2021). Classification vs regression in overparameterized regimes: Does the loss function matter? The Journal of Machine Learning Research, 22(1), 10104–10172. Soudry, D., Hoffer, E., Nacson, M. S., Gunasekar, S., & Srebro, N. (2018). The implicit bias of gradient descent on separable data. The Journal of Machine Learning Research, 19(1), 2822–2878. Tsigler, A., & Bartlett, P. L. (2020). Benign overfitting in ridge regression. arXiv preprint arXiv:2009.14286. Vershynin, R. (2018). High-dimensional probability: An introduction with applications in data science (Vol. 47). Cambridge university press. 90/91
  88. 参考文献 v Wainwright, M. J. (2019). High-dimensional statistics: A non-asymptotic

    viewpoint (Vol. 48). Cambridge University Press. Wang, K., & Thrampoulidis, C. (2020). Binary classification of gaussian mixtures: Abundance of support vectors, benign overfitting and regularization. arXiv preprint arXiv:2011.09148. Wang, K., & Thrampoulidis, C. (2021). Benign overfitting in binary classification of gaussian mixtures. ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 4030–4034. Zhang, C., Bengio, S., Hardt, M., Recht, B., & Vinyals, O. (2021). Understanding deep learning (still) requires rethinking generalization. Communications of the ACM, 64(3), 107–115. 91/91