Save 37% off PRO during our Black Friday Sale! »

良性の過適合

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=47 MasaKat0
August 31, 2021

 良性の過適合

良性の過適合

Bb6c3fc8c577710c72d03aeb4fa56bf6?s=128

MasaKat0

August 31, 2021
Tweet

Transcript

  1. 計量経済学・機械学習ゼミ 統計的学習理論 第N回 良性の過適合 AI事業本部 AdEconチーム 加藤真大 1

  2. Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression

    n 問題意識: • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ された回帰モデルがなぜ予測において良い性能を発揮するのか. • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ, 深層学習では発生していない? • むしろモデルを複雑にすればするほど予測性能が上がる? n 実務には役立たないかもしれない. n 深層学習の理論のホットなトピックを紹介. 概要 2
  3. n 結果: • 線形回帰モデルに対して限定して考える. • サンプルサイズよりもパラメータの数が多いような回帰モデルが,どのよう な条件のもとで良い予測性能を持つようになるのかを考えた. • 予測性能が共変量の共分散の固有値によって特徴づけられる. •

    共分散の固有値を降順に並べた時に,遅すぎず早すぎない速度で0に収 束する時,良性の過適合が発生する. 概要 3
  4. 予測誤差とモデルの複雑さ 4

  5. n 良性の過適合(Benign overfitting): • 深層学習の方法論によって明らかにされた重要な謎の1つ. • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく. n 深層ニューラルネットワークは,回帰モデル𝑌! =

    𝑓 𝑋! + 𝜀! の誤差項𝜀! の 大きい訓練データに過適合しても,テストデータに対してうまく予測できる. 概要 5
  6. n 統計的学習理論における古典的な視点: • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある. • モデルの複雑さが,パラメータの数・高次元設定における非ゼロパラメータ の数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒル ベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで 測定されるかどうかに関わらず,このトレードオフは統計的学習理論にお いて普遍的に存在してきた.

    • 深層学習では,この種の結果が参考にならない可能性が指摘されている. 古典的な視点 6
  7. n 統計学や機械学習の教科書では,すべての学習例に完全にフィットする推 定値は,オーバーフィットの例として紹介されることが多い. n 深層学習手法の成功を科学的に理解するためには,学習データに完全に フィットする予測ルールの性能を理解することが必要である. 古典的な視点 7

  8. • リスク𝑅 𝑓 • 経験リスク ) 𝑅 𝑓 • 仮説集合ℋ

    • (可測な)関数の集合全体ℱ • 𝑓∗ = arg min #∈ℱ 𝑅(𝑓) • 𝑓ℋ ∗ = arg min #∈ℋ 𝑅(𝑓) • 4 𝑓 = arg min #∈ℋ ) 𝑅(𝑓) 古典的な汎化誤差解析の例 8
  9. n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓) n 学習されたモデル 4 𝑓の超過リスクの分解 𝑅

    4 𝑓 − 𝑅 𝑓∗ = 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ + 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ . • 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ :推定誤差 • 𝑅 𝑓ℋ ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する) n 推定誤差を抑える. 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ ) 𝑅 𝑓ℋ ∗ − ) 𝑅 4 𝑓 + 𝑅 4 𝑓 − 𝑅 𝑓ℋ ∗ ≤ 2 sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 | • sup #∈ℋ |𝑅 𝑓 − ) 𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる. • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆. 古典的な汎化誤差解析の例 9
  10. 線形回帰モデルにおける 良性の過適合 10

  11. n Benign overfittingの論文では,最も単純な設定である線形回帰を考える. n 線形回帰:二次損失と線形予測ルール. n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える. n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大 きいことを仮定する.

    • 特殊なケースとして有限次元の部分空間にも結果が適用される. n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン プルが無限に与えられた時の最小二乗解)を𝜃∗とする. n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測 精度に近づけるのはいつなのかを考える. 線形回帰モデルにおける過適合 11
  12. n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力 𝑦 ∈ ℝによって定義される.ここで, 定義1.共分散オペレータΣ = 𝔼

    𝑥𝑥' と, 定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min ) 𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ ベクトル𝜃∗ ∈ ℍを定義する. 定義1:線形回帰 12
  13. n 以下を仮定する: 仮定1.𝑥と𝑦の平均はゼロ; 仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ る.𝑧は,正の定数𝜎,

    (と任意の𝜆 ∈ ℝに対して, 𝔼 exp 𝜆'𝑧 ≤ exp(𝜎, ( 𝜆 (/2) を満たす. ⋅ はヒルベルト空間ℍ上のノルム. 仮定3.誤差項の条件付き分散は正の定数𝜎(によって, 𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎( として下から抑えられる. 定義1:線形回帰 13
  14. 仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎- (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき, 𝔼 exp 𝜆'(𝑦 −

    𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎- (𝜆(/2) を満たす. 仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空 間への射影は,次元𝑛の空間を張る. 定義1:線形回帰 14
  15. n サンプルサイズよりもパラメータの数が多い場合を考える. → 解が複数存在する可能性がある. n 解を定めるため,学習サンプルに対して完全な予測を与える全てのベクト ルの中で,最小のノルムを持つパラメータ・ベクトル 4 𝜃を選択する. •

    これは,正規方程式を解くために擬似逆行列を使用することに対応する. オーバーパラメトライズの問題 15
  16. n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす. n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量

    4 𝜃は min )∈ℍ 𝜃 ( such that 𝑋𝜃 − 𝑦 ( = min 0 𝑋𝛽 − 𝑦 ( の解として定義される.この解は, 4 𝜃 = arg min ) 𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦 = 𝑋'𝑋 1 𝑋'𝑦 = 𝑋' 𝑋'𝑋 1𝑦 となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である. 定義2:最小ノルム推定量 16
  17. 超過リスクの解析 17

  18. • Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する. • Σの作用素ノルムを

    Σ と表記する. • ℍ上の恒等作用素を𝐼と表記する. • 𝑛×𝑛の単位行列を𝐼. と表記する. 表記 18
  19. n 予測性能の解析のために超過リスクを定義する. n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥.,

    𝑦. とパラメータ𝜃 ∈ ℍの推定値 を所与として,線形回帰モデルにおける超過リスク(excess risk)は 𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋! '𝜃 ( − 𝑌! − 𝑋! '𝜃∗ ( として定義される. n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める. 超過リスク 19
  20. n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる. n Σの固有値を𝜇* Σ ≥ 𝜇(

    Σ ≥ ⋯と降順で表記する. n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する. n 𝑘 ≥ 0に対して,∑!3* 4 𝜆! < ∞かつ𝜆56* > 0であるとき, 𝑟5 Σ = ∑!75 𝜆! 𝜆56* , 𝑅5 Σ = ∑!75 𝜆! ( ∑!75 𝜆! ( を定義する. 定義3:有効ランク 20
  21. n 任意の𝜎, に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する. n 定義1の線形回帰モデルを考える.ここで, 𝑘∗

    = min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛} を定義する.空集合のミニマムは∞とする. n 𝛿 < 1でlog * 8 < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐* であるならば,𝔼 𝑅 4 𝜃 ≥ 𝜎(/𝑐である. 定理1 21
  22. n さもなければ,少なくとも確率1 − 𝛿で, 𝑅 4 𝜃 ≤ 𝑐 𝜃∗

    ( Σ max 𝑟9 Σ 𝑛 , 𝑟9 Σ 𝑛 , log 1 𝛿 𝑛 +𝑐 log 1 𝛿 𝜎- ( 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ であり, 𝔼 𝑅 4 𝜃 ≥ 𝜎( 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅5∗ Σ である. 定理1 22
  23. n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9 が存在する. n 全ての𝑛 ≥ 𝑛9 と,すべての𝑡

    ≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗ が存在する. n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で, 𝑅 4 𝜃 ≥ 1 𝑎* 𝜃∗ (1 𝑟9 Σ 𝑛 log 1 + 𝑟9 Σ ≥ 𝑎( . ここで, Σ はΣの作用素ノルム. 定理1 23
  24. n 上限: 少なくとも確率1 − 𝛿で, 𝑅 𝜃 ≤ 𝑐 𝜃∗

    " Σ max 𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ • バイアス項: 𝜃∗ " Σ max &" ' ( , &" ' ( , )*+ # $ ( • 分散項: 𝑐 log , - 𝜎$ " %∗ ( + ( .%∗ ' n 下限: 𝔼 𝑅 5 𝜃 ≥ 𝜎" 𝑐 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ 定理1のまとめ 24
  25. n 定理1で示された上限について考える. 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ n 1つ目の項: • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい 場合,𝜃∗から来ると見なせる 4 𝜃への寄与はあまり歪まないというもの. n 2つ目の項: • ラベルのノイズ𝜎- (が予測精度に与える影響を反映するもの • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ ゼーションの特性とみなすことができる. 定理1の解釈 25
  26. n 定理1の, 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝑟# Σ 𝑛 , 𝑟# Σ 𝑛 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝑘∗ 𝑛 + 𝑛 𝑅%∗ Σ は,最小ノルム推定量が最適に近い予測精度を持つためには, 1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである; 2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである; ことを示している. n この結果は,良性の過適合に対する以下の定義を導く. 定理1の解釈 26
  27. n Σ. = 1であるような共分散の系列(Σ.)は, lim .→4 𝑟9(Σ.) 𝑛 = lim

    .→4 𝑘. ∗ 𝑛 = lim .→4 𝑛 𝑅5/ ∗ (Σ.) = 0 であるときに良性である. 定義 27
  28. 例:良性の過適合のための条件 28

  29. n 結果1(無限次元の例):固有値に対して, 𝜇5(Σ) = 𝑘;< ln;0 𝑘 + 1 𝑒

    2 を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1. 定理2(固有値に対する2つの例) 29
  30. n 結果2(有限次元の例): • 固有値に対して, 𝜇5 Σ. = t 𝛾5 𝑖𝑓

    𝑘 ≤ 𝑝. 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 ; • 𝛾5 = Θ(exp(−𝑘/𝜏)) であるならば, Σ. = 1であるようなΣ= は良性である if and only if 𝑝. = 𝜔(𝑛) かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛). n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して, 𝑅 4 𝜃 = 𝑂 𝜖.𝑝. + 1 𝑛 + ln 𝑛 𝜖.𝑝. 𝑛 + max 1 𝑛 , 𝑛 𝑝. 定理2(固有値に対する2つの例) 30
  31. n 結果1:無限次元のデータで共分散が固定されている場合, 共分散の固有値が特定の収束レートで減衰する場合に限り,良性の過適合 が起こることを示している. n 結果2:データが有限次元であり,共分散のノイズが同じ方向である場合に は,結果1の状況に加えて,以下の状況でも良性の過適合がおこる. • 共分散の固有値が, 1.

    次元がサンプルサイズに比べて大きく, 2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい(指数関数 的に小さくはない); 場合には良性の過適合が起こる. 定理2の解釈 31
  32. n つまり,良好な過適合を可能にする固有値のパターンを調べると,「次元は 大きいがたかだか有限の場合」に興味深い役割があることがわかる. ↔ 無限次元の場合には,良好なオーバーフィッティングは,固有値の減衰率 が狭い範囲でしか起こらない. • 一方,サンプルサイズよりも,速く増大する次元を持つ有限次元の空間で は,より広い範囲で減衰する固有値列で良性の過適合は発生する. n

    このように,線形回帰では, • 無限次元の空間にあるデータでは良性の過適合は難しいが, • 大きくても有限次元の空間にあるデータでは,より広い共分散の特性のも とで良性の過適合が起こる. 定理2の解釈 32
  33. n これらの例は,超過リスク 𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max

    𝒓𝟎 𝜮 𝒏 , 𝒓𝟎 𝜮 𝒏 , log 1 𝛿 𝑛 + 𝑐 log 1 𝛿 𝜎$ " 𝒌∗ 𝒏 + 𝒏 𝑹𝒌∗ 𝜮 において, • 5 . + . >2 を小さくするために必要な固有値の減衰と, • ?3 @ . を小さくするために必要な固有値の減衰 の間の緊張関係を示している. n 補題1:𝑟5 Σ ≥ 1,𝑟5 ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ, 𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5 ((Σ) 定理2の解釈 33