Upgrade to Pro — share decks privately, control downloads, hide ads and more …

良性の過適合

MasaKat0
August 31, 2021

 良性の過適合

良性の過適合

MasaKat0

August 31, 2021
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 計量経済学・機械学習ゼミ
    統計的学習理論
    第N回 良性の過適合
    AI事業本部 AdEconチーム 加藤真大
    1

    View Slide

  2. Bartlett. Long, Lugosi, and Tsigler. Benign overfitting in linear regression
    n 問題意識:
    • サンプルサイズよりもパラメータの数が多いような,オーバーパラメトライズ
    された回帰モデルがなぜ予測において良い性能を発揮するのか.
    • 古典的な学習理論で指摘される予測性能とモデル複雑どのトレードオフ,
    深層学習では発生していない?
    • むしろモデルを複雑にすればするほど予測性能が上がる?
    n 実務には役立たないかもしれない.
    n 深層学習の理論のホットなトピックを紹介.
    概要 2

    View Slide

  3. n 結果:
    • 線形回帰モデルに対して限定して考える.
    • サンプルサイズよりもパラメータの数が多いような回帰モデルが,どのよう
    な条件のもとで良い予測性能を持つようになるのかを考えた.
    • 予測性能が共変量の共分散の固有値によって特徴づけられる.
    • 共分散の固有値を降順に並べた時に,遅すぎず早すぎない速度で0に収
    束する時,良性の過適合が発生する.
    概要 3

    View Slide

  4. 予測誤差とモデルの複雑さ
    4

    View Slide

  5. n 良性の過適合(Benign overfitting):
    • 深層学習の方法論によって明らかにされた重要な謎の1つ.
    • サンプルサイズに対してパラメータの数が多い状況でも予測がうまくいく.
    n 深層ニューラルネットワークは,回帰モデル𝑌! = 𝑓 𝑋! + 𝜀!
    の誤差項𝜀!

    大きい訓練データに過適合しても,テストデータに対してうまく予測できる.
    概要 5

    View Slide

  6. n 統計的学習理論における古典的な視点:
    • 訓練データへの適合性と予測ルールの複雑さの間にトレードオフがある.
    • モデルの複雑さが,パラメータの数・高次元設定における非ゼロパラメータ
    の数・最近傍推定器で平均化された近いサンプルの数・再生カーネルヒル
    ベルト空間における推定値のスケール・カーネル平滑化のバンド幅などで
    測定されるかどうかに関わらず,このトレードオフは統計的学習理論にお
    いて普遍的に存在してきた.
    • 深層学習では,この種の結果が参考にならない可能性が指摘されている.
    古典的な視点 6

    View Slide

  7. n 統計学や機械学習の教科書では,すべての学習例に完全にフィットする推
    定値は,オーバーフィットの例として紹介されることが多い.
    n 深層学習手法の成功を科学的に理解するためには,学習データに完全に
    フィットする予測ルールの性能を理解することが必要である.
    古典的な視点 7

    View Slide

  8. • リスク𝑅 𝑓
    • 経験リスク )
    𝑅 𝑓
    • 仮説集合ℋ
    • (可測な)関数の集合全体ℱ
    • 𝑓∗ = arg min
    #∈ℱ
    𝑅(𝑓)
    • 𝑓ℋ
    ∗ = arg min
    #∈ℋ
    𝑅(𝑓)
    • 4
    𝑓 = arg min
    #∈ℋ
    )
    𝑅(𝑓)
    古典的な汎化誤差解析の例 8

    View Slide

  9. n 関数𝑓の超過リスク𝑅 𝑓∗ − 𝑅(𝑓)
    n 学習されたモデル 4
    𝑓の超過リスクの分解
    𝑅 4
    𝑓 − 𝑅 𝑓∗ = 𝑅 4
    𝑓 − 𝑅 𝑓ℋ
    ∗ + 𝑅 𝑓ℋ
    ∗ − 𝑅 𝑓∗ .
    • 𝑅 4
    𝑓 − 𝑅 𝑓ℋ
    ∗ :推定誤差
    • 𝑅 𝑓ℋ
    ∗ − 𝑅 𝑓∗ :近似誤差(モデルの語特定に由来する)
    n 推定誤差を抑える.
    𝑅 4
    𝑓 − 𝑅 𝑓ℋ
    ∗ ≤ )
    𝑅 𝑓ℋ
    ∗ − )
    𝑅 4
    𝑓 + 𝑅 4
    𝑓 − 𝑅 𝑓ℋ
    ∗ ≤ 2 sup
    #∈ℋ
    |𝑅 𝑓 − )
    𝑅 𝑓 |
    • sup
    #∈ℋ
    |𝑅 𝑓 − )
    𝑅 𝑓 |はモデルの集合ℋが複雑になるほど大きくなる.
    • モデルが複雑になるほどバウンドがゆるくなるが,深層学習は逆.
    古典的な汎化誤差解析の例 9

    View Slide

  10. 線形回帰モデルにおける
    良性の過適合
    10

    View Slide

  11. n Benign overfittingの論文では,最も単純な設定である線形回帰を考える.
    n 線形回帰:二次損失と線形予測ルール.
    n 無限次元の空間(分離可能なヒルベルト空間)のデータを考える.
    n パラメータ空間の次元は、完全な適合(予測)ができると保証されるほど大
    きいことを仮定する.
    • 特殊なケースとして有限次元の部分空間にも結果が適用される.
    n 期待二次損失を最小にする理想的なパラメータ(回帰モデルの真値,サン
    プルが無限に与えられた時の最小二乗解)を𝜃∗とする.
    n オーバーパラメトライズしてデータに過適合させるとき,𝜃∗のもとでの予測
    精度に近づけるのはいつなのかを考える.
    線形回帰モデルにおける過適合 11

    View Slide

  12. n ヒルベルト空間ℍにおける線形回帰モデルは共変量ベクトル𝑥 ∈ ℍと出力
    𝑦 ∈ ℝによって定義される.ここで,
    定義1.共分散オペレータΣ = 𝔼 𝑥𝑥' と,
    定義2.𝔼 𝑦 − 𝑥'𝜃∗ ( = min
    )
    𝔼 𝑦 − 𝑥'𝜃 ( を満たすように,最適パラメータ
    ベクトル𝜃∗ ∈ ℍを定義する.
    定義1:線形回帰 12

    View Slide

  13. n 以下を仮定する:
    仮定1.𝑥と𝑦の平均はゼロ;
    仮定2.𝑥 = 𝑉Λ*/(𝑧.ここで, 𝑉ΛはΣ = 𝑉Λ𝑉'はΣの特異値分解から与えられ
    る.𝑧は,正の定数𝜎,
    (と任意の𝜆 ∈ ℝに対して,
    𝔼 exp 𝜆'𝑧 ≤ exp(𝜎,
    ( 𝜆 (/2)
    を満たす. ⋅ はヒルベルト空間ℍ上のノルム.
    仮定3.誤差項の条件付き分散は正の定数𝜎(によって,
    𝔼 𝑦 − 𝑥'𝜃∗ ( 𝑥] ≥ 𝜎(
    として下から抑えられる.
    定義1:線形回帰 13

    View Slide

  14. 仮定4.𝑦 − 𝑥'𝜃∗は,正の定数𝜎-
    (と任意の𝜆 ∈ ℝに対し,𝑥で条件づけたとき,
    𝔼 exp 𝜆'(𝑦 − 𝑥'𝜃∗) | 𝑥 ≤ exp(𝜎-
    (𝜆(/2)
    を満たす.
    仮定5.ほとんど確実に,データ𝑋から,Σの任意の固有値に対して直交する空
    間への射影は,次元𝑛の空間を張る.
    定義1:線形回帰 14

    View Slide

  15. n サンプルサイズよりもパラメータの数が多い場合を考える.
    → 解が複数存在する可能性がある.
    n 解を定めるため,学習サンプルに対して完全な予測を与える全てのベクト
    ルの中で,最小のノルムを持つパラメータ・ベクトル 4
    𝜃を選択する.
    • これは,正規方程式を解くために擬似逆行列を使用することに対応する.
    オーバーパラメトライズの問題 15

    View Slide

  16. n ユーリッドノルムとヒルベルト空間のノルムをともに ⋅ であらわす.
    n データ𝑋 ∈ ℍ.と𝑦 ∈ ℝ.を所与として,最小ノルム推定量 4
    𝜃は
    min
    )∈ℍ
    𝜃 (
    such that 𝑋𝜃 − 𝑦 ( = min
    0
    𝑋𝛽 − 𝑦 (
    の解として定義される.この解は,
    4
    𝜃 = arg min
    )
    𝜃 (: 𝑋'𝑋𝜃 = 𝑋'𝑦
    = 𝑋'𝑋 1 𝑋'𝑦
    = 𝑋' 𝑋'𝑋 1𝑦
    となる.ここで, 𝑋'𝑋 1は有界な線形作用素の擬似逆行列である.
    定義2:最小ノルム推定量 16

    View Slide

  17. 超過リスクの解析
    17

    View Slide

  18. • Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する.
    • Σの作用素ノルムを Σ と表記する.
    • ℍ上の恒等作用素を𝐼と表記する.
    • 𝑛×𝑛の単位行列を𝐼.
    と表記する.
    表記 18

    View Slide

  19. n 予測性能の解析のために超過リスクを定義する.
    n iidな訓練サンプル 𝑥*, 𝑦* , … , 𝑥., 𝑦.
    とパラメータ𝜃 ∈ ℍの推定値
    を所与として,線形回帰モデルにおける超過リスク(excess risk)は
    𝑅 𝜃 ≔ 𝔼,,- 𝑌! − 𝑋!
    '𝜃 (
    − 𝑌! − 𝑋!
    '𝜃∗ (
    として定義される.
    n 𝜃に最小ノルム推定量を用いる場合の,𝑅(𝜃)の下限と上限を求める.
    超過リスク 19

    View Slide

  20. n Σ = 𝔼[𝑥𝑥'] の固有値の観点から定義される共分散の有効ランクを用いる.
    n Σの固有値を𝜇* Σ ≥ 𝜇( Σ ≥ ⋯と降順で表記する.
    n 𝜆! = 𝜇! Σ (𝑖 = 1,2, … )を定義する.
    n 𝑘 ≥ 0に対して,∑!3*
    4 𝜆! < ∞かつ𝜆56* > 0であるとき,
    𝑟5 Σ =
    ∑!75
    𝜆!
    𝜆56*
    , 𝑅5 Σ =
    ∑!75
    𝜆!
    (
    ∑!75
    𝜆!
    (
    を定義する.
    定義3:有効ランク 20

    View Slide

  21. n 任意の𝜎,
    に対して,以下が成立するような𝑏, 𝑐, 𝑐* > 0が存在する.
    n 定義1の線形回帰モデルを考える.ここで,
    𝑘∗ = min{𝑘 ≥ 0: 𝑟5 Σ ≥ 𝑏𝑛}
    を定義する.空集合のミニマムは∞とする.
    n 𝛿 < 1でlog *
    8
    < 𝑛/𝑐であるとする.𝑘∗ ≥ 𝑛/𝑐*
    であるならば,𝔼 𝑅 4
    𝜃 ≥
    𝜎(/𝑐である.
    定理1 21

    View Slide

  22. n さもなければ,少なくとも確率1 − 𝛿で,
    𝑅 4
    𝜃 ≤ 𝑐 𝜃∗ ( Σ max
    𝑟9 Σ
    𝑛
    ,
    𝑟9 Σ
    𝑛
    ,
    log
    1
    𝛿
    𝑛
    +𝑐 log
    1
    𝛿
    𝜎-
    (
    𝑘∗
    𝑛
    +
    𝑛
    𝑅5∗ Σ
    であり,
    𝔼 𝑅 4
    𝜃 ≥
    𝜎(
    𝑐
    𝑘∗
    𝑛
    +
    𝑛
    𝑅5∗ Σ
    である.
    定理1 22

    View Slide

  23. n さらに,以下を満たすような定数𝑎*, 𝑎(, 𝑛9
    が存在する.
    n 全ての𝑛 ≥ 𝑛9
    と,すべての𝑡 ≥ 0に対して,以下を満たす 𝜃∗ = 𝑡である𝜃∗
    が存在する.
    n 𝑥 ∼ 𝒩(0, Σ)と𝑦|𝑥 ∼ 𝒩(𝑥'𝜃∗, 𝜃∗ ( Σ )に対し,少なくとも1/4の確率で,
    𝑅 4
    𝜃 ≥
    1
    𝑎*
    𝜃∗ (1
    𝑟9 Σ
    𝑛 log 1 + 𝑟9 Σ
    ≥ 𝑎( .
    ここで, Σ はΣの作用素ノルム.
    定理1 23

    View Slide

  24. n 上限: 少なくとも確率1 − 𝛿で,
    𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
    𝑟#
    Σ
    𝑛
    ,
    𝑟#
    Σ
    𝑛
    ,
    log
    1
    𝛿
    𝑛
    + 𝑐 log
    1
    𝛿
    𝜎$
    "
    𝑘∗
    𝑛
    +
    𝑛
    𝑅%∗ Σ
    • バイアス項: 𝜃∗ " Σ max &" '
    (
    , &" '
    (
    ,
    )*+ #
    $
    (
    • 分散項: 𝑐 log ,
    -
    𝜎$
    " %∗
    (
    + (
    .%∗ '
    n 下限:
    𝔼 𝑅 5
    𝜃 ≥
    𝜎"
    𝑐
    𝑘∗
    𝑛
    +
    𝑛
    𝑅%∗ Σ
    定理1のまとめ 24

    View Slide

  25. n 定理1で示された上限について考える.
    𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
    𝑟#
    Σ
    𝑛
    ,
    𝑟#
    Σ
    𝑛
    ,
    log
    1
    𝛿
    𝑛
    + 𝑐 log
    1
    𝛿
    𝜎$
    "
    𝑘∗
    𝑛
    +
    𝑛
    𝑅%∗ Σ
    n 1つ目の項:
    • 問題の規模(Σの固有値の総和𝑟9 Σ )がサンプルサイズ𝑛に比べて小さい
    場合,𝜃∗から来ると見なせる 4
    𝜃への寄与はあまり歪まないというもの.
    n 2つ目の項:
    • ラベルのノイズ𝜎-
    (が予測精度に与える影響を反映するもの
    • この有効ランクが大きいという必要十分条件は,有意なオーバーパラメタリ
    ゼーションの特性とみなすことができる.
    定理1の解釈 25

    View Slide

  26. n 定理1の,
    𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
    𝑟#
    Σ
    𝑛
    ,
    𝑟#
    Σ
    𝑛
    ,
    log
    1
    𝛿
    𝑛
    + 𝑐 log
    1
    𝛿
    𝜎$
    "
    𝑘∗
    𝑛
    +
    𝑛
    𝑅%∗ Σ
    は,最小ノルム推定量が最適に近い予測精度を持つためには,
    1. 𝑟9(Σ)はサンプルサイズ𝑛と比べて小さくなるべきである;
    2. 𝑅5∗(Σ)はサンプルサイズ𝑛と比べて大きくなるべきである;
    ことを示している.
    n この結果は,良性の過適合に対する以下の定義を導く.
    定理1の解釈 26

    View Slide

  27. n Σ. = 1であるような共分散の系列(Σ.)は,
    lim
    .→4
    𝑟9(Σ.)
    𝑛
    = lim
    .→4
    𝑘.

    𝑛
    = lim
    .→4
    𝑛
    𝑅5/
    ∗ (Σ.)
    = 0
    であるときに良性である.
    定義 27

    View Slide

  28. 例:良性の過適合のための条件
    28

    View Slide

  29. n 結果1(無限次元の例):固有値に対して,
    𝜇5(Σ) = 𝑘;< ln;0
    𝑘 + 1 𝑒
    2
    を仮定する.このとき,Σは良性である if and only if 𝛼 = 1かつ𝛽 > 1.
    定理2(固有値に対する2つの例) 29

    View Slide

  30. n 結果2(有限次元の例):
    • 固有値に対して,
    𝜇5 Σ. = t
    𝛾5 𝑖𝑓 𝑘 ≤ 𝑝.
    0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
    ;
    • 𝛾5 = Θ(exp(−𝑘/𝜏))
    であるならば, Σ. = 1であるようなΣ=
    は良性である if and only if 𝑝. = 𝜔(𝑛)
    かつ𝑛 exp(−𝑜(𝑛)) = 𝜖.𝑝. = 𝑜(𝑛).
    n さらに,𝑝. = Ω(𝑛)かつ𝜖.𝑝. = 𝑛 exp(−𝑜(𝑛))に対して,
    𝑅 4
    𝜃 = 𝑂
    𝜖.𝑝. + 1
    𝑛
    +
    ln
    𝑛
    𝜖.𝑝.
    𝑛
    + max
    1
    𝑛
    ,
    𝑛
    𝑝.
    定理2(固有値に対する2つの例) 30

    View Slide

  31. n 結果1:無限次元のデータで共分散が固定されている場合,
    共分散の固有値が特定の収束レートで減衰する場合に限り,良性の過適合
    が起こることを示している.
    n 結果2:データが有限次元であり,共分散のノイズが同じ方向である場合に
    は,結果1の状況に加えて,以下の状況でも良性の過適合がおこる.
    • 共分散の固有値が,
    1. 次元がサンプルサイズに比べて大きく,
    2. 共分散の等方性成分がサンプルサイズに比べて十分に小さい(指数関数
    的に小さくはない);
    場合には良性の過適合が起こる.
    定理2の解釈 31

    View Slide

  32. n つまり,良好な過適合を可能にする固有値のパターンを調べると,「次元は
    大きいがたかだか有限の場合」に興味深い役割があることがわかる.
    ↔ 無限次元の場合には,良好なオーバーフィッティングは,固有値の減衰率
    が狭い範囲でしか起こらない.
    • 一方,サンプルサイズよりも,速く増大する次元を持つ有限次元の空間で
    は,より広い範囲で減衰する固有値列で良性の過適合は発生する.
    n このように,線形回帰では,
    • 無限次元の空間にあるデータでは良性の過適合は難しいが,
    • 大きくても有限次元の空間にあるデータでは,より広い共分散の特性のも
    とで良性の過適合が起こる.
    定理2の解釈 32

    View Slide

  33. n これらの例は,超過リスク
    𝑅 𝜃 ≤ 𝑐 𝜃∗ " Σ max
    𝒓𝟎
    𝜮
    𝒏
    ,
    𝒓𝟎
    𝜮
    𝒏
    ,
    log
    1
    𝛿
    𝑛
    + 𝑐 log
    1
    𝛿
    𝜎$
    "
    𝒌∗
    𝒏
    +
    𝒏
    𝑹𝒌∗ 𝜮
    において,
    • 5
    .
    + .
    >2
    を小さくするために必要な固有値の減衰と,
    • ?3 @
    .
    を小さくするために必要な固有値の減衰
    の間の緊張関係を示している.
    n 補題1:𝑟5 Σ ≥ 1,𝑟5
    ( Σ = 𝑟5 Σ( 𝑅5(Σ),かつ,
    𝑟5 Σ( ≤ 𝑟5 Σ ≤ 𝑅5 Σ ≤ 𝑟5
    ((Σ)
    定理2の解釈 33

    View Slide