Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】 Dropout Reduces Underfitting

【論文紹介】 Dropout Reduces Underfitting

過学習の低減に使われるドロップアウトだが,本研究では学習初期で未学習も低減させていることを示した.また,学習初期のみにドロップアウトするearly dropout と,学習後期のみの late dropoutを提案した

tawichi

May 06, 2023
Tweet

Other Decks in Research

Transcript

  1. 【論⽂紹介】
    Dropout Reduces Underfitting

    View Slide

  2. 3
    2023/5/5
    2023/5/5
    書誌情報

    タイトル
    § Dropout Reduces Underfitting [1]

    出典
    § https://arxiv.org/abs/2303.01500

    著者
    § Meta AI, UC Berkeley の研究者ら

    出版年月
    § 2023年3月

    コード
    § https://github.com/facebookresearch/dropout

    View Slide

  3. 4
    2023/5/5
    2023/5/5
    概要

    ドロップアウト
    § 本来、ニューラルネットの overfitting を防ぐための正則化手法として Hinton らによって導入 [2]

    本研究
    § ドロップアウトが初期段階において、underfitting も軽減していることを実証
    § ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割
    § モデルがデータに適合するのを助ける
    § early dropout と late dropoutを提案・有用性の検証
    § early dropout は初期の underfitting を低減
    § late dropout は後期の overfitting を低減
    § early dropout, late dropout はタスクで使い分け

    View Slide

  4. 5
    2023/5/5
    2023/5/5
    前提知識:ドロップアウトの原理 [2]

    ドロップアウト
    § 訓練時に一定割合のユニットをランダムにドロップ
    § 推論時は,全てのユニットを使って推論
    § データ目線では,異なるネットワークに入力
    § ネットワークのアンサンブルとして機能
    § overfitting を低減・汎化性能を向上
    本研究: ドロップアウトは、 underfitting も低減させているのではないか?

    View Slide

  5. 6
    2023/5/5
    2023/5/5
    ドロップアウトが underfitting を防ぐ理由 (1/3)

    実験から分かった2つの事実
    § 勾配のノルム
    § 𝑔
    !
    を計算
    § ドロップアウトを用いると小さく
    § 勾配更新量 (歩幅) は小さく
    § 初期点からの移動距離
    § 𝑊" − 𝑊! !
    を計算
    § ドロップアウトを用いると大きく

    ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい
    → 仮説: 勾配が蛇行をせずに一定方向に進んでいるのでは?(右図)
    図: 勾配のノルム
    図: 移動距離

    View Slide

  6. 7
    2023/5/5
    2023/5/5
    ドロップアウトが underfitting を防ぐ理由 (2/3)

    本当に一定方向に進んでいるのか?
    § 勾配の方向の分散を算出
    § ドロップアウトありの方が、初期段階で分散は小さい
    → 一定方向に進むという仮説は妥当
    → その方向は,正しい方向なのかという新しい疑問

    View Slide

  7. 8
    2023/5/5
    2023/5/5
    ドロップアウトが underfitting を防ぐ理由 (3/3)

    正しい方向に進んでいるのか?
    § 真の勾配とミニバッチの勾配方向の誤差を算出
    § 学習初期では,ドロップアウトありの方が,真の勾配方向に近い
    § 正しい方向に一定に進んでいる
    § モデルがデータに適合しやすくなり、 underfitting を低減
    § 学習後期では、ドロップアウトありだと、真の勾配から離れる
    § 勾配のノイズにより、フラットな解に収束し、overfitting を低減

    View Slide

  8. 9
    2023/5/5
    2023/5/5
    実験

    実験目的: Early dropout と late dropout の有用性の確認
    § early dropout で underfitting の低減を期待
    § late dropout で overfitting の低減を期待

    ImageNet 分類タスクで,通常のドロップアウト,early dropout, late dropout を比較

    stochastic depth [3] も同様に検証
    § Stochastic depth: 残差ブロックを一定確率でドロップ
    § スキップ接続のドロップアウトとみなせる
    § ドロップアウトと同様な特性を持つはず
    図: stochastic depth[3] の概要

    View Slide

  9. 10
    2023/5/5
    2023/5/5
    結果 | early dropout の結果

    標準のドロップアウト・標準の s.d. により,正解率は劣化,訓練誤差は上昇
    § 大量のデータが利用可能な場合,標準のドロップアウトは,適切ではない可能性

    early dropout ・early s.d. により、正解率を改善、訓練誤差は減少
    § 初期段階の underfitting を低減し,訓練誤差を減らす
    § モデルがデータに適合しやすくなる

    View Slide

  10. 11
    2023/5/5
    2023/5/5
    結果|late dropout (late s.d.) の結果

    ドロップアウトの代わりに stochastic depth で実験

    late s.d. は,標準の s.d. と比べて,精度が改善
    § 先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度
    § 効果的に overfiting を低減

    View Slide

  11. 12
    2023/5/5
    2023/5/5
    まとめ

    背景
    § ドロップアウトは,overfitting を低減するために Hinton らによって導入

    本研究
    § いくつかの実験事実から,ドロップアウトは学習初期で underfitting を低減するという仮説を提唱
    § early dropout, late dropout を提案,その有用性を検証

    実験・結果
    § ImageNetの分類タスクで,early dropout と late dropout を標準のドロップアウトと比較
    § early dropout はunderfitting を低減させ,late dropout はoverfitting を低減することを実証

    View Slide

  12. 13
    2023/5/5
    2023/5/5
    参考文献
    [1] Z. Liu, Z. Xu, J. Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv,
    Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500.
    [2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov,
    “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”.
    [3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with
    Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online].
    [4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.”
    arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online].

    View Slide