Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【論文紹介】 Dropout Reduces Underfitting

tawichi
May 06, 2023

【論文紹介】 Dropout Reduces Underfitting

過学習の低減に使われるドロップアウトだが,本研究では学習初期で未学習も低減させていることを示した.また,学習初期のみにドロップアウトするearly dropout と,学習後期のみの late dropoutを提案した

tawichi

May 06, 2023
Tweet

Other Decks in Research

Transcript

  1. 3 2023/5/5 2023/5/5 書誌情報 ▪ タイトル § Dropout Reduces Underfitting

    [1] ▪ 出典 § https://arxiv.org/abs/2303.01500 ▪ 著者 § Meta AI, UC Berkeley の研究者ら ▪ 出版年月 § 2023年3月 ▪ コード § https://github.com/facebookresearch/dropout
  2. 4 2023/5/5 2023/5/5 概要 ▪ ドロップアウト § 本来、ニューラルネットの overfitting を防ぐための正則化手法として

    Hinton らによって導入 [2] ▪ 本研究 § ドロップアウトが初期段階において、underfitting も軽減していることを実証 § ドロップアウトがミニバッチ間の勾配のばらつきを減らす役割 § モデルがデータに適合するのを助ける § early dropout と late dropoutを提案・有用性の検証 § early dropout は初期の underfitting を低減 § late dropout は後期の overfitting を低減 § early dropout, late dropout はタスクで使い分け
  3. 5 2023/5/5 2023/5/5 前提知識:ドロップアウトの原理 [2] ▪ ドロップアウト § 訓練時に一定割合のユニットをランダムにドロップ §

    推論時は,全てのユニットを使って推論 § データ目線では,異なるネットワークに入力 § ネットワークのアンサンブルとして機能 § overfitting を低減・汎化性能を向上 本研究: ドロップアウトは、 underfitting も低減させているのではないか?
  4. 6 2023/5/5 2023/5/5 ドロップアウトが underfitting を防ぐ理由 (1/3) ▪ 実験から分かった2つの事実 §

    勾配のノルム § 𝑔 ! を計算 § ドロップアウトを用いると小さく § 勾配更新量 (歩幅) は小さく § 初期点からの移動距離 § 𝑊" − 𝑊! ! を計算 § ドロップアウトを用いると大きく ▪ ドロップアウトを用いると、歩幅は小さいが、移動距離は大きい → 仮説: 勾配が蛇行をせずに一定方向に進んでいるのでは?(右図) 図: 勾配のノルム 図: 移動距離
  5. 7 2023/5/5 2023/5/5 ドロップアウトが underfitting を防ぐ理由 (2/3) ▪ 本当に一定方向に進んでいるのか? §

    勾配の方向の分散を算出 § ドロップアウトありの方が、初期段階で分散は小さい → 一定方向に進むという仮説は妥当 → その方向は,正しい方向なのかという新しい疑問
  6. 8 2023/5/5 2023/5/5 ドロップアウトが underfitting を防ぐ理由 (3/3) ▪ 正しい方向に進んでいるのか? §

    真の勾配とミニバッチの勾配方向の誤差を算出 § 学習初期では,ドロップアウトありの方が,真の勾配方向に近い § 正しい方向に一定に進んでいる § モデルがデータに適合しやすくなり、 underfitting を低減 § 学習後期では、ドロップアウトありだと、真の勾配から離れる § 勾配のノイズにより、フラットな解に収束し、overfitting を低減
  7. 9 2023/5/5 2023/5/5 実験 ▪ 実験目的: Early dropout と late

    dropout の有用性の確認 § early dropout で underfitting の低減を期待 § late dropout で overfitting の低減を期待 ▪ ImageNet 分類タスクで,通常のドロップアウト,early dropout, late dropout を比較 ▪ stochastic depth [3] も同様に検証 § Stochastic depth: 残差ブロックを一定確率でドロップ § スキップ接続のドロップアウトとみなせる § ドロップアウトと同様な特性を持つはず 図: stochastic depth[3] の概要
  8. 10 2023/5/5 2023/5/5 結果 | early dropout の結果 ▪ 標準のドロップアウト・標準の

    s.d. により,正解率は劣化,訓練誤差は上昇 § 大量のデータが利用可能な場合,標準のドロップアウトは,適切ではない可能性 ▪ early dropout ・early s.d. により、正解率を改善、訓練誤差は減少 § 初期段階の underfitting を低減し,訓練誤差を減らす § モデルがデータに適合しやすくなる
  9. 11 2023/5/5 2023/5/5 結果|late dropout (late s.d.) の結果 ▪ ドロップアウトの代わりに

    stochastic depth で実験 ▪ late s.d. は,標準の s.d. と比べて,精度が改善 § 先行研究の linear-increasing s.d. , curriculum s.d. [4] よりも高い精度 § 効果的に overfiting を低減
  10. 12 2023/5/5 2023/5/5 まとめ ▪ 背景 § ドロップアウトは,overfitting を低減するために Hinton

    らによって導入 ▪ 本研究 § いくつかの実験事実から,ドロップアウトは学習初期で underfitting を低減するという仮説を提唱 § early dropout, late dropout を提案,その有用性を検証 ▪ 実験・結果 § ImageNetの分類タスクで,early dropout と late dropout を標準のドロップアウトと比較 § early dropout はunderfitting を低減させ,late dropout はoverfitting を低減することを実証
  11. 13 2023/5/5 2023/5/5 参考文献 [1] Z. Liu, Z. Xu, J.

    Jin, Z. Shen, and T. Darrell, “Dropout Reduces Underfitting.” arXiv, Mar. 02, 2023. doi: 10.48550/arXiv.2303.01500. [2] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A Simple Way to Prevent Neural Networks from Overfitting”. [3] G. Huang, Y. Sun, Z. Liu, D. Sedra, and K. Weinberger, “Deep Networks with Stochastic Depth.” arXiv, Jul. 28, 2016. Accessed: Apr. 14, 2023. [Online]. [4] P. Morerio, J. Cavazza, R. Volpi, R. Vidal, and V. Murino, “Curriculum Dropout.” arXiv, Aug. 03, 2017. Accessed: Apr. 14, 2023. [Online].