深層学習は奔流に身をまかせ機械学習の社会実装勉強会第20回Henry2023/2/18
View Slide
モチベーション■ ペインポイント● 深層モデルの学習で望ましい効果を素早く得るのは難しい● 実データのラベルにノイズが多い● その問題点の一つに、過適合が挙げられる■ 過適合を解消するための様々な正則化手法がある● weight decay や learning rate scheduler● Pytorchで簡単に使える■ 今日は最近の研究から、実用性が高い新しい正則化手法を紹介する● 特に実装が楽● まだあまり知られていない2
紹介する論文■ Do We Need Zero Training Loss After Achieving ZeroTraining Error?, Ishida et al., ICML 2020● Floodingという新しい正則化手法を導入■ iFlood: A Stable and Effective Regularizer, Xie et al., ICLR2022● Floodingの計算式を少しだけ改良3
Ishida et al., ICML 2020■ モチベーション● 学習データでの損失を0まで学習を行ったほうが良いと言われる● しかし、これは本当に必要なのか● 正則化手法は、学習データでの損失を過度に最小化しないための間接的な手法と見なせる■ 直接学習損失の最小化を制限する手法:Flooding● 実装も簡単● 学習損失は0じゃなくても、学習精度が100%の可能性もある4
Ishida et al., ICML 2020■ 提案法は以下の性質をすべて満たす初めての正則化手法● 学習損失を直接制限する● 特定の問題ドメインに依存しない● 特定のタスクに依存しない● 特定のモデルに依存しない■ 提案法の仮設もシンプルで、「0の学習損失が有害」のみ■ 検証損失の二重降下に関する初めて研究5
Ishida et al., ICML 2020■ 人工データで有意な性能向上6
Ishida et al., ICML 2020■ 実データでも有意な性能向上■ その他、Floodingによる勾配値の変化や解の平坦性なども調査7
Xie et al., ICLR 2022■ Floodingにデータインスタンスの勾配が乖離する問題● バッチで平均を取るので、同じバッチにある他のデータインスタンスの損失に依存する■ 提案手法:絶対値をバッチで取るではなく、各データインスタンスレベルで取るので、indivisual Flood (iFlood)と呼ぶ■ 各手法のインスタンスの損失のヒストグラム8
Xie et al., ICLR 2022■ 確かに性能向上につながる■ その他も、勾配のノルムやノイズ耐性などを検証9
まとめ■ 実用性高い正則化手法のFloodingとその改良版のiFlood■ 実装がシンプルで試しやすい10