Upgrade to Pro — share decks privately, control downloads, hide ads and more …

【宝くじ仮説】Lottery Ticket Hypothesis

【宝くじ仮説】Lottery Ticket Hypothesis

ICLR 2019でBest Paper Awardを受賞したThe Lottery Ticket Hypothesis(宝くじ仮説、宝くじ券仮説)について紹介しています。
TensorFlow User Group「NN論文を肴に酒を飲む会 #6」発表資料。
https://www.slideshare.net/YosukeShinya/the-lottery-ticket-hypothesis-finding-small-trainable-neural-networks より移行。

Yosuke Shinya

July 10, 2018
Tweet

More Decks by Yosuke Shinya

Other Decks in Technology

Transcript

  1. The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks TFUG,

    NN論文を肴に酒を飲む会 #6 2018/7/5 紹介者:進矢陽介 2018/7/10 追記・修正
  2. 自己紹介 2007~2014 東京大学 話者認識 形状の数式表現、Mixed Reality 2014~2015 三菱電機 車内センシング(ドライバモニタ) 2015~

    デンソー(東京支社) 車外センシング(物体検出等) 技術動向調査(論文・特許) http://toyota.jp/technology/safety/toyota_safety_sense_p/ より引用 三菱電機公式サイトより引用 ※本発表は個人として行うものであり 所属組織を代表するものではありません
  3. ディープの闇1:ガチャ問題 • DNNの重み初期値は乱数で決定されることが多い • ランダムSEEDによって精度が大きく変動し、 ガチャ、くじ、運ゲーの要素を持つ https://twitter.com/mosko_mule/status/877318385381421056 https://twitter.com/takayosiy/status/997145407183503361 ・Deep Reinforcement

    Learning that Matters [Peter Henderson+, AAAI2018] https://arxiv.org/abs/1709.06560 ・Deep Reinforcement Learning Doesn't Work Yet https://www.alexirpan.com/2018/02/14/rl-hard.html ・How Many Random Seeds? [Cédric Colas+, arXiv2018] https://arxiv.org/abs/1806.08295 強化学習での例 https://twitter.com/musyokudon/status/873478045847273472
  4. 紹介論文 The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks

    著者:Jonathan Frankle, Michael Carbin https://arxiv.org/abs/1803.03635 (本資料では arXiv v3(NIPS2018投稿版)をベースに紹介) ♪D.N.ネットワークはガチャなのか? 根底にある発想 大きなネットワークの方が学習しやすいのって たくさん”くじ”引いてるからじゃねーの?
  5. 宝くじ券仮説の実験的な確かめ方(pruningによる当選券抽出) 図は [Song Han+, NIPS2015] を元に作成 (2) 学習 (3) pruning

    (5) 再学習 (4) (1)でのランダム初期値に リセットし、当選券抽出 (1) ランダム初期化
  6. 実験条件 • [Song Han+, NIPS2015]同様、重みの絶対値が小さい接続をpruning • One-shot pruning:学習後、所望のサイズまで一気にpruning • Iterative

    pruning:学習、pruning、重みリセットを繰り返し、 徐々にネットワークを小さくする • ネットワーク設計等
  7. 実験結果:fully-connected network, MNIST • Random reinitialization - 構造:当選券と同じ - 初期値:最初のランダム初期値とは別のランダム初期値

    • Random rearrangement - 構造:層内で接続をシャッフル - 初期値:当選券と同じ 当選券が抽出している構造・初期値は、両方とも重要 対照実験
  8. 関連研究(RandomOut) RandomOut: Using a convolutional gradient norm to win The

    Filter Lottery [Joseph Paul Cohen+, ICLRW2016] https://openreview.net/forum?id=2xwPmERVBtpKBZvXtQnD https://arxiv.org/abs/1602.05931 初期値ガチャ問題を正面突破する論文 • CNNのフィルタは初期化に敏感で、 ランダムSEEDによって精度も学習されるフィルタも変わる • 当選して、満足いく精度に収束したらSEEDが決まるため、 この問題を “The Filter Lottery” と呼ぶ • 重要でないフィルタを初期化し直し、 探索するフィルタを増やすことで、 ネットワークサイズを大きくすることなく精度を向上させる
  9. 関連研究(接続復活系) • DSD: Dense-Sparse-Dense Training [Song Han+, ICLR2017] https://arxiv.org/abs/1607.04381 •

    Iterative Hard Thresholding (IHT) [Xiaojie Jin+, arXiv2016] https://arxiv.org/abs/1607.05423 • Dynamic Network Surgery [Yiwen Guo+, NIPS2016] https://arxiv.org/abs/1608.04493 • Deep Rewiring (DEEP R) [Guillaume Bellec+, ICLR2018] https://arxiv.org/abs/1711.05136 http://db-event.jpn.org/deim2018/data/papers/317.pdf
  10. 今後の方向性、Limitations • 宝くじ券仮説に基づく、アーキテクチャ、初期化スキーム、学習スキームの設計 - 学習のできるだけ早い段階で当選券を特定できると良い 学習中にpruningを行う手法は、当選券を特定して得しているかもしれない*1 • 宝くじ券仮説の理論解明 - 何故当選券は効果的に学習可能なのか

    - サブネットワークを当選券にさせる特性は何か - 当選券を含むことが、ネットワークの学習に成功するのに必要/十分か • 画像以外のデータセット・アーキテクチャの考慮 • pruning以外による当選券の発見 • 学習方法と当選券発見方法の関係の調査 (何故momentumの有無で当選券発見可否が変わるのか) *1:学習後にpruningする手法(学習の収束を待つ手法)と、 学習中にpruningする手法(学習の収束を待たずに、最終的な重みが決まる前からpruningを始める手法)があるが、 宝くじ券仮説は、当選券を正しく特定できさえすれば、収束を待つどころか学習を始める前からpruningできることを示唆している。 実際には、当選券特定方法が問題となるため、早く正確に当選券を特定可能な、学習中にpruningする手法の開発が重要と考えられる。
  11. 補足:関連するかもしれない研究 • Generalization in Deep Networks: The Role of Distance

    from Initialization [Vaishnavh Nagarajan+, NIPSW2017] http://www.cs.cmu.edu/~vaishnan/papers/nips17_dltp.pdf • Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks [Behnam Neyshabur+, arXiv2018] https://arxiv.org/abs/1805.12076 ランダム初期化時と学習後の重みの値の距離に基づいて汎化誤差を分析 • DropBack: Continuous Pruning During Training [Maximilian Golub+, arXiv2018] https://arxiv.org/abs/1806.06949 • Intriguing Properties of Randomly Weighted Networks: Generalizing While Learning Next to Nothing [Amir Rosenfeld+,arXiv2018] https://arxiv.org/abs/1802.00844 重みの大半をランダム初期値で固定し、一部の重みのみを更新 • Insights on representational similarity in neural networks with canonical correlation [Ari S. Morcos+, arXiv2018] https://arxiv.org/abs/1806.05759 大きなネットワークほど似た解に収束する
  12. 補足:AutoMLとpruningの関係 • constructive/destructive algorithmsは、 単調に変形を行うstructural hill climbingであり、 structural local minimaに陥りやすいという指摘がある

    [Peter J. Angeline+, Neural Networks 1994] • pruningや以下のようなアーキテクチャ探索手法は、 人間が良い初期構造・探索空間を設定することが重要と考えられる - NASH [Thomas Elsken+, ICLRW2018] https://arxiv.org/abs/1711.04528 https://www.slideshare.net/takahirokubo7792/1simple-and-efficient-architecture-search-for-convolutional-neural-networks - DARTS [Hanxiao Liu+, arXiv2018] https://arxiv.org/abs/1806.09055 https://www.slideshare.net/YutaKoreeda/darts-differentiable-architecture-search (重要性の低いoperationをpruningしている)