Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:The Effect of Gradient Noise on the Energy Landscape of Deep Networks

S.Shota
September 20, 2016

論文紹介:The Effect of Gradient Noise on the Energy Landscape of Deep Networks

2016/09/20の論文紹介ゼミで使用したスライドです.
論文:P. Chaudhari and S. Soatto, “The Effect of Gradient Noise on the Energy Landscape of Deep Networks,” Preprint:arXiv1511.06485v4, Nov. 2015.

https://arxiv.org/abs/1511.06485

S.Shota

September 20, 2016
Tweet

More Decks by S.Shota

Other Decks in Technology

Transcript

  1. 論⽂紹介 P. Chaudhari and S. Soatto, “The Effect of Gradient

    Noise on the Energy Landscape of Deep Networks,” Prepaper arXiv1511.06485v4, Nov. 2015. ⻫藤 翔汰 2016年9⽉20⽇ 1
  2. ◆ • ⽬的関数の勾配情報を⽤いるネットワークの 学習アルゴリズムの解析を⾏う • この論⽂ではspin glassの理論を⽤いる • spin glassの理論は,組合わせ最適化や熱⼒学

    の分野にて効率的なアルゴリズムを導いた • 深いネットワークを持つモデルに対して, 損失関数を球状spin glassのハミルトニアンと つなげる 3 Sec.1 Introduction
  3. ◆ • 分析を簡単にするために,次を仮定 o ⼊⼒hは,最⾼でもρである⾮ゼロの値 o d = n1/pとすると,重みの各要素Wij kは平均0のi.i.d

    の乱数値であり,次が成⽴する o Wij kのサポートする濃度はnの多項式オーダーであり, 重みの分布はゼロの近くに集中せず,ρ(d/2)pは定数 である 7 Sec.2.1 A model for deep networks
  4. ◆ • n個のスピンを持つp-spin glassについて, エネルギー関数は次で与えられる o は構成するスピン o は正規分布から⽣成される乱数 •

    エネルギー関数はハミルトニアンとも呼ばれる • Deep networkのspin glassのハミルトニアンは Lemma 1に従う 8 Sec.2.2 Deep networks as spin glasses
  5. ◆ • σ = [-N, N]n とすることで,ネットワークの 重みを表すことができる • つまり,σがネットワークを特徴づける

    パラメータ • また,スピンσは という制約がある 10 Sec.2.2 Deep networks as spin glasses
  6. ◆ • Theorem2は,GOEにおける固有値の密度に 関して,ハミルトニアンの極値の個数を特徴 づける 13 Sec.3.1 Scaling of critical

    points • 平均ゼロ,分散 のハミルトニアンに ついて,次の写像を⾏う ( ) • このとき,極値の個数の期待値は次の式で 与えられる Theorem 2
  7. ◆ 14 Sec.3.1 Scaling of critical points Theorem 2(続き) •

    ここで o はGOEの固有値の密度 • (4)式より,ノイズ⼊りのp-spin glassの ハミルトニアンを書くと • Theorem2より, :ノイズの分散 ノイズに相当 hi は正規分布から⽣成される乱数
  8. ◆ 15 Sec.3.1 Scaling of critical points • • p>2,

    nが⼤きいとき,極値の個数の期待値は 次の式で与えられる • B=0では,重要なノイズの影響を⽰す値vc と 対応する ( ) Theorem 3
  9. ◆ • Theorem3の1つ⽬のケースは,エネルギー関数 が全体で平滑化されていることを⽰す o なめらかな球⾯関数では,少なくとも1つの極⼤点と 極⼩点が存在 • もし, より⼤きいノイズを加えると,

    厳密に1つの最⼩値が存在する • であるとき,極値の個数の期待値は Thorem2に従って指数関数的に増加 16 Sec.3.1 Scaling of critical points
  10. ◆ 17 Sec.3.1 Scaling of critical points • Sec.2.1のモデル(p>>2,nが⼤きい)とき, 極値の個数の期待値をTheorem3で与えられる

    多項式領域にする条件は次式で与えられる Corollary 4 • (8)式とCorollary4より,Theorem3はB=-τ/n である必要がある • 次のLemma5は,τの役割をより明確にする
  11. ◆ 18 Sec.3.1 Scaling of critical points • B=-τ/nである場合, •

    τ>>1の場合は多項式領域 • τ→-∞(B<<1)の場合は指数領域 Lemma 5
  12. ◆ • v<vc であれば,ハミルトニアンの概形はあまり ⼤きな影響を受けない • Lemma6は⼩さなノイズに関する補題 19 Sec.3.2 Quality

    of perturbed local minima • で,nが⼗分⼤であるとき,正則化され たハミルトニアンの最⼤2vで変わる間,局所的 な極⼩点は最⾼ で摂動する Lemma 6
  13. ◆ • 重みにノイズを加える⽅法 • 更新式は次のように書ける o は平均ゼロ,分散 の正規分布に従う乱数 o はバックプロパゲーションによる勾配

    o ηは学習率 • ハミルトニアンは(7)式と同じであり, アニーリングスケジュールなども同じ 23 Sec.4.1 Additive noise
  14. ◆ • ノイズの⼤きさを変えて,ハミルトニアンの 形状を可視化する o v=1/n (指数領域) → Fig2.(A) o

    v=(1+1/n)1/2 (多項式領域) → Fig.2.(B) o v=p (1つの最⼩値しかない領域) → Fig.2.(C) • 次元圧縮にはt-SNEアルゴリズムを使⽤ o 点同⼠の距離を確率分布で表現し,圧縮前後で情報 の損失が最⼩になるようにマッピング 31 Sec.5.1 Spin glasses
  15. ◆ • Sec4.2(Weight Decay)で求めた アニーリングスケジュールを⽤いて実験 • データセットはMNISTとCIFER-10 • 全結合ネットワークを使⽤ o

    隠れ層は20個 o 1層あたりのユニット数はMNISTが64個, CIFER-10が128個 o 活性化関数はReLU o 最適化法はAdam o バッチサイズは1024 • 50epochの結果,10回分を平均してグラフ化 35 Sec.5.2 Fully-connected deep networks
  16. ◆ • データセットはCIFER-10 • 畳み込み層が8つ,全結合層が8つ o カーネル5×5で8出⼒の畳み込み層 →3×3のmax-pooling o 全結合層にはReLUを使⽤

    • 畳み込み層,プーリング層ではゼロパディング を使⽤ • 100epochで5回実験 • バッチサイズは256 38 Sec.5.3 Deep convolutional neural networks
  17. ◆ • CIFAR-10を使⽤ • ネットワークの構成 • 畳み込み層の直後にはbatch normalizationを 使⽤ •

    バッチサイズは32 • 100epochで5回実験 41 Sec.5.4 Network in network architecture