論⽂紹介
P. Chaudhari and S. Soatto,
“The Effect of Gradient Noise on the Energy
Landscape of Deep Networks,”
Prepaper arXiv1511.06485v4, Nov. 2015.
⻫藤 翔汰
2016年9⽉20⽇
1
◆
• ⾼いエネルギー障壁が存在する場合,SGDは
停⽌してしまう
• この論⽂では,この問題を解決するために
トポロジー平滑化を⽤いる
• 勾配にノイズを加える⽅法は,平滑化されてい
ない損失関数に対するアプリケーション
5
Sec.1.1 Related work
Slide 6
Slide 6 text
◆
• 1層あたりn個のユニットを持つp個の隠れ層
• ネットワークからの出⼒Xを,⼊⼒h,重みW,
活性化関数gを使って書き表すと
• 式(1)に習って,途中の層からの出⼒も定式化
• この式に従うと,X=h0,h=hpと書ける
6
Sec.2.1 A model for deep networks
Slide 7
Slide 7 text
◆
• 分析を簡単にするために,次を仮定
o ⼊⼒hは,最⾼でもρである⾮ゼロの値
o d = n1/pとすると,重みの各要素Wij
kは平均0のi.i.d
の乱数値であり,次が成⽴する
o Wij
kのサポートする濃度はnの多項式オーダーであり,
重みの分布はゼロの近くに集中せず,ρ(d/2)pは定数
である
7
Sec.2.1 A model for deep networks
Slide 8
Slide 8 text
◆
• n個のスピンを持つp-spin glassについて,
エネルギー関数は次で与えられる
o は構成するスピン
o は正規分布から⽣成される乱数
• エネルギー関数はハミルトニアンとも呼ばれる
• Deep networkのspin glassのハミルトニアンは
Lemma 1に従う
8
Sec.2.2 Deep networks as spin glasses
Slide 9
Slide 9 text
◆
• もし正解データ であるとき,損失関数
は から次の式で与えられる
o はガウス分布から⽣成される乱数
o は定数
o
9
Sec.2.2 Deep networks as spin glasses
Lemma 1
◆
• Sec4.2(Weight Decay)で求めた
アニーリングスケジュールを⽤いて実験
• データセットはMNISTとCIFER-10
• 全結合ネットワークを使⽤
o 隠れ層は20個
o 1層あたりのユニット数はMNISTが64個,
CIFER-10が128個
o 活性化関数はReLU
o 最適化法はAdam
o バッチサイズは1024
• 50epochの結果,10回分を平均してグラフ化
35
Sec.5.2 Fully-connected deep networks