Upgrade to Pro — share decks privately, control downloads, hide ads and more …

論文紹介:Swapout: Learning an ensemble of deep architectures

S.Shota
July 06, 2016

論文紹介:Swapout: Learning an ensemble of deep architectures

2016年07月06日の論文紹介ゼミで使用したスライドです
論文:S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an ensemble of deep architectures,” arXiv, 2016

NIPS2016に採択されています.
http://papers.nips.cc/paper/6205-swapout-learning-an-ensemble-of-deep-architectures

S.Shota

July 06, 2016
Tweet

More Decks by S.Shota

Other Decks in Technology

Transcript

  1. ⽂献紹介 S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an

    ensemble of deep architectures,” arXiv, 2016 ⻫藤 翔汰 2016年7⽉6⽇ 1
  2. ◆ • S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning

    an ensemble of deep architectures,” arXiv, 2016 • NIPS2016に提出中のプレプリント • DropoutやResNetを確率モデルとして⼀般化し たということで興味が出たため • レイヤーやユニットを無効化するスケジュール をIGOで決定できるかもと考えたため 2 ⽂献情報・この論⽂を選んだ理由
  3. ◆ • 汎化性の向上に対する先⾏研究 o Dropout : 学習中にランダムで,あるユニットの重 みをゼロにする o Stochastic

    Depth : 学習中にランダムで,ある層を スキップする • これらの⼀般化であるSwapoutは,次の2つを 同時に出⼒ o ランダムに選択したユニットを通過させた値 o すべての層を通過させた時の値 4 Section1 Introduction
  4. ◆ • ランダム性を取り⼊れて成功した⽅法 o Dropconnect : Dropoutの⼀般化であり,ユニット の代わりに結合を落とす⽅法 o Stochastic

    pooling : 決定的なプーリングではなくラ ンダムなプーリングによって,正規化する⽅法 • 明⽰的なアンサンブル o 異なるサンプルに対し,ランダムな値を⽤いて⽣成 したモデル(パラメータ)で評価し,平均化すること • 暗⽰的なアンサンブル o 異なるサンプルに対し,同じモデル(パラメータ)に よって評価し,平均化すること 6 Section2 Related Work
  5. ◆ • Dropoutで落としたユニットの値は,テストの ときは期待値で置き換える o この操作によってʼ明⽰的なアンサンブルʼとなる • しかしSwapoutでは,正確な期待値を使うこと ができない •

    Section4では,近似的な期待値を⽤いても Swapoutのほうが⾼い性能を出すことを⽰す • さらに暗⽰的なアンサンブルよりも明⽰的なア ンサンブルのほうが⾼い結果を⽰す 7 Section2 Related Work
  6. ◆ • Swapoutの場合,出⼒は層の和 • 最終的な出⼒ = 0 Θ1 ⨀1 2

    134 • u番⽬のユニットの出⼒の集合 ℱ(&) = { 4 & , 5 & , … , 4 & + 5 & , … , ∑ 1 & 1 } • 1層の場合 = Θ4 ⨀ + Θ5 ⨀ ℱ(&) = {0, & , & , & + & ()} 10 Section3 Swapout
  7. ◆ • Θ4 やΘ5 をランダムに選ぶことで,Dropoutや Stochastic depth, Residual Networkすべての 構造をカバーしている

    • SwapoutはDropoutの性質も維持している o 共適応の抑制 • ユニットを落とす • 以前の層の値を利⽤する(Swapout特有) 11 Section3 Swapout
  8. ◆ • Dropoutは確率的勾配降下法によって安定性が 強化される • Swapoutでも,その⼿続きを⼀般化する o : ネットワークに適⽤されたリプシッツ定数 o

    () : パラメータによる勾配 o () : ユニットを落としたネットワークでの勾配 • Relevant enabling lemmaの中の極⼤点は, < ≦ 12 Section3 Swapout
  9. ◆ • Swapoutに関する勾配 o []() : Swapoutでの勾配 o []() :

    Θ1 を選択したときの最⼤のリプシッツ 定数を適⽤したSwapoutでの勾配 • Swapoutのネットワークでを適⽤ []() ≦ []() ≦ • この結果より,Swapoutの安定性は全く悪くな らないことがわかる • また,推測したの軽量な条件を提供することで 安定性はさらに向上する 13 Section3 Swapout
  10. ◆ • SwapoutとDropoutの違い o Dropout : ReLU Θ⨀ = ReLU(

    Θ⨀ ) o Swapout : ReLU Θ4 ⨀ + Θ5 ⨀ )と ReLU( Θ4 ⨀ + Θ5 ⨀ は⼀般的には異なる • この結果を無視することで,実験的な期待値の 評価には成功 • 性能が向上するのは確率的推定の⽅ 14 Sect.3.1 Inference in Stochastic Networks
  11. ◆ • Srivastavaらは決定論的推論のほうが計算に 必要なデータは著しく削減されると主張して いる • 実験結果では同じデータ件数で⽐較すると Swapoutのほうがエラーが少ない o Swapoutのほうがデータは少なくて済む

    o さらに計算コストも削減されている • 決定論的推論を⾏う際に,Batch normalizationを使うと性能向上には つながらない 15 Sect.3.1 Inference in Stochastic Networks
  12. ◆ • ResNet(左側がv1,右側がv2) [5] K. He, X. Zhang, S. Ren,

    and J. Sun. Identity mappings in deep residual networks. CoRR, abs/1603.05027, 2016. 16 Sect.3.2 Baseline comparison methods
  13. ◆ • Dropout : = Θ⨀() • Layer Dropout :

    = + Θ(4×4) o Θ(4×4) : ベルヌーイ分布に従う1つの乱数をすべての ユニットにかける • Skip forward : = Θ⨀ + (1 − Θ)⨀ ℱ(&) = { & , & } 17 Sect.3.2 Baseline comparison methods
  14. ◆ • Table1 o タスクはCIFAR-10による分類 o レイヤーは20層 o Widthは2種類 •

    W×1は(16,32,64) • W×2は(32,64,128) o Swapoutなど確率パラメータはLinear(1,0.5) • Linear(a,b)は,aからbまでの線形補間 o ResNet v1(or v2) OursはSwapoutの枠組みから 導出したResNet 18 Section4 Experiments
  15. ◆ • Table2 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o レイヤーは20層 o

    WidthはW×2 o 4 ,5 はベルヌーイ分布のハイパーパラメータ • Table3 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o ()内はレイヤーの数 o ResNet v2は決定論的な⽅法を使⽤ 20 Section4 Experiments
  16. ◆ • Table4 o タスクはCIFAR-10による分類 o 記号等は他と同様 • Table5 o

    タスクはCIFAR-100による分類 o 記号等は他と同様 24 Section4 Experiments