論文紹介：Swapout: Learning an ensemble of deep architectures

⽂献紹介 S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an
ensemble of deep architectures,” arXiv, 2016 ⻫藤翔汰 2016年7⽉6⽇ 1

◆ • S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning
an ensemble of deep architectures,” arXiv, 2016 • NIPS2016に提出中のプレプリント • DropoutやResNetを確率モデルとして⼀般化したということで興味が出たため • レイヤーやユニットを無効化するスケジュールをIGOで決定できるかもと考えたため 2 ⽂献情報・この論⽂を選んだ理由

◆ • SwapoutはDropoutやStochastic Depth， Residual Architecturesを⼀般化した確率的な学習メソッド • Dropoutと同様にユニットの共適応を抑制し，レイヤーを横断したネットワークを構成
• CIFAR-10，CIFAR-100によるタスクでは， 1001層のResNetと32層のSwapout widerモデルが同じ程度の性能を⽰した 3 概要

◆ • 汎化性の向上に対する先⾏研究 o Dropout : 学習中にランダムで，あるユニットの重みをゼロにする o Stochastic
Depth : 学習中にランダムで，ある層をスキップする • これらの⼀般化であるSwapoutは，次の2つを同時に出⼒ o ランダムに選択したユニットを通過させた値 o すべての層を通過させた時の値 4 Section1 Introduction

◆ • Swapoutの操作は，DropoutやStochastic depthを⽤いることで⽣成されるすべての構造を平均化している • SwapoutがResidual Networkの⾃然な⼀般形であることで注⽬ •
実験では，同じレイヤー数でも性能が Swapout ＞Residual Network であることを⽰す 5 Section1 Introduction

◆ • ランダム性を取り⼊れて成功した⽅法 o Dropconnect : Dropoutの⼀般化であり，ユニットの代わりに結合を落とす⽅法 o Stochastic
pooling : 決定的なプーリングではなくランダムなプーリングによって，正規化する⽅法 • 明⽰的なアンサンブル o 異なるサンプルに対し，ランダムな値を⽤いて⽣成したモデル(パラメータ)で評価し，平均化すること • 暗⽰的なアンサンブル o 異なるサンプルに対し，同じモデル(パラメータ)によって評価し，平均化すること 6 Section2 Related Work

◆ • Dropoutで落としたユニットの値は，テストのときは期待値で置き換える o この操作によってʼ明⽰的なアンサンブルʼとなる • しかしSwapoutでは，正確な期待値を使うことができない •
Section4では，近似的な期待値を⽤いても Swapoutのほうが⾼い性能を出すことを⽰す • さらに暗⽰的なアンサンブルよりも明⽰的なアンサンブルのほうが⾼い結果を⽰す 7 Section2 Related Work

◆ • Figure1 : 先⾏研究とSwapoutの違い • ⨀は成分ごとの積(アダマール積) • Θ# はi.i.dベルヌーイ分布からサンプリングした
値で作ったテンソル 8 Section3 Swapout

◆ • Dropoutの定式化 • u番⽬のユニットからの出⼒の集合 ℱ(&) = {0, & ()}
9 Section3 Swapout ⨀Θ = ()⨀Θ Network

◆ • Swapoutの場合，出⼒は層の和 • 最終的な出⼒ = 0 Θ1 ⨀1 2
134 • u番⽬のユニットの出⼒の集合 ℱ(&) = { 4 & , 5 & , … , 4 & + 5 & , … , ∑ 1 & 1 } • 1層の場合 = Θ4 ⨀ + Θ5 ⨀ ℱ(&) = {0, & , & , & + & ()} 10 Section3 Swapout

◆ • Θ4 やΘ5 をランダムに選ぶことで，Dropoutや Stochastic depth, Residual Networkすべての構造をカバーしている
• SwapoutはDropoutの性質も維持している o 共適応の抑制 • ユニットを落とす • 以前の層の値を利⽤する(Swapout特有) 11 Section3 Swapout

◆ • Dropoutは確率的勾配降下法によって安定性が強化される • Swapoutでも，その⼿続きを⼀般化する o : ネットワークに適⽤されたリプシッツ定数 o
() : パラメータによる勾配 o () : ユニットを落としたネットワークでの勾配 • Relevant enabling lemmaの中の極⼤点は， < ≦ 12 Section3 Swapout

◆ • Swapoutに関する勾配 o []() : Swapoutでの勾配 o []() :
Θ1 を選択したときの最⼤のリプシッツ定数を適⽤したSwapoutでの勾配 • Swapoutのネットワークでを適⽤ []() ≦ []() ≦ • この結果より，Swapoutの安定性は全く悪くならないことがわかる • また，推測したの軽量な条件を提供することで安定性はさらに向上する 13 Section3 Swapout

◆ • SwapoutとDropoutの違い o Dropout : ReLU Θ⨀ = ReLU(
Θ⨀ ) o Swapout : ReLU Θ4 ⨀ + Θ5 ⨀ )と ReLU( Θ4 ⨀ + Θ5 ⨀ は⼀般的には異なる • この結果を無視することで，実験的な期待値の評価には成功 • 性能が向上するのは確率的推定の⽅ 14 Sect.3.1 Inference in Stochastic Networks

◆ • Srivastavaらは決定論的推論のほうが計算に必要なデータは著しく削減されると主張している • 実験結果では同じデータ件数で⽐較すると Swapoutのほうがエラーが少ない o Swapoutのほうがデータは少なくて済む
o さらに計算コストも削減されている • 決定論的推論を⾏う際に，Batch normalizationを使うと性能向上にはつながらない 15 Sect.3.1 Inference in Stochastic Networks

◆ • ResNet(左側がv1，右側がv2) [5] K. He, X. Zhang, S. Ren,
and J. Sun. Identity mappings in deep residual networks. CoRR, abs/1603.05027, 2016. 16 Sect.3.2 Baseline comparison methods

◆ • Dropout : = Θ⨀() • Layer Dropout :
= + Θ(4×4) o Θ(4×4) : ベルヌーイ分布に従う1つの乱数をすべてのユニットにかける • Skip forward : = Θ⨀ + (1 − Θ)⨀ ℱ(&) = { & , & } 17 Sect.3.2 Baseline comparison methods

◆ • Table1 o タスクはCIFAR-10による分類 o レイヤーは20層 o Widthは2種類 •
W×1は(16,32,64) • W×2は(32,64,128) o Swapoutなど確率パラメータはLinear(1,0.5) • Linear(a,b)は，aからbまでの線形補間 o ResNet v1(or v2) OursはSwapoutの枠組みから導出したResNet 18 Section4 Experiments

◆ • Sect.3.2で⽰したbaselineとなる⼿法よりも Swapboxのほうが性能が良い(Table1) 19 Section4 Experiments

◆ • Table2 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o レイヤーは20層 o
WidthはW×2 o 4 ，5 はベルヌーイ分布のハイパーパラメータ • Table3 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o ()内はレイヤーの数 o ResNet v2は決定論的な⽅法を使⽤ 20 Section4 Experiments

◆ • ベルヌーイ分布のハイパーパラメータは，浅い層ほどランダム性を低くスケジュールしておく⽅が良い(Table2) 21 Section4 Experiments

◆ • ResNetと⽐較するとSwapoutのほうが良い性能を⽰している(Table3) • この違いはアンサンブルの有無から⽣じる • Widthを⼤きくすることが性能向上に重要 22 Section4
Experiments

◆ • 確率論的なスケジューリングをすると，少ないサンプル数でErrorを低くすることができる 23 Section4 Experiments

◆ • Table4 o タスクはCIFAR-10による分類 o 記号等は他と同様 • Table5 o
タスクはCIFAR-100による分類 o 記号等は他と同様 24 Section4 Experiments

◆ • Swapoutでは，ResNetなどと⽐べて少ないパラメータ数で⾼い性能を⽰す(Table4) 25 Section4 Experiments

◆ • 32層のSwapoutと1001層のResNetが同じ程度の性能を⽰す(Table5) 26 Section4 Experiments

◆ • Swapoutであれば，浅いネットワークでも Deepなものと同様あるいはそれ以上の性能を出す • すべての実験でトップのパフォーマンス • Batch Normalizationとの併⽤はまだ難しい
• Swapoutが成功した理由などが今後の課題 27 Section5 Discussion and future work

論文紹介：Swapout: Learning an ensemble of deep arch...

論文紹介：Swapout: Learning an ensemble of deep architectures

S.Shota

More Decks by S.Shota

Other Decks in Technology

Featured

Transcript

⽂献紹介 S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an

◆ • S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning

◆ • SwapoutはDropoutやStochastic Depth， Residual Architecturesを⼀般化した確率的な学習メソッド • Dropoutと同様にユニットの共適応を抑制し，レイヤーを横断したネットワークを構成

◆ • 汎化性の向上に対する先⾏研究 o Dropout : 学習中にランダムで，あるユニットの重みをゼロにする o Stochastic

◆ • Swapoutの操作は，DropoutやStochastic depthを⽤いることで⽣成されるすべての構造を平均化している • SwapoutがResidual Networkの⾃然な⼀般形であることで注⽬ •

◆ • ランダム性を取り⼊れて成功した⽅法 o Dropconnect : Dropoutの⼀般化であり，ユニットの代わりに結合を落とす⽅法 o Stochastic

◆ • Dropoutで落としたユニットの値は，テストのときは期待値で置き換える o この操作によってʼ明⽰的なアンサンブルʼとなる • しかしSwapoutでは，正確な期待値を使うことができない •

◆ • Figure1 : 先⾏研究とSwapoutの違い • ⨀は成分ごとの積(アダマール積) • Θ# はi.i.dベルヌーイ分布からサンプリングした

◆ • Dropoutの定式化 • u番⽬のユニットからの出⼒の集合 ℱ(&) = {0, & ()}

◆ • Swapoutの場合，出⼒は層の和 • 最終的な出⼒ = 0 Θ1 ⨀1 2

◆ • Θ4 やΘ5 をランダムに選ぶことで，Dropoutや Stochastic depth, Residual Networkすべての構造をカバーしている

◆ • Dropoutは確率的勾配降下法によって安定性が強化される • Swapoutでも，その⼿続きを⼀般化する o : ネットワークに適⽤されたリプシッツ定数 o

◆ • Swapoutに関する勾配 o []() : Swapoutでの勾配 o []() :

◆ • SwapoutとDropoutの違い o Dropout : ReLU Θ⨀ = ReLU(

◆ • Srivastavaらは決定論的推論のほうが計算に必要なデータは著しく削減されると主張している • 実験結果では同じデータ件数で⽐較すると Swapoutのほうがエラーが少ない o Swapoutのほうがデータは少なくて済む

◆ • ResNet(左側がv1，右側がv2) [5] K. He, X. Zhang, S. Ren,

◆ • Dropout : = Θ⨀() • Layer Dropout :

◆ • Table1 o タスクはCIFAR-10による分類 o レイヤーは20層 o Widthは2種類 •

◆ • Sect.3.2で⽰したbaselineとなる⼿法よりも Swapboxのほうが性能が良い(Table1) 19 Section4 Experiments

◆ • Table2 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o レイヤーは20層 o

◆ • ベルヌーイ分布のハイパーパラメータは，浅い層ほどランダム性を低くスケジュールしておく⽅が良い(Table2) 21 Section4 Experiments

◆ • ResNetと⽐較するとSwapoutのほうが良い性能を⽰している(Table3) • この違いはアンサンブルの有無から⽣じる • Widthを⼤きくすることが性能向上に重要 22 Section4

◆ • 確率論的なスケジューリングをすると，少ないサンプル数でErrorを低くすることができる 23 Section4 Experiments

◆ • Table4 o タスクはCIFAR-10による分類 o 記号等は他と同様 • Table5 o

◆ • Swapoutでは，ResNetなどと⽐べて少ないパラメータ数で⾼い性能を⽰す(Table4) 25 Section4 Experiments

◆ • 32層のSwapoutと1001層のResNetが同じ程度の性能を⽰す(Table5) 26 Section4 Experiments

◆ • Swapoutであれば，浅いネットワークでも Deepなものと同様あるいはそれ以上の性能を出す • すべての実験でトップのパフォーマンス • Batch Normalizationとの併⽤はまだ難しい