論文紹介：Swapout: Learning an ensemble of deep architectures

Slide 1

Slide 1 text

⽂献紹介 S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an ensemble of deep architectures,” arXiv, 2016 ⻫藤翔汰 2016年7⽉6⽇ 1

Slide 2

Slide 2 text

◆ • S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an ensemble of deep architectures,” arXiv, 2016 • NIPS2016に提出中のプレプリント • DropoutやResNetを確率モデルとして⼀般化したということで興味が出たため • レイヤーやユニットを無効化するスケジュールをIGOで決定できるかもと考えたため 2 ⽂献情報・この論⽂を選んだ理由

Slide 3

Slide 3 text

◆ • SwapoutはDropoutやStochastic Depth， Residual Architecturesを⼀般化した確率的な学習メソッド • Dropoutと同様にユニットの共適応を抑制し，レイヤーを横断したネットワークを構成 • CIFAR-10，CIFAR-100によるタスクでは， 1001層のResNetと32層のSwapout widerモデルが同じ程度の性能を⽰した 3 概要

Slide 4

Slide 4 text

◆ • 汎化性の向上に対する先⾏研究 o Dropout : 学習中にランダムで，あるユニットの重みをゼロにする o Stochastic Depth : 学習中にランダムで，ある層をスキップする • これらの⼀般化であるSwapoutは，次の2つを同時に出⼒ o ランダムに選択したユニットを通過させた値 o すべての層を通過させた時の値 4 Section1 Introduction

Slide 5

Slide 5 text

◆ • Swapoutの操作は，DropoutやStochastic depthを⽤いることで⽣成されるすべての構造を平均化している • SwapoutがResidual Networkの⾃然な⼀般形であることで注⽬ • 実験では，同じレイヤー数でも性能が Swapout ＞Residual Network であることを⽰す 5 Section1 Introduction

Slide 6

Slide 6 text

◆ • ランダム性を取り⼊れて成功した⽅法 o Dropconnect : Dropoutの⼀般化であり，ユニットの代わりに結合を落とす⽅法 o Stochastic pooling : 決定的なプーリングではなくランダムなプーリングによって，正規化する⽅法 • 明⽰的なアンサンブル o 異なるサンプルに対し，ランダムな値を⽤いて⽣成したモデル(パラメータ)で評価し，平均化すること • 暗⽰的なアンサンブル o 異なるサンプルに対し，同じモデル(パラメータ)によって評価し，平均化すること 6 Section2 Related Work

Slide 7

Slide 7 text

◆ • Dropoutで落としたユニットの値は，テストのときは期待値で置き換える o この操作によってʼ明⽰的なアンサンブルʼとなる • しかしSwapoutでは，正確な期待値を使うことができない • Section4では，近似的な期待値を⽤いても Swapoutのほうが⾼い性能を出すことを⽰す • さらに暗⽰的なアンサンブルよりも明⽰的なアンサンブルのほうが⾼い結果を⽰す 7 Section2 Related Work

Slide 8

Slide 8 text

◆ • Figure1 : 先⾏研究とSwapoutの違い • ⨀は成分ごとの積(アダマール積) • Θ# はi.i.dベルヌーイ分布からサンプリングした値で作ったテンソル 8 Section3 Swapout

Slide 9

Slide 9 text

◆ • Dropoutの定式化 • u番⽬のユニットからの出⼒の集合 ℱ(&) = {0, & ()} 9 Section3 Swapout ⨀Θ = ()⨀Θ Network

Slide 10

Slide 10 text

◆ • Swapoutの場合，出⼒は層の和 • 最終的な出⼒ = 0 Θ1 ⨀1 2 134 • u番⽬のユニットの出⼒の集合 ℱ(&) = { 4 & , 5 & , … , 4 & + 5 & , … , ∑ 1 & 1 } • 1層の場合 = Θ4 ⨀ + Θ5 ⨀ ℱ(&) = {0, & , & , & + & ()} 10 Section3 Swapout

Slide 11

Slide 11 text

◆ • Θ4 やΘ5 をランダムに選ぶことで，Dropoutや Stochastic depth, Residual Networkすべての構造をカバーしている • SwapoutはDropoutの性質も維持している o 共適応の抑制 • ユニットを落とす • 以前の層の値を利⽤する(Swapout特有) 11 Section3 Swapout

Slide 12

Slide 12 text

◆ • Dropoutは確率的勾配降下法によって安定性が強化される • Swapoutでも，その⼿続きを⼀般化する o : ネットワークに適⽤されたリプシッツ定数 o () : パラメータによる勾配 o () : ユニットを落としたネットワークでの勾配 • Relevant enabling lemmaの中の極⼤点は， < ≦ 12 Section3 Swapout

Slide 13

Slide 13 text

◆ • Swapoutに関する勾配 o []() : Swapoutでの勾配 o []() : Θ1 を選択したときの最⼤のリプシッツ定数を適⽤したSwapoutでの勾配 • Swapoutのネットワークでを適⽤ []() ≦ []() ≦ • この結果より，Swapoutの安定性は全く悪くならないことがわかる • また，推測したの軽量な条件を提供することで安定性はさらに向上する 13 Section3 Swapout

Slide 14

Slide 14 text

◆ • SwapoutとDropoutの違い o Dropout : ReLU Θ⨀ = ReLU( Θ⨀ ) o Swapout : ReLU Θ4 ⨀ + Θ5 ⨀ )と ReLU( Θ4 ⨀ + Θ5 ⨀ は⼀般的には異なる • この結果を無視することで，実験的な期待値の評価には成功 • 性能が向上するのは確率的推定の⽅ 14 Sect.3.1 Inference in Stochastic Networks

Slide 15

Slide 15 text

◆ • Srivastavaらは決定論的推論のほうが計算に必要なデータは著しく削減されると主張している • 実験結果では同じデータ件数で⽐較すると Swapoutのほうがエラーが少ない o Swapoutのほうがデータは少なくて済む o さらに計算コストも削減されている • 決定論的推論を⾏う際に，Batch normalizationを使うと性能向上にはつながらない 15 Sect.3.1 Inference in Stochastic Networks

Slide 16

Slide 16 text

◆ • ResNet(左側がv1，右側がv2) [5] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. CoRR, abs/1603.05027, 2016. 16 Sect.3.2 Baseline comparison methods

Slide 17

Slide 17 text

◆ • Dropout : = Θ⨀() • Layer Dropout : = + Θ(4×4) o Θ(4×4) : ベルヌーイ分布に従う1つの乱数をすべてのユニットにかける • Skip forward : = Θ⨀ + (1 − Θ)⨀ ℱ(&) = { & , & } 17 Sect.3.2 Baseline comparison methods

Slide 18

Slide 18 text

◆ • Table1 o タスクはCIFAR-10による分類 o レイヤーは20層 o Widthは2種類 • W×1は(16,32,64) • W×2は(32,64,128) o Swapoutなど確率パラメータはLinear(1,0.5) • Linear(a,b)は，aからbまでの線形補間 o ResNet v1(or v2) OursはSwapoutの枠組みから導出したResNet 18 Section4 Experiments

Slide 19

Slide 19 text

◆ • Sect.3.2で⽰したbaselineとなる⼿法よりも Swapboxのほうが性能が良い(Table1) 19 Section4 Experiments

Slide 20

Slide 20 text

◆ • Table2 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o レイヤーは20層 o WidthはW×2 o 4 ，5 はベルヌーイ分布のハイパーパラメータ • Table3 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o ()内はレイヤーの数 o ResNet v2は決定論的な⽅法を使⽤ 20 Section4 Experiments

Slide 21

Slide 21 text

◆ • ベルヌーイ分布のハイパーパラメータは，浅い層ほどランダム性を低くスケジュールしておく⽅が良い(Table2) 21 Section4 Experiments

Slide 22

Slide 22 text

◆ • ResNetと⽐較するとSwapoutのほうが良い性能を⽰している(Table3) • この違いはアンサンブルの有無から⽣じる • Widthを⼤きくすることが性能向上に重要 22 Section4 Experiments

Slide 23

Slide 23 text

◆ • 確率論的なスケジューリングをすると，少ないサンプル数でErrorを低くすることができる 23 Section4 Experiments

Slide 24

Slide 24 text

◆ • Table4 o タスクはCIFAR-10による分類 o 記号等は他と同様 • Table5 o タスクはCIFAR-100による分類 o 記号等は他と同様 24 Section4 Experiments

Slide 25

Slide 25 text

◆ • Swapoutでは，ResNetなどと⽐べて少ないパラメータ数で⾼い性能を⽰す(Table4) 25 Section4 Experiments

Slide 26

Slide 26 text

◆ • 32層のSwapoutと1001層のResNetが同じ程度の性能を⽰す(Table5) 26 Section4 Experiments

Slide 27

Slide 27 text

◆ • Swapoutであれば，浅いネットワークでも Deepなものと同様あるいはそれ以上の性能を出す • すべての実験でトップのパフォーマンス • Batch Normalizationとの併⽤はまだ難しい • Swapoutが成功した理由などが今後の課題 27 Section5 Discussion and future work