Slide 1

Slide 1 text

⽂献紹介 S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an ensemble of deep architectures,” arXiv, 2016 ⻫藤 翔汰 2016年7⽉6⽇ 1

Slide 2

Slide 2 text

◆ • S. Singh, D. Hoiem, D. Forsyth, "Swapout: Learning an ensemble of deep architectures,” arXiv, 2016 • NIPS2016に提出中のプレプリント • DropoutやResNetを確率モデルとして⼀般化し たということで興味が出たため • レイヤーやユニットを無効化するスケジュール をIGOで決定できるかもと考えたため 2 ⽂献情報・この論⽂を選んだ理由

Slide 3

Slide 3 text

◆ • SwapoutはDropoutやStochastic Depth, Residual Architecturesを⼀般化した確率的な 学習メソッド • Dropoutと同様にユニットの共適応を抑制し, レイヤーを横断したネットワークを構成 • CIFAR-10,CIFAR-100によるタスクでは, 1001層のResNetと32層のSwapout widerモデ ルが同じ程度の性能を⽰した 3 概要

Slide 4

Slide 4 text

◆ • 汎化性の向上に対する先⾏研究 o Dropout : 学習中にランダムで,あるユニットの重 みをゼロにする o Stochastic Depth : 学習中にランダムで,ある層を スキップする • これらの⼀般化であるSwapoutは,次の2つを 同時に出⼒ o ランダムに選択したユニットを通過させた値 o すべての層を通過させた時の値 4 Section1 Introduction

Slide 5

Slide 5 text

◆ • Swapoutの操作は,DropoutやStochastic depthを⽤いることで⽣成されるすべての構造 を平均化している • SwapoutがResidual Networkの ⾃然な⼀般形であることで注⽬ • 実験では,同じレイヤー数でも性能が Swapout >Residual Network であることを⽰す 5 Section1 Introduction

Slide 6

Slide 6 text

◆ • ランダム性を取り⼊れて成功した⽅法 o Dropconnect : Dropoutの⼀般化であり,ユニット の代わりに結合を落とす⽅法 o Stochastic pooling : 決定的なプーリングではなくラ ンダムなプーリングによって,正規化する⽅法 • 明⽰的なアンサンブル o 異なるサンプルに対し,ランダムな値を⽤いて⽣成 したモデル(パラメータ)で評価し,平均化すること • 暗⽰的なアンサンブル o 異なるサンプルに対し,同じモデル(パラメータ)に よって評価し,平均化すること 6 Section2 Related Work

Slide 7

Slide 7 text

◆ • Dropoutで落としたユニットの値は,テストの ときは期待値で置き換える o この操作によってʼ明⽰的なアンサンブルʼとなる • しかしSwapoutでは,正確な期待値を使うこと ができない • Section4では,近似的な期待値を⽤いても Swapoutのほうが⾼い性能を出すことを⽰す • さらに暗⽰的なアンサンブルよりも明⽰的なア ンサンブルのほうが⾼い結果を⽰す 7 Section2 Related Work

Slide 8

Slide 8 text

◆ • Figure1 : 先⾏研究とSwapoutの違い • ⨀は成分ごとの積(アダマール積) • Θ# はi.i.dベルヌーイ分布からサンプリングした 値で作ったテンソル 8 Section3 Swapout

Slide 9

Slide 9 text

◆ • Dropoutの定式化 • u番⽬のユニットからの出⼒の集合 ℱ(&) = {0, & ()} 9 Section3 Swapout ⨀Θ = ()⨀Θ Network

Slide 10

Slide 10 text

◆ • Swapoutの場合,出⼒は層の和 • 最終的な出⼒ = 0 Θ1 ⨀1 2 134 • u番⽬のユニットの出⼒の集合 ℱ(&) = { 4 & , 5 & , … , 4 & + 5 & , … , ∑ 1 & 1 } • 1層の場合 = Θ4 ⨀ + Θ5 ⨀ ℱ(&) = {0, & , & , & + & ()} 10 Section3 Swapout

Slide 11

Slide 11 text

◆ • Θ4 やΘ5 をランダムに選ぶことで,Dropoutや Stochastic depth, Residual Networkすべての 構造をカバーしている • SwapoutはDropoutの性質も維持している o 共適応の抑制 • ユニットを落とす • 以前の層の値を利⽤する(Swapout特有) 11 Section3 Swapout

Slide 12

Slide 12 text

◆ • Dropoutは確率的勾配降下法によって安定性が 強化される • Swapoutでも,その⼿続きを⼀般化する o : ネットワークに適⽤されたリプシッツ定数 o () : パラメータによる勾配 o () : ユニットを落としたネットワークでの勾配 • Relevant enabling lemmaの中の極⼤点は, < ≦ 12 Section3 Swapout

Slide 13

Slide 13 text

◆ • Swapoutに関する勾配 o []() : Swapoutでの勾配 o []() : Θ1 を選択したときの最⼤のリプシッツ 定数を適⽤したSwapoutでの勾配 • Swapoutのネットワークでを適⽤ []() ≦ []() ≦ • この結果より,Swapoutの安定性は全く悪くな らないことがわかる • また,推測したの軽量な条件を提供することで 安定性はさらに向上する 13 Section3 Swapout

Slide 14

Slide 14 text

◆ • SwapoutとDropoutの違い o Dropout : ReLU Θ⨀ = ReLU( Θ⨀ ) o Swapout : ReLU Θ4 ⨀ + Θ5 ⨀ )と ReLU( Θ4 ⨀ + Θ5 ⨀ は⼀般的には異なる • この結果を無視することで,実験的な期待値の 評価には成功 • 性能が向上するのは確率的推定の⽅ 14 Sect.3.1 Inference in Stochastic Networks

Slide 15

Slide 15 text

◆ • Srivastavaらは決定論的推論のほうが計算に 必要なデータは著しく削減されると主張して いる • 実験結果では同じデータ件数で⽐較すると Swapoutのほうがエラーが少ない o Swapoutのほうがデータは少なくて済む o さらに計算コストも削減されている • 決定論的推論を⾏う際に,Batch normalizationを使うと性能向上には つながらない 15 Sect.3.1 Inference in Stochastic Networks

Slide 16

Slide 16 text

◆ • ResNet(左側がv1,右側がv2) [5] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in deep residual networks. CoRR, abs/1603.05027, 2016. 16 Sect.3.2 Baseline comparison methods

Slide 17

Slide 17 text

◆ • Dropout : = Θ⨀() • Layer Dropout : = + Θ(4×4) o Θ(4×4) : ベルヌーイ分布に従う1つの乱数をすべての ユニットにかける • Skip forward : = Θ⨀ + (1 − Θ)⨀ ℱ(&) = { & , & } 17 Sect.3.2 Baseline comparison methods

Slide 18

Slide 18 text

◆ • Table1 o タスクはCIFAR-10による分類 o レイヤーは20層 o Widthは2種類 • W×1は(16,32,64) • W×2は(32,64,128) o Swapoutなど確率パラメータはLinear(1,0.5) • Linear(a,b)は,aからbまでの線形補間 o ResNet v1(or v2) OursはSwapoutの枠組みから 導出したResNet 18 Section4 Experiments

Slide 19

Slide 19 text

◆ • Sect.3.2で⽰したbaselineとなる⼿法よりも Swapboxのほうが性能が良い(Table1) 19 Section4 Experiments

Slide 20

Slide 20 text

◆ • Table2 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o レイヤーは20層 o WidthはW×2 o 4 ,5 はベルヌーイ分布のハイパーパラメータ • Table3 o タスクはCIFAR-10による分類 o 30個のサンプルを分類 o ()内はレイヤーの数 o ResNet v2は決定論的な⽅法を使⽤ 20 Section4 Experiments

Slide 21

Slide 21 text

◆ • ベルヌーイ分布のハイパーパラメータは, 浅い層ほどランダム性を低くスケジュールして おく⽅が良い(Table2) 21 Section4 Experiments

Slide 22

Slide 22 text

◆ • ResNetと⽐較するとSwapoutのほうが良い性 能を⽰している(Table3) • この違いはアンサンブルの有無から⽣じる • Widthを⼤きくすることが性能向上に重要 22 Section4 Experiments

Slide 23

Slide 23 text

◆ • 確率論的なスケジューリングをすると,少ない サンプル数でErrorを低くすることができる 23 Section4 Experiments

Slide 24

Slide 24 text

◆ • Table4 o タスクはCIFAR-10による分類 o 記号等は他と同様 • Table5 o タスクはCIFAR-100による分類 o 記号等は他と同様 24 Section4 Experiments

Slide 25

Slide 25 text

◆ • Swapoutでは,ResNetなどと⽐べて少ないパ ラメータ数で⾼い性能を⽰す(Table4) 25 Section4 Experiments

Slide 26

Slide 26 text

◆ • 32層のSwapoutと1001層のResNetが同じ程度 の性能を⽰す(Table5) 26 Section4 Experiments

Slide 27

Slide 27 text

◆ • Swapoutであれば,浅いネットワークでも Deepなものと同様あるいはそれ以上の性能を 出す • すべての実験でトップのパフォーマンス • Batch Normalizationとの併⽤はまだ難しい • Swapoutが成功した理由などが今後の課題 27 Section5 Discussion and future work