⽂献紹介
S. Singh, D. Hoiem, D. Forsyth,
"Swapout: Learning an ensemble
of deep architectures,” arXiv, 2016
⻫藤 翔汰
2016年7⽉6⽇
1
Slide 2
Slide 2 text
◆
• S. Singh, D. Hoiem, D. Forsyth,
"Swapout: Learning an ensemble of deep
architectures,” arXiv, 2016
• NIPS2016に提出中のプレプリント
• DropoutやResNetを確率モデルとして⼀般化し
たということで興味が出たため
• レイヤーやユニットを無効化するスケジュール
をIGOで決定できるかもと考えたため
2
⽂献情報・この論⽂を選んだ理由
◆
• ランダム性を取り⼊れて成功した⽅法
o Dropconnect : Dropoutの⼀般化であり,ユニット
の代わりに結合を落とす⽅法
o Stochastic pooling : 決定的なプーリングではなくラ
ンダムなプーリングによって,正規化する⽅法
• 明⽰的なアンサンブル
o 異なるサンプルに対し,ランダムな値を⽤いて⽣成
したモデル(パラメータ)で評価し,平均化すること
• 暗⽰的なアンサンブル
o 異なるサンプルに対し,同じモデル(パラメータ)に
よって評価し,平均化すること
6
Section2 Related Work
Slide 7
Slide 7 text
◆
• Dropoutで落としたユニットの値は,テストの
ときは期待値で置き換える
o この操作によってʼ明⽰的なアンサンブルʼとなる
• しかしSwapoutでは,正確な期待値を使うこと
ができない
• Section4では,近似的な期待値を⽤いても
Swapoutのほうが⾼い性能を出すことを⽰す
• さらに暗⽰的なアンサンブルよりも明⽰的なア
ンサンブルのほうが⾼い結果を⽰す
7
Section2 Related Work
◆
• Srivastavaらは決定論的推論のほうが計算に
必要なデータは著しく削減されると主張して
いる
• 実験結果では同じデータ件数で⽐較すると
Swapoutのほうがエラーが少ない
o Swapoutのほうがデータは少なくて済む
o さらに計算コストも削減されている
• 決定論的推論を⾏う際に,Batch
normalizationを使うと性能向上には
つながらない
15
Sect.3.1 Inference in Stochastic Networks
Slide 16
Slide 16 text
◆
• ResNet(左側がv1,右側がv2)
[5] K. He, X. Zhang, S. Ren, and J. Sun. Identity mappings in
deep residual networks. CoRR, abs/1603.05027, 2016. 16
Sect.3.2 Baseline comparison methods
◆
• Table2
o タスクはCIFAR-10による分類
o 30個のサンプルを分類
o レイヤーは20層
o WidthはW×2
o 4
,5
はベルヌーイ分布のハイパーパラメータ
• Table3
o タスクはCIFAR-10による分類
o 30個のサンプルを分類
o ()内はレイヤーの数
o ResNet v2は決定論的な⽅法を使⽤
20
Section4 Experiments