【論文紹介】Learning sparse neural networks through L0 regularization

Slide 1

Slide 1 text

Learning Sparse Neural Networks Through L0 Regularization 2018/6/24 ICLR2018論文紹介 Christos Louizos, Max Welling, Diederik P. Kingma

Slide 2

Slide 2 text

Summary どんなもの？ニューラルネットワークのパラメータに対してL0正則化を適用させる。先行研究と比べてどこがすごい？既存のNNの学習手法の枠組み（逆伝搬法）で解くことができる。技術や手法のキモはどこ？ L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを使って近似的に表現する。どうやって有効だと検証した？ＭNIST, CIFAR10, CIFAR100のデータで検証。既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。議論はある？今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 1 　

Slide 3

Slide 3 text

ニューラルネットワークの正則化 l ニューラルネットワークでは、適切なキャパシティの管理が重要となる。 Ø データ集合に対してキャパシティが過大だと、汎化性能の低下、計算量の増大などの問題 Ø キャパシティを抑えるための手法として、正則化が挙げられる。 2 　・ ... i.i.d.の入力-出力ペア・ ...パラメータθを持つパラメトリックモデル・　　 ...損失関数　　　

Slide 4

Slide 4 text

L0正則化付き学習 l L0正則化付きでニューラルネットワークを学習させたい。 Ø 非零成分の個数が小さくなるように学習する。 Ø 計算量的に困難（組み合わせ最適化問題） 3 　

Slide 5

Slide 5 text

損失関数の置き換え l L0正則化付き損失関数を、連続最適化可能なサロゲート損失に置き換える。 Ø パラメータ値をきっちり0に落とすことを維持しつつ、勾配に基づく最適化を行いたい。 4 　この形は残しておきたい

Slide 6

Slide 6 text

置き換えの流れ（1） l 各パラメータに対して、確率的なバイナリゲートを設置する。 Ø ゲートのオンオフ{0, 1}はベルヌーイ分布の確率変数で表現 Ø 以下は置き換えた状態、ただし右辺第1項が微分可能でない。 5 　

Slide 7

Slide 7 text

置き換えの流れ（2） l バイナリゲート z を、hard-sigmoidで置き換える。 Ø 連続型確率変数 s を使い、バイナリゲートを表現する。 Ø ゲートがactiveとなっている確率も、以下のcdfで表現可能 Ø 以下は置き換えた状態、ただし右辺第1項がパラメータφに関して逆伝搬可能でない。 6 　

Slide 8

Slide 8 text

置き換えの流れ（3） l Reparameterization trickを使い、パラメータφに逆伝搬できるようにする。 Ø s が φ に対して確定的になるようにする。 Ø 微分可能な関数f(ε,φ)を用いて、s=f(ε,φ), ε～p(ε)と置き換える。 Ø 期待値部分はモンテカルロサンプリングで計算可能。 7 　

Slide 9

Slide 9 text

置き換えの流れ（4） l 確率分布q(s)に、binary concrete distributionを採用する。 Ø 温度β（0<β<1）がパラメータとして存在、アニーリング可能 Ø 位置logαの値で分布の性質を決める（0寄りか1寄りか） 8 　 (上)β=0.9, (下)β=0.1, (共通)logα=0 (上)logα=1.0, (下)logα=-1.0, (共通)β=0.1 ただし、zが値0,1を取りにくくなっている

Slide 10

Slide 10 text

置き換えの流れ（5） l binary concrete distribution を引き伸ばして、z が 0,1を取りやすくする。（hard concrete distribution） Ø 分布を(γ, ζ)に引き伸ばして、再度hard sigmoidに適用させる（γ<0, ζ>1） Ø L0ノルム部分は以下のようになる。 9 　 binary concrete rv γ=-0.1, ζ=1.1で引き伸ばしたもの

Slide 11

Slide 11 text

本手法のまとめ l 訓練時 l テスト時 10 　を超えるならz=1,　　　を下回るならz=0 sigmoid(logα)が

Slide 12

Slide 12 text

実験結果（1） l MNIST Classification and Sparsification Ø λの与え方は2つのパターンを用意する（どの層も共通の値をとるか、各層で値を変えるか） 11 　

Slide 13

Slide 13 text

実験結果（2） l MNIST Classification and Sparsification Ø ゲートがactiveになる確率から、期待されるFLOPsを得る。 12