L0正則化付き学習
l L0正則化付きでニューラルネットワークを学習させたい。
Ø 非零成分の個数が小さくなるように学習する。
Ø 計算量的に困難(組み合わせ最適化問題)
3
Slide 5
Slide 5 text
損失関数の置き換え
l L0正則化付き損失関数を、連続最適化可能なサロゲート損失に置き換える。
Ø パラメータ値をきっちり0に落とすことを維持しつつ、勾配に基づく最適化を行いたい。
4
この形は残しておきたい
Slide 6
Slide 6 text
置き換えの流れ(1)
l 各パラメータに対して、確率的なバイナリゲートを設置する。
Ø ゲートのオンオフ{0, 1}はベルヌーイ分布の確率変数で表現
Ø 以下は置き換えた状態、ただし右辺第1項が微分可能でない。
5
Slide 7
Slide 7 text
置き換えの流れ(2)
l バイナリゲート z を、hard-sigmoidで置き換える。
Ø 連続型確率変数 s を使い、バイナリゲートを表現する。
Ø ゲートがactiveとなっている確率も、以下のcdfで表現可能
Ø 以下は置き換えた状態、ただし右辺第1項がパラメータφに関して逆伝搬可能でない。
6
Slide 8
Slide 8 text
置き換えの流れ(3)
l Reparameterization trickを使い、パラメータφに逆伝搬できるようにする。
Ø s が φ に対して確定的になるようにする。
Ø 微分可能な関数f(ε,φ)を用いて、s=f(ε,φ), ε~p(ε)と置き換える。
Ø 期待値部分はモンテカルロサンプリングで計算可能。
7