Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Learning sparse neural networks through L...
Search
Shuhei Goda
June 24, 2018
Technology
0
820
【論文紹介】Learning sparse neural networks through L0 regularization
Shuhei Goda
June 24, 2018
Tweet
Share
More Decks by Shuhei Goda
See All by Shuhei Goda
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
1k
ジョブマッチングサービスにおける相互推薦システムの応用事例と課題
hakubishin3
3
1k
とある事業会社にとっての Kaggler の魅力
hakubishin3
8
2.9k
課題の解像度が荒かったことで意図した改善ができなかった話
hakubishin3
3
1k
Wantedly におけるマッチング体験を最大化させるための推薦システム
hakubishin3
4
1.3k
Recommendation Industry Talks #1 Opening
hakubishin3
1
420
会社訪問アプリ「Wantedly Visit」での シゴトに関する興味選択機能と推薦改善
hakubishin3
0
690
論文紹介: Improving Implicit Feedback-Based Recommendation through Multi-Behavior Alignment(Xin Xin et al., 2023)
hakubishin3
0
680
Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み
hakubishin3
0
1.1k
Other Decks in Technology
See All in Technology
【SORACOM UG Explorer 2025】さらなる10年へ ~ SORACOM MVC 発表
soracom
PRO
0
200
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
2
210
AIとの協業で実現!レガシーコードをKotlinらしく生まれ変わらせる実践ガイド
zozotech
PRO
2
240
InsightX 会社説明資料/ Company deck
insightx
0
150
触れるけど壊れないWordPressの作り方
masakawai
0
600
Raycast AI APIを使ってちょっと便利なAI拡張機能を作ってみた
kawamataryo
0
230
ソースを読む時の思考プロセスの例-MkDocs
sat
PRO
1
350
AIでデータ活用を加速させる取り組み / Leveraging AI to accelerate data utilization
okiyuki99
6
1.6k
AI時代の発信活動 ~技術者として認知してもらうための発信法~ / 20251028 Masaki Okuda
shift_evolve
PRO
1
130
dbtとAIエージェントを組み合わせて見えたデータ調査の新しい形
10xinc
7
1.7k
ざっくり学ぶ 『エンジニアリングリーダー 技術組織を育てるリーダーシップと セルフマネジメント』 / 50 minute Engineering Leader
iwashi86
8
4k
組織全員で向き合うAI Readyなデータ利活用
gappy50
5
2k
Featured
See All Featured
How to Ace a Technical Interview
jacobian
280
24k
Music & Morning Musume
bryan
46
6.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
191
56k
The Cost Of JavaScript in 2023
addyosmani
55
9.1k
The Art of Programming - Codeland 2020
erikaheidi
56
14k
Faster Mobile Websites
deanohume
310
31k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
Done Done
chrislema
186
16k
GitHub's CSS Performance
jonrohan
1032
470k
YesSQL, Process and Tooling at Scale
rocio
174
15k
Transcript
Learning Sparse Neural Networks Through L0 Regularization 2018/6/24 ICLR2018論文紹介 Christos
Louizos, Max Welling, Diederik P. Kingma
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 1
ニューラルネットワークの正則化 l ニューラルネットワークでは、適切なキャパシティの管理が重要となる。 Ø データ集合に対してキャパシティが過大だと、汎化性能の低下、計算量の増大などの問題 Ø キャパシティを抑えるための手法として、正則化が挙げられる。 2 ・
... i.i.d.の入力-出力ペア ・ ...パラメータθを持つパラメトリックモデル ・ ...損失関数
L0正則化付き学習 l L0正則化付きでニューラルネットワークを学習させたい。 Ø 非零成分の個数が小さくなるように学習する。 Ø 計算量的に困難(組み合わせ最適化問題) 3
損失関数の置き換え l L0正則化付き損失関数を、連続最適化可能なサロゲート損失に置き換える。 Ø パラメータ値をきっちり0に落とすことを維持しつつ、勾配に基づく最適化を行いたい。 4 この形は残しておきたい
置き換えの流れ(1) l 各パラメータに対して、確率的なバイナリゲートを設置する。 Ø ゲートのオンオフ{0, 1}はベルヌーイ分布の確率変数で表現 Ø 以下は置き換えた状態、ただし右辺第1項が微分可能でない。 5
置き換えの流れ(2) l バイナリゲート z を、hard-sigmoidで置き換える。 Ø 連続型確率変数 s を使い、バイナリゲートを表現する。 Ø
ゲートがactiveとなっている確率も、以下のcdfで表現可能 Ø 以下は置き換えた状態、ただし右辺第1項がパラメータφに関して逆伝搬可能でない。 6
置き換えの流れ(3) l Reparameterization trickを使い、パラメータφに逆伝搬できるようにする。 Ø s が φ に対して確定的になるようにする。 Ø
微分可能な関数f(ε,φ)を用いて、s=f(ε,φ), ε~p(ε)と置き換える。 Ø 期待値部分はモンテカルロサンプリングで計算可能。 7
置き換えの流れ(4) l 確率分布q(s)に、binary concrete distributionを採用する。 Ø 温度β(0<β<1)がパラメータとして存在、アニーリング可能 Ø 位置logαの値で分布の性質を決める(0寄りか1寄りか) 8
(上)β=0.9, (下)β=0.1, (共通)logα=0 (上)logα=1.0, (下)logα=-1.0, (共通)β=0.1 ただし、zが値0,1を取り にくくなっている
置き換えの流れ(5) l binary concrete distribution を引き伸ばして、z が 0,1を取りやすくする。 (hard concrete
distribution) Ø 分布を(γ, ζ)に引き伸ばして、再度hard sigmoidに適用させる(γ<0, ζ>1) Ø L0ノルム部分は以下のようになる。 9 binary concrete rv γ=-0.1, ζ=1.1で引き伸ばしたもの
本手法のまとめ l 訓練時 l テスト時 10 を超えるならz=1, を下回るならz=0 sigmoid(logα)が
実験結果(1) l MNIST Classification and Sparsification Ø λの与え方は2つのパターンを用意する(どの層も共通の値をとるか、各層で値を変えるか) 11
実験結果(2) l MNIST Classification and Sparsification Ø ゲートがactiveになる確率から、期待されるFLOPsを得る。 12
実験結果(3) l CIFAR Classification 13
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 14