Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Learning sparse neural networks through L0 regularization
Search
Shuhei Goda
June 24, 2018
Technology
0
400
【論文紹介】Learning sparse neural networks through L0 regularization
Shuhei Goda
June 24, 2018
Tweet
Share
More Decks by Shuhei Goda
See All by Shuhei Goda
課題の解像度が荒かったことで意図した改善ができなかった話
hakubishin3
3
730
Wantedly におけるマッチング体験を最大化させるための推薦システム
hakubishin3
4
630
Recommendation Industry Talks #1 Opening
hakubishin3
1
190
会社訪問アプリ「Wantedly Visit」での シゴトに関する興味選択機能と推薦改善
hakubishin3
0
450
論文紹介: Improving Implicit Feedback-Based Recommendation through Multi-Behavior Alignment(Xin Xin et al., 2023)
hakubishin3
0
360
Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み
hakubishin3
0
660
ウォンテッドリーにおける推薦システムのオフライン評価の仕組み
hakubishin3
5
5.9k
機械学習でプロダクト成長させる技術と組織を3社のMLエン ジニアが語る - note/コネヒト/Wantedly
hakubishin3
0
170
ウォンテッドリーの5年間に渡る推薦システムの変遷
hakubishin3
2
1.9k
Other Decks in Technology
See All in Technology
【TSkaigi】2024/05/11 当日スライド
kimitashoichi
14
3.9k
Deno で作る快適な “as Code” プラットフォーム – TSKaigi 2024
pizzacat83
4
310
生成AIと産業向けソフトウェアの自動生成 〜 ハノーバーメッセ2024より〜
kioto
2
420
生成AI活用推進の為にやったこと/やらなかったこと
ktc_wada
0
140
Shinagile 2024
kawaguti
PRO
2
120
開発スピードの維持向上を支える、テスト設計の 漸進的進化への取り組み / Continuous Test Design Development for Speed of Product Development
ropqa
0
180
動画配信サービスのフロントエンド実装に学ぶ設計原則
yud0uhu
1
130
【リラン】AIの光と闇?失敗しないために知っておきたいAIリスクとその対応 ①政府の動き編
tkhresk
0
140
Step by Stepで学ぶ、ADT(代数的データ型)、モナドからEffect-TSまで
leveragestech
1
2.9k
グイグイ系QAエンジニアでやっていくよ!
____rina____
0
760
B2C、B2B プロダクトマネジメントの違い(および思考の罠) / B2C, B2B PM and reduction fallacy
ykmc09
5
2.3k
CockroachDB はどのくらい「しぶとい」のか? / How tough is CockroachDB?
kota2and3kan
13
4.9k
Featured
See All Featured
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.1k
Raft: Consensus for Rubyists
vanstee
133
6.3k
Ruby is Unlike a Banana
tanoku
96
10k
Debugging Ruby Performance
tmm1
70
11k
Automating Front-end Workflow
addyosmani
1357
200k
Making Projects Easy
brettharned
109
5.5k
Fontdeck: Realign not Redesign
paulrobertlloyd
76
4.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
32
47k
Visualization
eitanlees
137
14k
Building a Modern Day E-commerce SEO Strategy
aleyda
22
6.5k
The Pragmatic Product Professional
lauravandoore
26
5.9k
What's in a price? How to price your products and services
michaelherold
238
11k
Transcript
Learning Sparse Neural Networks Through L0 Regularization 2018/6/24 ICLR2018論文紹介 Christos
Louizos, Max Welling, Diederik P. Kingma
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 1
ニューラルネットワークの正則化 l ニューラルネットワークでは、適切なキャパシティの管理が重要となる。 Ø データ集合に対してキャパシティが過大だと、汎化性能の低下、計算量の増大などの問題 Ø キャパシティを抑えるための手法として、正則化が挙げられる。 2 ・
... i.i.d.の入力-出力ペア ・ ...パラメータθを持つパラメトリックモデル ・ ...損失関数
L0正則化付き学習 l L0正則化付きでニューラルネットワークを学習させたい。 Ø 非零成分の個数が小さくなるように学習する。 Ø 計算量的に困難(組み合わせ最適化問題) 3
損失関数の置き換え l L0正則化付き損失関数を、連続最適化可能なサロゲート損失に置き換える。 Ø パラメータ値をきっちり0に落とすことを維持しつつ、勾配に基づく最適化を行いたい。 4 この形は残しておきたい
置き換えの流れ(1) l 各パラメータに対して、確率的なバイナリゲートを設置する。 Ø ゲートのオンオフ{0, 1}はベルヌーイ分布の確率変数で表現 Ø 以下は置き換えた状態、ただし右辺第1項が微分可能でない。 5
置き換えの流れ(2) l バイナリゲート z を、hard-sigmoidで置き換える。 Ø 連続型確率変数 s を使い、バイナリゲートを表現する。 Ø
ゲートがactiveとなっている確率も、以下のcdfで表現可能 Ø 以下は置き換えた状態、ただし右辺第1項がパラメータφに関して逆伝搬可能でない。 6
置き換えの流れ(3) l Reparameterization trickを使い、パラメータφに逆伝搬できるようにする。 Ø s が φ に対して確定的になるようにする。 Ø
微分可能な関数f(ε,φ)を用いて、s=f(ε,φ), ε~p(ε)と置き換える。 Ø 期待値部分はモンテカルロサンプリングで計算可能。 7
置き換えの流れ(4) l 確率分布q(s)に、binary concrete distributionを採用する。 Ø 温度β(0<β<1)がパラメータとして存在、アニーリング可能 Ø 位置logαの値で分布の性質を決める(0寄りか1寄りか) 8
(上)β=0.9, (下)β=0.1, (共通)logα=0 (上)logα=1.0, (下)logα=-1.0, (共通)β=0.1 ただし、zが値0,1を取り にくくなっている
置き換えの流れ(5) l binary concrete distribution を引き伸ばして、z が 0,1を取りやすくする。 (hard concrete
distribution) Ø 分布を(γ, ζ)に引き伸ばして、再度hard sigmoidに適用させる(γ<0, ζ>1) Ø L0ノルム部分は以下のようになる。 9 binary concrete rv γ=-0.1, ζ=1.1で引き伸ばしたもの
本手法のまとめ l 訓練時 l テスト時 10 を超えるならz=1, を下回るならz=0 sigmoid(logα)が
実験結果(1) l MNIST Classification and Sparsification Ø λの与え方は2つのパターンを用意する(どの層も共通の値をとるか、各層で値を変えるか) 11
実験結果(2) l MNIST Classification and Sparsification Ø ゲートがactiveになる確率から、期待されるFLOPsを得る。 12
実験結果(3) l CIFAR Classification 13
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 14