Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
【論文紹介】Learning sparse neural networks through L...
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Shuhei Goda
June 24, 2018
Technology
920
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
【論文紹介】Learning sparse neural networks through L0 regularization
Shuhei Goda
June 24, 2018
More Decks by Shuhei Goda
See All by Shuhei Goda
Turing × atmaCup #18 - 1st Place Solution
hakubishin3
0
1.3k
ジョブマッチングサービスにおける相互推薦システムの応用事例と課題
hakubishin3
3
1.2k
とある事業会社にとっての Kaggler の魅力
hakubishin3
9
3.2k
課題の解像度が荒かったことで意図した改善ができなかった話
hakubishin3
3
1.1k
Wantedly におけるマッチング体験を最大化させるための推薦システム
hakubishin3
4
1.4k
Recommendation Industry Talks #1 Opening
hakubishin3
1
470
会社訪問アプリ「Wantedly Visit」での シゴトに関する興味選択機能と推薦改善
hakubishin3
0
770
論文紹介: Improving Implicit Feedback-Based Recommendation through Multi-Behavior Alignment(Xin Xin et al., 2023)
hakubishin3
0
720
Feedback Prize - English Language Learning における擬似ラベルの品質向上の取り組み
hakubishin3
1
1.1k
Other Decks in Technology
See All in Technology
非エンジニアがClaudeと挑んだ「1ヶ月間プロダクト30本ノック」
askokc
0
230
「エンジニア進化論」2028年の開発完全自動化、エンジニアはどう進化するか
cyberagentdevelopers
PRO
4
4.1k
RSA暗号を手計算したくなること、ありますよね?? (20260615_orestudy6_rsa)
thousanda
0
150
AIの性能が向上しても未解決な組織の重大問題は何か?/An Unsolved Organizational Problem in the Age of AI
moriyuya
3
600
Socrates × Looker 〜セマンティックレイヤーで進化するデータ分析エージェント〜
hanon52_
3
2k
protovalidate-es を導入してみた
bengo4com
0
160
DevOps Agentで始めるAWS運用 〜フロンティアエージェントが変える運用の現場〜
nyankotaro
1
370
「速く作る」から「正しく作る」へ ─ 生成AI時代の開発フロー改革の ロードマップと実行 ─
starfish719
0
9.7k
10倍の生産性を実現するAI駆動並列エージェントのすべて
kumaiu
4
1.3k
AWSシリコン最前線 〜AI時代のチップ選択を読み解く〜
htokoyo
2
380
FDE という解 ― 暗黙知と明示知をつなぐ、伴走型エンジニアリング ―
otanet
0
120
AI駆動開発が変える、大規模開発の前提 ーHuman in the Loop から Human on the Loop へ / AIE2026
visional_engineering_and_design
30
24k
Featured
See All Featured
How to Get Subject Matter Experts Bought In and Actively Contributing to SEO & PR Initiatives.
livdayseo
0
140
Agile Leadership in an Agile Organization
kimpetersen
PRO
0
160
Leadership Guide Workshop - DevTernity 2021
reverentgeek
1
300
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
720
Context Engineering - Making Every Token Count
addyosmani
9
960
The Cult of Friendly URLs
andyhume
79
6.9k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
2
390
WCS-LA-2024
lcolladotor
0
620
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Rebuilding a faster, lazier Slack
samanthasiow
85
9.5k
Claude Code どこまでも/ Claude Code Everywhere
nwiizo
65
56k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.4k
Transcript
Learning Sparse Neural Networks Through L0 Regularization 2018/6/24 ICLR2018論文紹介 Christos
Louizos, Max Welling, Diederik P. Kingma
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 1
ニューラルネットワークの正則化 l ニューラルネットワークでは、適切なキャパシティの管理が重要となる。 Ø データ集合に対してキャパシティが過大だと、汎化性能の低下、計算量の増大などの問題 Ø キャパシティを抑えるための手法として、正則化が挙げられる。 2 ・
... i.i.d.の入力-出力ペア ・ ...パラメータθを持つパラメトリックモデル ・ ...損失関数
L0正則化付き学習 l L0正則化付きでニューラルネットワークを学習させたい。 Ø 非零成分の個数が小さくなるように学習する。 Ø 計算量的に困難(組み合わせ最適化問題) 3
損失関数の置き換え l L0正則化付き損失関数を、連続最適化可能なサロゲート損失に置き換える。 Ø パラメータ値をきっちり0に落とすことを維持しつつ、勾配に基づく最適化を行いたい。 4 この形は残しておきたい
置き換えの流れ(1) l 各パラメータに対して、確率的なバイナリゲートを設置する。 Ø ゲートのオンオフ{0, 1}はベルヌーイ分布の確率変数で表現 Ø 以下は置き換えた状態、ただし右辺第1項が微分可能でない。 5
置き換えの流れ(2) l バイナリゲート z を、hard-sigmoidで置き換える。 Ø 連続型確率変数 s を使い、バイナリゲートを表現する。 Ø
ゲートがactiveとなっている確率も、以下のcdfで表現可能 Ø 以下は置き換えた状態、ただし右辺第1項がパラメータφに関して逆伝搬可能でない。 6
置き換えの流れ(3) l Reparameterization trickを使い、パラメータφに逆伝搬できるようにする。 Ø s が φ に対して確定的になるようにする。 Ø
微分可能な関数f(ε,φ)を用いて、s=f(ε,φ), ε~p(ε)と置き換える。 Ø 期待値部分はモンテカルロサンプリングで計算可能。 7
置き換えの流れ(4) l 確率分布q(s)に、binary concrete distributionを採用する。 Ø 温度β(0<β<1)がパラメータとして存在、アニーリング可能 Ø 位置logαの値で分布の性質を決める(0寄りか1寄りか) 8
(上)β=0.9, (下)β=0.1, (共通)logα=0 (上)logα=1.0, (下)logα=-1.0, (共通)β=0.1 ただし、zが値0,1を取り にくくなっている
置き換えの流れ(5) l binary concrete distribution を引き伸ばして、z が 0,1を取りやすくする。 (hard concrete
distribution) Ø 分布を(γ, ζ)に引き伸ばして、再度hard sigmoidに適用させる(γ<0, ζ>1) Ø L0ノルム部分は以下のようになる。 9 binary concrete rv γ=-0.1, ζ=1.1で引き伸ばしたもの
本手法のまとめ l 訓練時 l テスト時 10 を超えるならz=1, を下回るならz=0 sigmoid(logα)が
実験結果(1) l MNIST Classification and Sparsification Ø λの与え方は2つのパターンを用意する(どの層も共通の値をとるか、各層で値を変えるか) 11
実験結果(2) l MNIST Classification and Sparsification Ø ゲートがactiveになる確率から、期待されるFLOPsを得る。 12
実験結果(3) l CIFAR Classification 13
Summary どんなもの? ニューラルネットワークのパラメータに対してL0正則化を適用させる。 先行研究と比べてどこがすごい? 既存のNNの学習手法の枠組み(逆伝搬法)で解くことができる。 技術や手法のキモはどこ? L0ノルムによる正則化効果を、連続型確率変数から成るhard concrete distributionを 使って近似的に表現する。
どうやって有効だと検証した? MNIST, CIFAR10, CIFAR100のデータで検証。 既存手法と同等かそれ以上の精度で、計算速度の高速化が行える。 議論はある? 今後パラメータθに関するフルベイズな扱いが考えられるのではないか。 14