Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ミニバッチサイズと学習率の関係 /small-batch-learning
Search
Miyakawa Taku
July 17, 2018
Programming
0
2.2k
ミニバッチサイズと学習率の関係 /small-batch-learning
Miyakawa Taku
July 17, 2018
Tweet
Share
More Decks by Miyakawa Taku
See All by Miyakawa Taku
入門: 末尾呼び出し最適化 /tail-call-elimination-intro
miyakawataku
2
2.4k
JVM言語の動き方・動かし方 /make-jvm-lang
miyakawataku
6
2.2k
Java SE 8から11で何が起きた?一気におさらいしてみよう! /java-se-8-to-11
miyakawataku
15
5.3k
機械学習プロジェクトの進め方 /howtoproceedwithmlproject
miyakawataku
0
360
グラフアルゴリズムその2: 単一始点最短路問題 /graphShortestPaths
miyakawataku
0
180
Strassenのアルゴリズムによる行列積の計算 /strassen-algorithm
miyakawataku
8
3.4k
Viterbiのアルゴリズム /viterbi-algorithm
miyakawataku
0
290
Other Decks in Programming
See All in Programming
AIを活用し、今後に備えるための技術知識 / Basic Knowledge to Utilize AI
kishida
8
1.6k
The state patternの実践 個人開発で培ったpractice集
miyanokomiya
0
150
速いWebフレームワークを作る
yusukebe
3
690
KessokuでDIでもgoroutineを活用する / Go Connect #6
mazrean
0
130
go test -json そして testing.T.Attr / Kyoto.go #63
utgwkk
1
190
自作OSでDOOMを動かしてみた
zakki0925224
1
1.4k
Ruby Parser progress report 2025
yui_knk
1
250
Google I/O recap web編 大分Web祭り2025
kponda
0
2.9k
OSS開発者という働き方
andpad
5
1.6k
CSC305 Summer Lecture 12
javiergs
PRO
0
130
物語を動かす行動"量" #エンジニアニメ
konifar
14
5.7k
A Gopher's Guide to Vibe Coding
danicat
0
200
Featured
See All Featured
Java REST API Framework Comparison - PWX 2021
mraible
33
8.8k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.5k
Testing 201, or: Great Expectations
jmmastey
45
7.6k
BBQ
matthewcrist
89
9.8k
The Power of CSS Pseudo Elements
geoffreycrofte
77
5.9k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Agile that works and the tools we love
rasmusluckow
330
21k
Art, The Web, and Tiny UX
lynnandtonic
302
21k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
11
1.1k
Gamification - CAS2011
davidbonilla
81
5.4k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
Building Adaptive Systems
keathley
43
2.7k
Transcript
ミニバッチサイズと学習率の関係 2018-07-17 宮川 拓
動機 ⚫ 確率的勾配降下法(SGD)では、訓練セッ ト全体ではなく、m個のサンプル=ミニ バッチを用いて重みを更新する ⚫ mは、メモリが許す限り大きければ大きい 方がいいのだろう、と勝手に決めつけてい たけど、実はそうでもないらしい 2/15
元ネタ ⚫ Dominic Masters and Carlo Luschi, “Revisiting Small Batch
Training for Deep Neural Networks” ◼ 著者はGraphcoreというML用チップ製造 スタートアップの人たち ◼ ミニバッチサイズと、学習率、モデルの 性能の関係を調べた論文 3/15
先に結論 ⚫ ミニバッチのサイズは小さめの方が良い ◼ テストデータに対する性能が良くなる ◼ 学習が発散しない学習率の幅が広くなる ⚫ ミニバッチのサイズを小さくすると、GPU 等を使った時に計算の並列度が低くなるが、
これは計算を複数のコア、マシンに分散す ることで相殺できるかも 4/15
Background 5/15
この章の概要 ⚫ 小さいミニバッチのほうが優れていそうだ、 ということの理論的根拠を示す 6/15
一般的なSGDのアルゴリズム ⚫ +1 = + η − 1 σ =1
∇ (2, 3) ◼ ただし、η : 学習率 ◼ ∇ : 各featureの傾斜 ◼ : サンプルiに対する損失 ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は、/に比例 ◼ Cov(重みの更新値)の期待値は、m≪M の時、2/に比例 7/15
和で重みを更新するアルゴリズム ⚫ ここで、(2, 3)に = を代入 ◼ +1 =
+ σ =1 ∇ (5) ◼ つまり、損失の平均ではなく、損失の和を 使って重みを更新するように変形した ◼ を「ベース学習率」と呼んでいる ⚫ ここでサンプルごとに ◼ 重みの更新値の期待値は に比例 ◼ Cov(重みの更新値)の期待値はm≪Mの時、 2 ∙ に比例 8/15
バッチサイズ変更の意味 ⚫ (5)において、n回の重み更新は次式のよう に表される ◼ + = − σ
=0 −1 σ =1 ∇ + + (7) ⚫ ここで、バッチサイズをn倍することは、 次式による重み更新を行うことを意味する ◼ +1 = − σ =0 ∇ (8) ⚫ (8)は、勾配の更新頻度を少なくした、(7) の近似計算とみなせる 9/15
バッチサイズ変更の意味 ⚫ 重みの更新に損失の平均を使う式(2, 3)の 観点では、mが大きい方がよく見える。訓 練データ全体を使う場合(m=M)のより 正確な近似になるから ⚫ しかし、サンプルごとの重み更新値の期待 値を一定化する観点からは、逆に見える。
⚫ また、Cov(重みの更新値)は 2 ∙ に比例す るので、mが小さければより大きなベース 学習率が許容できる 10/15
バッチサイズ変更の意味? ⚫ 「バッチサイズが小さいと、複数エポック 回した時に、ミニバッチのバリエーション が増えるからいいんじゃないか」みたいな 議論をどこかで読んだけど、本論文では触 れられてなかった 11/15
Batch Normalizationに関する議論 ⚫ 省略! 12/15
実験 13/15
実験 ベ ー ス 学 習 率 が 大 き
い 場 合 、 バ ッ チ サ イ ズ を 小 さ く 保 つ 必 要 が あ る バ ッ チ サ イ ズ が 小 さ け れ ば 、 大 き な ベ ー ス 学 習 率 が 許 容 で き る データセット、ネットワーク、BN有無、 Augmentation有無などによらず、傾向は同じ 14/15
実験結果 最良の結果はm=2~32の範囲に集中 実験ごとに、どの(ベース学習率xバッチサイズ)で 良い結果が得られたか。縦棒の太いところが良い結果 15/15