Slide 42
Slide 42 text
深層学習モデルの学習 = ⼤量の学習データ 𝐷 = { 𝒙)
, 𝑦)
, … , 𝒙f
, 𝑦f
} で
計算される損失関数の値を,ネットワークのパラメータ𝒘!
について最⼩化
• 𝑤& ← 𝑤& − 𝛾 #$
#%!
• 並列計算資源の有効活⽤と局所解リスク低減のために,少数サンプル(ミニバッチ)で
構成されるサンプル集合 𝐷5 = 𝒙!, 𝑦! , … , 𝒙5, 𝑦5 , (𝑀 ≪ 𝑁) を⽤いて,最適化する
• 𝐿 = !
5
∑6∈8*
𝐿6
42
確率的勾配降下法(SGD)
• ミニバッチを順番に𝐷!, 𝐷", … , となめていき,元の学習データすべてを⼀巡したら,
再度最初から順番になめていく,ということを繰り返す
• 学習データを⼀巡することをエポック(epoch)と呼び,通常数⼗〜数百epochの学習を実施する