Slide 12
Slide 12 text
ॳظઃఆ
• 学習の初期に勾配爆発や勾配消失が起きにくいようにパラメータを初期化する⼿法もある
• ゼイヴィア初期値
• 以下の範囲の⼀様分布から無作為抽出する
−
6
(#()) + (#)
,
6
(#()) + (#)
• N(l-1) は⼊⼒となるh(l-1)、N(l)は出⼒となるh(l)
• ⾮線形活性化関数を使わない場合、各層の状態変数の分散と勾配の分散が⼀定に保たれるようにす
る(?)
• ⾮線形の場合、理論的な裏付けはないが、広く使われている
• ReLUの場合にも同様の初期化⽅法が提案されている
• N(l-1),N(l)に⽐例した分散を持つ正規分布から無作為抽出する
• 各層の勾配の分散が⼀定になるため、勾配爆発や勾配消失が軽減する
© 2017 Retrieva, Inc. 12