ゼロから作るDeepLearning 第6章ざっくりまとめ

「ゼロから作るDeepLearning」第6章ざっくりまとめ（開催前資料） 2017.2.7 たのっち @dproject21

この本のざっくりまとめです • 「ゼロから作るDeepLearning」斎藤康毅著オライリー・ジャパンより2016年9⽉発⾏ https://www.oreilly.co.jp/books/9784873117584/ • 公式サポートページ
https://github.com/oreilly-japan/deep-learning-from-scratch • 今回は第6章「学習に関するテクニック」です。 https://deeplearning-yokohama.connpass.com/

パラメータの更新 " # " # 1 ℎ( ) 勾配 :
すべての変数の偏微分をベクトルでまとめたもの。ニューラルネットワークでは、損失関数の値ができるかぎり⼩さくなるベクトルを、勾配降下法を⽤いて求め、重み付けを更新する。 = − これが、第4章でやった「勾配降下法」（確率的勾配降下法：SGD）でした。

パラメータの更新 " # " # 1 ℎ( ) SGDでは、⾮効率な学習になってしまうケースがある。そこで別の⼿法によ
る勾配計算を⾏う。 3種類の計算⽅法が紹介されている。・Momentum ・AdaGrid ・Adam

パラメータの更新 " # " # 1 ℎ( ) SGD =
− Momentum 物理の「運動量」に関係している。 SGDのジグザグの動きを軽減させるための”摩擦”としてを⽤いるようにした。 ← − = +

− AdaGrid 学習係数を減衰させる、というアイデアから来ている。⼊⼒データのパラメータの要素ごとに学習係数を調整する、というもの。 ℎ ← ℎ + ⨀ = − 1 ℎ 過去の勾配の⼆乗和を保持し、学習係数を減衰させる。

− Adam AdaGrid + Momentum というような⼿法。詳しくは原著論⽂を読んでください。（と書いてあります）原著論⽂はこちら。 https://arxiv.org/pdf/1412.6980v9.pdf

パラメータの更新 " # " # 1 ℎ( ) どれがいいの？どれも得意な問題、不得意な問題があ
る。最近はAdamが好まれている。多くの研究では、いまでもSGDが使われている。 MomentumもAdaGridも試す価値のある⽅法。

重みの初期値を0にするとどうなるか？順伝播時は2層⽬のニューロンには全て同じ値が⼊る。逆伝播時は全て同じ重みになる。重みが均⼀になってしまうので、意味がなくなる。 = 0だと、同じ値が伝播する重みの初期値

重み付けの値ごとに、隠れ層のアクティベーション（活性化関数の後の出⼒データ）を⾒てみると、どの重み付けがよいかが分かる。隠れ層のアクティベーションを⾒る重みの初期値 … … …
… … ⼊⼒デタ

Sigmoid関数、tanh関数の場合は「xavierの初期値」 " : のガウシアン ReLUの場合は「Heの初期値」 # : のガウシアン
を使うのがよい。（両⽅ともnはノードの個数）隠れ層のアクティベーションを⾒る重みの初期値 … … … … … ⼊⼒デタ

アクティベーションの分布を強制的に調整する Batch Normalization (Batch Norm) … … … …
… ⼊⼒デタミニバッチごとに、データの平均が0で分散が1になるよう正規化を⾏う。・学習を早く進⾏させることができる・初期値にそれほど依存しない・過学習を抑制するという利点がある。 Affine → Batch Norm → ReLU となるようにする

… ⼊⼒デタミニバッチごとに、データの平均が0で分散が1になるよう正規化を⾏う。 < ← 1 > @ A @B" # < ← 1 >(@ −< )# A @B" @ D ← @ − < # < + ミニバッチ = " , # , … , A を、平均 0、分散1のデータ " I, # I, … , @ D に変換する。 Affine → Batch Norm → ReLU となるようにする

… ⼊⼒デタミニバッチごとに、データの平均が0で分散が1になるよう正規化を⾏ったデータに、固有のスケールとシフトで変換を⾏う。 @ ← @ D + = 0, = 1の値からスタートして、学習によって調整していく。ここまでがニューラルネットワーク上での順伝播。 Affine → Batch Norm → ReLU となるようにする

正則化過学習（overfitting）訓練データだけに適応しすぎてしまい、訓練データには含まれない他のデータに対応できない状態過学習の原因として・パラメータを⼤量に持ち、表現⼒の⾼いモデルであること・訓練データが少ないことがある。
これを抑制する

正則化 Weight decay（荷重減衰）損失関数の値を⼩さくするため、 Weight decayを損失関数に加算する。 = " , #
, … , : の重みに対して、L2ノルム（ " #, # #, … , : # ）のWeight decay 1 2 # を損失関数に加算する。

正則化 Dropout ニューラルネットワークのモデルが複雑になり、Weight decayでは対応が困難になったときに⽤いられる。訓練時にランダムに選ばれたニューロンを消去する。（コード上では、maskしている） ☓

ハイパーパラメータの検証ハイパーパラメータの検証には、・訓練データ・テストデータではなく「検証データ」を⽤いる。

ハイパーパラメータの検証訓練データ：パラメータの学習に⽤いる検証データ：ハイパーパラメータの性能評価に⽤いるテストデータ：ニューラルネットワークの汎化性能をチェックするために使う（理想的には⼀度だけ）データの分離はユーザー側で⾏う。（MNISTの場合、検証データは全デー
タの20%）

ハイパーパラメータの検証ハイパーパラメータの最適化ハイパーパラメータの範囲を設定する（0.001〜1000という具合） ↓ ハイパーパラメータの範囲からランダムにサンプリング ↓ 学習を⾏い、検証データで認識精度を評価する（エポックは⼩さく設定）
100回ほど繰り返し、認識精度からハイパーパラメータの範囲を狭める

ゼロから作るDeepLearning 第6章ざっくりまとめ

ゼロから作るDeepLearning 第6章ざっくりまとめ

dproject21

More Decks by dproject21

Other Decks in Technology

Featured

Transcript