Deep Learning 1 (Chapter 4 , Chapter 5)

「ゼロから作るDeepLearning」 4、5章まとめ Twitterアカウント : @dar_kuma_san 1

講座の流れ【講座の⽬的】・ニューラルネットワークの理論を理解し、説明できるようになる・基本的な動作をPythonで実装できるようになる・ライブラリ活⽤時のパラメータの意味が理解できる回分野章キーワード第1回
推論 2、3 ニューラルネットワーク、活性化関数、⾏列計算第2回学習 4、5 損失関数、数値微分、勾配法、誤差逆伝搬第3回学習 6 SDG、Adam、過学習、ハイパーパラメータ全3回を予定 2

1. 「学習」とは︖ ⇒推論と学習の違い 2. どうやって学習させるか︖ ⇒勾配法 3. 「傾き」の求め⽅ ⇒数値微分 4.
効率的な「傾き」の求め⽅ ⇒誤差逆伝播法 5. 学習⽅法について ⇒オンライン、ミニバッチ、バッチ 6. ⼿書き⽂字画像から学習 ⇒Pythonで実装 7. まとめ第2回の⽬標 • 学習のアルゴリズム「勾配法」を理解する • 勾配の効率的な求め⽅「誤差逆伝播法」を理解する講座の流れ 3

学習がなぜ必要か︖ 4

学習がなぜ必要か︖(1/2） • 「推論」は、未知のデータを⼊れて予測値を取り出す操作 • 「学習」は、正解が出るように重み(W)とバイアス(B)を調整する操作推論未知のデータXを⼊⼒して、予測値Yを出す 0 1 2
3 + = ⼊⼒出⼒重みバイアス学習 + = ⼊⼒出⼒重みバイアス 0 1 2 3 3 2 ✕ 3 ◦ Xを⼊⼒したら、Yが出るように WとBを調整する未知のデータ既知のデータ正解/不正解を教える 5

学習がなぜ必要か︖(2/2）学習の簡単な例では、パーセプトロンの重みとバイアスを機械に決めさせるゲート AND OR NAND 式閾値真理値
(w& , w(, )=(0.5, 0.5, −0.7) (w&, w(,)=(−0.5, −0.5,0.7) (w&, w(,)=(0.5, 0.5, −0.2) 6

どうやって学習させるか︖ 7

どうやって学習させるか?（1/9）どのくらい正解から外れているかの指標︓損失関数名称 2乗和誤差交差エントロピー誤差式⽤途回帰問題 2クラス分類多クラス分類
損失関数の種類損失関数を最⼩にすることで、「予測値」を「正解値」を近づける︕ & ( (y − t)( − t log y +(1 − t)log(1 − ) − ∑;<= > t; log y; y︓予測値、t︓正解値、k︓クラス数 8

2乗和誤差︓ 予測確率確率と正解ラベルの差の2乗和どうやって学習させるか︖（2/9）国語の点（予測値） 80点数学の点地理の点英語の点国語の点
（実際） 75点差分を取る L = & ( (y − t)( = & ( (80 − 75)( (:予測値、 t ∶正解値) 9

= − t log y +(1 − t)log(1 − )
= −log 0.87=0.14 （Survived(実際）＝1の時） = −log 0.13=2.0 （Survived(実際）＝0の時） 2クラス分類の交差エントロピー誤差︓ -(予測確率の対数と正解ラベルの対数尤度) どうやって学習させるか︖（3/9） Survived （予測値） 0.87 Sex Survived （実際） 1 差分を取る Age Pclass Survived （実際） 0 (:予測値、 t ∶正解ラベル) 10

どうやって学習させるか︖（4/9）「2クラス分類の交差エントロピー誤差」の性質 t（正解ラベル）、y（予測確率）の対数尤度にマイナスをかけたものに等しいつまり、「誤差を最⼩にする」 ≒ 「最⼤尤度になるyを求める」 = − t log
y +(1 − t)log(1 − ) H (1 − )(&IH) 対数を取って、マイナスをかける t : 0（失敗） or 1（成功） y︓成功確率 11

出典︓https://ml4a.github.io/ml4a/jp/looking_inside_neural_nets/ 28 28 L = − ∑;<= J t; log
y; = − log 0.6 0 100 200 0 120 255 0 89 180 正解 y= (0.1) y& (0.05) y( (0.0) yL (0.0) yM (0.05) yN (0.1) yO (0.0) yP (0.1) yQ (0.6) yJ (0.0) 0 1 2 3 4 5 6 7 8 9 (R :予測確率、 R ∶正解ラベル) t= (0) t& (0) t( (0) tL (0) tM (0) tN (0) tO (0) tP (0) tQ (1) tJ (0) 交差エントロピー誤差 : 予測確率の対数と正解ラベルの積の和の符号を変えたものどうやって学習させるか︖（5/9） one-hot label 12

L = − log yQ L yQ 「多クラス分類の交差エントロピー誤差」の性質 “正解”の予測確率を低く⾒積もると急激に増える “正解”の予測確率を1に⾒積もると0になる
どうやって学習させるか︖（6/9）正解の予測確率交差エントロピー誤差 13

どうやって学習させるか︖（7/9）損失関数は重み(W)とバイアス(B)の関数である。損失関数の傾きと逆⽅向に動かして”⾕底”を⽬指せば良い L 重みW 、バイアスB 損失関数初期位置⾕底
傾き>0 傾き<0 動かす⽅向重みの更新︓W ← W − ρ L W バイアスの更新︓B ← B − ρ L B 傾きは「学習率」と⾔ってハイパーパラメーターの⼀種である傾きを利⽤して、関数が最⼩値を取るように変数を最適化する⼿法を「勾配法」という更新後位置ゴール 14

どうやって学習させるか︖（8/9） 1 . 重み（W）、バイアス（B）を”適当に”に決める 2. 訓練データを⼊れて、推論させる（誤差を求める） 3. 誤差から傾きを求める 4. 重み（W）、バイアス（B）を更新する
2〜4を繰り返す L W W ← W − ρ L W 学習の流れループ 15

この操作を全てのWとBについて、繰り返し実施すれば、いつか予測値と正解が⼀致するはずどうやって「傾き」を求めるか︖ どうやって学習させるか︖（9/9） 16

どうやって「傾き」を求めるか︖ 17

どうやって「傾き」を求めるか︖（1/5）機械は解析的に傾きを求められないので、「数値微分」によって近似的に求める重みW L(W) 損失関数 2h 現在位置 [\(]) [] ≅
\ ]_` I\(]I`) (` 傾き前後に微⼩量 ℎ 移動させて変化を求めるこれが傾きの近似値 L W + h −L(W − h) 重みの更新︓W ← W − ρ L W 18

勾配法で、損失関数が減少する様⼦を確認する重みの更新︓W ← W − ρ L(W, B) W バイアスの更新︓B
← B − ρ L(W, B) B W B W B 損失関数を以下と仮定する L W, B = W( + B( 傾きの⽅向ゴールゴールどうやって「傾き」を求めるか︖（2/5） 19

どうやって「傾き」を求めるか︖（3/5）重み、バイアスが更新される過程を可視化する W, B = −10 , 10 からスタート、繰り返し回数︓20回
学習率＝0.01 学習率＝0.1 学習率＝0.8 学習率＝1.0 重みの更新︓W ← W − ρ L(W, B) W バイアスの更新︓B ← B − ρ L(W, B) B 20

どうやって「傾き」を求めるか︖（4/5）数値微分の問題点︓ ニューラルネットが巨⼤になるとパラメータ数が膨⼤になり、現実的な時間で「傾き」を求められない︕ 28 28 予測確率 = (0.1) &
(0.05) ( (0.0) L (0.0) M (0.05) N (0.1) O (0.0) P (0.1) Q (0.6) J (0.0) ⼊⼒層(784) 中間層(50) 出⼒層(10) 教科書記載の「⼿書き⽂字分類（MNIST）」のニューラルネットワーク必要な重みWの数︓39,700 必要なバイアスの数︓60 （1,784）の⾏列 21

1 . 重み（ W ）、バイアス（ B）を”適当に”に決める
2. 訓練データを入れて、推論させる（誤差を求める） 3. 誤差から傾きを求める 4. 重み（ W ）、バイアス（ B）を更新する 2～4を繰り返す学習の流れループ数値微分を使った学習を細かく⾒ると、、 [\(b) [b ≅ _ I(I) (` 1つのパラメータの傾きを求める際に2回「推論」させる必要がある︕ つまり、２〜4を1回実施する度に (39,700+60)×2 + 1 = 79401回推論動作が必要になる 10000回ループさせると、 7,940,000,001回、、、終わるだろうか（反語）どうやって「傾き」を求めるか︖（5/5） 22

効率的に「傾き」を求める 23

効率的に「傾き」を求める（1/12） t& t( L = − ∑;<& ( t; log
y; 交差エントロピー誤差⼊⼒層中間層1層⽬中間層2層⽬出⼒層「傾き」をもっと簡単に計算できないか、3層のニューラルネットワークで考える中間層1層⽬の第1ニューロンから中間層2層⽬の第1ニューロンにかかる重みを ”効率的に”求めることを考える。 () 24

微分の連鎖律誤差逆伝播の説明で多⽤します効率的に「傾き」を求める（2/12） = u =g(x) = = , u
=g(q,r) v =h(q,r) = + = + 25

微分の連鎖律から以下が成り⽴つの関係があるから、 1 2 3 それぞれの項を求めて掛ければ良い効率的に「傾き」を求める（3/12） = & (
, & ( = & ( (& ( ) , & ( = & ( (&& ( ) 26

3の部分を求めるの関係から、効率的に「傾き」を求める（4/12） 27

活性化関数で変換しているから、＝効率的に「傾き」を求める（5/12） 2の部分を求める 28

の関係があるから、と変形できる効率的に「傾き」を求める（6/12） 1の部分を求める 29

さらに変形していく、の関係から、効率的に「傾き」を求める（7/12） () () 30

前半部分を求める softmax関数を右の式に代⼊する代⼊効率的に「傾き」を求める（8/12） - 31

さらに変形していく、代⼊この変形は、以下の関係を使っている効率的に「傾き」を求める（9/12） 32

なんと、予測確率と正解ラベルの差分という単純な形で表される︕ 代⼊ 1 2 3 これで、1、2、3 が揃いました効率的に「傾き」を求める（10/12）
33

予測確率と正解ラベルの差分を含む、簡単に求められる項の積 (⻘字のルートに関係する項）だけで表すことができた︕ このようにして、重みWとバイアスBの傾きを求める⼿法を「誤差逆伝播法」という活性化関数の微分が⼊っていることに注⽬! 効率的に「傾き」を求める（11/12）
() () 34

1. ⾮線形であること ⇒ 多層化のメリットを活かす︕ 2. 推論動作での減衰が⼩さい ⇒ 多層化のメリットを活かす︕ 3. 傾きが0の領域がないこと
⇒ 勾配消失を防ぐ 4. 傾きが⼀定であること ⇒ 学習速度が早い名前 step sigmoid tanh ReLU Leaky ReLU 特徴 0 or 1を返す・0〜1を返す・中⼼が0.5 ・-1〜1を返す・中⼼が0 ・⼊出⼒が⽐例・a≦0で傾き=0 ・⼊出⼒が⽐例・a≦0で傾き≠0 式グラフ ℎ ℎ ℎ ℎ ( > 0) ( ≦ 0) 1 1 + Iz z − Iz z + Iz ( > 0) ( ≦ 0) ( > 0) ( ≦ 0) 進化の過程 ℎ 中間層で使う活性化関数︓ 重みの更新︓W ← W − ρ L W 傾きが0だと更新されない ! 効率的に「傾き」を求める（12/12） 35

学習⽅法 36

出典︓https://ml4a.github.io/ml4a/jp/looking_inside_neural_nets/ 28 28 実は今まで、1個のデータ（1⽂字）について説明していました。実際の学習では、多数の訓練データを使います。訓練データが多数の場合について説明します。 0 100 200 0
120 255 0 89 180 正解 y= (0.1) y& (0.05) y( (0.0) yL (0.0) yM (0.05) yN (0.1) yO (0.0) yP (0.1) yQ (0.6) yJ (0.0) 0 1 2 3 4 5 6 7 8 9 (R :予測確率、 R ∶正解ラベル) t= (0) t& (0) t( (0) tL (0) tM (0) tN (0) tO (0) tP (0) tQ (1) tJ (0) 学習⽅法（1/7）この「8」だけに最適化しても、、 37

学習⽅法（2/7）学習⽅法には、「オンライン学習」、「ミニバッチ学習」、「バッチ学習」があり、それぞれ性質が異なる。名称オンライン学習ミニバッチ学習バッチ学習エントロピー誤差更新のタイミング 1⽂字毎
1バッチ毎全データ毎メリット・計算コストが⼩さい・データ全て保管しておかなくて良い・データの性質の変化に機敏に対応できる・局所最適解に陥りにくい・局所最適解に陥りにくい・バッチ学習に対して計算コストが⼩さい・外れ値の影響を受けにくいデメリット・外れ値の影響を受けやすい・局所最適解に陥りやすい・新データを⼊れると、全データで計算しなおす必要がある − ∑;<= > t; log y; − 1 { |<& } { R<= ~ R log R − 1 { |<& € { R<= ~ R log R k︓クラス数、B︓1バッチの⽂字数、N︓全⽂字数 38

オンライン学習 1⽂字の交差エントロピー誤差を計算する 1⽂字ごとに重み、バイアスを更新する正解 y" (0.1) y# (0.05) y$ (0.0)
y% (0.0) y& (0.05) y' (0.1) y( (0.0) y) (0.1) y* (0.6) y+ (0.0) 0 1 2 3 4 5 6 7 8 9 t" (0) t# (0) t$ (0) t% (0) t& (0) t' (0) t( (0) t) (0) t* (1) t+ (0) L = − ∑;<= J t; log y; 交差エントロピー誤差ランダムに選択学習⽅法（3/7） 39

ミニバッチ学習 1バッチ（ex.100⽂字）の交差エントロピー誤差を計算する交差エントロピー誤差を1⽂字あたりに変換する 1バッチごとに重み、バイアスを更新する正解 y" (0.1) y# (0.05) y$
(0.0) y% (0.0) y& (0.05) y' (0.1) y( (0.0) y) (0.1) y* (0.6) y+ (0.0) 0 1 2 3 4 5 6 7 8 9 t" (0) t# (0) t$ (0) t% (0) t& (0) t' (0) t( (0) t) (0) t* (1) t+ (0) = − 1 4 { |<& M { R<= J R log R 交差エントロピー誤差 N:全⽂字数 1バッチ=4⽂字の場合全ての⽂字を使い切ることを「epoch」と⾔う。1epoch = 48/4 =12バッチランダムに選択学習⽅法（4/7） 40

バッチ学習全⽂字⼀括で⼊れる = − 1 { |<& € { R<=
J R log R 正解 y" (0.1) y# (0.05) y$ (0.0) y% (0.0) y& (0.05) y' (0.1) y( (0.0) y) (0.1) y* (0.6) y+ (0.0) 0 1 2 3 4 5 6 7 8 9 t" (0) t# (0) t$ (0) t% (0) t& (0) t' (0) t( (0) t) (0) t* (1) t+ (0) 全⽂字の交差エントロピー誤差を計算する交差エントロピー誤差を1⽂字あたりに変換する全⽂字ごとに重み、バイアスを更新する交差エントロピー誤差 N:全⽂字数学習⽅法（5/7） 41

さて、問題です 60,000個ある訓練データを、 1バッチ=100個として、 10,000バッチ学習させると、何epochに相当するでしょうか︖ 学習⽅法（6/7）【Answer】全データは60,000/100 = 600バッチ
よって、全データは10,000/600 = 16.7 epochs になります 42

予測確率 = (0.1) & (0.05) ( (0.0) L (0.0) M
(0.05) N (0.1) O (0.0) P (0.1) Q (0.6) J (0.0) ⼊⼒層(784) 中間層(50) 出⼒層(10) 3層ニューラルネットワークで、60,000⽂字の⼿書き⽂字認識のミニバッチ学習を⾏う。「数値微分」と「誤差逆伝播法」の速度差を体感する 60,000⽂字ミニバッチ学習 100⽂字/バッチ 10000バッチ学習させる学習⽅法（7/7） 43

第2回まとめ 44

第2回まとめ（1/2） • ディープラーニングの学習⽅法傾きと逆⽅向にパラメータを更新して「⾕底」を⽬指す（勾配法）・傾きの効率的な求め⽅推論で求めている値を使って、⾼速に傾きを求める（誤差逆伝播法）・パラメータ更新のタイミング学習法によってパラメーター更新のタイミングが異なる
（オンライン学習、ミニバッチ学習、バッチ学習） W ← W − ρ L W 45

第2回まとめ（2/2）第3回は、以下を説明します「第6章学習に関するテクニック」・最適な重みパラメータを探索する⼿法（勾配⽅の進化形）・パラメーターの初期値をどうするか︖ ・ハイパーパラメータの設定⽅法・過学習の対応策局所最適解に陥ることがある 46

Appendix 47

名前 identity sigmoid softmax 特徴⼊⼒値をそのまま返す・0〜1を返す・中⼼が0.5
総和が1になる役割回帰問題 2クラス分類多クラス分類式グラフ ℎ = ℎ ~ = z• ∑R<& | z‚ ℎ ℎ h() = & &_ƒ„… 出⼒層で使う活性化関数︓ " ℎ " softmax関数 48

ℎ ~ = z• ∑ R<& | z‚ softmax関数 softmax関数︓出⼒の総和は1になる。⼊/出⼒で⼤⼩関係は変わらない。
{ ~<& | ℎ(~ ) = 1 定義式特徴確率変数の定義を満たしている︕ " " ℎ( ) ( ( ℎ( ) ) ) ℎ( ) " ℎ " 入力に対して確率差が付きやすい⼊⼒他のニューロンへの⼊⼒が、他のニューロンの出⼒に影響する 49

0.06 0.82 0.12 82% 6% “human” “cat” softmax関数を使うと、⼊⼒値を確率に変換できる。 " "
ℎ( ) ( ( ℎ( ) ) ) ℎ( ) 12% “dog” 0.3 2.9 1.0 & ( L & ( L ⼊⼒出⼒ softmax関数 softmax関数 50

Deep Learning 1 (Chapter 4 , Chapter 5)

Deep Learning 1 (Chapter 4 , Chapter 5)

More Decks by banquet.kuma

Other Decks in Technology

Featured

Transcript