Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Keio Univ intro to ml 2021 06

Keio Univ intro to ml 2021 06

Transcript

  1. 情報工学科 准教授 杉浦孔明 Email: komei.sugiura@keio.jp Slack: 1_sugiura.komei 慶應義塾大学理工学部 機械学習基礎 第6回

  2. 誤差逆伝播法 - - 7

  3. 第2回の復習:順伝播型ニューラルネット  順伝播型ニューラルネット(feed-forward neural network; FFNN) - - 8 入力層

    出力層 中間層(L-1個) 一般化すると
  4. 誤差逆伝播(backpropagation)法の背景  巨大な合成関数を(例えば) について安直に微分 →計算量・精度面で問題なので工夫したい - - 9 入力層 出力層

    中間層(L-1個)
  5. 第3回の復習:数値的に近似解を求めるための代表的な方法: 勾配降下法 - - 10  勾配降下法(gradient descent method) or

    最急降下法 (steepest descent method) 1. 初期値 を用意 2. 更新則  勾配(gradient) 学習率(learning rate; lr) 更新回数 勾配を計算すれば 全パラメータを学習可能
  6. 出力層への重みに関する偏微分を求めよう - - 11  出力層への重みに関する偏微分は、連鎖律より以下で求まる

  7. 出力層への重みに関する偏微分を求めよう - - 12  出力層への重みに関する偏微分は、連鎖律より以下で求まる デルタと定義

  8. 出力層への重みに関する偏微分を求めよう - - 13  出力層への重みに関する偏微分は、連鎖律より以下で求まる 偏微分には関係ないため デルタと定義

  9. 誤差逆伝播法: デルタを求める - - 14  出力層への重みに関する偏微分 順伝播時に計算済

  10. 誤差逆伝播法: デルタを求める - - 15  出力層への重みに関する偏微分  例:簡単のため、回帰問題かつ 1サンプル分の誤差を考える

    活性化関数が 恒等写像なら1 順伝播時に計算済
  11. 誤差逆伝播法: デルタを求める - - 16  出力層への重みに関する偏微分  が求まれば、 が得られる

     例:簡単のため、回帰問題かつ 1サンプル分の誤差を考える 活性化関数が 恒等写像なら1 同様に考えれば、
  12. 誤差逆伝播法: デルタの漸化式を求める - - 17  出力層への重みに関する偏微分  が求まれば、 が得られる

     デルタの漸化式を求めたい 同様に考えれば、 L層のデルタ (計算済) 偏微分の 連鎖律
  13. 誤差逆伝播法: デルタの漸化式を求める - - 18  デルタの漸化式を求めたい L層のデルタ (計算済) 偏微分の

    連鎖律
  14. 誤差逆伝播法: デルタの漸化式を求める - - 19  デルタの漸化式が求まった ReLUなら0または1

  15. 誤差逆伝播法: 順伝播と逆伝播 - - 20  まとめると、  順伝播 

    逆伝播  デルタの漸化式が求まった ReLUなら0または1
  16. CNNの誤差逆伝播法 - - 21  式(8.15)に対応する式  式(8.17)に対応する式

  17. 第4回の復習:Adam [Kingma+ 2014] 更新則 - - 22  Adam 

    勾配の指数移動平均を使う点が AdaDeltaと異なる  Adamの更新則 真の値より0側に偏るので以下のよ うに補正 ↑ρ1のt乗
  18. 理解度確認 - - 23

  19. 理解度確認 以下について周りと相談して1分以内に答えよ 1. 畳み込みの英語名を答えよ 2. (ニューラルネットにおける)畳み込みと行列積の違いは何か 3. MNISTの画像サイズを答えよ 4. ゼロパディングとは何か?

    - - 24
  20. 理解度確認 以下について周りと相談して1分以内に答えよ 1. 汎化誤差とは何か? 2. 検証用集合の英語名は何か? 3. 正則化とは何か? 4. ドロップアウト操作を、出力hjと確率pを用いて表せ

    - - 25
  21. 理解度確認 以下について周りと相談して1分以内に答えよ 1. バッチ学習とミニバッチ学習の違いは何か? 2. エポックとは何か? 3. 大域的極小値と局所的極小値の英語名は何か? 4. RMSpropとAdaDeltaの違いは何か?

    - - 26
  22. 再帰型ニューラルネット - - 27

  23. CNNとRNNの違い  convolutional neural network (CNN)  画像データの特性に応じてデザインされたネットワーク  畳み込み層・プーリング層

     誤差逆伝播(backpropagation)を用いた勾配降下法による 学習  再帰型ニューラルネット(recurrent neural network, RNN)  系列データの特性に応じてデザインされたネットワーク  再帰構造を有する隠れ層  通時的誤差逆伝播(backpropagation through time: BPTT)を 用いた勾配降下法による学習 - - 28
  24. 系列データ  要素間に順序があるデータ  自然言語  単語を単位とした場合  時系列 

    音声,動画像,株価,脳神経活動, ロボットの動作 - - 29 日本語・英語など、人工言語でない言語
  25. 系列データ  個々の要素が順序付きの集まりとして与えられるデータ  系列内の要素の並び(分脈)に意味がある  長さ がサンプルごとに違う  扱いたい問題の例

     を考慮して から を予測する  を集約し潜在表現を作る - - 30
  26. FFNNの問題点  出力 は入力 の関数  過去の情報を保持できない  を逐次入力とした場合, 出力

    は入力 の関数となり 過去の入力 は考慮されないため  可変長の系列データを扱うことができない  を一括入力とした場合, 長さ をサンプル間で共通とする必要があるため FFNN - - 31
  27. 単純なRNN  FFNNの隠れ層(中間層)に再帰構造をもたせる  出力 は入力 の関数  過去の情報の保持が可能 

    可変長の系列データを扱うことが可能 FFNN RNN - - 32
  28. RNNを時間方向に展開  各時刻で重みを共有した深いFFNNとみなすことが可能  入力層から隠れ層への重み  隠れ層から隠れ層 〃 各時刻で共通 

    隠れ層から出力層 〃 … … - - 33
  29. 順伝播計算(行列とベクトル)  隠れ層  出力層 - - 34

  30. 順伝播計算(各要素)  隠れ層  出力層 - - 35

  31. 自己回帰的な予測を行う場合の問題  テスト時: 予測結果 を入力 として用いる  訓練時 : 上記を行うと連鎖的に誤差増大

     学習の不安定化  収束の遅れ … … - - 36 自己回帰的(autoregressive) 時刻tにおける出力が時点t以前 の出力に依存
  32. Teacher Forcing  訓練時: 正解データ を入力 として用いる方法  前述の問題を解決(訓練・テスト時の分布が異なるという問題あり) …

    … - - 37
  33. 通時的誤差逆伝播(BPTT) … …  時間方向に展開したRNNに対して誤差逆伝播法を適用  各時刻での誤差の合計 の勾配を考える - -

    38
  34. BPTT  誤差の(隠れ層から出力層への重みに関する)偏微分 - - 39

  35. BPTT  誤差の(隠れ層から隠れ層への重みに関する)偏微分 - - 40

  36. BPTT  誤差の(入力層から隠れ層への重みに関する)偏微分 - - 41

  37. BPTT  出力層のデルタの計算  現時刻への影響のみを考慮 - - 42

  38. BPTT  隠れ層のデルタの計算  現時刻と1時刻先への影響を考慮 - - 43

  39. RNNの問題点  勾配消失・爆発  時間方向に展開したRNN: 層の多い(深い)FFNN  入力系列長分の深さを有する  FFNNと同様に何度も重みと活性化関数の微分を掛け合わせる

    (RNNの場合は各時刻で重みを共有しているためFFNNより深刻)  短期的な記憶(short-term memory)は可能  長期的な記憶(long-term memory)は難しい - - 44
  40. 本講義全体の参考図書  ★機械学習スタートアップシリーズ これならわかる深層学習入門 瀧 雅人著 講談社(本講義では、異なる表記を用いることがあるので注意)  ★Dive into

    Deep Learning (https://d2l.ai/)  画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著 講談 社  深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、海野裕也、鈴木潤 著、講談社  東京大学工学教程 情報工学 機械学習 中川 裕志著、東京大学工学教 程編纂委員会編 丸善出版  パターン認識と機械学習 上・下 C.M. ビショップ著 丸善出版 - - 45