PRML勉強会第五章 -後半 - 川上雄太作成分

Slide 1

Slide 1 text

PRML 勉強会第5章ニューラルネットワーク担当：王研究室川上雄太

Slide 2

Slide 2 text

第二週・NNの正則化・NNのなかまたち（畳込みNN, 混合密度NN, ベイズNN）・deep learningの話についてざっくりざっくりandざっくりやります

Slide 3

Slide 3 text

前回までのあらすじ PRML §5.1 - §5.4 p.225 – p.257

Slide 4

Slide 4 text

5.1 フィードフォワードネットワーク関数 • 1つにまとめると • 図で表すと , = 2 =0 ℎ (1) =0 (5.9)

Slide 5

Slide 5 text

5.1 フィードフォワードネットワーク関数 • こんな図で表せるので”ネットワーク” • (5.9)式の出力を求める計算過程を順伝搬と呼ぶ • 今後この構造を2層NNと呼ぶ • ネットワーク構造には様々な拡張が考えられる

Slide 6

Slide 6 text

NNの学習 • NNは誤差関数を最小化するように学習する（最急降下法の場合） (+1) = () − (()) • パラメータに関する誤差関数の微分が知りたい

Slide 7

Slide 7 text

5.3.1 誤差関数微分の評価 • 長々やったけど結局どういうことかというと逆伝搬公式 = = ℎ′ 出力側入力側

Slide 8

Slide 8 text

学習の流れ０．重みをランダムに振る１．入力ベクトルによる現在の出力を求める (順伝搬) ２．出力層での誤差を計算する３．をもとに全ての隠れユニットのを得る(逆伝搬) ４．を用いて誤差関数の微分( )を評価５．重みを更新６．誤差が十分小さくなったら終了ならなければ１.に戻る (+1) = () − (())

Slide 9

Slide 9 text

NNの正則化 PRML §5.5 p.258 – p.269

Slide 10

Slide 10 text

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい！ • なんとかうまく学習したい • 複雑さを制御したい

Slide 11

Slide 11 text

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい！ • なんとかうまく学習したい • 複雑さを制御したい

Slide 12

Slide 12 text

問題とアプローチ • 隠れユニット数の決定 - 実験実験アンド実験 • 結合重みの学習 - 正則化項の追加 - 学習の早期終了 • 不変性・汎化性能の確保 - 訓練データの工夫 - 正則化項の工夫 - 入力するデータの前処理の工夫 - NNの構造の工夫

Slide 13

Slide 13 text

結合重みの学習 • 普通の荷重減衰 (§3より) = + 2 　　　　　　　　　　　　 • 重みの線形変換に対して不変な正則化項 = + 1 2 2 ∈1 + 2 2 2 ∈2 正則化項の追加

Slide 14

Slide 14 text

結合重みの学習 • 訓練時エラーは減っていくが、検証時エラーはあるところで増え始める • 検証時エラーが最小なときに訓練をストップ学習の早期終了

Slide 15

Slide 15 text

不変性・汎化性能の確保 • 例えば手書き文字認識では・・・ - 文字の画面内での位置は一定でない - 文字の各部が伸縮しうる • 訓練データに手を加えて水増しする訓練データの工夫

Slide 16

Slide 16 text

不変性・汎化性能の確保 • 入力の変換に対して出力が変化した時にペナルティを加える。 → 接線伝搬法正則化項の工夫 • 特徴抽出など、NNの前段階で線形変換への不変性を確保する • 職人芸的データの前処理の工夫

Slide 17

Slide 17 text

NNのなかまたち PRML §5.6 - §5.7 p.270 – p.288 +α

Slide 18

Slide 18 text

何をしたいのか • NNの構造は結構いくらでもいじれる • いろんな構造が提案されているので紹介

Slide 19

Slide 19 text

畳込みNN • 画像認識でよく使われる（木村くんが詳しい） • 全結合のNNは局所的特徴を捉えにくい • 局所的な結合を利用して特徴抽出処理を実現

Slide 20

Slide 20 text

混合密度ネットワーク • 順問題と逆問題問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

Slide 21

Slide 21 text

混合密度ネットワーク • 順問題と逆問題問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

Slide 22

Slide 22 text

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする（今回は混合正規分布の平均・分散・重み）

Slide 23

Slide 23 text

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする（今回は混合正規分布の平均・分散・重み）

Slide 24

Slide 24 text

ベイズニューラルネットワーク • ここまでのNNの話は確率とかあんまり考えてなかった • ネットワークのパラメータを、事前分布と教師データからMAP推定する考え方 • 過学習を抑制できる • 詳細略！！

Slide 25

Slide 25 text

Deep Learning の話

Slide 26

Slide 26 text

Deep Learning とは? • 要するにものすごく大きいニューラルネットワーク • 表現力がものすごく高い • やることはNNと同じ？ → 同じではうまくいかない！入力層中間層出力層入力ベクトル出力ベクトル 26

Slide 27

Slide 27 text

学習の問題 • NNの学習は・・・ → 初期値を乱数で振って、誤差逆伝搬学習入力ベクトル xによる出力ベクトル ′ 教師信号比較誤差誤差 27

Slide 28

Slide 28 text

• 大規模なNNだと・・・ → 入力に近い層が全然学習されない！ → ものすごく時間がかかる！学習の問題入力ベクトル xによる出力ベクトル ′ 教師信号比較誤差誤差誤差誤差 28

Slide 29

Slide 29 text

Deep Learning の基本方針 • 以下の手順でやるとうまくいく ① 乱数で初期値を振る ② 各層を教師なし学習 ③ 教師データをつけて誤差逆伝搬学習 • 要するに・・・誤差逆伝搬学習の前に、それなりに良さそうな重みに学習しておくということ • 教師なし学習？？ New! 29

Slide 30

Slide 30 text

Restricted Boltzmann Machine (RBM) 結合重み可視層のバイアス = {1 … } 隠れ層のバイアス = {1 … } 隠れ層の状態 = {ℎ1 … ℎ } 可視層の状態 = {1 … } • その系の可視層から、状態が観測される確率 ) = exp(− , )) exp(− , )) • このとき、log )を最大化するように、を推定する(最尤推定) • 入力に対して、一番「いい感じの」結合重みが得られる 30

Slide 31

Slide 31 text

RBM RBMを用いた初期学習 (Pre-training) • 入力層から順に、各層をRBMと見立てて重みを学習 • これによって・・・ → 各層が特徴抽出能力を獲得 → 誤差逆伝搬学習のための良好な初期値となる入力層中間層出力層入力ベクトル出力ベクトル 31

Slide 32

Slide 32 text

以上です • ニューラルネットワークがどんなものか、なんとなくわかっていただけたら幸いです。 • 大変だった・・・・ • 次回は木村くんですね。頑張って！