Slide 1

Slide 1 text

PRML 勉強会 第5章 ニューラルネットワーク 担当:王研究室 川上雄太

Slide 2

Slide 2 text

第二週 ・NNの正則化 ・NNのなかまたち (畳込みNN, 混合密度NN, ベイズNN) ・deep learningの話 について ざっくりざっくりandざっくりやります

Slide 3

Slide 3 text

前回までのあらすじ PRML §5.1 - §5.4 p.225 – p.257

Slide 4

Slide 4 text

5.1 フィードフォワードネットワーク関数 • 1つにまとめると • 図で表すと , = 2 =0 ℎ (1) =0 (5.9)

Slide 5

Slide 5 text

5.1 フィードフォワードネットワーク関数 • こんな図で表せるので”ネットワーク” • (5.9)式の出力を求める計算過程を順伝搬と呼ぶ • 今後この構造を2層NNと呼ぶ • ネットワーク構造には様々な拡張が考えられる

Slide 6

Slide 6 text

NNの学習 • NNは誤差関数を最小化するように学習する (最急降下法の場合) (+1) = () − (()) • パラメータに関する誤差関数の微分 が 知りたい

Slide 7

Slide 7 text

5.3.1 誤差関数微分の評価 • 長々やったけど結局どういうことかというと 逆伝搬公式 = = ℎ′ 出力側 入力側

Slide 8

Slide 8 text

学習の流れ 0.重みをランダムに振る 1.入力ベクトル による現在の出力を求める (順伝搬) 2.出力層での誤差 を計算する 3. をもとに全ての隠れユニットの を得る(逆伝搬) 4. を用いて誤差関数の微分( )を評価 5.重みを更新 6.誤差が十分小さくなったら終了 ならなければ1.に戻る (+1) = () − (())

Slide 9

Slide 9 text

NNの正則化 PRML §5.5 p.258 – p.269

Slide 10

Slide 10 text

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい! • なんとかうまく学習したい • 複雑さを制御したい

Slide 11

Slide 11 text

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい! • なんとかうまく学習したい • 複雑さを制御したい

Slide 12

Slide 12 text

問題とアプローチ • 隠れユニット数の決定 - 実験実験アンド実験 • 結合重みの学習 - 正則化項の追加 - 学習の早期終了 • 不変性・汎化性能の確保 - 訓練データの工夫 - 正則化項の工夫 - 入力するデータの前処理の工夫 - NNの構造の工夫

Slide 13

Slide 13 text

結合重みの学習 • 普通の荷重減衰 (§3より) = + 2              • 重みの線形変換に対して不変な正則化項 = + 1 2 2 ∈1 + 2 2 2 ∈2 正則化項の追加

Slide 14

Slide 14 text

結合重みの学習 • 訓練時エラーは減っていくが、検証時エラーは あるところで増え始める • 検証時エラーが最小なときに訓練をストップ 学習の早期終了

Slide 15

Slide 15 text

不変性・汎化性能の確保 • 例えば手書き文字認識では・・・ - 文字の画面内での位置は一定でない - 文字の各部が伸縮しうる • 訓練データに手を加えて水増しする 訓練データの工夫

Slide 16

Slide 16 text

不変性・汎化性能の確保 • 入力の変換に対して出力が変化した時にペナル ティを加える。 → 接線伝搬法 正則化項の工夫 • 特徴抽出など、NNの前段階で線形変換への不 変性を確保する • 職人芸的 データの前処理の工夫

Slide 17

Slide 17 text

NNのなかまたち PRML §5.6 - §5.7 p.270 – p.288 +α

Slide 18

Slide 18 text

何をしたいのか • NNの構造は結構いくらでもいじれる • いろんな構造が提案されているので紹介

Slide 19

Slide 19 text

畳込みNN • 画像認識でよく使われる (木村くんが詳しい) • 全結合のNNは局所的特徴を捉えにくい • 局所的な結合を利用して特徴抽出処理を実現

Slide 20

Slide 20 text

混合密度ネットワーク • 順問題と逆問題 問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

Slide 21

Slide 21 text

混合密度ネットワーク • 順問題と逆問題 問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

Slide 22

Slide 22 text

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする (今回は混合正規分布の平均・分散・重み)

Slide 23

Slide 23 text

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする (今回は混合正規分布の平均・分散・重み)

Slide 24

Slide 24 text

ベイズニューラルネットワーク • ここまでのNNの話は確率とかあんまり考えて なかった • ネットワークのパラメータを、事前分布と教師 データからMAP推定する考え方 • 過学習を抑制できる • 詳細略!!

Slide 25

Slide 25 text

Deep Learning の話

Slide 26

Slide 26 text

Deep Learning とは? • 要するにものすごく大きいニューラルネットワーク • 表現力がものすごく高い • やることはNNと同じ? → 同じではうまくいかない! 入力層 中間層 出力層 入力ベクトル 出力ベクトル 26

Slide 27

Slide 27 text

学習の問題 • NNの学習は・・・ → 初期値を乱数で振って、誤差逆伝搬学習 入力ベクトル xによる出力ベクトル ′ 教師信号 比較 誤差 誤差 27

Slide 28

Slide 28 text

• 大規模なNNだと・・・ → 入力に近い層が全然学習されない! → ものすごく時間がかかる! 学習の問題 入力ベクトル xによる出力ベクトル ′ 教師信号 比較 誤差 誤差 誤差 誤 差 28

Slide 29

Slide 29 text

Deep Learning の基本方針 • 以下の手順でやるとうまくいく ① 乱数で初期値を振る ② 各層を教師なし学習 ③ 教師データをつけて誤差逆伝搬学習 • 要するに・・・ 誤差逆伝搬学習の前に、それなりに良さそうな重みに学 習しておくということ • 教師なし学習?? New! 29

Slide 30

Slide 30 text

Restricted Boltzmann Machine (RBM) 結合重み 可視層のバイアス = {1 … } 隠れ層のバイアス = {1 … } 隠れ層の状態 = {ℎ1 … ℎ } 可視層の状態 = {1 … } • その系の可視層から、状態が観測される確率 ) = exp(− , )) exp(− , )) • このとき、log )を最大化するように、を推定する(最尤推定) • 入力に対して、一番 「いい感じの」 結合重みが得られる 30

Slide 31

Slide 31 text

RBM RBMを用いた初期学習 (Pre-training) • 入力層から順に、各層をRBMと見立てて重みを学習 • これによって・・・ → 各層が特徴抽出能力を獲得 → 誤差逆伝搬学習のための良好な初期値となる 入力層 中間層 出力層 入力ベクトル 出力ベクトル 31

Slide 32

Slide 32 text

以上です • ニューラルネットワークがどんなものか、なん となくわかっていただけたら幸いです。 • 大変だった・・・・ • 次回は木村くんですね。頑張って!