PRML勉強会第五章 -後半 - 川上雄太作成分

PRML 勉強会第5章ニューラルネットワーク担当：王研究室川上雄太

第二週・NNの正則化・NNのなかまたち（畳込みNN, 混合密度NN, ベイズNN）・deep learningの話についてざっくりざっくりandざっくりやります

前回までのあらすじ PRML §5.1 - §5.4 p.225 – p.257

5.1 フィードフォワードネットワーク関数 • 1つにまとめると • 図で表すと , = 2 =0
ℎ (1) =0 (5.9)

5.1 フィードフォワードネットワーク関数 • こんな図で表せるので”ネットワーク” • (5.9)式の出力を求める計算過程を順伝搬と呼ぶ • 今後この構造を2層NNと呼ぶ • ネットワーク構造には様々な拡張が考えられる

NNの学習 • NNは誤差関数を最小化するように学習する（最急降下法の場合） (+1) = () − (()) •
パラメータに関する誤差関数の微分が知りたい

5.3.1 誤差関数微分の評価 • 長々やったけど結局どういうことかというと逆伝搬公式 = = ℎ′ 出力側入力側

学習の流れ０．重みをランダムに振る１．入力ベクトルによる現在の出力を求める (順伝搬) ２．出力層での誤差を計算する３．をもとに全ての隠れユニットのを得る(逆伝搬)
４．を用いて誤差関数の微分( )を評価５．重みを更新６．誤差が十分小さくなったら終了ならなければ１.に戻る (+1) = () − (())

NNの正則化 PRML §5.5 p.258 – p.269

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい！ • なんとかうまく学習したい • 複雑さを制御したい

問題とアプローチ • 隠れユニット数の決定 - 実験実験アンド実験 • 結合重みの学習 - 正則化項の追加 -
学習の早期終了 • 不変性・汎化性能の確保 - 訓練データの工夫 - 正則化項の工夫 - 入力するデータの前処理の工夫 - NNの構造の工夫

結合重みの学習 • 普通の荷重減衰 (§3より) = + 2 　　　　　　　　　　　　 • 重みの線形変換に対して不変な正則化項
= + 1 2 2 ∈1 + 2 2 2 ∈2 正則化項の追加

結合重みの学習 • 訓練時エラーは減っていくが、検証時エラーはあるところで増え始める • 検証時エラーが最小なときに訓練をストップ学習の早期終了

不変性・汎化性能の確保 • 例えば手書き文字認識では・・・ - 文字の画面内での位置は一定でない - 文字の各部が伸縮しうる • 訓練データに手を加えて水増しする訓練データの工夫

不変性・汎化性能の確保 • 入力の変換に対して出力が変化した時にペナルティを加える。 → 接線伝搬法正則化項の工夫 • 特徴抽出など、NNの前段階で線形変換への不変性を確保する
• 職人芸的データの前処理の工夫

NNのなかまたち PRML §5.6 - §5.7 p.270 – p.288 +α

何をしたいのか • NNの構造は結構いくらでもいじれる • いろんな構造が提案されているので紹介

畳込みNN • 画像認識でよく使われる（木村くんが詳しい） • 全結合のNNは局所的特徴を捉えにくい • 局所的な結合を利用して特徴抽出処理を実現

混合密度ネットワーク • 順問題と逆問題問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする（今回は混合正規分布の平均・分散・重み）

ベイズニューラルネットワーク • ここまでのNNの話は確率とかあんまり考えてなかった • ネットワークのパラメータを、事前分布と教師データからMAP推定する考え方 • 過学習を抑制できる •
詳細略！！

Deep Learning の話

Deep Learning とは? • 要するにものすごく大きいニューラルネットワーク • 表現力がものすごく高い • やることはNNと同じ？ →
同じではうまくいかない！入力層中間層出力層入力ベクトル出力ベクトル 26

学習の問題 • NNの学習は・・・ → 初期値を乱数で振って、誤差逆伝搬学習入力ベクトル xによる出力ベクトル ′ 教師信号比較
誤差誤差 27

• 大規模なNNだと・・・ → 入力に近い層が全然学習されない！ → ものすごく時間がかかる！学習の問題入力ベクトル xによる出力ベクトル ′
教師信号比較誤差誤差誤差誤差 28

Deep Learning の基本方針 • 以下の手順でやるとうまくいく ① 乱数で初期値を振る ② 各層を教師なし学習 ③
教師データをつけて誤差逆伝搬学習 • 要するに・・・誤差逆伝搬学習の前に、それなりに良さそうな重みに学習しておくということ • 教師なし学習？？ New! 29

Restricted Boltzmann Machine (RBM) 結合重み可視層のバイアス = {1 … }
隠れ層のバイアス = {1 … } 隠れ層の状態 = {ℎ1 … ℎ } 可視層の状態 = {1 … } • その系の可視層から、状態が観測される確率 ) = exp(− , )) exp(− , )) • このとき、log )を最大化するように、を推定する(最尤推定) • 入力に対して、一番「いい感じの」結合重みが得られる 30

RBM RBMを用いた初期学習 (Pre-training) • 入力層から順に、各層をRBMと見立てて重みを学習 • これによって・・・ → 各層が特徴抽出能力を獲得 →
誤差逆伝搬学習のための良好な初期値となる入力層中間層出力層入力ベクトル出力ベクトル 31

以上です • ニューラルネットワークがどんなものか、なんとなくわかっていただけたら幸いです。 • 大変だった・・・・ • 次回は木村くんですね。頑張って！

PRML勉強会第五章 -後半 - 川上雄太作成分

PRML勉強会第五章 -後半 - 川上雄太作成分

takegue

More Decks by takegue

Other Decks in Technology

Featured

Transcript

PRML 勉強会第5章ニューラルネットワーク担当：王研究室川上雄太

第二週・NNの正則化・NNのなかまたち（畳込みNN, 混合密度NN, ベイズNN）・deep learningの話についてざっくりざっくりandざっくりやります

前回までのあらすじ PRML §5.1 - §5.4 p.225 – p.257

5.1 フィードフォワードネットワーク関数 • 1つにまとめると • 図で表すと , = 2 =0

5.1 フィードフォワードネットワーク関数 • こんな図で表せるので”ネットワーク” • (5.9)式の出力を求める計算過程を順伝搬と呼ぶ • 今後この構造を2層NNと呼ぶ • ネットワーク構造には様々な拡張が考えられる

NNの学習 • NNは誤差関数を最小化するように学習する（最急降下法の場合） (+1) = () − (()) •

5.3.1 誤差関数微分の評価 • 長々やったけど結局どういうことかというと逆伝搬公式 = = ℎ′ 出力側入力側

学習の流れ０．重みをランダムに振る１．入力ベクトルによる現在の出力を求める (順伝搬) ２．出力層での誤差を計算する３．をもとに全ての隠れユニットのを得る(逆伝搬)

NNの正則化 PRML §5.5 p.258 – p.269

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい！ • なんとかうまく学習したい • 複雑さを制御したい

何をしたいのか • NNは万能近似器 → 過学習に陥りやすい！ • なんとかうまく学習したい • 複雑さを制御したい

問題とアプローチ • 隠れユニット数の決定 - 実験実験アンド実験 • 結合重みの学習 - 正則化項の追加 -

結合重みの学習 • 普通の荷重減衰 (§3より) = + 2 　　　　　　　　　　　　 • 重みの線形変換に対して不変な正則化項

結合重みの学習 • 訓練時エラーは減っていくが、検証時エラーはあるところで増え始める • 検証時エラーが最小なときに訓練をストップ学習の早期終了

不変性・汎化性能の確保 • 例えば手書き文字認識では・・・ - 文字の画面内での位置は一定でない - 文字の各部が伸縮しうる • 訓練データに手を加えて水増しする訓練データの工夫

不変性・汎化性能の確保 • 入力の変換に対して出力が変化した時にペナルティを加える。 → 接線伝搬法正則化項の工夫 • 特徴抽出など、NNの前段階で線形変換への不変性を確保する

NNのなかまたち PRML §5.6 - §5.7 p.270 – p.288 +α

何をしたいのか • NNの構造は結構いくらでもいじれる • いろんな構造が提案されているので紹介

畳込みNN • 画像認識でよく使われる（木村くんが詳しい） • 全結合のNNは局所的特徴を捉えにくい • 局所的な結合を利用して特徴抽出処理を実現

混合密度ネットワーク • 順問題と逆問題問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

混合密度ネットワーク • 順問題と逆問題問題によって、答えが複数ある場合がある →推定すべき関数に多峰性がある

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする（今回は混合正規分布の平均・分散・重み）

混合密度ネットワーク • じゃあどうする NNの出力を確率分布のパラメータにする（今回は混合正規分布の平均・分散・重み）

ベイズニューラルネットワーク • ここまでのNNの話は確率とかあんまり考えてなかった • ネットワークのパラメータを、事前分布と教師データからMAP推定する考え方 • 過学習を抑制できる •

Deep Learning の話

Deep Learning とは? • 要するにものすごく大きいニューラルネットワーク • 表現力がものすごく高い • やることはNNと同じ？ →

学習の問題 • NNの学習は・・・ → 初期値を乱数で振って、誤差逆伝搬学習入力ベクトル xによる出力ベクトル ′ 教師信号比較

• 大規模なNNだと・・・ → 入力に近い層が全然学習されない！ → ものすごく時間がかかる！学習の問題入力ベクトル xによる出力ベクトル ′

Deep Learning の基本方針 • 以下の手順でやるとうまくいく ① 乱数で初期値を振る ② 各層を教師なし学習 ③

Restricted Boltzmann Machine (RBM) 結合重み可視層のバイアス = {1 … }

RBM RBMを用いた初期学習 (Pre-training) • 入力層から順に、各層をRBMと見立てて重みを学習 • これによって・・・ → 各層が特徴抽出能力を獲得 →

以上です • ニューラルネットワークがどんなものか、なんとなくわかっていただけたら幸いです。 • 大変だった・・・・ • 次回は木村くんですね。頑張って！

PRML勉強会 第五章 -後半 - 川上雄太作成分

PRML勉強会 第五章 -後半 - 川上雄太作成分

More Decks by takegue

Other Decks in Technology

Featured

Transcript

PRML勉強会第五章 -後半 - 川上雄太作成分

PRML勉強会第五章 -後半 - 川上雄太作成分