PRML勉強会第三章 - 宮西由貴作成分

Slide 1

Slide 1 text

PRML勉強会第5回

Slide 2

Slide 2 text

こんにちは  第三章を担当します  一章でやったことがたくさん出ます  数式に関してはざっくり行きます  抜かした節もいくつかあります（ごめんね☆）

Slide 3

Slide 3 text

第三章について 1. 線形基底関数モデル 2. バイアス-バリアンス分解 3. ベイズ線形回帰 4. ベイズモデル比較 5. エビデンス近似 6. 固定された基底関数の限界

Slide 4

Slide 4 text

第三章について 1. 線形基底関数モデル 2. バイアス-バリアンス分解 3. ベイズ線形回帰 4. ベイズモデル比較 5. エビデンス近似 6. 固定された基底関数の限界今回説明する部分

Slide 5

Slide 5 text

線形基底関数モデル・・・の前に  線形回帰モデルについて  利点：解析的に扱いやすい  欠点：入力空間が高次元の場合は適切でない変数or係数の足し算・引き算のみで表された数式（変数×係数はOK）

Slide 6

Slide 6 text

単純な線形回帰モデル入力変数に関しては非線形なモデルに拡張 , = 0 + 1 1 + ⋯ + = (1 , ⋯ , ) 入力 0 , ⋯ , パラメータ  特徴  パラメータに関する線形関数になっている  入力変数に関する線形関数でもある＝表現能力が乏しい

Slide 7

Slide 7 text

拡張した線形回帰モデル , = 0 + () −1 =1 () 基底関数 0 バイアスパラメータパラメータ数  特徴  入力変数に関しては非線形  パラメータに関しては線形なので線形モデル＝解析は容易

Slide 8

Slide 8 text

ちなみに・・・  先ほどの関数について0 = とすると… , = () −1 =1 = = (0 , ⋯ , −1 ) = (0 , ⋯ , −1 ) 単純になりました！

Slide 9

Slide 9 text

基底関数、何にする？  一章の多項式回帰： =  入力空間の一部での変化が全領域に及ぶ  入力空間を分割  それぞれの空間に多項式を当てはめる  「スプライン関数」と呼ぶ  「ガウス基底関数」  「ロジスティックシグモイド関数」  フーリエ基底「ウェーブレット」「本章で示すほとんどのことは基底関数に依存しません。」ということなので省略です。解決!!

Slide 10

Slide 10 text

最尤推定と最小二乗法の関係  最尤推定で回帰を論じる = , + ガウスノイズ (期待値0,分散の逆数=精度がのガウス確率変数) , , = Ν , , −1 一章より、二乗損失関数を仮定することで予測値は目標値の条件付き期待値となる = = (, )

Slide 11

Slide 11 text

先ほどの式に手を加えて…  入力が = {1 , ⋯ , }, 目標値が1 , ⋯ , = = の尤度関数 , , = Ν ( ), −1 =1 入力変数の分布をモデル化したいわけではない →これからはを式から抜いて表示多次元出力関数の観測値ではない調整可能なとの関数になっているということが重要！

Slide 12

Slide 12 text

尤度関数をごにょごにょしよう  対数を取る(掛け算→足し算にするため？) ln{ , , } = ln{Ν , −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布の標準形

Slide 13

Slide 13 text

を決定しよう（１）  最尤推定を使う条件付きガウスノイズ分布での線形モデルは二乗和誤差関数小＝尤度関数大  対数化した尤度関数の勾配を取ると ln{ , , } = { − ( )}( ) =1

Slide 14

Slide 14 text

 勾配=0の時（ガウス分布の頂点）、 0 = ( )−( ( )( ) =1 =1 これをについて解くと、 = ()−1 N×M行列 = ( ) ⋯ − ( ) ⋮ ⋱ ⋮ ( ) ⋯ − ( ) を決定しよう（２）最小二乗問題の正規方程式と一緒！

Slide 15

Slide 15 text

擬似逆行列の話  後々出てくるそうなので一応… ≡ ()−1 この行列をムーア―ペンローズ擬似逆行列と言う  ムーア―ペンローズ擬似逆行列の意味通常の逆行列の概念を、非正方行列へと拡張したものと考えられる

Slide 16

Slide 16 text

バイアスパラメータの話（１） = 1 2 { − ( )}2 =1 = (0 , ⋯ , −1 ) 0 = 1　　　　　※ = 1 2 { − 0 − −1 =1 ( )}2 =1 ※ , = () −1 =1 =

Slide 17

Slide 17 text

バイアスパラメータの話（２）  先ほどの式を0 で微分＝０として0 を解く 0 = − −1 =1 = 2 =1 目標値の平均 = 2 ( ) =1 基底関数の値の平均の重み付き和  バイアスパラメータの役割との差を埋め合わせている

Slide 18

Slide 18 text

を決定しよう  尤度関数から最大化する  手法としては、0 と一緒 2 ln(β) − 2 ln 2 − () ーーーーーーー手順は省略しますーーーーーーーー 1 = 1 { − ( )}2 =1

Slide 19

Slide 19 text

お詫び 3.1.2最小二乗法の幾何学および 3.1.3逐次処理に関しては省略しますなんか説明の必要ないかなーと思ったので… よければ読んでみてください。

Slide 20

Slide 20 text

正則化項の話  誤差関数に正則化項を加える（過学習を防ぐ） + 正則化係数( との重要度を制御)  正則化項で一番単純な値を使うと… = 1 2 = 1 2 { − ( )}2 =1 1 2 { − ( )}2+ 2 =1

Slide 21

Slide 21 text

荷重減衰  先ほどの正則化項の選び方のこと  機械学習の分野では荷重減衰  データのあてはめに必要ない重みが減衰するから  統計学ではパラメータ縮小推定  重みを0に近づけるから  の勾配＝０とすると最小二乗解の拡張

Slide 22

Slide 22 text

一般的な正則化誤差項 1 2 { − ( )}2+ 2 =1 =1 = 2 の時、荷重減衰の式と一緒  qの値によって変化する誤差項  特にq=1の時をlassoと呼ぶ  lassoではλが大きい時、疎な解が得られる q=2 q=1

Slide 23

Slide 23 text

正則化の問題点  限られた訓練データで複雑なモデルを学習 ⇒過学習が発生！  そこで使うのが正則化根本的な問題は解決していない！  適切な基底関数の数を求める →適切なλを求めるに置き換えただけ  この問題については後半で…

Slide 24

Slide 24 text

出力変数が多次元の場合  今まで扱ってきたのは1次元のみ  応用場面によっては多次元もあるかも…  計算とか複雑なんだろうなー…  K(>1)次元の出力を目標ベクトルとして、の要素に対して異なる基底関数を用いる  複数の独立な1次元回帰問題に落とし込める！ ※教科書に複雑な式もありますが最後には、「単純化のため、1次元の目標変数tを考える」となっています。

Slide 25

Slide 25 text

3.1が終了しました  お疲れ様でした  これ以降の話をしましょう  ベイズの枠組みを使って過学習をなくします  その前にバイアスとバリアンスについて学びます  今日はバイアス-バリアンスまでです

Slide 26

Slide 26 text

バイアスとバリアンスの導出  期待二乗損失の話 = − ℎ 2 + ℎ − 2 , ℎ = | = (|)  損失を少なくしたいので第一項(非負)を0にする  = ℎ ならば理想的！  でも、ℎ は正しく求まらない・・・ (データと計算資源が無限にあれば可能)

Slide 27

Slide 27 text

 予測関数 ; とする  Dはデータ数の第一項の積分はDに対して： { ; − ℎ()}2 ; を↑の式に足して引く (めっちゃ面倒なのでホワイトボードで!!!!)  最後に全体の期待値を取ると… ; − ℎ 2 = { [ ; − ℎ()]}2+ [{ ; − [(; )]}2] 予測関数を使うバイアスバリアンス

Slide 28

Slide 28 text

つまりバイアス-バリアンスって？  視覚的にみてみよう！（１）学習結果の平均(赤)と真のグラフ(緑) 学習結果学習結果がまとまっているが、結果と真のグラフは程遠い

Slide 29

Slide 29 text

つまりバイアス-バリアンスって？  視覚的に見てみよう！（２）学習結果学習結果の平均(赤)と真のグラフ(緑) 結果と真のグラフは近いが、学習結果がまとまっていない

Slide 30

Slide 30 text

つまりバイアス-バリアンスって？  （１）について  学習結果がまとまっている  バリアンスが小さい  結果と真のグラフは程遠い  バイアスが大きい  （２）について  学習結果がまとまっていない  バリアンスが大きい  結果と真のグラフが近い  バイアスが小さいトレードオフの関係！

Slide 31

Slide 31 text

終わりです  お疲れ様でした！

Slide 32

Slide 32 text

先週の続きです  先週：３章の３．２まで進みました  基底関数  最尤推定  正則化  バイアス・バリアンスなど…  自分の番が終わるのがうれしい（本音）

Slide 33

Slide 33 text

Slide 34

Slide 34 text

3.3 ベイズ線形回帰

Slide 35

Slide 35 text

これまでの議論と提案  線形回帰モデルパラメータ：最尤推定で決定  問題によってモデルの複雑さを選択する必要有  尤度関数を最大にするモデル＝過度に複雑 ⇒過学習が発生！  正則化した場合… 正則化パラメータ＝モデルの複雑さ線形回帰モデルをベイズ的に扱う ● 過学習を回避 ● 訓練データのみを使ってモデルの複雑さを自動決定

Slide 36

Slide 36 text

パラメータwと事前確率分布 , = = Ν ( ), −1 =1  尤度関数が定義される場合…  共役事前分布は = 0 , 0 0 期待値 0 共分散  事後分布（尤度関数×事前分布）は = , = 0 −10 + , −1 = 0 −1 +

Slide 37

Slide 37 text

続き  事後確率を最大にする重みベクトル =  無限に広い事前分布（0 = −1( → 0)）では = 最尤推定値（= ΦΦ −1Φ）  N=0の場合は事後確率が事前確率と一致

Slide 38

Slide 38 text

今後の表記  議論を簡単に→精度パラメータ＝α, 期待値＝0 = , −1 等方的ガウス分布 = , 事後分布（変化はない） = , −1 = +  事後分布の対数 ln p | = − 2 { − ( )}2− 2 + 定数 =1  ↑をwについて最大化＝二乗和誤差関数と二次正則化項の和を最小化

Slide 39

Slide 39 text

図3.7を使った説明

Slide 40

Slide 40 text

予測分布  wではなく、新しいxに対するtを予測したい  予測分布を評価する t , α, = , , , t , α, 予測分布訓練データの目標値からなるベクトル  2.3.3の(2.115)より予測分布は、 t , , α, = , 2 2 = 1 + () 予測分布の分散

Slide 41

Slide 41 text

図3.8を使った説明

Slide 42

Slide 42 text

3.4 ベイズモデル比較

Slide 43

Slide 43 text

ベイズの立場からのモデル比較  モデルに関する不確かさを表す⇒確率を使用  確率の加法・乗法定理を使用  モデル ℳ = 1, … , を比較  モデルの事後分布 ℳ を評価する  事後分布 ℳ の式 ℳ ∝ ℳ ℳ 訓練集合 ※簡単のため、事前分布は全モデルにおいて等しいとする

Slide 44

Slide 44 text

モデルエビデンス  モデルエビデンス ℳ が重要  データから見たモデルの好み  周辺尤度とも呼ぶ（モデル空間でのパラメータを周辺化した尤度関数）  2つのモデルに対するエビデンス比はベイズ因子 ℳ / ℳ

Slide 45

Slide 45 text

モデル平均の近似  単純なのはモデル選択  一番もっともらしいモデルを一つ選ぶ方法 ℳ = , ℳ ℳ 周辺尤度：事前分布からパラメータをランダムにサンプリングした時に、データ集合が生成される確率＆ベイズの定理によってパラメータの事後確率を計算する際、分母に現れる正規化定数

Slide 46

Slide 46 text

正しいモデルが選択される？（１）  2つのモデルℳ1 , ℳ2 を考えて確認  ℳ1 が正しいモデルとする有限データ集合では正しくないモデルのベイズ因子が大きくなることも… ⇒ベイズ因子をデータ集合の分布に関して平均 ⇒期待ベイズ因子が得られる ℳ1 ln ℳ1 ℳ3 ※真のデータ生成の分布に関して期待値を取る仮定：モデルの集合中に、データが生成される真の分布が存在

Slide 47

Slide 47 text

正しいモデルが選択される？（２）  カルバック-ライブラーダイバージェンス  2つの分布が等しい時に0  それ以外の場合は常に正の値  期待ベイズ因子はカルバック-ライブラーダイバージェンスの一例仮定が成り立つ時、平均的には正しいモデルのベイズ因子が常に大きい

Slide 48

Slide 48 text

3.5 エビデンス近似

Slide 49

Slide 49 text

Αとβにも事前分布を！  線形基底関数モデルを全てベイズ的に扱う ⇒αとβに事前分布を導入&周辺化したい！  全変数の上での解析的な周辺化は困難  パラメータwに関して積分 (周辺尤度関数を得る)  周辺尤度関数を最大にするα,βを決定エビデンス近似超パラメータ

Slide 50

Slide 50 text

超パラメータに事前分布を導入  予測分布：同時分布をw,α,βに関して周辺化 p t = , , , , ちなみに、 , , = Ν , , −1 (3.8) = , (3.49) = (3.53) −1 = + (3.54) 省略事後分布

Slide 51

Slide 51 text

予測分布  事後分布が , の周りで鋭く尖っている α,βを , に固定&wを周辺化→予測分布を得る ≅ , , = , , ,  , の値は？  ベイズの定理より事後分布は , ∝ , ,  事前分布が比較的平坦な場合 ⇒ 周辺尤度関数 , を最大にする＝エビデンス関数

Slide 52

Slide 52 text

最大化の手法  解析的にエビデンス関数を評価  エビデンス関数を評価  エビデンス関数の導関数＝0とおく  Αとβの再推定方程式を得る  EMアルゴリズムを使用訓練データのみを用いて超パラメータの値を決定できるこちらを説明

Slide 53

Slide 53 text

エビデンス関数の評価 , = ,  ↑周辺尤度関数＝同時分布をパラメータwについて積分  評価方法  エビデンス関数に変形  指数関数の中身を平方完成  ガウス関数の正規化係数の一般形を使用

Slide 54

Slide 54 text

(再掲)尤度関数をごにょごにょしよう  対数を取る(掛け算→足し算にするため？) ln{ , , } = ln{Ν , −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布の標準形

Slide 55

Slide 55 text

, = , を変形 , = 2 2 2 2 −() = , −1 E = β + = 2 | − |2 + 2 ：wの次元数  ↑エビデンス関数  E と正則化二乗和誤差関数は定数倍の差のみ

Slide 56

Slide 56 text

(再掲)正則化項の話  誤差関数に正則化項を加える（過学習を防ぐ） + 正則化係数( との重要度を制御)  正則化項で一番単純な値を使うと… = 1 2 = 1 2 { − ( )}2 =1 1 2 { − ( )}2+ 2 =1

Slide 57

Slide 57 text

指数関数の中身E(w)を平方完成 E = + 1 2 − − = + = ヘッセ行列 = 2 || − ||2 + 2 = −1Φ 事後分布の平均

Slide 58

Slide 58 text

評価 exp − = exp − exp − 1 2 − − = exp − 2 2 ||−1 2  上記のように評価可能  周辺尤度の対数は ln , = 2 ln + 2 ln − − 1 2 ln − 2 ln (2)

Slide 59

Slide 59 text

αについて最大化（１）  固有ベクトル方程式を定義 = = + なので、固有値 + を持つ周辺尤度の対数に含まれるln |A|の項のαに関する導関数 ln = ln ( + ) = ln + = 1 + 周辺尤度の対数のαに関する停留点は以下を満たす 0 = 2 − 1 2 − 1 2 1 +

Slide 60

Slide 60 text

αについて最大化（２）  先ほどの式に2αを掛けて式を整理 = − 1 + = 上記の式の青字部分より、 = の時に、周辺尤度が最大になる  γはiに関する和の部分にMが含まれる場合、 = +

Slide 61

Slide 61 text

βについて最大化（１）  αの方法と同じ(固有ベクトルも)  固有ベクトル = 固有値はβに比例⇒ = なので ln = ln ( + ) = 1 ln + =  周辺尤度の停留点 0 = 2 − 1 2 { − ( )}2− 2 =1

Slide 62

Slide 62 text

βについて最大化（２）  最終的には・・・ 1 = 1 − { − ( )}2 =1

Slide 63

Slide 63 text

固定された基底関数の限界  今回扱ったもの  固定の非線形基底関数を線形結合したモデル  パラメータに関する線形性を仮定している  最小二乗問題の閉じた解が求まる  ベイズ推定の問題が簡単に！  入力変数から目標変数への非線形変換をモデル化  基底関数の選び方による問題点の一つ：「訓練データ集合を観測する前に基底関数を固定する」という仮定 ⇒次元の呪いが問題に！ ↓ 現実的なデータでは軽減される