Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
PRML勉強会 第5回
Slide 2
Slide 2 text
こんにちは 第三章を担当します 一章でやったことがたくさん出ます 数式に関してはざっくり行きます 抜かした節もいくつかあります(ごめんね☆)
Slide 3
Slide 3 text
第三章について 1. 線形基底関数モデル 2. バイアス-バリアンス分解 3. ベイズ線形回帰 4. ベイズモデル比較 5. エビデンス近似 6. 固定された基底関数の限界
Slide 4
Slide 4 text
第三章について 1. 線形基底関数モデル 2. バイアス-バリアンス分解 3. ベイズ線形回帰 4. ベイズモデル比較 5. エビデンス近似 6. 固定された基底関数の限界 今回説明する部分
Slide 5
Slide 5 text
線形基底関数モデル・・・の前に 線形回帰モデルについて 利点:解析的に扱いやすい 欠点:入力空間が高次元の場合は適切でない 変数or係数の足し算・引き算のみで 表された数式 (変数×係数はOK)
Slide 6
Slide 6 text
単純な線形回帰モデル 入力変数に関しては非線形なモデルに拡張 , = 0 + 1 1 + ⋯ + = (1 , ⋯ , ) 入力 0 , ⋯ , パラメータ 特徴 パラメータに関する線形関数になっている 入力変数 に関する線形関数でもある =表現能力が乏しい
Slide 7
Slide 7 text
拡張した線形回帰モデル , = 0 + () −1 =1 () 基底関数 0 バイアスパラメータ パラメータ数 特徴 入力変数に関しては非線形 パラメータに関しては線形なので線形モデル =解析は容易
Slide 8
Slide 8 text
ちなみに・・・ 先ほどの関数について0 = とすると… , = () −1 =1 = = (0 , ⋯ , −1 ) = (0 , ⋯ , −1 ) 単純になりました!
Slide 9
Slide 9 text
基底関数、何にする? 一章の多項式回帰: = 入力空間の一部での変化が全領域に及ぶ 入力空間を分割 それぞれの空間に多項式を当てはめる 「スプライン関数」と呼ぶ 「ガウス基底関数」 「ロジスティックシグモイド関数」 フーリエ基底「ウェーブレット」 「本章で示すほとんどのことは基底関数に依存しません。」 ということなので 省 略 です。 解決!!
Slide 10
Slide 10 text
最尤推定と最小二乗法の関係 最尤推定で回帰を論じる = , + ガウスノイズ (期待値0,分散の逆数=精度がのガウス確率変数) , , = Ν , , −1 一章より、二乗損失関数を仮定することで 予測値は目標値の条件付き期待値となる = = (, )
Slide 11
Slide 11 text
先ほどの式に手を加えて… 入力が = {1 , ⋯ , }, 目標値が1 , ⋯ , = = の尤度関数 , , = Ν ( ), −1 =1 入力変数の分布をモデル化したいわけではない →これからはを式から抜いて表示 多次元出力関数の観測値ではない 調整可能なとの関数になっている ということが重要!
Slide 12
Slide 12 text
尤度関数をごにょごにょしよう 対数を取る(掛け算→足し算にするため?) ln{ , , } = ln{Ν , −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布 の標準形
Slide 13
Slide 13 text
を決定しよう(1) 最尤推定を使う 条件付きガウスノイズ分布での線形モデルは 二乗和誤差関数小=尤度関数大 対数化した尤度関数の勾配を取ると ln{ , , } = { − ( )}( ) =1
Slide 14
Slide 14 text
勾配=0の時(ガウス分布の頂点)、 0 = ( )−( ( )( ) =1 =1 これをについて解くと、 = ()−1 N×M行列 = ( ) ⋯ − ( ) ⋮ ⋱ ⋮ ( ) ⋯ − ( ) を決定しよう(2) 最小二乗問題の 正規方程式と一緒!
Slide 15
Slide 15 text
擬似逆行列の話 後々出てくるそうなので一応… ≡ ()−1 この行列をムーア―ペンローズ擬似逆行列と言う ムーア―ペンローズ擬似逆行列の意味 通常の逆行列の概念を、 非正方行列へと拡張したものと考えられる
Slide 16
Slide 16 text
バイアスパラメータの話(1) = 1 2 { − ( )}2 =1 = (0 , ⋯ , −1 ) 0 = 1 ※ = 1 2 { − 0 − −1 =1 ( )}2 =1 ※ , = () −1 =1 =
Slide 17
Slide 17 text
バイアスパラメータの話(2) 先ほどの式を0 で微分=0として0 を解く 0 = − −1 =1 = 2 =1 目標値の平均 = 2 ( ) =1 基底関数の値の平均の重み付き和 バイアスパラメータの役割 と の差を埋め合わせている
Slide 18
Slide 18 text
を決定しよう 尤度関数から最大化する 手法としては、0 と一緒 2 ln(β) − 2 ln 2 − () ーーーーーーー手順は省略しますーーーーーーーー 1 = 1 { − ( )}2 =1
Slide 19
Slide 19 text
お詫び 3.1.2最小二乗法の幾何学 および 3.1.3逐次処理 に関しては省略します なんか説明の必要ないかなーと思ったので… よければ読んでみてください。
Slide 20
Slide 20 text
正則化項の話 誤差関数に正則化項を加える(過学習を防ぐ) + 正則化係数( と の重要度を制御) 正則化項で一番単純な値を使うと… = 1 2 = 1 2 { − ( )}2 =1 1 2 { − ( )}2+ 2 =1
Slide 21
Slide 21 text
荷重減衰 先ほどの正則化項の選び方のこと 機械学習の分野では荷重減衰 データのあてはめに必要ない重みが減衰するから 統計学ではパラメータ縮小推定 重みを0に近づけるから の勾配=0とすると最小二乗解の拡張
Slide 22
Slide 22 text
一般的な正則化誤差項 1 2 { − ( )}2+ 2 =1 =1 = 2 の時、荷重減衰の式と一緒 qの値によって変化する誤差項 特にq=1の時をlassoと呼ぶ lassoではλが大きい時、疎な解が得られる q=2 q=1
Slide 23
Slide 23 text
正則化の問題点 限られた訓練データで複雑なモデルを学習 ⇒過学習が発生! そこで使うのが正則化 根本的な問題は解決していない! 適切な基底関数の数を求める →適切なλを求めるに置き換えただけ この問題については後半で…
Slide 24
Slide 24 text
出力変数が多次元の場合 今まで扱ってきたのは1次元のみ 応用場面によっては多次元もあるかも… 計算とか複雑なんだろうなー… K(>1)次元の出力を目標ベクトルとして、 の要素に対して異なる基底関数を用いる 複数の独立な1次元回帰問題に落とし込める! ※教科書に複雑な式もありますが最後には、 「単純化のため、1次元の目標変数tを考える」となっています。
Slide 25
Slide 25 text
3.1が終了しました お疲れ様でした これ以降の話をしましょう ベイズの枠組みを使って過学習をなくします その前にバイアスとバリアンスについて学びます 今日はバイアス-バリアンスまでです
Slide 26
Slide 26 text
バイアスとバリアンスの導出 期待二乗損失の話 = − ℎ 2 + ℎ − 2 , ℎ = | = (|) 損失を少なくしたいので第一項(非負)を0にする = ℎ ならば理想的! でも、ℎ は正しく求まらない・・・ (データと計算資源が無限にあれば可能)
Slide 27
Slide 27 text
予測関数 ; とする Dはデータ数 の第一項の積分はDに対して: { ; − ℎ()}2 ; を↑の式に足して引く (めっちゃ面倒なのでホワイトボードで!!!!) 最後に全体の期待値を取ると… ; − ℎ 2 = { [ ; − ℎ()]}2+ [{ ; − [(; )]}2] 予測関数を使う バイアス バリアンス
Slide 28
Slide 28 text
つまりバイアス-バリアンスって? 視覚的にみてみよう!(1) 学習結果の平均(赤)と 真のグラフ(緑) 学習結果 学習結果がまとまっているが、結果と真のグラフは程遠い
Slide 29
Slide 29 text
つまりバイアス-バリアンスって? 視覚的に見てみよう!(2) 学習結果 学習結果の平均(赤)と 真のグラフ(緑) 結果と真のグラフは近いが、学習結果がまとまっていない
Slide 30
Slide 30 text
つまりバイアス-バリアンスって? (1)について 学習結果がまとまっている バリアンスが小さい 結果と真のグラフは程遠い バイアスが大きい (2)について 学習結果がまとまっていない バリアンスが大きい 結果と真のグラフが近い バイアスが小さい トレードオフ の関係!
Slide 31
Slide 31 text
終わりです お疲れ様でした!
Slide 32
Slide 32 text
先週の続きです 先週:3章の3.2まで進みました 基底関数 最尤推定 正則化 バイアス・バリアンス など… 自分の番が終わるのがうれしい(本音)
Slide 33
Slide 33 text
第三章について 1. 線形基底関数モデル 2. バイアス-バリアンス分解 3. ベイズ線形回帰 4. ベイズモデル比較 5. エビデンス近似 6. 固定された基底関数の限界
Slide 34
Slide 34 text
3.3 ベイズ線形回帰
Slide 35
Slide 35 text
これまでの議論と提案 線形回帰モデルパラメータ:最尤推定で決定 問題によってモデルの複雑さを選択する必要有 尤度関数を最大にするモデル=過度に複雑 ⇒過学習が発生! 正則化した場合… 正則化パラメータ=モデルの複雑さ 線形回帰モデルをベイズ的に扱う ● 過学習を回避 ● 訓練データのみを使ってモデルの複雑さを自動決定
Slide 36
Slide 36 text
パラメータwと事前確率分布 , = = Ν ( ), −1 =1 尤度関数 が定義される場合… 共役事前分布は = 0 , 0 0 期待値 0 共分散 事後分布(尤度関数×事前分布)は = , = 0 −10 + , −1 = 0 −1 +
Slide 37
Slide 37 text
続き 事後確率を最大にする重みベクトル = 無限に広い事前分布(0 = −1( → 0))では = 最尤推定値(= ΦΦ −1Φ) N=0の場合は事後確率が事前確率と一致
Slide 38
Slide 38 text
今後の表記 議論を簡単に→精度パラメータ=α, 期待値=0 = , −1 等方的ガウス分布 = , 事後分布(変化はない) = , −1 = + 事後分布の対数 ln p | = − 2 { − ( )}2− 2 + 定数 =1 ↑をwについて最大化 =二乗和誤差関数と二次正則化項の和を最小化
Slide 39
Slide 39 text
図3.7を使った説明
Slide 40
Slide 40 text
予測分布 wではなく、新しいxに対するtを予測したい 予測分布を評価する t , α, = , , , t , α, 予測分布 訓練データの目標値からなるベクトル 2.3.3の(2.115)より予測分布は、 t , , α, = , 2 2 = 1 + () 予測分布の分散
Slide 41
Slide 41 text
図3.8を使った説明
Slide 42
Slide 42 text
3.4 ベイズモデル比較
Slide 43
Slide 43 text
ベイズの立場からのモデル比較 モデルに関する不確かさを表す⇒確率を使用 確率の加法・乗法定理を使用 モデル ℳ = 1, … , を比較 モデルの事後分布 ℳ を評価する 事後分布 ℳ の式 ℳ ∝ ℳ ℳ 訓練集合 ※簡単のため、事前分布は全モデルにおいて等しいとする
Slide 44
Slide 44 text
モデルエビデンス モデルエビデンス ℳ が重要 データから見たモデルの好み 周辺尤度とも呼ぶ (モデル空間でのパラメータを周辺化した尤度関数) 2つのモデルに対するエビデンス比はベイズ因子 ℳ / ℳ
Slide 45
Slide 45 text
モデル平均の近似 単純なのはモデル選択 一番もっともらしいモデルを一つ選ぶ方法 ℳ = , ℳ ℳ 周辺尤度: 事前分布からパラメータをランダムにサンプリングした 時に、データ集合が生成される確率 & ベイズの定理によってパラメータの事後確率を計算す る際、分母に現れる正規化定数
Slide 46
Slide 46 text
正しいモデルが選択される?(1) 2つのモデルℳ1 , ℳ2 を考えて確認 ℳ1 が正しいモデルとする 有限データ集合では正しくないモデルのベイズ因子が 大きくなることも… ⇒ベイズ因子をデータ集合の分布に関して平均 ⇒期待ベイズ因子が得られる ℳ1 ln ℳ1 ℳ3 ※真のデータ生成の分布に関して期待値を取る 仮定: モデルの集合中に、データが生成される真の分布が存在
Slide 47
Slide 47 text
正しいモデルが選択される?(2) カルバック-ライブラーダイバージェンス 2つの分布が等しい時に0 それ以外の場合は常に正の値 期待ベイズ因子は カルバック-ライブラーダイバージェンスの一例 仮定が成り立つ時、 平均的には正しいモデルのベイズ因子が常に大きい
Slide 48
Slide 48 text
3.5 エビデンス近似
Slide 49
Slide 49 text
Αとβにも事前分布を! 線形基底関数モデルを全てベイズ的に扱う ⇒αとβに事前分布を導入&周辺化したい! 全変数の上での解析的な周辺化は困難 パラメータwに関して積分 (周辺尤度関数を得る) 周辺尤度関数を最大にするα,βを決定 エビデンス近似 超パラメータ
Slide 50
Slide 50 text
超パラメータに事前分布を導入 予測分布:同時分布をw,α,βに関して周辺化 p t = , , , , ちなみに、 , , = Ν , , −1 (3.8) = , (3.49) = (3.53) −1 = + (3.54) 省略 事後分布
Slide 51
Slide 51 text
予測分布 事後分布が , の周りで鋭く尖っている α,βを , に固定&wを周辺化→予測分布を得る ≅ , , = , , , , の値は? ベイズの定理より事後分布は , ∝ , , 事前分布が比較的平坦な場合 ⇒ 周辺尤度関数 , を最大にする =エビデンス関数
Slide 52
Slide 52 text
最大化の手法 解析的にエビデンス関数を評価 エビデンス関数を評価 エビデンス関数の導関数=0とおく Αとβの再推定方程式を得る EMアルゴリズムを使用 訓練データのみを用いて 超パラメータの値を決定できる こちらを説明
Slide 53
Slide 53 text
エビデンス関数の評価 , = , ↑周辺尤度関数 =同時分布をパラメータwについて積分 評価方法 エビデンス関数に変形 指数関数の中身を平方完成 ガウス関数の正規化係数の一般形を使用
Slide 54
Slide 54 text
(再掲)尤度関数をごにょごにょしよう 対数を取る(掛け算→足し算にするため?) ln{ , , } = ln{Ν , −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布 の標準形
Slide 55
Slide 55 text
, = , を変形 , = 2 2 2 2 −() = , −1 E = β + = 2 | − |2 + 2 :wの次元数 ↑エビデンス関数 E と正則化二乗和誤差関数は定数倍の差のみ
Slide 56
Slide 56 text
(再掲)正則化項の話 誤差関数に正則化項を加える(過学習を防ぐ) + 正則化係数( と の重要度を制御) 正則化項で一番単純な値を使うと… = 1 2 = 1 2 { − ( )}2 =1 1 2 { − ( )}2+ 2 =1
Slide 57
Slide 57 text
指数関数の中身E(w)を平方完成 E = + 1 2 − − = + = ヘッセ行列 = 2 || − ||2 + 2 = −1Φ 事後分布の平均
Slide 58
Slide 58 text
評価 exp − = exp − exp − 1 2 − − = exp − 2 2 ||−1 2 上記のように評価可能 周辺尤度の対数は ln , = 2 ln + 2 ln − − 1 2 ln − 2 ln (2)
Slide 59
Slide 59 text
αについて最大化(1) 固有ベクトル方程式を定義 = = + なので、固有値 + を持つ 周辺尤度の対数に含まれるln |A|の項のαに関する導関数 ln = ln ( + ) = ln + = 1 + 周辺尤度の対数のαに関する停留点は以下を満たす 0 = 2 − 1 2 − 1 2 1 +
Slide 60
Slide 60 text
αについて最大化(2) 先ほどの式に2αを掛けて式を整理 = − 1 + = 上記の式の青字部分より、 = の時に、周辺尤度が最大になる γはiに関する和の部分にMが含まれる場合、 = +
Slide 61
Slide 61 text
βについて最大化(1) αの方法と同じ(固有ベクトルも) 固有ベクトル = 固有値 はβに比例⇒ = なので ln = ln ( + ) = 1 ln + = 周辺尤度の停留点 0 = 2 − 1 2 { − ( )}2− 2 =1
Slide 62
Slide 62 text
βについて最大化(2) 最終的には・・・ 1 = 1 − { − ( )}2 =1
Slide 63
Slide 63 text
固定された基底関数の限界 今回扱ったもの 固定の非線形基底関数を線形結合したモデル パラメータに関する線形性を仮定している 最小二乗問題の閉じた解が求まる ベイズ推定の問題が簡単に! 入力変数から目標変数への非線形変換をモデル化 基底関数の選び方による 問題点の一つ: 「訓練データ集合を観測する前に基底関数を固定する」という仮定 ⇒次元の呪いが問題に! ↓ 現実的なデータでは軽減される
Slide 64
Slide 64 text
固定された基底関数の限界 今回扱ったもの 固定の非線形基底関数を線形結合したモデル パラメータに関する線形性を仮定している 最小二乗問題の閉じた解が求まる ベイズ推定の問題が簡単に! 入力変数から目標変数への非線形変換をモデル化 基底関数の選び方による 問題点の一つ: 「訓練データ集合を観測する前に基底関数を固定する」という仮定 ⇒次元の呪いが問題に! ↓ 現実的なデータでは軽減される 致命的な欠点がある || より複雑なモデルを 扱う必要有!
Slide 65
Slide 65 text
ということで… 次回の方頑張って ください!