Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PRML勉強会 第三章 - 宮西由貴 作成分

takegue
April 21, 2014

PRML勉強会 第三章 - 宮西由貴 作成分

PRML勉強会 第三章 - 宮西由貴 作成分 代理upload

takegue

April 21, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. 単純な線形回帰モデル 入力変数に関しては非線形なモデルに拡張 , = 0 + 1 1 + ⋯

    + = (1 , ⋯ , ) 入力 0 , ⋯ , パラメータ  特徴  パラメータに関する線形関数になっている  入力変数 に関する線形関数でもある =表現能力が乏しい
  2. 拡張した線形回帰モデル , = 0 + () −1 =1 () 基底関数

    0 バイアスパラメータ パラメータ数  特徴  入力変数に関しては非線形  パラメータに関しては線形なので線形モデル =解析は容易
  3. ちなみに・・・  先ほどの関数について0 = とすると… , = () −1 =1

    = = (0 , ⋯ , −1 ) = (0 , ⋯ , −1 ) 単純になりました!
  4. 基底関数、何にする?  一章の多項式回帰: =  入力空間の一部での変化が全領域に及ぶ  入力空間を分割  それぞれの空間に多項式を当てはめる

     「スプライン関数」と呼ぶ  「ガウス基底関数」  「ロジスティックシグモイド関数」  フーリエ基底「ウェーブレット」 「本章で示すほとんどのことは基底関数に依存しません。」 ということなので 省 略 です。 解決!!
  5. 最尤推定と最小二乗法の関係  最尤推定で回帰を論じる = , + ガウスノイズ (期待値0,分散の逆数=精度がのガウス確率変数) , ,

    = Ν , , −1 一章より、二乗損失関数を仮定することで 予測値は目標値の条件付き期待値となる = = (, )
  6. 先ほどの式に手を加えて…  入力が = {1 , ⋯ , }, 目標値が1

    , ⋯ , = = の尤度関数 , , = Ν ( ), −1 =1 入力変数の分布をモデル化したいわけではない →これからはを式から抜いて表示 多次元出力関数の観測値ではない 調整可能なとの関数になっている ということが重要!
  7. 尤度関数をごにょごにょしよう  対数を取る(掛け算→足し算にするため?) ln{ , , } = ln{Ν ,

    −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布 の標準形
  8.  勾配=0の時(ガウス分布の頂点)、 0 = ( )−( ( )( ) =1

    =1 これをについて解くと、 = ()−1 N×M行列 = ( ) ⋯ − ( ) ⋮ ⋱ ⋮ ( ) ⋯ − ( ) を決定しよう(2) 最小二乗問題の 正規方程式と一緒!
  9. バイアスパラメータの話(1) = 1 2 { − ( )}2 =1 =

    (0 , ⋯ , −1 ) 0 = 1     ※ = 1 2 { − 0 − −1 =1 ( )}2 =1 ※ , = () −1 =1 =
  10. バイアスパラメータの話(2)  先ほどの式を0 で微分=0として0 を解く 0 = − −1 =1

    = 2 =1 目標値の平均 = 2 ( ) =1 基底関数の値の平均の重み付き和  バイアスパラメータの役割 と の差を埋め合わせている
  11. を決定しよう  尤度関数から最大化する  手法としては、0 と一緒 2 ln(β) − 2

    ln 2 − () ーーーーーーー手順は省略しますーーーーーーーー 1 = 1 { − ( )}2 =1
  12. 一般的な正則化誤差項 1 2 { − ( )}2+ 2 =1 =1

    = 2 の時、荷重減衰の式と一緒  qの値によって変化する誤差項  特にq=1の時をlassoと呼ぶ  lassoではλが大きい時、疎な解が得られる q=2 q=1
  13. 出力変数が多次元の場合  今まで扱ってきたのは1次元のみ  応用場面によっては多次元もあるかも…  計算とか複雑なんだろうなー…  K(>1)次元の出力を目標ベクトルとして、 の要素に対して異なる基底関数を用いる

     複数の独立な1次元回帰問題に落とし込める! ※教科書に複雑な式もありますが最後には、 「単純化のため、1次元の目標変数tを考える」となっています。
  14. バイアスとバリアンスの導出  期待二乗損失の話 = − ℎ 2 + ℎ −

    2 , ℎ = | = (|)  損失を少なくしたいので第一項(非負)を0にする  = ℎ ならば理想的!  でも、ℎ は正しく求まらない・・・ (データと計算資源が無限にあれば可能)
  15.  予測関数 ; とする  Dはデータ数 の第一項の積分はDに対して: { ; −

    ℎ()}2 ; を↑の式に足して引く (めっちゃ面倒なのでホワイトボードで!!!!)  最後に全体の期待値を取ると… ; − ℎ 2 = { [ ; − ℎ()]}2+ [{ ; − [(; )]}2] 予測関数を使う バイアス バリアンス
  16. つまりバイアス-バリアンスって?  (1)について  学習結果がまとまっている  バリアンスが小さい  結果と真のグラフは程遠い 

    バイアスが大きい  (2)について  学習結果がまとまっていない  バリアンスが大きい  結果と真のグラフが近い  バイアスが小さい トレードオフ の関係!
  17. 先週の続きです  先週:3章の3.2まで進みました  基底関数  最尤推定  正則化 

    バイアス・バリアンス など…  自分の番が終わるのがうれしい(本音)
  18. これまでの議論と提案  線形回帰モデルパラメータ:最尤推定で決定  問題によってモデルの複雑さを選択する必要有  尤度関数を最大にするモデル=過度に複雑 ⇒過学習が発生!  正則化した場合…

    正則化パラメータ=モデルの複雑さ 線形回帰モデルをベイズ的に扱う • 過学習を回避 • 訓練データのみを使ってモデルの複雑さを自動決定
  19. パラメータwと事前確率分布 , = = Ν ( ), −1 =1 

    尤度関数 が定義される場合…  共役事前分布は = 0 , 0 0 期待値 0 共分散  事後分布(尤度関数×事前分布)は = , = 0 −10 + , −1 = 0 −1 +
  20. 続き  事後確率を最大にする重みベクトル =  無限に広い事前分布(0 = −1( → 0))では

    = 最尤推定値(= ΦΦ −1Φ)  N=0の場合は事後確率が事前確率と一致
  21. 今後の表記  議論を簡単に→精度パラメータ=α, 期待値=0 = , −1 等方的ガウス分布 = ,

    事後分布(変化はない) = , −1 = +  事後分布の対数 ln p | = − 2 { − ( )}2− 2 + 定数 =1  ↑をwについて最大化 =二乗和誤差関数と二次正則化項の和を最小化
  22. 予測分布  wではなく、新しいxに対するtを予測したい  予測分布を評価する t , α, = ,

    , , t , α, 予測分布 訓練データの目標値からなるベクトル  2.3.3の(2.115)より予測分布は、 t , , α, = , 2 2 = 1 + () 予測分布の分散
  23. ベイズの立場からのモデル比較  モデルに関する不確かさを表す⇒確率を使用  確率の加法・乗法定理を使用  モデル ℳ = 1,

    … , を比較  モデルの事後分布 ℳ を評価する  事後分布 ℳ の式 ℳ ∝ ℳ ℳ 訓練集合 ※簡単のため、事前分布は全モデルにおいて等しいとする
  24. モデル平均の近似  単純なのはモデル選択  一番もっともらしいモデルを一つ選ぶ方法 ℳ = , ℳ ℳ

    周辺尤度: 事前分布からパラメータをランダムにサンプリングした 時に、データ集合が生成される確率 & ベイズの定理によってパラメータの事後確率を計算す る際、分母に現れる正規化定数
  25. 正しいモデルが選択される?(1)  2つのモデルℳ1 , ℳ2 を考えて確認  ℳ1 が正しいモデルとする 有限データ集合では正しくないモデルのベイズ因子が

    大きくなることも… ⇒ベイズ因子をデータ集合の分布に関して平均 ⇒期待ベイズ因子が得られる ℳ1 ln ℳ1 ℳ3 ※真のデータ生成の分布に関して期待値を取る 仮定: モデルの集合中に、データが生成される真の分布が存在
  26. 超パラメータに事前分布を導入  予測分布:同時分布をw,α,βに関して周辺化 p t = , , , ,

    ちなみに、 , , = Ν , , −1 (3.8) = , (3.49) = (3.53) −1 = + (3.54) 省略 事後分布
  27. 予測分布  事後分布が , の周りで鋭く尖っている α,βを , に固定&wを周辺化→予測分布を得る ≅ ,

    , = , , ,  , の値は?  ベイズの定理より事後分布は , ∝ , ,  事前分布が比較的平坦な場合 ⇒ 周辺尤度関数 , を最大にする =エビデンス関数
  28. エビデンス関数の評価 , = ,  ↑周辺尤度関数 =同時分布をパラメータwについて積分  評価方法 

    エビデンス関数に変形  指数関数の中身を平方完成  ガウス関数の正規化係数の一般形を使用
  29. (再掲)尤度関数をごにょごにょしよう  対数を取る(掛け算→足し算にするため?) ln{ , , } = ln{Ν ,

    −1 } =1 = 2 ln(β) − 2 ln 2 − () は二乗和誤差関数 = 1 2 { − ( )}2 =1 1変数ガウス分布 の標準形
  30. , = , を変形 , = 2 2 2 2

    −() = , −1 E = β + = 2 | − |2 + 2 :wの次元数  ↑エビデンス関数  E と正則化二乗和誤差関数は定数倍の差のみ
  31. 指数関数の中身E(w)を平方完成 E = + 1 2 − − = +

    = ヘッセ行列 = 2 || − ||2 + 2 = −1Φ 事後分布の平均
  32. 評価 exp − = exp − exp − 1 2

    − − = exp − 2 2 ||−1 2  上記のように評価可能  周辺尤度の対数は ln , = 2 ln + 2 ln − − 1 2 ln − 2 ln (2)
  33. αについて最大化(1)  固有ベクトル方程式を定義 = = + なので、固有値 + を持つ 周辺尤度の対数に含まれるln

    |A|の項のαに関する導関数 ln = ln ( + ) = ln + = 1 + 周辺尤度の対数のαに関する停留点は以下を満たす 0 = 2 − 1 2 − 1 2 1 +
  34. αについて最大化(2)  先ほどの式に2αを掛けて式を整理 = − 1 + = 上記の式の青字部分より、 =

    の時に、周辺尤度が最大になる  γはiに関する和の部分にMが含まれる場合、 = +
  35. 固定された基底関数の限界  今回扱ったもの  固定の非線形基底関数を線形結合したモデル  パラメータに関する線形性を仮定している  最小二乗問題の閉じた解が求まる 

    ベイズ推定の問題が簡単に!  入力変数から目標変数への非線形変換をモデル化  基底関数の選び方による 問題点の一つ: 「訓練データ集合を観測する前に基底関数を固定する」という仮定 ⇒次元の呪いが問題に! ↓ 現実的なデータでは軽減される
  36. 固定された基底関数の限界  今回扱ったもの  固定の非線形基底関数を線形結合したモデル  パラメータに関する線形性を仮定している  最小二乗問題の閉じた解が求まる 

    ベイズ推定の問題が簡単に!  入力変数から目標変数への非線形変換をモデル化  基底関数の選び方による 問題点の一つ: 「訓練データ集合を観測する前に基底関数を固定する」という仮定 ⇒次元の呪いが問題に! ↓ 現実的なデータでは軽減される 致命的な欠点がある || より複雑なモデルを 扱う必要有!