Upgrade to Pro — share decks privately, control downloads, hide ads and more …

PRML_Chapter01@NUT

takegue
March 03, 2014

 PRML_Chapter01@NUT

パターン認識と機械学習-第1章についてまとめたもの

takegue

March 03, 2014
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. PRML勉強会@長岡 第1章 序論 - 前編 – Christopher M. Bishop (2006):

    Pattern Recognition and Machine Learning, Springer, pp.1-37 @takeppa
  2.  PRMLとは? Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭. …ファンも多く,副読本も多く存在! …

    みんなでやれば怖くない! 必要なもの: 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは?
  3.  PRMLとは? Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭. …ファンも多く,副読本も多く存在! …

    みんなでやれば怖くない! 必要なもの: 続ける根性 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは?
  4. • 前処理(Preprocessing) • 特徴抽出(Feature Extraction) • 汎化(generalization) • 教師あり学習(Supervised Learning)

    • 教師なし学習(Unsupervised Learning) • 強化学習(Reinforcement Learning) • クラス分類(Classification) • クラスタリング(Clustering) • 回帰(Regression) 2014/3/4 PRML勉強会@長岡 0. パターン認識と機械学習
  5. 1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの     

       M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/4 PRML勉強会@長岡
  6. 1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの     

       M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/4 PRML勉強会@長岡
  7. 1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j

    j j x w x y 0 ) , ( w 色々なMで試してみましょう 10個の未知パラメータ 10個の訓練データ = 二乗誤差ゼロ 未知のデータ(緑)との誤差大! 過学習(over-fitting) ランダムノイズに引っ張られてる 2014/3/4 PRML勉強会@長岡
  8. 1. 例:多項式曲線フィッティング Mが増えるとパラメータも大きくなるんですね… 雑音 = 高周波 ⇒ xの微小変化に大きな変化が求められる M=0 M=1

    M=3 … M=9 0 ∗ 0.19 0.82 0.31 0.35 1 ∗ -1.27 7.99 232.37 2 ∗ -25.43 -5321.83 3 ∗ 17.37 48568.31 4 ∗ -231639.30 5 ∗ 640042.26 6 ∗ -1061800.52 7 ∗ 1042400.18 8 ∗ -557682.99 9 ∗ 125201.43 2014/3/4 PRML勉強会@長岡
  9. 1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  学習データ数を増やす 学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう

     ベイズ的(Bayesian)アプローチをとる 3章のお楽しみ  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する 2014/3/4 PRML勉強会@長岡
  10. 1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  学習データ数を増やす 学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう

     ベイズ的(Bayesian)アプローチをとる 3章のお楽しみ  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する 2014/3/4 PRML勉強会@長岡
  11. 1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する ||w||2 = wTw

    = w0 2 + w1 2 + … +wM 2 ※ w0 は外されることも多い ˜ E (w)  1 2 {y(x n ,w)  t n }2 n1 N    2 || w ||2 2014/3/4 PRML勉強会@長岡
  12. • 確率の加法定理(周辺化) = (, ) ∈ • 確率の乗法定理 • ベイズの定理

    2014/3/4 PRML勉強会@長岡 2. 確率論のおさらい p(Y | X)  p(X |Y)p(Y) p(X)  p(X,Y)  p(Y | X)p(X)
  13. 2014/3/4 PRML勉強会@長岡 2. 頻度的確率論とベイズ的確率論 • コイン3回振って3回表出た.表のでる確率は? – 古典的確率論(⇒最尤推定) • 3回とも表なんだから,次も表に違いない(p

    = 1.0)!! – ベイズ的確率論(⇒MAP推定) • いやいや,たまたまってこともあるでしょう • 裏表それぞれ1/2とすればなら(事前分布),この状況って どれぐらい起こりやすいのかな?(尤度) 10/10が表,20/20が表,30/30が表…と多ければ大きいほどより 確かな情報になる
  14. 2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率 • 点推定

    – 最尤推定(maximum likelihood) • 無情報事前分布 – 事前分布が分からない場合は,全て一様に起こるとする – MAP推定(maximum posterior) • 事前確率より尤度が考慮される(= スムージング) – 極端な結果になりにくくする (|) = (|)() () 尤度(likelihood) 事前確率(prior prb.) 正規化のためのもの : 学習データ : パラメータ 事後確率(Posterior prob.)
  15. 2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率 予測する分布(事前確率)と 現在の結果(尤度)から

    (→ベイズ更新) 新しい分布を作る(事後確率) (|) ∝ (|)() 尤度(likelihood) 事前確率(prior prb.) 規格化のためのもの : 学習データ : パラメータ 事後確率(Posterior prob.)
  16. 2014/3/4 PRML勉強会@長岡 3.モデル選択 – 情報量機運による罰則項 • 情報量基準 - 過学習を防ぐため罰則項を課す. •

    赤池情報量基準(AIC) ln ) − ln ):最尤推定時の対数尤度 M:可変パラメータ数 → モデルパラメータの不確実性が考慮されてない → より自然な方法 は 3,4章にて!
  17. 2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • どうすればいいのか? • ベクトルの次元数を削る –次元縮退,次元圧縮 –特徴的な値だけを使う. •

    問題の質を見極める – ほんとに必要な要素は何か? – 必要以上に過多な次元を設定してないか?
  18. PRML勉強会@長岡 第1章 序論 - 後編 – Christopher M. Bishop (2006):

    Pattern Recognition and Machine Learning, Springer, pp.37-64 @takeppa
  19. 入力ベクトルx, 目標変数t 2014/3/4 PRML勉強会@長岡 0. 決定理論 推論:同時確率分布 , をどうやってきめるか? 回帰問題の場合

    : t は連続変数 クラブ分類の場合: t はクラスラベル(e.g.:01, 00, 10, 11) x C 1 C 2 求まるのは確率(分布):最も情報量多い ここからどんな選択を行うか? →決定理論の役割 = , ∞ −∞ = , ∞ −∞ = () () ※同時確率分布 , が全部の確率分布の要約になる
  20. 誤識別率が最小になるよう決定する. 決定境界(クラス境界;Decision boundary):ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡 1.誤識別率の最小化  

          2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p      誤り , 1 > , 2 にする 最適な戦略: はクラス間で共通 , = () 最大の を選択する
  21. 誤識別率が最小になるよう決定する. 決定境界(クラス境界;Decision boundary):ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡 1.誤識別率の最小化  

          2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p      誤り 最適な戦略: 赤+緑 =ℛ1 での誤り率 青 =ℛ2 での誤り率 max 正解 : → 0
  22. 一意的に決めるのが良い判断か? ・すべてクラス分けするのが良いとも限らない. ・分からない問題はほっておくの一つの戦略 棄却オプション(Reject option) 最大の閾値がθ より低いときは判断しない θ = 1.0

    : 全て棄却 θ < 1/K : 棄却無 (K:クラス数) 棄却を含めた損失行列 →期待損失の最小化が可能 2014/3/4 PRML勉強会@長岡 3.棄却オプション
  23. 1.推論段階(inference stage):モデル の学習 2.決定段階(dicision stage):最適なクラスの割り当てを行う  生成モデル(generative model): 事前確率 ,

    尤度 | から事後確率を求める. 最尤推定法, EMアルゴリズム,ブートストラップ法 etc  識別モデル(discriminative model): 事後確率 を直接求め→決定段階 SVM, ロジスティック回帰, 最大エントロピー法  識別関数(discriminantive function) 推論と決定を同時に行い,学習する関数 e.g.) f(x) = Ck 2014/3/4 PRML勉強会@長岡 4.推論と決定 – 推論と決定を行うための3つのアプローチ 複雑 簡易
  24.  生成モデル(generative model): データの生起確率 が求められる. 生起確率が低いデータ → 予測の精度が低い 外れ値検出(outlier detection)

    または新規性検出(novelty detection) で有用  識別モデル(discriminative model): 事後確率 だけが必要ならばこれでよい 生成か識別のどちらが良いか? [Jebara 2004, Lasserre et al 2006]  識別関数(discriminantive function) 事後確率 が求まらない. 最も単純だが,ほとんど情報が無 2014/3/4 PRML勉強会@長岡 4.推論と決定 ー アプローチのそれぞれの利点と欠点
  25.  リスクの最小化 損失行列の変化(=期待損失の変化)に対応しやすい  棄却オプション 棄却基準を決め,期待損失を最小にできる.  クラス事前確率の補正 極端にクラスの確率が低い場合. ⇒クラスの事前確率を上げる

    訓練データのバランス調整が必要(resample)  モデルの結合 問題の分割 → 条件付き独立(conditional independence) 仮定 c.f. iid(Independecy, Identically, distributed) 1 , 2 = 1 2 に分解可能 2014/3/4 PRML勉強会@長岡 4.推論と決定 – 事後確率分布を求める4つの理由 1 2 3 4
  26. 2014/3/4 PRML勉強会@長岡 0.情報量の導入 • 情報量 ≒ 驚きの度合い 起きそうにない事象が起きることを知れば, 多くの情報量を得たと言える. (情報量は確率分布p(x)に依存)

    独立な確率では p(x,y) = p(x)p(y) なものでは h(x,y) = h(x) + h(y) であるもの→対数 ℎ = −log2 () 対数の底は自由(2進数の2) 情報の平均量 エントロピー = 情報の曖昧さ    x x p x p x H ) ( log ) ( ] [ 2
  27. 0.情報量の導入 – エントロピーの例 • 8個の取り得る変数{a, b, c, d, e, f,

    g, h} それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 } エントロピーは 3 8 1 log 8 1 8 ] [ 2     x H ビット それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64} エントロピーは 2 64 1 log 64 1 16 1 log 16 1 8 1 log 8 1 4 1 log 4 1 2 1 log 2 1 ] [ 2 2 2 2 2        x H ビット エントロピーの概念 確率変数の状態を規定するのに必要な平均ビット数 2014/3/4 PRML勉強会@長岡
  28. 0.情報量の導入 – 離散確率値におけるエントロピー エントロピー最大 ⇒ p(x)は一様分布 エントロピー最小 = p(x)はp(xi )=1,

    その他0 c.f.ラグランジュの未定乗数法 制約条件のもと値を最大化(最小化)する方法 エントロピー小 エントロピー大 エントロピー大 エントロピー小 2014/3/4 PRML勉強会@長岡
  29. 0.情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする:Δ→0にする ≒ 連続値 • 微分エントロピー •

    Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡
  30. 0.情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする:Δ→0にする ≒ 連続値 • 微分エントロピー •

    Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理               dx x p x p x p x p i i i ) ( ln ) ( ) ( ln ) ( lim 0 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡
  31. 0.情報量の導入 – 微分エントロピー 微分エントロピー最大 ⇒ p(x)は正規分布 分子の最小エネルギー状態と似ている? ※離散的な場合と違い負の値も取り得る 導出: ラグランジュの未定乗数法+変分法

    制約条件 2 2 ) ( ) ( ) ( 1 ) (                    dx x p x dx x xp dx x p   ) 2 ln( 1 2 1 ] [ 2      x H          2 2 2 / 1 2 2 ) ( exp ) 2 ( 1 ) (    x x p 分散に依存 2014/3/4 PRML勉強会@長岡
  32. 0.情報量の導入 – 条件付きエントロピー H | = − , ln dd

    xが既知の上でyを特定に必要な平均追加情報量 条件付きエントロピー 結合エントロピー x,yの記述に必要な情報量 =xだけを記述するのに必要な情報量 + xが与えられている状態から yを記述するのに必要な付加的な情報量 H , = H ] + H[] 2014/3/4 PRML勉強会@長岡
  33. 1.相対エントロピーと相互情報量 KLダイバージェンスと密度推定 • データ圧縮と密度推定(未知の分布のモデル推定) e.g) 未知の分布p(x)をパラメトリックな分布q(x|θ)で近似 最適なパラメータθ → KLを最小化する. 真の分布p(x)は分からない

    だが真の分布p(x)から 得られたデータxn (n = 1…N) があるじゃないか KLを有限のデータで近似する. KLの最小化 = 対数尤度の最大化        N n n n x p x q N q p KL 1 ) ( ln ) | ( ln 1 ) || (  ≅ 1 ( ) 2014/3/4 PRML勉強会@長岡
  34. 1.相対エントロピーと相互情報量 KLダイバージェンスと相互情報量 • 同時分布p(x,y)に対して独立かであるかの指標 → 相互情報量(mutal information) 同時分布と周辺分布のKLダイバージェンス 相互情報量が高い ⇒

    2つの確率分布は独立でない ⇒ 関連性の指標 , = H − H = H − H p(x)の事前分布を得てから知った事後分布p(y|x)のエントロピーの差 → 不確実性の減少の度合い [, ] = [ , | = − , ln , 2014/3/4 PRML勉強会@長岡
  35. 補足資料:変分法 + = + + (2) ・ 関数 y(x) における最大化

    ( → 0 ) : 2 が十分に無視できる 1 + 1 , 2 + 2 , … , + = 1 , 2 , … , + + (2) ・ 変分(Functional derivative) : 汎関数[]の微分(微小変化 に対する変化量) + = + + (2) ・ 汎関数(Functional) : 入力が関数y で 出力が値となる関数.e.g.)線分の長さ に対する変化量の総和 () = , ′, 2 1 :汎関数がy, y’, xの積分で表される時 − 方程式: − ′ = 0 ′に依存しない場合には = 0 停留条件: 2014/3/4 PRML勉強会@長岡
  36. 補足資料:凸関数 • 下式を満たす関数を凸関数(convex function)と呼ぶ. ) ( ) 1 ( )

    ( ) ) 1 ( ( b f a f b a f          2014/3/4 PRML勉強会@長岡
  37. 補足資料:カルバックーライブラーダイバージェンス • 数学的帰納法を用いると(1.114)より凸関数f(x)が任意の点集合{xi}に対し て, • を満たすことができる.ここでΣλ=1である. • (1.115)はイェンセンの不等式として知られている. • λiを値xiを取る離散確率変数x上の確率分布として解釈すると

    • と書ける.イェンセンの不等式をカルバックーライブラーダイバージェンス (1.113)に適用することができ, • が得られる              M i i i M i i i x f x f 1 1   (1.115)       ) ( ] [ x f x f E (1.116)              0 ) ( ln ) ( ) ( ln ) ( ) || ( dx x q dx x p x q x p q p KL (1.118) 2014/3/4 PRML勉強会@長岡