Slide 1

Slide 1 text

PRML勉強会@長岡 第1章 序論 - 前編 – Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.1-37 @takeppa

Slide 2

Slide 2 text

 PRMLとは? Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭. …ファンも多く,副読本も多く存在! … みんなでやれば怖くない! 必要なもの: 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは?

Slide 3

Slide 3 text

 PRMLとは? Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭. …ファンも多く,副読本も多く存在! … みんなでやれば怖くない! 必要なもの: 続ける根性 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは?

Slide 4

Slide 4 text

第1.1章 序論 - 多項式曲線フィッティング - 2014/3/4 PRML勉強会@長岡

Slide 5

Slide 5 text

• 前処理(Preprocessing) • 特徴抽出(Feature Extraction) • 汎化(generalization) • 教師あり学習(Supervised Learning) • 教師なし学習(Unsupervised Learning) • 強化学習(Reinforcement Learning) • クラス分類(Classification) • クラスタリング(Clustering) • 回帰(Regression) 2014/3/4 PRML勉強会@長岡 0. パターン認識と機械学習

Slide 6

Slide 6 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの         M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/4 PRML勉強会@長岡

Slide 7

Slide 7 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの         M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解1:xに関する多項式を仮定し,最小二乗誤差法を適用する.     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化. wi (パラメータ)に関して1次の線形関数:線形モデル(linear model) 問題はMはいくつにするか? ⇒ モデル選択 2014/3/4 PRML勉強会@長岡

Slide 8

Slide 8 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 最初は定数 2014/3/4 PRML勉強会@長岡

Slide 9

Slide 9 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 直線 2014/3/4 PRML勉強会@長岡

Slide 10

Slide 10 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう らしくなってきた! 2014/3/4 PRML勉強会@長岡

Slide 11

Slide 11 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう ありゃりゃ… 2014/3/4 PRML勉強会@長岡

Slide 12

Slide 12 text

1. 例:多項式曲線フィッティング 問:図の青点(訓練集合)*はどんな式にフィットするか? *緑線(sin(2πx))から正規分布に従うランダムノイズ(誤差や観測されない信号元の変動にあたる)を加えて生 成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 10個の未知パラメータ 10個の訓練データ = 二乗誤差ゼロ 未知のデータ(緑)との誤差大! 過学習(over-fitting) ランダムノイズに引っ張られてる 2014/3/4 PRML勉強会@長岡

Slide 13

Slide 13 text

1. 例:多項式曲線フィッティング 未知のデータに対する適応度と訓練データに対する適応度比較  E RMS  2E(w*)/N Nに左右されない比較 2014/3/4 PRML勉強会@長岡

Slide 14

Slide 14 text

1. 例:多項式曲線フィッティング Mが増えるとパラメータも大きくなるんですね… 雑音 = 高周波 ⇒ xの微小変化に大きな変化が求められる M=0 M=1 M=3 … M=9 0 ∗ 0.19 0.82 0.31 0.35 1 ∗ -1.27 7.99 232.37 2 ∗ -25.43 -5321.83 3 ∗ 17.37 48568.31 4 ∗ -231639.30 5 ∗ 640042.26 6 ∗ -1061800.52 7 ∗ 1042400.18 8 ∗ -557682.99 9 ∗ 125201.43 2014/3/4 PRML勉強会@長岡

Slide 15

Slide 15 text

1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  学習データ数を増やす 学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう  ベイズ的(Bayesian)アプローチをとる 3章のお楽しみ  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する 2014/3/4 PRML勉強会@長岡

Slide 16

Slide 16 text

1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  学習データ数を増やす 学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう 2014/3/4 PRML勉強会@長岡

Slide 17

Slide 17 text

1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  学習データ数を増やす 学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう  ベイズ的(Bayesian)アプローチをとる 3章のお楽しみ  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する 2014/3/4 PRML勉強会@長岡

Slide 18

Slide 18 text

1. 例:多項式曲線フィッティング 過学習を防ぐ3つの方法  正則化(Regularization)を行う 誤差関数にパラメータの大きさを制限する 罰金(Penalty)項を追加する ||w||2 = wTw = w0 2 + w1 2 + … +wM 2 ※ w0 は外されることも多い ˜ E (w)  1 2 {y(x n ,w)  t n }2 n1 N    2 || w ||2 2014/3/4 PRML勉強会@長岡

Slide 19

Slide 19 text

第1.2章 序論 - 確率論- 2014/3/4 PRML勉強会@長岡

Slide 20

Slide 20 text

• 確率の加法定理(周辺化) = (, ) ∈ • 確率の乗法定理 • ベイズの定理 2014/3/4 PRML勉強会@長岡 2. 確率論のおさらい p(Y | X)  p(X |Y)p(Y) p(X)  p(X,Y)  p(Y | X)p(X)

Slide 21

Slide 21 text

2014/3/4 PRML勉強会@長岡 2. 確率論のおさらい • 確率密度関数 • 累積分布関数 • 期待値 • 分散 • 共分散 … X,Yがどれだけ一緒に変化するか

Slide 22

Slide 22 text

2014/3/4 PRML勉強会@長岡 2. 頻度的確率論とベイズ的確率論 • ベイズ確率の欠点 事前分布が何らかの信念によらず、むしろ数学 的な便宜によって選ばれてしまうことがある。 事前分布の選び方によっては結果が主観的に なるし、悪い事前分布を選べば、高い確率で 悪い結果が得られてしまう。 頻度主義的アプローチを織り交ぜていくことで、 ある程度回避することができる。

Slide 23

Slide 23 text

2014/3/4 PRML勉強会@長岡 2. 頻度的確率論とベイズ的確率論 • コイン3回振って3回表出た.表のでる確率は? – 古典的確率論(⇒最尤推定) • 3回とも表なんだから,次も表に違いない(p = 1.0)!! – ベイズ的確率論(⇒MAP推定) • いやいや,たまたまってこともあるでしょう • 裏表それぞれ1/2とすればなら(事前分布),この状況って どれぐらい起こりやすいのかな?(尤度) 10/10が表,20/20が表,30/30が表…と多ければ大きいほどより 確かな情報になる

Slide 24

Slide 24 text

2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率 • 点推定 – 最尤推定(maximum likelihood) • 無情報事前分布 – 事前分布が分からない場合は,全て一様に起こるとする – MAP推定(maximum posterior) • 事前確率より尤度が考慮される(= スムージング) – 極端な結果になりにくくする (|) = (|)() () 尤度(likelihood) 事前確率(prior prb.) 正規化のためのもの : 学習データ : パラメータ 事後確率(Posterior prob.)

Slide 25

Slide 25 text

2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率 予測する分布(事前確率)と 現在の結果(尤度)から (→ベイズ更新) 新しい分布を作る(事後確率) (|) ∝ (|)() 尤度(likelihood) 事前確率(prior prb.) 規格化のためのもの : 学習データ : パラメータ 事後確率(Posterior prob.)

Slide 26

Slide 26 text

2014/3/4 PRML勉強会@長岡 2.ベイズアプローチによる曲線フィッティング • 最尤推定による曲線フィッティング – 最小二乗誤差による曲線の結果と一致 • MAP推定による曲線フィッティング – 正則化された最小二乗誤差と結果が一致 • 事前分布の誤差の分散の超パラメータ(…階層ベイズ) M = 9

Slide 27

Slide 27 text

第1.3章 序論 - モデル選択 - 2014/3/4 PRML勉強会@長岡

Slide 28

Slide 28 text

• 選択したモデルがどの程度 未知のデータに則するか確認する(オープンテスト) 交差検定(cross-validation) LOO法(Leave-one-out method) 2014/3/4 PRML勉強会@長岡 3.モデル選択

Slide 29

Slide 29 text

2014/3/4 PRML勉強会@長岡 3.モデル選択 – 情報量機運による罰則項 • 情報量基準 - 過学習を防ぐため罰則項を課す. • 赤池情報量基準(AIC) ln ) − ln ):最尤推定時の対数尤度 M:可変パラメータ数 → モデルパラメータの不確実性が考慮されてない → より自然な方法 は 3,4章にて!

Slide 30

Slide 30 text

第1.4章 序論 - 次元の呪い- 2014/3/4 PRML勉強会@長岡

Slide 31

Slide 31 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 12次元のうち6,7の要素だけ表示. – ×の点は3つのどれにあてはまるだろうか…?

Slide 32

Slide 32 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 12次元のうち6,7の要素だけ表示. – いくつかのセル(4×4)に分解して,多数決で決める

Slide 33

Slide 33 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 12次元のうち6,7の要素だけ表示. – いくつかのセル(4×4)に分解して,多数決で決める

Slide 34

Slide 34 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 12次元のうち6,7の要素だけ表示. – いくつかのセル(4×4)に分解して,多数決で決める

Slide 35

Slide 35 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 12次元のうち6,7の要素だけ表示. – いくつかのセル(4×4)に分解して,多数決で決める

Slide 36

Slide 36 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 多項式フィッティングを考える xの次数が高ければ高いほど 様々な曲線が描ける! だけどほら…

Slide 37

Slide 37 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 多項式フィッティングを考える xの次数が高ければ高いほど 様々な曲線が描ける! だけどほら… …(lll゚Д゚)ギャー!! , = 0 + =1 + , =1 =1 + =1 =1 =1

Slide 38

Slide 38 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • 多項式フィッティングを考える xの次数が高ければ高いほど 様々な曲線が描ける! だけどほら… …(lll゚Д゚)ギャー!! , = 0 + =1 + , =1 =1 + =1 =1 =1

Slide 39

Slide 39 text

2014/3/4 PRML勉強会@長岡 4.次元の呪い選択 • どうすればいいのか? • ベクトルの次元数を削る –次元縮退,次元圧縮 –特徴的な値だけを使う. • 問題の質を見極める – ほんとに必要な要素は何か? – 必要以上に過多な次元を設定してないか?

Slide 40

Slide 40 text

PRML勉強会@長岡 第1章 序論 - 後編 – Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.37-64 @takeppa

Slide 41

Slide 41 text

第1.5章 序論 - 決定理論- 2014/3/4 PRML勉強会@長岡

Slide 42

Slide 42 text

入力ベクトルx, 目標変数t 2014/3/4 PRML勉強会@長岡 0. 決定理論 推論:同時確率分布 , をどうやってきめるか? 回帰問題の場合 : t は連続変数 クラブ分類の場合: t はクラスラベル(e.g.:01, 00, 10, 11) x C 1 C 2 求まるのは確率(分布):最も情報量多い ここからどんな選択を行うか? →決定理論の役割 = , ∞ −∞ = , ∞ −∞ = () () ※同時確率分布 , が全部の確率分布の要約になる

Slide 43

Slide 43 text

誤識別率が最小になるよう決定する. 決定境界(クラス境界;Decision boundary):ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡 1.誤識別率の最小化         2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p      誤り , 1 > , 2 にする 最適な戦略: はクラス間で共通 , = () 最大の を選択する

Slide 44

Slide 44 text

誤識別率が最小になるよう決定する. 決定境界(クラス境界;Decision boundary):ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡 1.誤識別率の最小化         2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p      誤り 最適な戦略: 赤+緑 =ℛ1 での誤り率 青 =ℛ2 での誤り率 max 正解 : → 0

Slide 45

Slide 45 text

2.期待損失の最小化 あくまで確率の最大化 確率と損失の重みを含めて考慮する:期待値 ex.) どちらが大きいか 癌の人を無病と間違えるリスク 無病の人を癌と間違えるリスク ⇒損失関数(lost function)の導入 損失の重みと 確率の積を最小化する   k j R k kj j dx C x p L L ) , ( ] [ E          0 1 1000 0 kj L 癌 正常 癌 正常 2014/3/4 PRML勉強会@長岡

Slide 46

Slide 46 text

一意的に決めるのが良い判断か? ・すべてクラス分けするのが良いとも限らない. ・分からない問題はほっておくの一つの戦略 棄却オプション(Reject option) 最大の閾値がθ より低いときは判断しない θ = 1.0 : 全て棄却 θ < 1/K : 棄却無 (K:クラス数) 棄却を含めた損失行列 →期待損失の最小化が可能 2014/3/4 PRML勉強会@長岡 3.棄却オプション

Slide 47

Slide 47 text

1.推論段階(inference stage):モデル の学習 2.決定段階(dicision stage):最適なクラスの割り当てを行う  生成モデル(generative model): 事前確率 , 尤度 | から事後確率を求める. 最尤推定法, EMアルゴリズム,ブートストラップ法 etc  識別モデル(discriminative model): 事後確率 を直接求め→決定段階 SVM, ロジスティック回帰, 最大エントロピー法  識別関数(discriminantive function) 推論と決定を同時に行い,学習する関数 e.g.) f(x) = Ck 2014/3/4 PRML勉強会@長岡 4.推論と決定 – 推論と決定を行うための3つのアプローチ 複雑 簡易

Slide 48

Slide 48 text

 生成モデル(generative model): データの生起確率 が求められる. 生起確率が低いデータ → 予測の精度が低い 外れ値検出(outlier detection) または新規性検出(novelty detection) で有用  識別モデル(discriminative model): 事後確率 だけが必要ならばこれでよい 生成か識別のどちらが良いか? [Jebara 2004, Lasserre et al 2006]  識別関数(discriminantive function) 事後確率 が求まらない. 最も単純だが,ほとんど情報が無 2014/3/4 PRML勉強会@長岡 4.推論と決定 ー アプローチのそれぞれの利点と欠点

Slide 49

Slide 49 text

 リスクの最小化 損失行列の変化(=期待損失の変化)に対応しやすい  棄却オプション 棄却基準を決め,期待損失を最小にできる.  クラス事前確率の補正 極端にクラスの確率が低い場合. ⇒クラスの事前確率を上げる 訓練データのバランス調整が必要(resample)  モデルの結合 問題の分割 → 条件付き独立(conditional independence) 仮定 c.f. iid(Independecy, Identically, distributed) 1 , 2 = 1 2 に分解可能 2014/3/4 PRML勉強会@長岡 4.推論と決定 – 事後確率分布を求める4つの理由 1 2 3 4

Slide 50

Slide 50 text

2014/3/4 PRML勉強会@長岡 5.回帰のための損失関数 • 曲線フィッティングにおいて 平均損失は 損失関数が二乗誤差の場合 ※ミンコフスキー損失を用いた拡張版もある 如何に関数y(x)を求めるか⇒変分法 Ε[] = (, ()) , ∞ −∞ ∞ −∞ Ε[] = − 2 , ∞ −∞ ∞ −∞

Slide 51

Slide 51 text

5.回帰のための損失関数 • 変分法を用いると 回帰関数(Regression function) = :条件付き期待値 Ε () = 2 − , = 0 = ∫ , = ∫ d = [|] 2014/3/4 PRML勉強会@長岡

Slide 52

Slide 52 text

2014/3/4 PRML勉強会@長岡 5.回帰のための損失関数 - ミンコフスキー損失 • ミンコフスキー損失(Minkowski loss)よる一般化(ノルム) = − , 条件付きメディアン 条件付き期待値 ≒条件付きモード ≒条件付き最大値

Slide 53

Slide 53 text

5.回帰のための損失関数 – 回帰問題のための3つのアプローチ 1. 同時分布p(x,t)を推定する問題を解く.それから 条件付き密度p(t |x)を求めるために規格化を行 い,最後に条件付き平均を求める. 2. まず条件付き密度p(t|x)を推定する問題を解い てから条件付き平均を求める 3. 回帰関数y(x)を直接訓練データから計算する. 2014/3/4 PRML勉強会@長岡

Slide 54

Slide 54 text

第1.6章 序論 - 情報理論- 2014/3/4 PRML勉強会@長岡

Slide 55

Slide 55 text

2014/3/4 PRML勉強会@長岡 0.情報量の導入 • 情報量 ≒ 驚きの度合い 起きそうにない事象が起きることを知れば, 多くの情報量を得たと言える. (情報量は確率分布p(x)に依存) 独立な確率では p(x,y) = p(x)p(y) なものでは h(x,y) = h(x) + h(y) であるもの→対数 ℎ = −log2 () 対数の底は自由(2進数の2) 情報の平均量 エントロピー = 情報の曖昧さ    x x p x p x H ) ( log ) ( ] [ 2

Slide 56

Slide 56 text

0.情報量の導入 – エントロピーの例 • 8個の取り得る変数{a, b, c, d, e, f, g, h} それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 } エントロピーは 3 8 1 log 8 1 8 ] [ 2     x H ビット それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64} エントロピーは 2 64 1 log 64 1 16 1 log 16 1 8 1 log 8 1 4 1 log 4 1 2 1 log 2 1 ] [ 2 2 2 2 2        x H ビット エントロピーの概念 確率変数の状態を規定するのに必要な平均ビット数 2014/3/4 PRML勉強会@長岡

Slide 57

Slide 57 text

0.情報量の導入 – 離散確率値におけるエントロピー エントロピー最大 ⇒ p(x)は一様分布 エントロピー最小 = p(x)はp(xi )=1, その他0 c.f.ラグランジュの未定乗数法 制約条件のもと値を最大化(最小化)する方法 エントロピー小 エントロピー大 エントロピー大 エントロピー小 2014/3/4 PRML勉強会@長岡

Slide 58

Slide 58 text

0.情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする:Δ→0にする ≒ 連続値 • 微分エントロピー • Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡

Slide 59

Slide 59 text

0.情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする:Δ→0にする ≒ 連続値 • 微分エントロピー • Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理               dx x p x p x p x p i i i ) ( ln ) ( ) ( ln ) ( lim 0 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡

Slide 60

Slide 60 text

0.情報量の導入 – 微分エントロピー 微分エントロピー最大 ⇒ p(x)は正規分布 分子の最小エネルギー状態と似ている? ※離散的な場合と違い負の値も取り得る 導出: ラグランジュの未定乗数法+変分法 制約条件 2 2 ) ( ) ( ) ( 1 ) (                    dx x p x dx x xp dx x p   ) 2 ln( 1 2 1 ] [ 2      x H          2 2 2 / 1 2 2 ) ( exp ) 2 ( 1 ) (    x x p 分散に依存 2014/3/4 PRML勉強会@長岡

Slide 61

Slide 61 text

0.情報量の導入 – 条件付きエントロピー H | = − , ln dd xが既知の上でyを特定に必要な平均追加情報量 条件付きエントロピー 結合エントロピー x,yの記述に必要な情報量 =xだけを記述するのに必要な情報量 + xが与えられている状態から yを記述するのに必要な付加的な情報量 H , = H ] + H[] 2014/3/4 PRML勉強会@長岡

Slide 62

Slide 62 text

1.相対エントロピーと相互情報量 KLダイバージェンスと密度推定 • データ圧縮と密度推定(未知の分布のモデル推定) 最も効率的な圧縮するためには真の分布が必要. 真の分布p(x),近似的モデルq(x) ⇒ 真の値のため必要な追加情報量を定義 相対エントロピー(KLダイバージェンス) KLが最小 ⇒ p(x) = q(x)の時;KLはp(x)とq(x)の隔たりを表す尺度 p(x)が分からないのに,どうやって 真の分布との近似を行うか? (| = − ln − − ln = − ln (※ (| ≒ KL q p 2014/3/4 PRML勉強会@長岡

Slide 63

Slide 63 text

1.相対エントロピーと相互情報量 KLダイバージェンスと密度推定 • データ圧縮と密度推定(未知の分布のモデル推定) e.g) 未知の分布p(x)をパラメトリックな分布q(x|θ)で近似 最適なパラメータθ → KLを最小化する. 真の分布p(x)は分からない だが真の分布p(x)から 得られたデータxn (n = 1…N) があるじゃないか KLを有限のデータで近似する. KLの最小化 = 対数尤度の最大化        N n n n x p x q N q p KL 1 ) ( ln ) | ( ln 1 ) || (  ≅ 1 ( ) 2014/3/4 PRML勉強会@長岡

Slide 64

Slide 64 text

1.相対エントロピーと相互情報量 KLダイバージェンスと相互情報量 • 同時分布p(x,y)に対して独立かであるかの指標 → 相互情報量(mutal information) 同時分布と周辺分布のKLダイバージェンス 相互情報量が高い ⇒ 2つの確率分布は独立でない ⇒ 関連性の指標 , = H − H = H − H p(x)の事前分布を得てから知った事後分布p(y|x)のエントロピーの差 → 不確実性の減少の度合い [, ] = [ , | = − , ln , 2014/3/4 PRML勉強会@長岡

Slide 65

Slide 65 text

補足資料:変分法 + = + + (2) ・ 関数 y(x) における最大化 ( → 0 ) : 2 が十分に無視できる 1 + 1 , 2 + 2 , … , + = 1 , 2 , … , + + (2) ・ 変分(Functional derivative) : 汎関数[]の微分(微小変化 に対する変化量) + = + + (2) ・ 汎関数(Functional) : 入力が関数y で 出力が値となる関数.e.g.)線分の長さ に対する変化量の総和 () = , ′, 2 1 :汎関数がy, y’, xの積分で表される時 − 方程式: − ′ = 0 ′に依存しない場合には = 0 停留条件: 2014/3/4 PRML勉強会@長岡

Slide 66

Slide 66 text

補足資料:ラグランジュの未定乗数法 ラグランジュ関数(Lagrangeian) : , ≡ + () 目的:制約条件 g(x)[複数可] における関数 を最大化する. ∇ + ∇ = 0 , = 0, , = = 0 制約条件 2014/3/4 PRML勉強会@長岡

Slide 67

Slide 67 text

補足資料:凸関数 • 下式を満たす関数を凸関数(convex function)と呼ぶ. ) ( ) 1 ( ) ( ) ) 1 ( ( b f a f b a f          2014/3/4 PRML勉強会@長岡

Slide 68

Slide 68 text

補足資料:カルバックーライブラーダイバージェンス • 数学的帰納法を用いると(1.114)より凸関数f(x)が任意の点集合{xi}に対し て, • を満たすことができる.ここでΣλ=1である. • (1.115)はイェンセンの不等式として知られている. • λiを値xiを取る離散確率変数x上の確率分布として解釈すると • と書ける.イェンセンの不等式をカルバックーライブラーダイバージェンス (1.113)に適用することができ, • が得られる              M i i i M i i i x f x f 1 1   (1.115)       ) ( ] [ x f x f E (1.116)              0 ) ( ln ) ( ) ( ln ) ( ) || ( dx x q dx x p x q x p q p KL (1.118) 2014/3/4 PRML勉強会@長岡