PRML_Chapter01@NUT - Speaker Deck

Slide 1

Slide 1 text

PRML勉強会@長岡第1章序論 - 前編 – Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.1-37 @takeppa

Slide 2

Slide 2 text

 PRMLとは？ Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭． …ファンも多く，副読本も多く存在！ … みんなでやれば怖くない！ 必要なもの： 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは？

Slide 3

Slide 3 text

 PRMLとは？ Pattern Recognition and Machine Learning …機械学習の名著ながらに難読本筆頭． …ファンも多く，副読本も多く存在！ … みんなでやれば怖くない！ 必要なもの：続ける根性 2014/3/4 PRML勉強会@長岡 Introduction : PRMLとは？

Slide 4

Slide 4 text

第１．１章序論 - 多項式曲線フィッティング - 2014/3/4 PRML勉強会@長岡

Slide 5

Slide 5 text

• 前処理(Preprocessing) • 特徴抽出(Feature Extraction) • 汎化(generalization) • 教師あり学習(Supervised Learning) • 教師なし学習(Unsupervised Learning) • 強化学習(Reinforcement Learning) • クラス分類(Classification) • クラスタリング(Clustering) • 回帰(Regression) 2014/3/4 PRML勉強会@長岡 0. パターン認識と機械学習

Slide 6

Slide 6 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの         M j j j M M x w x w x w x w w x y 0 2 2 1 0 ... ) , ( w 解１：xに関する多項式を仮定し，最小二乗誤差法を適用する．     N n n n t x y E 1 2 } ) , ( { 2 1 ) ( w w 誤差関数(Error Function) wに関して最小化． wi (パラメータ)に関して1次の線形関数：線形モデル(linear model) 問題はMはいくつにするか？ ⇒ モデル選択 2014/3/4 PRML勉強会@長岡

Slide 7

Slide 7 text

Slide 8

Slide 8 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう最初は定数 2014/3/4 PRML勉強会@長岡

Slide 9

Slide 9 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう直線 2014/3/4 PRML勉強会@長岡

Slide 10

Slide 10 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょうらしくなってきた！ 2014/3/4 PRML勉強会@長岡

Slide 11

Slide 11 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょうありゃりゃ… 2014/3/4 PRML勉強会@長岡

Slide 12

Slide 12 text

1. 例：多項式曲線フィッティング問：図の青点(訓練集合)*はどんな式にフィットするか？ *緑線（sin(2πx)）から正規分布に従うランダムノイズ（誤差や観測されない信号元の変動にあたる）を加えて生成したもの    M j j j x w x y 0 ) , ( w 色々なMで試してみましょう 10個の未知パラメータ 10個の訓練データ = 二乗誤差ゼロ未知のデータ(緑)との誤差大！過学習(over-fitting) ランダムノイズに引っ張られてる 2014/3/4 PRML勉強会@長岡

Slide 13

Slide 13 text

1. 例：多項式曲線フィッティング未知のデータに対する適応度と訓練データに対する適応度比較  E RMS  2E(w*)/N Nに左右されない比較 2014/3/4 PRML勉強会@長岡

Slide 14

Slide 14 text

1. 例：多項式曲線フィッティング Mが増えるとパラメータも大きくなるんですね… 雑音 = 高周波 ⇒ xの微小変化に大きな変化が求められる M=0 M=1 M=3 … M=9 0 ∗ 0.19 0.82 0.31 0.35 1 ∗ -1.27 7.99 232.37 2 ∗ -25.43 -5321.83 3 ∗ 17.37 48568.31 4 ∗ -231639.30 5 ∗ 640042.26 6 ∗ -1061800.52 7 ∗ 1042400.18 8 ∗ -557682.99 9 ∗ 125201.43 2014/3/4 PRML勉強会@長岡

Slide 15

Slide 15 text

1. 例：多項式曲線フィッティング過学習を防ぐ３つの方法  学習データ数を増やす学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう  ベイズ的(Bayesian)アプローチをとる 3章のお楽しみ  正則化(Regularization)を行う誤差関数にパラメータの大きさを制限する罰金(Penalty)項を追加する 2014/3/4 PRML勉強会@長岡

Slide 16

Slide 16 text

1. 例：多項式曲線フィッティング過学習を防ぐ３つの方法  学習データ数を増やす学習データ増やす ≒ 未知のデータが減る ⇒ 学習データの数によりパラメータ数が制限されてしまう 2014/3/4 PRML勉強会@長岡

Slide 17

Slide 17 text

Slide 18

Slide 18 text

1. 例：多項式曲線フィッティング過学習を防ぐ３つの方法  正則化(Regularization)を行う誤差関数にパラメータの大きさを制限する罰金(Penalty)項を追加する ||w||2 = wTw = w0 2 + w1 2 + … +wM 2 ※ w0 は外されることも多い ˜ E (w)  1 2 {y(x n ,w)  t n }2 n1 N    2 || w ||2 2014/3/4 PRML勉強会@長岡

Slide 19

Slide 19 text

第１.２章序論 - 確率論- 2014/3/4 PRML勉強会@長岡

Slide 20

Slide 20 text

• 確率の加法定理(周辺化) = (, ) ∈ • 確率の乗法定理 • ベイズの定理 2014/3/4 PRML勉強会@長岡 2. 確率論のおさらい p(Y | X)  p(X |Y)p(Y) p(X)  p(X,Y)  p(Y | X)p(X)

Slide 21

Slide 21 text

2014/3/4 PRML勉強会@長岡 2. 確率論のおさらい • 確率密度関数 • 累積分布関数 • 期待値 • 分散 • 共分散 … X,Yがどれだけ一緒に変化するか

Slide 22

Slide 22 text

2014/3/4 PRML勉強会@長岡 2. 頻度的確率論とベイズ的確率論 • ベイズ確率の欠点 事前分布が何らかの信念によらず、むしろ数学的な便宜によって選ばれてしまうことがある。 事前分布の選び方によっては結果が主観的になるし、悪い事前分布を選べば、高い確率で悪い結果が得られてしまう。 頻度主義的アプローチを織り交ぜていくことで、ある程度回避することができる。

Slide 23

Slide 23 text

2014/3/4 PRML勉強会@長岡 2. 頻度的確率論とベイズ的確率論 • コイン３回振って３回表出た．表のでる確率は？ – 古典的確率論（⇒最尤推定） • 3回とも表なんだから，次も表に違いない(p = 1.0)！！ – ベイズ的確率論(⇒MAP推定) • いやいや，たまたまってこともあるでしょう • 裏表それぞれ1/2とすればなら（事前分布），この状況ってどれぐらい起こりやすいのかな？(尤度) 10/10が表，20/20が表，30/30が表…と多ければ大きいほどより確かな情報になる

Slide 24

Slide 24 text

2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率 • 点推定 – 最尤推定(maximum likelihood) • 無情報事前分布 – 事前分布が分からない場合は，全て一様に起こるとする – MAP推定(maximum posterior) • 事前確率より尤度が考慮される(= スムージング) – 極端な結果になりにくくする (|) = (|)() () 尤度(likelihood) 事前確率(prior prb.) 正規化のためのもの : 学習データ : パラメータ事後確率(Posterior prob.)

Slide 25

Slide 25 text

2014/3/4 PRML勉強会@長岡 2. ベイズアプローチ • 事後確率 ∝ 尤度×事前確率予測する分布(事前確率)と現在の結果(尤度)から (→ベイズ更新) 新しい分布を作る(事後確率) (|) ∝ (|)() 尤度(likelihood) 事前確率(prior prb.) 規格化のためのもの : 学習データ : パラメータ事後確率(Posterior prob.)

Slide 26

Slide 26 text

2014/3/4 PRML勉強会@長岡２．ベイズアプローチによる曲線フィッティング • 最尤推定による曲線フィッティング – 最小二乗誤差による曲線の結果と一致 • MAP推定による曲線フィッティング – 正則化された最小二乗誤差と結果が一致 • 事前分布の誤差の分散の超パラメータ（…階層ベイズ） M = 9

Slide 27

Slide 27 text

第１.３章序論 - モデル選択 - 2014/3/4 PRML勉強会@長岡

Slide 28

Slide 28 text

• 選択したモデルがどの程度未知のデータに則するか確認する(オープンテスト) 交差検定（cross-validation） LOO法(Leave-one-out method) 2014/3/4 PRML勉強会@長岡３．モデル選択

Slide 29

Slide 29 text

2014/3/4 PRML勉強会@長岡３．モデル選択 – 情報量機運による罰則項 • 情報量基準 - 過学習を防ぐため罰則項を課す． • 赤池情報量基準(AIC) ln ) − ln )：最尤推定時の対数尤度 M：可変パラメータ数 → モデルパラメータの不確実性が考慮されてない → より自然な方法は 3,4章にて！

Slide 30

Slide 30 text

第１.４章序論 - 次元の呪い- 2014/3/4 PRML勉強会@長岡

Slide 31

Slide 31 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 12次元のうち6,7の要素だけ表示． – ×の点は３つのどれにあてはまるだろうか…？

Slide 32

Slide 32 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 12次元のうち6,7の要素だけ表示． – いくつかのセル(4×４)に分解して，多数決で決める

Slide 33

Slide 33 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 12次元のうち6,7の要素だけ表示． – いくつかのセル(4×４)に分解して，多数決で決める

Slide 34

Slide 34 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 12次元のうち6,7の要素だけ表示． – いくつかのセル(4×４)に分解して，多数決で決める

Slide 35

Slide 35 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 12次元のうち6,7の要素だけ表示． – いくつかのセル(4×４)に分解して，多数決で決める

Slide 36

Slide 36 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 多項式フィッティングを考える xの次数が高ければ高いほど様々な曲線が描ける！だけどほら…

Slide 37

Slide 37 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • 多項式フィッティングを考える xの次数が高ければ高いほど様々な曲線が描ける！だけどほら… …(ｌｌｌﾟДﾟ)ギャー!! , = 0 + =1 + , =1 =1 + =1 =1 =1

Slide 38

Slide 38 text

Slide 39

Slide 39 text

2014/3/4 PRML勉強会@長岡４．次元の呪い選択 • どうすればいいのか？ • ベクトルの次元数を削る –次元縮退，次元圧縮 –特徴的な値だけを使う． • 問題の質を見極める – ほんとに必要な要素は何か？ – 必要以上に過多な次元を設定してないか？

Slide 40

Slide 40 text

PRML勉強会@長岡第1章序論 - 後編 – Christopher M. Bishop (2006): Pattern Recognition and Machine Learning, Springer, pp.37-64 @takeppa

Slide 41

Slide 41 text

第１.５章序論 - 決定理論- 2014/3/4 PRML勉強会@長岡

Slide 42

Slide 42 text

入力ベクトルx, 目標変数ｔ 2014/3/4 PRML勉強会@長岡０．決定理論推論：同時確率分布 , をどうやってきめるか？回帰問題の場合 : t は連続変数クラブ分類の場合: t はクラスラベル(e.g.:01, 00, 10, 11) ｘＣ１Ｃ 2 求まるのは確率(分布)：最も情報量多いここからどんな選択を行うか？ →決定理論の役割 = , ∞ −∞ = , ∞ −∞ = () () ※同時確率分布 , が全部の確率分布の要約になる

Slide 43

Slide 43 text

誤識別率が最小になるよう決定する．決定境界(クラス境界；Decision boundary)：ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡１．誤識別率の最小化         2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p 　　　　誤り , 1 > , 2 にする最適な戦略：はクラス間で共通 , = () 最大のを選択する

Slide 44

Slide 44 text

誤識別率が最小になるよう決定する．決定境界(クラス境界；Decision boundary)：ℛ1 , ℛ2 2014/3/4 PRML勉強会@長岡１．誤識別率の最小化         2 1 ) , ( ) , ( ) , ( ) , ( ) ( 1 2 1 2 2 1 R R dx C x p dx C x p C R x p C R x p p 　　　　誤り最適な戦略：赤+緑 =ℛ1 での誤り率青 =ℛ2 での誤り率 max 正解 : → 0

Slide 45

Slide 45 text

２．期待損失の最小化あくまで確率の最大化確率と損失の重みを含めて考慮する：期待値 ex.) どちらが大きいか癌の人を無病と間違えるリスク無病の人を癌と間違えるリスク ⇒損失関数（lost function）の導入損失の重みと確率の積を最小化する   k j R k kj j dx C x p L L ) , ( ] [ E          0 1 1000 0 kj L 癌正常癌正常 2014/3/4 PRML勉強会@長岡

Slide 46

Slide 46 text

一意的に決めるのが良い判断か？・すべてクラス分けするのが良いとも限らない．・分からない問題はほっておくの一つの戦略棄却オプション(Reject option) 最大の閾値がθ より低いときは判断しない θ = 1.0 ：全て棄却 θ < 1/K ：棄却無 (K:クラス数) 棄却を含めた損失行列 →期待損失の最小化が可能 2014/3/4 PRML勉強会@長岡３．棄却オプション

Slide 47

Slide 47 text

1.推論段階(inference stage)：モデルの学習 2.決定段階(dicision stage)：最適なクラスの割り当てを行う  生成モデル(generative model)：事前確率 , 尤度 | から事後確率を求める．最尤推定法, EMアルゴリズム，ブートストラップ法 etc  識別モデル(discriminative model)：事後確率を直接求め→決定段階 SVM, ロジスティック回帰，最大エントロピー法  識別関数(discriminantive function) 推論と決定を同時に行い，学習する関数 e.g.) f(x) = Ck 2014/3/4 PRML勉強会@長岡４．推論と決定 – 推論と決定を行うための３つのアプローチ複雑簡易

Slide 48

Slide 48 text

 生成モデル(generative model)：データの生起確率が求められる．生起確率が低いデータ → 予測の精度が低い外れ値検出(outlier detection) または新規性検出(novelty detection) で有用  識別モデル(discriminative model)：事後確率だけが必要ならばこれでよい生成か識別のどちらが良いか？ [Jebara 2004, Lasserre et al 2006]  識別関数(discriminantive function) 事後確率が求まらない．最も単純だが，ほとんど情報が無 2014/3/4 PRML勉強会@長岡４．推論と決定ーアプローチのそれぞれの利点と欠点

Slide 49

Slide 49 text

 リスクの最小化損失行列の変化(=期待損失の変化)に対応しやすい  棄却オプション棄却基準を決め，期待損失を最小にできる．  クラス事前確率の補正極端にクラスの確率が低い場合． ⇒クラスの事前確率を上げる訓練データのバランス調整が必要(resample)  モデルの結合問題の分割 → 条件付き独立(conditional independence) 仮定 c.f. iid(Independecy, Identically, distributed) 1 , 2 = 1 2 に分解可能 2014/3/4 PRML勉強会@長岡４．推論と決定 – 事後確率分布を求める４つの理由 1 2 3 4

Slide 50

Slide 50 text

2014/3/4 PRML勉強会@長岡５．回帰のための損失関数 • 曲線フィッティングにおいて平均損失は損失関数が二乗誤差の場合 ※ミンコフスキー損失を用いた拡張版もある如何に関数y(x)を求めるか⇒変分法 Ε[] = (, ()) , ∞ −∞ ∞ −∞ Ε[] = − 2 , ∞ −∞ ∞ −∞

Slide 51

Slide 51 text

５．回帰のための損失関数 • 変分法を用いると回帰関数(Regression function) = ：条件付き期待値 Ε () = 2 − , = 0 = ∫ , = ∫ d = [|] 2014/3/4 PRML勉強会@長岡

Slide 52

Slide 52 text

2014/3/4 PRML勉強会@長岡５．回帰のための損失関数 - ミンコフスキー損失 • ミンコフスキー損失(Minkowski loss)よる一般化(ノルム) = − , 条件付きメディアン条件付き期待値 ≒条件付きモード ≒条件付き最大値

Slide 53

Slide 53 text

５．回帰のための損失関数 – 回帰問題のための３つのアプローチ 1. 同時分布p(x,t)を推定する問題を解く．それから条件付き密度p(t |x)を求めるために規格化を行い，最後に条件付き平均を求める． 2. まず条件付き密度p(t|x)を推定する問題を解いてから条件付き平均を求める 3. 回帰関数y(x)を直接訓練データから計算する． 2014/3/4 PRML勉強会@長岡

Slide 54

Slide 54 text

第１.６章序論 - 情報理論- 2014/3/4 PRML勉強会@長岡

Slide 55

Slide 55 text

2014/3/4 PRML勉強会@長岡 0．情報量の導入 • 情報量 ≒ 驚きの度合い起きそうにない事象が起きることを知れば，多くの情報量を得たと言える． (情報量は確率分布p(x)に依存) 独立な確率では p(x,y) = p(x)p(y) なものでは h(x,y) = h(x) + h(y) であるもの→対数 ℎ = −log2 () 対数の底は自由(2進数の2) 情報の平均量エントロピー = 情報の曖昧さ    x x p x p x H ) ( log ) ( ] [ 2

Slide 56

Slide 56 text

0．情報量の導入 – エントロピーの例 • 8個の取り得る変数｛a, b, c, d, e, f, g, h｝それぞれの確率｛1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 ｝エントロピーは 3 8 1 log 8 1 8 ] [ 2     x H ビットそれぞれの確率｛1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64｝エントロピーは 2 64 1 log 64 1 16 1 log 16 1 8 1 log 8 1 4 1 log 4 1 2 1 log 2 1 ] [ 2 2 2 2 2        x H ビットエントロピーの概念確率変数の状態を規定するのに必要な平均ビット数 2014/3/4 PRML勉強会@長岡

Slide 57

Slide 57 text

0．情報量の導入 – 離散確率値におけるエントロピーエントロピー最大 ⇒ p(x)は一様分布エントロピー最小＝ p(x)はp(xi )=1, その他0 c.f.ラグランジュの未定乗数法制約条件のもと値を最大化(最小化)する方法エントロピー小エントロピー大エントロピー大エントロピー小 2014/3/4 PRML勉強会@長岡

Slide 58

Slide 58 text

0．情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする：Δ→0にする ≒ 連続値 • 微分エントロピー • Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡

Slide 59

Slide 59 text

0．情報量の導入 – 連確率値におけるエントロピー • 離散値での区間を小さくする：Δ→0にする ≒ 連続値 • 微分エントロピー • Δ → 0 ならばするHΔ 発散→厳密な連続変数には無限ビット必要             ln ) ( ln ) ( ) ) ( ln( ) ( i i i i i i x p x p x p x p H ∵ 平均値の定理               dx x p x p x p x p i i i ) ( ln ) ( ) ( ln ) ( lim 0 Δ+1 Δ = Δ 2014/3/4 PRML勉強会@長岡

Slide 60

Slide 60 text

0．情報量の導入 – 微分エントロピー微分エントロピー最大 ⇒ p(x)は正規分布分子の最小エネルギー状態と似ている？ ※離散的な場合と違い負の値も取り得る導出：ラグランジュの未定乗数法＋変分法制約条件 2 2 ) ( ) ( ) ( 1 ) (                    dx x p x dx x xp dx x p   ) 2 ln( 1 2 1 ] [ 2    　 x H          2 2 2 / 1 2 2 ) ( exp ) 2 ( 1 ) (    x x p 分散に依存 2014/3/4 PRML勉強会@長岡

Slide 61

Slide 61 text

0．情報量の導入 – 条件付きエントロピー H | = − , ln dd xが既知の上でyを特定に必要な平均追加情報量条件付きエントロピー結合エントロピー x,yの記述に必要な情報量＝xだけを記述するのに必要な情報量 + xが与えられている状態から yを記述するのに必要な付加的な情報量 H , = H ] + H[] 2014/3/4 PRML勉強会@長岡

Slide 62

Slide 62 text

1．相対エントロピーと相互情報量 KLダイバージェンスと密度推定 • データ圧縮と密度推定(未知の分布のモデル推定) 最も効率的な圧縮するためには真の分布が必要．真の分布p(x)，近似的モデルq(x) ⇒ 真の値のため必要な追加情報量を定義相対エントロピー(KLダイバージェンス) KLが最小 ⇒ p(x) = q(x)の時；KLはp(x)とq(x)の隔たりを表す尺度 p(x)が分からないのに，どうやって真の分布との近似を行うか？ (| = − ln − − ln = − ln (※ (| ≒ KL q p 2014/3/4 PRML勉強会@長岡

Slide 63

Slide 63 text

1．相対エントロピーと相互情報量 KLダイバージェンスと密度推定 • データ圧縮と密度推定(未知の分布のモデル推定) e.g) 未知の分布p(x)をパラメトリックな分布q(x|θ)で近似最適なパラメータθ → KLを最小化する．真の分布p(x)は分からないだが真の分布p(x)から得られたデータxn (n = 1…N) があるじゃないか KLを有限のデータで近似する． KLの最小化 = 対数尤度の最大化        N n n n x p x q N q p KL 1 ) ( ln ) | ( ln 1 ) || (  ≅ 1 ( ) 2014/3/4 PRML勉強会@長岡

Slide 64

Slide 64 text

1．相対エントロピーと相互情報量 KLダイバージェンスと相互情報量 • 同時分布p(x,y)に対して独立かであるかの指標 → 相互情報量（mutal information）同時分布と周辺分布のKLダイバージェンス相互情報量が高い ⇒ 2つの確率分布は独立でない ⇒ 関連性の指標 , = H − H = H − H p(x)の事前分布を得てから知った事後分布p(y|x)のエントロピーの差 → 不確実性の減少の度合い [, ] = [ , | = − , ln , 2014/3/4 PRML勉強会@長岡

Slide 65

Slide 65 text

補足資料：変分法 + = + + (2) ・関数 y(x) における最大化 ( → 0 ) ： 2 が十分に無視できる 1 + 1 , 2 + 2 , … , + = 1 , 2 , … , + + (2) ・変分(Functional derivative) ：汎関数[]の微分(微小変化に対する変化量) + = + + (2) ・汎関数(Functional) ：入力が関数y で出力が値となる関数．e.g.)線分の長さに対する変化量の総和 () = , ′, 2 1 ：汎関数がy, y’, xの積分で表される時 − 方程式： − ′ = 0 ′に依存しない場合には = 0 停留条件： 2014/3/4 PRML勉強会@長岡

Slide 66

Slide 66 text

補足資料：ラグランジュの未定乗数法ラグランジュ関数(Lagrangeian) ： , ≡ + () 目的：制約条件 g(x)[複数可] における関数を最大化する． ∇ + ∇ = 0 , = 0, , = = 0 制約条件 2014/3/4 PRML勉強会@長岡

Slide 67

Slide 67 text

補足資料：凸関数 • 下式を満たす関数を凸関数(convex function)と呼ぶ． ) ( ) 1 ( ) ( ) ) 1 ( ( b f a f b a f          2014/3/4 PRML勉強会@長岡

Slide 68

Slide 68 text

補足資料：カルバックｰライブラーダイバージェンス • 数学的帰納法を用いると(1.114)より凸関数f(x)が任意の点集合{xi}に対して， • を満たすことができる．ここでΣλ=1である． • (1.115)はイェンセンの不等式として知られている． • λiを値xiを取る離散確率変数x上の確率分布として解釈すると • と書ける．イェンセンの不等式をカルバックｰライブラーダイバージェンス (1.113)に適用することができ， • が得られる              M i i i M i i i x f x f 1 1   (1.115)       ) ( ] [ x f x f E (1.116)              0 ) ( ln ) ( ) ( ln ) ( ) || ( dx x q dx x p x q x p q p KL (1.118) 2014/3/4 PRML勉強会@長岡