PRML勉強会第四章 - 岡田正平作成分

Slide 1

Slide 1 text

第4章線形識別モデル PRML勉強会@長岡 presented by 岡田正平

Slide 2

Slide 2 text

おことわり • 勉強会用資料です – 口頭で説明することを前提にしているため，スライド単体では説明不十分な部分があります • スライド中の情報の正しさは保証しません 2

Slide 3

Slide 3 text

はじめに 3

Slide 4

Slide 4 text

この章について • 分類問題について扱います • 決定領域 • 決定境界 – 決定面とも 4

Slide 5

Slide 5 text

目的変数の表現 • 1-of-K符号化法 – = 5クラスの例 t = 0,1,0,0,0 T – の値はクラスがである確率と解釈可能 5

Slide 6

Slide 6 text

3つのアプローチ (recall that 1章) 6

Slide 7

Slide 7 text

3つのアプローチ (recall that 1章) • 識別関数 • 生成モデル • 識別モデル – みんな大好きSVM 7

Slide 8

Slide 8 text

ちょっと3章も思い出して • 入力xに対して出力値を予測 • 最も簡単なモデル x = wTx + 0 ∈ ℝ 8

Slide 9

Slide 9 text

分類問題では？ • は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 9

Slide 10

Slide 10 text

分類問題では？ • は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 • 非線形関数(⋅)によって変換 x = (wTx + 0 )：一般化線形モデル (⋅)：活性化関数 10

Slide 11

Slide 11 text

4章の構成 4.1 識別関数（判別関数） 4.2 確率的生成モデル 4.3 確率的識別モデル ---------------------------------------------------- 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 11 ↓ 省略

Slide 12

Slide 12 text

4.1 識別関数（判別関数） 12

Slide 13

Slide 13 text

識別とは • 入力ベクトルxをクラスに割り当てる関数 • 本章では決定面が超平面となる線形識別のみを扱う 13

Slide 14

Slide 14 text

2クラス • 最も簡単な線形識別関数 x = T + 0 ：重みベクトル 0 ：バイアスパラメータ ≥ 0ならばクラス1 決定面は = 0 14

Slide 15

Slide 15 text

2クラス • は決定面の法線ベクトル • 0 は決定面の位置を決定する • 決定面から点への距離は = 15

Slide 16

Slide 16 text

Slide 17

Slide 17 text

2クラス • ダミー入力値0 = 1を導入 � = 0 , , � = 0 , を導入 = �T � スッキリ！ – ベクトルの次元が1増えてる 17

Slide 18

Slide 18 text

多クラス • 1対多分類器・1対1分類器 – 曖昧な領域が存在 18

Slide 19

Slide 19 text

多クラス • 個の線形関数で構成される単独のクラス識別を考える = T + 0 = �T � – すべての ≠ に対して () > ()である場合点はクラス 19

Slide 20

Slide 20 text

多クラス • , 間の決定境界は = = 0 • つまり − T + 𝑘 − 𝑗 = 0 – 2クラスの時と同様の幾何学的性質が適用される – 各決定領域は凸領域 20

Slide 21

Slide 21 text

Slide 22

Slide 22 text

パラメータの学習 • 最小二乗 • フィッシャーの線形判別 • パーセプトロンアルゴリズム 22

Slide 23

Slide 23 text

最小二乗法 • （結論）学習データ集合{ , }に対して � = T �† T ：番目の行が Tである行列 �：番目の行が Tである行列 �†： �の擬似逆行列（→3.1.1） – が，いろいろ問題がある 23

Slide 24

Slide 24 text

最小二乗法の問題 • 分類問題においては外れ値に特に弱い（「正し過ぎる」予測にペナルティ） 24 分類問題に対する誤差関数（→7.1.2）によりある程度は避けられるが...

Slide 25

Slide 25 text

最小二乗法の問題 • 3クラス分類問題の例 25 (´・ω・`)

Slide 26

Slide 26 text

そもそも • 最小二乗法は確率分布にガウス分布を仮定 • 2値目的変数ベクトルはガウス分布からかけ離れている ハナから無理があるってもんですよ 適切な確率モデルを採用しよう！（次回？） 26

Slide 27

Slide 27 text

フィッシャーの線形判別 • 次元の削除という観点から • これまでは次元入力ベクトルを1次元（実数）に射影していた – 当然情報は落ちるが，重みベクトルを調整することでうまく分離する – 最も単純な方法は射影されたクラス平均の分離度を最大化 27

Slide 28

Slide 28 text

フィッシャーの線形判別しかし... 28 (・A・)イマイチ

Slide 29

Slide 29 text

フィッシャーの線形判別 • フィッシャーさん，考えた • 射影されたクラス内の分散が小さくなるようにすれば... 29

Slide 30

Slide 30 text

フィッシャーの線形判別 30 (・∀・)ｲｲ!!

Slide 31

Slide 31 text

フィッシャーの線形判別実は目的変数に1-of-K符号化法とは異なる表現をもちいた場合の最小二乗法と等価 = 1 for 1 2 for 2 31

Slide 32

Slide 32 text

パーセプトロンアルゴリズム • 2クラスのモデル • 入力ベクトルを変換して得られる特徴ベクトル()に対して = (T ) ただし， = � +1, ≥ 0 −1. < 0 32

Slide 33

Slide 33 text

パーセプトロンアルゴリズム • 目的変数の表記は ∈ {−1,1} – 活性化関数との相性がいい 33

Slide 34

Slide 34 text

パーセプトロンアルゴリズム • 誤差関数の選択 – 誤識別したパターン総数 殆どの場合で勾配0 学習アルゴリズムが難しい – パーセプトロン規準 34

Slide 35

Slide 35 text

パーセプトロンアルゴリズム • パーセプトロン規準 = − ∑ ∈ℳ = ℳ：誤分類された全てのパターン集合 • 確率的最急降下アルゴリズム（→3.1.3） – +1 = − = w + 35

Slide 36

Slide 36 text

パーセプトロンアルゴリズム 36

Slide 37

Slide 37 text

パーセプトロンアルゴリズム • パーセプトロンの収束定理 – 厳密解が存在する場合，パーセプトロン学習アルゴリズムは有限回の繰り返しで厳密解に収束することを保証 実用的には，分離できない問題なのか，単に収束が遅いのかの区別が収束するまでわからないという点に注意 37

Slide 38

Slide 38 text

4.2 確率的生成モデル 38

Slide 39

Slide 39 text

ベイズ！ • 2クラスの場合を考える 1 x = x 1 1 x 1 1 + x 2 (2) = 1 1+exp (−) = = ln x 1 1 x 2 (2) 39

Slide 40

Slide 40 text

ロジスティックシグモイド関数 • = 1 1+exp (−) • 「スカッシング（押し込み）関数」とも 40

Slide 41

Slide 41 text

多クラスの場合 • = x ∑ x () = exp ∑ exp () = ln( x ) – 正規化指数関数 • ソフトマックス関数とも 41

Slide 42

Slide 42 text

連続値入力 • クラスの条件付き確率密度がガウス分布と仮定 • すべてのクラスが同じ共分散行列を仮定 x = 1 2 2 1 1 2 exp − 1 2 x − T−1(x − ) 42

Slide 43

Slide 43 text

連続値入力 • 指数部分にあるxの二次の項がキャンセルされるため，正規化指数関数の引数がの線形関数になる 43

Slide 44

Slide 44 text

連続値入力 • 共分散行列が異なる場合は？ 境界が非線形（二次関数） 44

Slide 45

Slide 45 text

最尤解 • もう一度2クラス，ガウス分布，共通の共分散の場合を考える • データ集合 x , が与えられていると仮定 = 1, ⋯ , = � 1 for 1 0 for 2 45

Slide 46

Slide 46 text

最尤解 • 尤度関数は t, X , 1 , 2 , = � x 1 , 1 − 𝒩 x 2 , 1− =1 ただし = 1 , ⋯ , T, = 1 46

Slide 47

Slide 47 text

最尤解 • 各パラメータの最大化は = 1 1 = 1 1 ∑ x =1 2 = 1 2 ∑ (1 − )x =1 47

Slide 48

Slide 48 text

最尤解 = 1 S1 + 2 S2 S1 = 1 1 ∑ x − 1 x − 1 ∈1 S2 = 1 2 ∑ x − 2 x − 2 ∈2 • この結果は多クラスにも拡張可能 48

Slide 49

Slide 49 text

離散特徴 • 特徴が離散値の場合を考える • 2値 ∈ 1,0 , 特徴数個の場合 – 特徴量を抑えるためナイーブベイズを仮定 x = � 1 − 1− =1 49

Slide 50

Slide 50 text

離散特徴 • 正規化指数関数の引数は = �{ ln 𝑘 + 1 − ln 1 − 𝑘 } =1 + ln ( )  入力値の線形関数となる 50

Slide 51

Slide 51 text

指数型分布族 • クラスの条件付き確率が指数型分布族のメンバーであると仮定 • x = ℎ x λ exp {λ Tu x } • u x = xとなるような分布については，正規化指数関数の引数がxの線形関数となる 51

Slide 52

Slide 52 text

4.3 確率的識別モデル 52

Slide 53

Slide 53 text

識別アプローチの利点 • 決めるべき適用パラメータが少ない 53

Slide 54

Slide 54 text

固定基底関数 • 基底関数ベクトル(x)を使って入力を非線形変換 – 決定境界を非線形にできる – SVMでいうところのカーネル関数 54

Slide 55

Slide 55 text

固定基底関数 55

Slide 56

Slide 56 text

ロジスティック回帰 • 事後確率（2クラスの場合） 1 = = (wT) • ロジスティックシグモイド関数 2 = 1 − (1 |) • パラメータの数=の次元数 56

Slide 57

Slide 57 text

最尤法によるパラメータ決定 • データ集合 , , ∈ 0,1 , = , = 1, ⋯ , に対する尤度関数 t w = � 1 − 1− =1 – t = 1 , ⋯ , T, = (1 | ) 57

Slide 58

Slide 58 text

最尤法によるパラメータ決定 • 負の対数をとって誤差関数とする w = − ln t w = − ∑ ln + 1 − ln 1 − =1 – 交差エントロピー誤差関数 58

Slide 59

Slide 59 text

最尤法によるパラメータ決定 • 誤差関数の勾配をとると w = � − =1 – なんか簡単な形に！ 59

Slide 60

Slide 60 text

最尤法に寄るパラメータ推定 • 線形分離可能なデータに対して，過学習を起こしてしまう点に注意 60

Slide 61

Slide 61 text

反復重み付け最小二乗 • ロジスティック回帰では最尤解を解析的に導出することはできない • しかし誤差関数は凸関数 唯一の最小解を持つ • ニュートン・ラフソン法を用いる w(new) = w old − H−1(w) 61

Slide 62

Slide 62 text

反復重み付け最小二乗 • 二乗和誤差関数の場合 w = ∑ wT − = ΦTΦw − ΦTt =1 H = ∑ =1 = ΦΦ – Φは番目の行が Tで与えられる × 行列 62

Slide 63

Slide 63 text

反復重み付け最小二乗 • 代入して，整理すると w new = ΦΦ −1Φt – w old が消えた  反復回数1回で正確な解が求められる 63

Slide 64

Slide 64 text

反復重み付け最小二乗 • 交差エントロピー誤差関数の場合 • w new = ΦTRΦ −1 ΦTRz – Rは要素が = { 1 − }の対角行列 – z = Φw old − R−1(y − t) – 重み付き最小二乗問題に対する正規方程式集合 64

Slide 65

Slide 65 text

多クラスロジスティック回帰 • 事後確率 = = exp ∑ exp • ソフトマックス関数 = w T 65

Slide 66

Slide 66 text

多クラスロジスティック回帰 • 尤度関数（1-of-K符号化法を使用） 1 , ⋯ , = ∏ ∏ 𝑛 𝑛 =1 =1 • 以下，2クラスの場合と同様に導出可能 66

Slide 67

Slide 67 text

プロビット回帰 • ロジスティック回帰で，どんなときでも事後確率が簡単な形になるわけではない 別のタイプの識別確率モデルも見てみよう • 2クラスの場合を考えます = 1 = () = wT， ⋅ ：活性化関数 67

Slide 68

Slide 68 text

プロビット回帰 • 雑音しきい値モデル = � 1 if ≤ 0 otherwise • の値が確率密度()で与えら得る場合 = � 𝑑 −∞ 68

Slide 69

Slide 69 text

Slide 70

Slide 70 text

プロビット回帰 • ()が標準正規分布の場合の() プロビット関数 • プロビット関数に基づく一般化線形モデルをプロビット回帰という 70

Slide 71

Slide 71 text

プロビット回帰 • 点線部分がプロビット関数 – （実線はロジスティックシグモイド関数） 71

Slide 72

Slide 72 text

プロビット回帰 • ロジスティク回帰の結果と似る傾向がある • より外れ値に敏感 • ロジスティック回帰のベイズ的な扱いにおいて，利用法がある（4.5節） 72

Slide 73

Slide 73 text

4.4 ラプラス近似 73

Slide 74

Slide 74 text

ラプラス近似とは • 連続確率密度分布をガウス分布に近似 74

Slide 75

Slide 75 text

4.5 ベイズロジスティック回帰 75

Slide 76

Slide 76 text

この節では... • ロジスティック回帰のベイズ的取り扱い 厳密に適用するのは難しい ラプラス近似を適用して考える 76