Slide 1

Slide 1 text

第4章 線形識別モデル PRML勉強会@長岡 presented by 岡田 正平

Slide 2

Slide 2 text

おことわり • 勉強会用資料です – 口頭で説明することを前提にしているため, スライド単体では説明不十分な部分があります • スライド中の情報の正しさは保証しません 2

Slide 3

Slide 3 text

はじめに 3

Slide 4

Slide 4 text

この章について • 分類問題について扱います • 決定領域 • 決定境界 – 決定面とも 4

Slide 5

Slide 5 text

目的変数の表現 • 1-of-K符号化法 – = 5クラスの例 t = 0,1,0,0,0 T – の値はクラスが である確率と解釈可能 5

Slide 6

Slide 6 text

3つのアプローチ (recall that 1章) 6

Slide 7

Slide 7 text

3つのアプローチ (recall that 1章) • 識別関数 • 生成モデル • 識別モデル – みんな大好きSVM 7

Slide 8

Slide 8 text

ちょっと3章も思い出して • 入力xに対して出力値を予測 • 最も簡単なモデル x = wTx + 0 ∈ ℝ 8

Slide 9

Slide 9 text

分類問題では? • は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 9

Slide 10

Slide 10 text

分類問題では? • は離散値を取るクラスラベル – もっと一般的には領域(0,1)の値を取る事後確率 • 非線形関数(⋅)によって変換 x = (wTx + 0 ):一般化線形モデル (⋅):活性化関数 10

Slide 11

Slide 11 text

4章の構成 4.1 識別関数(判別関数) 4.2 確率的生成モデル 4.3 確率的識別モデル ---------------------------------------------------- 4.4 ラプラス近似 4.5 ベイズロジスティック回帰 11 ↓ 省略

Slide 12

Slide 12 text

4.1 識別関数(判別関数) 12

Slide 13

Slide 13 text

識別とは • 入力ベクトルxをクラス に割り当てる関数 • 本章では決定面が超平面となる 線形識別のみを扱う 13

Slide 14

Slide 14 text

2クラス • 最も簡単な線形識別関数 x = T + 0 :重みベクトル 0 :バイアスパラメータ ≥ 0ならばクラス1 決定面は = 0 14

Slide 15

Slide 15 text

2クラス • は決定面の法線ベクトル • 0 は決定面の位置を決定する • 決定面から点への距離は = 15

Slide 16

Slide 16 text

16

Slide 17

Slide 17 text

2クラス • ダミー入力値0 = 1を導入 � = 0 , , � = 0 , を導入 = �T � スッキリ! – ベクトルの次元が1増えてる 17

Slide 18

Slide 18 text

多クラス • 1対多分類器・1対1分類器 – 曖昧な領域が存在 18

Slide 19

Slide 19 text

多クラス • 個の線形関数で構成される単独のクラス 識別を考える = T + 0 = �T � – すべての ≠ に対して () > ()である場合 点はクラス 19

Slide 20

Slide 20 text

多クラス • , 間の決定境界は = = 0 • つまり − T + 𝑘 − 𝑗 = 0 – 2クラスの時と同様の幾何学的性質が適用される – 各決定領域は凸領域 20

Slide 21

Slide 21 text

21

Slide 22

Slide 22 text

パラメータの学習 • 最小二乗 • フィッシャーの線形判別 • パーセプトロンアルゴリズム 22

Slide 23

Slide 23 text

最小二乗法 • (結論)学習データ集合{ , }に対して � = T �† T :番目の行が Tである行列 �:番目の行が Tである行列 �†: �の擬似逆行列(→3.1.1) – が,いろいろ問題がある 23

Slide 24

Slide 24 text

最小二乗法の問題 • 分類問題においては外れ値に特に弱い (「正し過ぎる」予測にペナルティ) 24 分類問題に対する誤 差関数(→7.1.2)に よりある程度は避け られるが...

Slide 25

Slide 25 text

最小二乗法の問題 • 3クラス分類問題の例 25 (´・ω・`)

Slide 26

Slide 26 text

そもそも • 最小二乗法は確率分布にガウス分布を仮定 • 2値目的変数ベクトルはガウス分布から かけ離れている ハナから無理があるってもんですよ 適切な確率モデルを採用しよう! (次回?) 26

Slide 27

Slide 27 text

フィッシャーの線形判別 • 次元の削除という観点から • これまでは次元入力ベクトルを1次元(実 数)に射影していた – 当然情報は落ちるが,重みベクトルを調整す ることでうまく分離する – 最も単純な方法は射影されたクラス平均の分離 度を最大化 27

Slide 28

Slide 28 text

フィッシャーの線形判別 しかし... 28 (・A・)イマイチ

Slide 29

Slide 29 text

フィッシャーの線形判別 • フィッシャーさん,考えた • 射影されたクラス内の分散が小さくなるよ うにすれば... 29

Slide 30

Slide 30 text

フィッシャーの線形判別 30 (・∀・)イイ!!

Slide 31

Slide 31 text

フィッシャーの線形判別 実は目的変数に1-of-K符号化法とは異なる表現を もちいた場合の最小二乗法と等価 = 1 for 1 2 for 2 31

Slide 32

Slide 32 text

パーセプトロンアルゴリズム • 2クラスのモデル • 入力ベクトルを変換して得られる特徴ベク トル()に対して = (T ) ただし, = � +1, ≥ 0 −1. < 0 32

Slide 33

Slide 33 text

パーセプトロンアルゴリズム • 目的変数の表記は ∈ {−1,1} – 活性化関数との相性がいい 33

Slide 34

Slide 34 text

パーセプトロンアルゴリズム • 誤差関数の選択 – 誤識別したパターン総数 殆どの場合で勾配0 学習アルゴリズムが難しい – パーセプトロン規準 34

Slide 35

Slide 35 text

パーセプトロンアルゴリズム • パーセプトロン規準 = − ∑ ∈ℳ = ℳ:誤分類された全てのパターン集合 • 確率的最急降下アルゴリズム(→3.1.3) – +1 = − = w + 35

Slide 36

Slide 36 text

パーセプトロンアルゴリズム 36

Slide 37

Slide 37 text

パーセプトロンアルゴリズム • パーセプトロンの収束定理 – 厳密解が存在する場合,パーセプトロン学習ア ルゴリズムは有限回の繰り返しで厳密解に収束 することを保証 実用的には,分離できない問題なのか,単に収 束が遅いのかの区別が収束するまでわからない という点に注意 37

Slide 38

Slide 38 text

4.2 確率的生成モデル 38

Slide 39

Slide 39 text

ベイズ! • 2クラスの場合を考える 1 x = x 1 1 x 1 1 + x 2 (2) = 1 1+exp (−) = = ln x 1 1 x 2 (2) 39

Slide 40

Slide 40 text

ロジスティックシグモイド関数 • = 1 1+exp (−) • 「スカッシング(押し込み)関数」とも 40

Slide 41

Slide 41 text

多クラスの場合 • = x ∑ x () = exp ∑ exp () = ln( x ) – 正規化指数関数 • ソフトマックス関数とも 41

Slide 42

Slide 42 text

連続値入力 • クラスの条件付き確率密度がガウス分布と 仮定 • すべてのクラスが同じ共分散行列を仮定 x = 1 2 2 1 1 2 exp − 1 2 x − T−1(x − ) 42

Slide 43

Slide 43 text

連続値入力 • 指数部分にあるxの二次の項がキャンセルさ れるため,正規化指数関数の引数がの線形 関数になる 43

Slide 44

Slide 44 text

連続値入力 • 共分散行列が異なる場合は? 境界が非線形(二次関数) 44

Slide 45

Slide 45 text

最尤解 • もう一度2クラス,ガウス分布,共通の共分 散の場合を考える • データ集合 x , が与えられていると仮定 = 1, ⋯ , = � 1 for 1 0 for 2 45

Slide 46

Slide 46 text

最尤解 • 尤度関数は t, X , 1 , 2 , = � x 1 , 1 − 𝒩 x 2 , 1− =1 ただし = 1 , ⋯ , T, = 1 46

Slide 47

Slide 47 text

最尤解 • 各パラメータの最大化は = 1 1 = 1 1 ∑ x =1 2 = 1 2 ∑ (1 − )x =1 47

Slide 48

Slide 48 text

最尤解 = 1 S1 + 2 S2 S1 = 1 1 ∑ x − 1 x − 1 ∈1 S2 = 1 2 ∑ x − 2 x − 2 ∈2 • この結果は多クラスにも拡張可能 48

Slide 49

Slide 49 text

離散特徴 • 特徴が離散値 の場合を考える • 2値 ∈ 1,0 , 特徴数個の場合 – 特徴量を抑えるためナイーブベイズを仮定 x = � 1 − 1− =1 49

Slide 50

Slide 50 text

離散特徴 • 正規化指数関数の引数は = �{ ln 𝑘 + 1 − ln 1 − 𝑘 } =1 + ln ( )  入力値 の線形関数となる 50

Slide 51

Slide 51 text

指数型分布族 • クラスの条件付き確率が指数型分布族のメ ンバーであると仮定 • x = ℎ x λ exp {λ Tu x } • u x = xとなるような分布については,正規 化指数関数の引数がxの線形関数となる 51

Slide 52

Slide 52 text

4.3 確率的識別モデル 52

Slide 53

Slide 53 text

識別アプローチの利点 • 決めるべき適用パラメータが少ない 53

Slide 54

Slide 54 text

固定基底関数 • 基底関数ベクトル(x)を使って入力を非線 形変換 – 決定境界を非線形にできる – SVMでいうところのカーネル関数 54

Slide 55

Slide 55 text

固定基底関数 55

Slide 56

Slide 56 text

ロジスティック回帰 • 事後確率(2クラスの場合) 1 = = (wT) • ロジスティックシグモイド関数 2 = 1 − (1 |) • パラメータの数=の次元数 56

Slide 57

Slide 57 text

最尤法によるパラメータ決定 • データ集合 , , ∈ 0,1 , = , = 1, ⋯ , に対する尤度関数 t w = � 1 − 1− =1 – t = 1 , ⋯ , T, = (1 | ) 57

Slide 58

Slide 58 text

最尤法によるパラメータ決定 • 負の対数をとって誤差関数とする w = − ln t w = − ∑ ln + 1 − ln 1 − =1 – 交差エントロピー誤差関数 58

Slide 59

Slide 59 text

最尤法によるパラメータ決定 • 誤差関数の勾配をとると w = � − =1 – なんか簡単な形に! 59

Slide 60

Slide 60 text

最尤法に寄るパラメータ推定 • 線形分離可能なデータに対して,過学習を 起こしてしまう点に注意 60

Slide 61

Slide 61 text

反復重み付け最小二乗 • ロジスティック回帰では最尤解を解析的に 導出することはできない • しかし誤差関数は凸関数 唯一の最小解を持つ • ニュートン・ラフソン法を用いる w(new) = w old − H−1(w) 61

Slide 62

Slide 62 text

反復重み付け最小二乗 • 二乗和誤差関数の場合 w = ∑ wT − = ΦTΦw − ΦTt =1 H = ∑ =1 = ΦΦ – Φは番目の行が Tで与えられる × 行列 62

Slide 63

Slide 63 text

反復重み付け最小二乗 • 代入して,整理すると w new = ΦΦ −1Φt – w old が消えた  反復回数1回で正確な解が求められる 63

Slide 64

Slide 64 text

反復重み付け最小二乗 • 交差エントロピー誤差関数の場合 • w new = ΦTRΦ −1 ΦTRz – Rは要素が = { 1 − }の対角行列 – z = Φw old − R−1(y − t) – 重み付き最小二乗問題に対する正規方程式集合 64

Slide 65

Slide 65 text

多クラスロジスティック回帰 • 事後確率 = = exp ∑ exp • ソフトマックス関数 = w T 65

Slide 66

Slide 66 text

多クラスロジスティック回帰 • 尤度関数(1-of-K符号化法を使用) 1 , ⋯ , = ∏ ∏ 𝑛 𝑛 =1 =1 • 以下,2クラスの場合と同様に導出可能 66

Slide 67

Slide 67 text

プロビット回帰 • ロジスティック回帰で,どんなときでも事 後確率が簡単な形になるわけではない 別のタイプの識別確率モデルも見てみよう • 2クラスの場合を考えます = 1 = () = wT, ⋅ :活性化関数 67

Slide 68

Slide 68 text

プロビット回帰 • 雑音しきい値モデル = � 1 if ≤ 0 otherwise • の値が確率密度()で与えら得る場合 = � 𝑑 −∞ 68

Slide 69

Slide 69 text

69

Slide 70

Slide 70 text

プロビット回帰 • ()が標準正規分布の場合の() プロビット関数 • プロビット関数に基づく一般化線形モデル をプロビット回帰という 70

Slide 71

Slide 71 text

プロビット回帰 • 点線部分がプロビット関数 – (実線はロジスティックシグモイド関数) 71

Slide 72

Slide 72 text

プロビット回帰 • ロジスティク回帰の結果と似る傾向がある • より外れ値に敏感 • ロジスティック回帰のベイズ的な扱いにお いて,利用法がある(4.5節) 72

Slide 73

Slide 73 text

4.4 ラプラス近似 73

Slide 74

Slide 74 text

ラプラス近似とは • 連続確率密度分布をガウス分布に近似 74

Slide 75

Slide 75 text

4.5 ベイズロジスティック回帰 75

Slide 76

Slide 76 text

この節では... • ロジスティック回帰のベイズ的取り扱い 厳密に適用するのは難しい ラプラス近似を適用して考える 76