線形判別分析(Linear Discriminant Analysis, LDA)

Slide 1

Slide 1 text

線形判別分析 Linear Discriminant Analysis LDA 0 明治大学理⼯学部応用化学科データ化学⼯学研究室⾦⼦弘昌

Slide 2

Slide 2 text

線形判別分析 (LDA) とは︖ 線形判別分析 (Linear Discriminant Analysis, LDA) • 1次元(z)に線形写像し、z で 2 つのクラスを識別する • 2つのクラスを “最もよく判別する” ように線形写像する • クラスが3つ以上あるときにも拡張できる 1 1 1 2 2 z w x w x = + x1 x2 z クラス1 クラス-1

Slide 3

Slide 3 text

“最もよく判別する” とは︖ ① 各クラスのサンプルは固まっている ② クラス1(赤) とクラス-1(⻘)は散らばっている 2 z でのクラス内のばらつき VWz z でのクラス間のばらつき VBz ( )2 Bz [1] [ 1] V z z − = − ( ) ( ) 2 2 ( ) ( ) Wz [1] [ 1] 1 i i i i V z z z z − ∈ ∈ = − + −   クラスクラス-1 [ ] k z : クラス k のみの zの平均

Slide 4

Slide 4 text

重み w の求め方 ① 各クラスのサンプルは固まっている • z でのクラス内のばらつき VWz ② クラス1(赤) とクラス-1(⻘)は散らばっている • z でのクラス間のばらつき VBz 3 Bz Wz V J V = VWz が小さく(①)、VBz が大きくなる(②) 直線を引く (w1 , w2 を求める) が最大になるw1 , w2 を求める

Slide 5

Slide 5 text

J の整理 4 ( ) ( ) T [1] [ 1] [1] [ 1] B V − − = − − x x x x ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 [1] [ 1] 2 2 ( ) ( ) [1] [ 1] 1 T T [1] [ 1] [1] [ 1] T T T ( ) ( ) ( ) ( ) [1] [1] [ 1] [ 1] 1 1 T T i i i i i i i i i i B W z z J z z z z V V − − ∈ ∈ − − − − ∈ ∈ − − = − + − − − =   − − + − −     =     w x x x x w w x x x x x x x x w w w w w クラスクラス2 クラスクラス 1 1 2 2 z w x w x = + = xw [ ] 1 1 2 2 , w x x w   = =     x w ( ) ( ) ( ) ( ) T T ( ) ( ) ( ) ( ) [1] [1] [ 1] [ 1] 1 1 i i i i W i i V − − ∈ ∈ − = − − + − −   x x x x x x x x クラスクラス : クラス k のみの x の平均ベクトル [ ] k x ただし、

Slide 6

Slide 6 text

w を求める 5 ( ) ( ) { } ( ) T T 2 T 2 0 B W W B W V V V V J V − ∂ = = ∂ w w w w w w w w w J が最大値 J を w で偏微分して0 ( ) ( )( ) ( ) T T T [1] [ 1] [1] [ 1] 0 B W W V V V − − − − − = w w w w w x x x x w ( )( ) ( ) ( ) T T [1] [ 1] [1] [ 1] T W W B V V V − − − = − w w x x w w x x w w スカラ ( ) 1 [1] [ 1] W V − − − w x x ∝ wの大きさは気にしなくてよい J が極大値

Slide 7

Slide 7 text

クラス分類の結果の評価 混同⾏列 (confusion matrix) 6 予測されたクラス 1 (Positive, 陽性) -1 (Negative, 陰性) 実際のクラス 1 (Positive, 陽性) True Positive (TP) False Negative (FN) -1 (Negative, 陰性) False Positive (FP) True Negative (TN) 正解率 = TP + TN TP + FN + FP + TN 検出率 = TP TP + FN 精度 = TP TP + FP 誤検出率 = FP FP + TN など

Slide 8

Slide 8 text

クラス分類の結果の評価例 混同⾏列 (confusion matrix) 7 予測されたクラス 1 (Positive, 陽性) -1 (Negative, 陰性) 実際のクラス 1 (Positive, 陽性) 45 5 -1 (Negative, 陰性) 20 50 正解率 = 45 + 50 45+5+20+50 検出率 = 45 45 + 5 = 0.90 精度 = 45 45 + 20 誤検出率 = 20 20 + 50 = 0.69 = 0.29 = 0.79

Slide 9

Slide 9 text

(参考) Kappa係数 実際と予測結果の⼀致度を評価する指標 Positive(陽性)データとNegative(陰性)データの偏りがある時に有効 8 http://en.wikipedia.org/wiki/Cohen%27s_kappa Kappa係数 = 正解率－偶然による⼀致率 1 －偶然による⼀致率偶然による⼀致率 = TP + FN A TP + FP A FP + TN A FN + TN A × × ＋ ( A = TP + FN + FP + TN ) 予測されたクラス 1 (Positive, 陽性) -1 (Negative, 陰性) 実際のクラス 1 (Positive, 陽性) True Positive (TP) False Negative (FN) -1 (Negative, 陰性) False Positive (FP) True Negative (TN)