第四章-判別分析【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第四章 1 第四章 1 @Ringa_hyj 日本一の数学嫌いと学ぶデータサイエンス ~第四章:判別分析~

第四章 2 第四章 2 対象視聴者: 数式や記号を見ただけで教科書を閉じたくなるレベル

第四章 3 第四章 3 線形判別分析 (linear discriminant analysis:LDA) ・ベイズ決定境界・精度と混同行列
・ROC曲線とAUC

第四章 4 第四章 4 ベイズ決定境界

第四章 5 第四章 5 ・線形判別とは - 人間の身⾧データがある・身⾧データから男女を分ける分類器を作る

第四章 6 第四章 6 ・線形判別とは - 男女で色分け・もしも、手元のデータが全人類のデータなら男女が50%:50%となっている点が理想的な識別境界

第四章 7 第四章 7 ・線形判別とは識別境界を条件付き確率で考える男女四角の中は男女が混在しているあるXの時の
男女データの個数の比率が確率となるこのような条件付き確率で50:50になる境界をベイズ決定境界

第四章 8 第四章 8 ・線形判別多クラス多次元の時多次元の時も同じように考えられる ※データが正規分布でなければならない

第四章 9 第四章 9 分類の精度

第四章 10 第四章 10 ・クラス分類の”精度” ウイルス検査の例で分類器の精度について考えるウイルスを持っている人は陽性ウイルスを持っていない人は陰性と判断できるのが理想的な診断薬

第四章 11 第四章 11 ・クラス分類の”精度” 99.5%の精度で病気を診断できる検査薬です本当に良い検査薬?

第四章 12 第四章 12 ・クラス分類の”精度” ヒトがその病気にかかっている割合は1000人に5人全員陰性と判断する診断薬で 1000人に検査した時、精度は99.5% になる
99.5%って「いい診断薬」なの? その検査で陽性と診断できなければ次の日に亡くなるような病気なら?

第四章 13 第四章 13 ・クラス分類の”精度” 現実にはこんなパターンも起こり得る陽性を見逃す (命の危機) 陰性を誤診 (不要の手術)

第四章 14 第四章 14 精度だけを分類器の評価指標にすることの課題課題・陽性が少ない時（不均衡なデータ）・絶対に陽性(or陰性のどちらか)を見逃せない時には、「精度」だけでは診断薬の指標にはならない・クラス分類の”精度”

第四章 15 第四章 15 分類の精度混同行列 (confusion matrix)

第四章 16 第四章 16 ・クラス分類を混同行列で評価 True Positive 真陽性 True Negative
真陰性実際に陽性判断も陽性 TP 実際に陰性判断も陰性 TN 実際の状態予測が判断した状態

第四章 17 第四章 17 ・クラス分類を混同行列で評価実際の状態
予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性実際は陽性判断は陰性 FN 実際は陰性判断は陽性 FP 実際に陽性判断も陽性 TP 実際に陰性判断も陰性 TN

第四章 18 第四章 18 ・クラス分類を混同行列で評価精度(正答率):ACC 全体の合計今までの精度 (正答率) 実
際の状態予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性

第四章 19 第四章 19 ・クラス分類を混同行列で評価適合率:Precision 陽性的中率予測が陽性と判断したうち本当に陽性だった割合実

第四章 20 第四章 20 ・クラス分類を混同行列で評価再現率:Recall 真陽性率・検出率・感度実際に陽性の人のうち予測も陽性と判断した割合実

第四章 21 第四章 21 ・クラス分類を混同行列で評価特異度:Specificity 実際の状
態予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性

第四章 22 第四章 22 ・クラス分類を混同行列で評価偽陽性率偽陰性率実際の
状態予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性

第四章 23 第四章 23 ・クラス分類を混同行列で評価適合率:Precision 再現率:Recall 「不要な手術」も「病気見逃し」も両方のバランスがほしい F1スコア

第四章 24 第四章 24 ・クラス分類を混同行列で評価赤色の分布を陰性青色の分布を陽性のグループとする識別境界をx=130とすると境界より右側は陽性と判断
左側は陰性と判断する ①をTN ②をTP ③の領域をFN ④の領域をFP と表せる境界より左側は陰性と予測 ② ③ ④ ① 赤線の人は Negative ホントは陰性青線の人は Positive ホントは陽性境界より右側は陽性と予測

第四章 25 第四章 25 ROC曲線と下側面積 (ROC : receiver operatorating characterisyic
curve) (AUC : area under the curve)

第四章 26 第四章 26 ・クラス分類を混同行列で評価 ③の領域を除いた①をTN ④の領域を除いた②をTP ③の領域をFN ④の領域をFP ここで真陽性率と偽陽性率に
ついて考える境界より左側は陰性と予測 ② ③ ④ ① 赤線の人は Negative ホントは陰性青線の人は Positive ホントは陽性境界より右側は陽性と予測特異度再現率(真陽性率) ② ② ③ ① ④ ①

第四章 27 第四章 27 ・クラス分類を混同行列で評価 ② ③ ④ ① 1-特異度
再現率(真陽性率) + ② ② + ③ TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 + ① ④ + ① 1- 1- 偽陽性率 +

第四章 28 第四章 28 ・クラス分類を混同行列で評価 ② ③ ④ ① 偽陽性率
+ 再現率(真陽性率) + ② ② + ③ ④ ④ + ① TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 TP=4182 FN=818 FP=0 TN=5000 TP/(TP+FN) 0.836 TN/(TN+FP) 1 境界をx=140で設定(陰性の誤診をしたくない)

第四章 29 第四章 29 ・クラス分類を混同行列で評価 ② ③ ④ ① 偽陽性率
+ 再現率(真陽性率) + ② ② + ③ ④ ④ + ① TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 TP=4182 FN=818 FP=0 TN=5000 TP/(TP+FN) 0.836 TN/(TN+FP) 1 境界をx=140で設定 (陰性の誤診をしたくない) TP=4993 FN=7 FP=2484 TN=2516 TP/(TP+FN) 0.9986 TN/(TN+FP) 0.9916 境界をx=100で設定

第四章 30 第四章 30 ・クラス分類を混同行列で評価境界をx=100,125,140の時偽陽性率 FP ratio 真陽性率
TP ratio もっと細かく ROC曲線 ROC曲線の下側の面積をAUCと呼ぶ

第四章 31 第四章 31 ・ROC曲線どこで分割するのが最適か最適な分類 122.853 AUC 0.996

第四章 32 第四章 32 ・ROC曲線どこで分割するのが最適かデータの分布・モデルが異なるときのROC曲線曲がる部分の時の閾値が一番きれいに分類できる境界

第四章 33 第四章 33 二次判別分析 (quadratic discriminant analysis:QDA)

第四章 34 第四章 34 ・二次判別分析(quadratic discriminant analysis:QDA) 線形判別(LDA)では、各群で分散は等しいと仮定した分析クラス1もクラス2も同じ分散計算するのは変数の数pとすると
p(p+1)/2 個のパラメータ二次判別(QDA)では、各群で分散は等しいくないと仮定クラス1もクラス2も異なる分散計算するのは変数の数p クラス数kとすると kp(p+1)/2 個のパラメータ各クラスの期待値からの二乗の距離で判別 (変数間の相関を考えた距離を使うのがマハラノビス距離)

第四章 35 第四章 35

第四章 36 第四章 36 ・線形判別とは

第四章 37 第四章 37 ・ロジスティック回帰 – の考え方説明変数xが与えられた時の確率分布をモデル化している = 条件付き確率のモデル化
f(x) = P(y|x) - ロジスティック回帰の問題点・綺麗にデータが分かれていると判別線が定まらない - 線形判別分析(LDA)の良さ・データ数が少なく、各ラベルに対するデータxが正規分布に従う時精度がいい・3つ以上でも分けられる

第四章 38 第四章 38 ・分類基準を動かす・赤色側を陽性クラスと仮定陽性はすべて見逃したくない陽性に対して厳しくする (陰性を陽性と判断するのは許容) 厳しくすると
陽性はすべて陽性と判断陰性も多めに陽性と誤再現率（真陽性率）偽陽性率

第四章 39 第四章 39 ・分類基準を動かすただし、偽陽性率は当然増える (閾値をずらして陽性を許容するから) 閾値をずらしていった時の「偽陽性率」と「真陽性率」をplotする

第四章 40 第四章 40 ・ROC曲線モデルがどのくらい有用か偽陽性率真陽性
率

第四章-判別分析【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第四章-判別分析【数学嫌いと学ぶデータサイエンス・統計的学習入門】

More Decks by Ringa_hyj

Other Decks in Technology

Featured

Transcript