Upgrade to Pro — share decks privately, control downloads, hide ads and more …

第四章-判別分析【数学嫌いと学ぶデータサイエンス・統計的学習入門】

 第四章-判別分析【数学嫌いと学ぶデータサイエンス・統計的学習入門】

第四章【数学嫌いと学ぶデータサイエンス・統計的学習入門】

Ringa_hyj

June 15, 2020
Tweet

More Decks by Ringa_hyj

Other Decks in Technology

Transcript

  1. 第四章 7 第四章 7 ・線形判別とは 識別境界を条件付き確率で考える 男 女 四角の中は男女が混在している あるXの時の

    男女データの個数の比率が確率となる このような条件付き確率で50:50になる境界を ベイズ決定境界
  2. 第四章 16 第四章 16 ・クラス分類を混同行列で評価 True Positive 真陽性 True Negative

    真陰性 実際に陽性 判断も陽性 TP 実際に陰性 判断も陰性 TN 実 際 の 状 態 予測が判断した状態
  3. 第四章 17 第四章 17 ・クラス分類を混同行列で評価 実 際 の 状 態

    予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性 実際は陽性 判断は陰性 FN 実際は陰性 判断は陽性 FP 実際に陽性 判断も陽性 TP 実際に陰性 判断も陰性 TN
  4. 第四章 18 第四章 18 ・クラス分類を混同行列で評価 精度(正答率):ACC 全体の合計 今までの精度 (正答率) 実

    際 の 状 態 予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性
  5. 第四章 19 第四章 19 ・クラス分類を混同行列で評価 適合率:Precision 陽性的中率 予測が陽性と判断したうち 本当に陽性だった割合 実

    際 の 状 態 予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性
  6. 第四章 20 第四章 20 ・クラス分類を混同行列で評価 再現率:Recall 真陽性率・検出率・感度 実際に陽性の人のうち 予測も陽性と判断した割合 実

    際 の 状 態 予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性
  7. 第四章 21 第四章 21 ・クラス分類を混同行列で評価 特異度:Specificity 実 際 の 状

    態 予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性
  8. 第四章 22 第四章 22 ・クラス分類を混同行列で評価 偽陽性率 偽陰性率 実 際 の

    状 態 予測が判断した状態 True Positive 真陽性 True Negative 真陰性 False Positive 偽陽性 False Negative 偽陰性
  9. 第四章 24 第四章 24 ・クラス分類を混同行列で評価 赤色の分布を陰性 青色の分布を陽性 のグループとする 識別境界をx=130とすると 境界より右側は陽性と判断

    左側は陰性と判断する ①をTN ②をTP ③の領域をFN ④の領域をFP と表せる 境界より左側は 陰性と予測 ② ③ ④ ① 赤線の人は Negative ホントは陰性 青線の人は Positive ホントは陽性 境界より右側は 陽性と予測
  10. 第四章 26 第四章 26 ・クラス分類を混同行列で評価 ③の領域を除いた①をTN ④の領域を除いた②をTP ③の領域をFN ④の領域をFP ここで真陽性率と偽陽性率に

    ついて考える 境界より左側は 陰性と予測 ② ③ ④ ① 赤線の人は Negative ホントは陰性 青線の人は Positive ホントは陽性 境界より右側は 陽性と予測 特異度 再現率(真陽性率) ② ② ③ ① ④ ①
  11. 第四章 27 第四章 27 ・クラス分類を混同行列で評価 ② ③ ④ ① 1-特異度

    再現率(真陽性率) + ② ② + ③ TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 + ① ④ + ① 1- 1- 偽陽性率 +
  12. 第四章 28 第四章 28 ・クラス分類を混同行列で評価 ② ③ ④ ① 偽陽性率

    + 再現率(真陽性率) + ② ② + ③ ④ ④ + ① TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 TP=4182 FN=818 FP=0 TN=5000 TP/(TP+FN) 0.836 TN/(TN+FP) 1 境界をx=140で設定(陰性の誤診をしたくない)
  13. 第四章 29 第四章 29 ・クラス分類を混同行列で評価 ② ③ ④ ① 偽陽性率

    + 再現率(真陽性率) + ② ② + ③ ④ ④ + ① TP=4787 FN=213 FP=42 TN=4958 TP/(TP+FN) 0.9574 TN/(TN+FP) 0.9916 境界をx=125で設定 TP=4182 FN=818 FP=0 TN=5000 TP/(TP+FN) 0.836 TN/(TN+FP) 1 境界をx=140で設定 (陰性の誤診をしたくない) TP=4993 FN=7 FP=2484 TN=2516 TP/(TP+FN) 0.9986 TN/(TN+FP) 0.9916 境界をx=100で設定
  14. 第四章 34 第四章 34 ・二次判別分析(quadratic discriminant analysis:QDA) 線形判別(LDA)では、各群で分散は等しいと仮定した分析 クラス1もクラス2も同じ分散 計算するのは変数の数pとすると

    p(p+1)/2 個のパラメータ 二次判別(QDA)では、各群で分散は等しいくないと仮定 クラス1もクラス2も異なる分散 計算するのは変数の数p クラス数kとすると kp(p+1)/2 個のパラメータ 各クラスの期待値からの二乗の距離で判別 (変数間の相関を考えた距離を使うのがマハラノビス距離)
  15. 第四章 37 第四章 37 ・ロジスティック回帰 – の考え方 説明変数xが与えられた時の確率分布をモデル化している = 条件付き確率のモデル化

    f(x) = P(y|x) - ロジスティック回帰の問題点 ・綺麗にデータが分かれていると 判別線が定まらない - 線形判別分析(LDA)の良さ ・データ数が少なく、各ラベルに対する データxが正規分布に従う時精度がいい ・3つ以上でも分けられる