機械学習 - K近傍法 & 機械学習のお作法

分類問題1: K近傍法 & 教師あり機械学習のお作法⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第6回
機械学習発展（導入編）

授業資料 2 https://mlnote.hontolab.org/

講義のトピック機械学習教師あり学習教師なし学習強化学習・クラスタリング・データ圧縮・分類・回帰 …
… 3 行動情報学科に特有の応用手法・K近傍法・サポートベクタマシン・ニューラルネットワーク

教師あり学習の分類問題 4 データの特徴とラベルの対応関係を見つけるカツオ未知データの結果を予測するために，⼤量のデータから（特徴） 𝑓 結果 =

教師あり学習（分類問題）の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習（ML）アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ MLアルゴリズム学習フェーズ 5

1 意外に強力なインスタンス・ベースの教師あり学習 K近傍法

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習
1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 7

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習
1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代本⽇体験するのはコレ 8

なぜK-近傍法を学ぶのか？ 9 単純だが非常に強力な教師あり学習器スペクトル画像農地の地質 Michie, D., Spiegelhalter, D.J. and
Taylor, C.C. (1994) Machine Learning, Neural and Statistical Classification. Ellis Horwood, New York. STATLOGデータセットに対する分類精度は第2位

歴史的に成功事例が多いK-近傍法 10 画像2出典: https://ja.wikipedia.org/wiki/MNISTデータベース画像3出典: https://www.shinyuri-hospital.com/column/column_202002.html ⼿書き⽂字認識衛星画像認識⼼電図の異常パターン検出

K-近傍法（k-NN: k nearest neighbor）のアイデア（1/5） 11 ？対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多数
決

K-近傍法（k-NN: k nearest neighbor）のアイデア（2/5） 12 ⻘ K=1 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（3/5） 13 緑 K=3 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（4/5） 14 ⻘ K=5 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（5/5） 15 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する？ K=5:⻘ K=3:緑
K=1:⻘多数決

K-近傍法アルゴリズムの定式化 16 foreach x’ in S do compute dist(x, x’)
take the top k nearest neighbors S’ from S foreach ci in C do 𝑝! ← 𝑠 𝑠 ∈ 𝑆" 𝑎𝑛𝑑 𝑐𝑙𝑎𝑠𝑠 𝑠 = 𝑐! | return argmax #!∈% 𝑝! 1 2 3 4 5 6 タスクに応じて設定 K近傍データの中でクラスci に属するデータの数 Input: x: ターゲットデータ Input: S: ラベル付きデータセット Input: C: クラスラベルのリスト Input: k: 閾値 Input: dist: 距離関数

K-近傍法のメリット・デメリット 17 メリット • 単純なのに強⼒ • データの背後にある分布を仮定しなくてよい（ノンパラメトリックな⼿法）デメリット •
推論フェーズの計算量が⼤きい（毎回の距離計算） • 次元の呪いの影響を受けやすい

教師あり学習のための機械学習アルゴリズムの分類 18 ロジスティック回帰ナイーブベイズサポートベクターマシン K近傍法ランダムフォレスト & 決定木ニューラルネットワーク
訓練データをすべて記憶しておき，それら全部を使って予測を⾏う（推論計算が遅い）訓練データの背後にあるモデルを抽出し，それを予測時に使う（推論計算は速い）インスタンスベースモデルベース

Hands-on タイム以下のURLにアクセスして，K近傍法を体験してみましょう https://mlnote.hontolab.org/ 19

2 手順を知らないと痛い目にあう教師あり機械学習のお作法

教師あり学習の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ学習フェーズ 21

教師あり学習の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ学習フェーズ 22 構築したモデルの予測性能をどう評価するか？ [分類性能の基本的な考え方] 真の分類結果と同じ分類ができている率が高い Q. A. [回帰性能の基本的な考え方] 真の結果と推定結果の誤差が小さい

2クラス分類問題における評価指標（1/4） 23 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑃
+ 𝐹𝑁 + 𝑇𝑁 正例，負例と予測したものが実際にそうだった割合精度 (accuracy) モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

2クラス分類問題における評価指標（2/4） 24 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 正例 (注⽬ラベル)と予測したデータのうち，実際に正例
であった割合．正例に対する推論の正確さを⽰す．適合率 (precision) モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

2クラス分類問題における評価指標（3/4） 25 モデルの予測 Positive Negative 正解ラベル Positive TP （true
positive） FN (false negative) Negative FP (false positive) TN (true negative) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 実際に正例であるデータのうち，モデルが正例であると予測したデータの割合．取りこぼしの少なさを⽰す．再現率 (recall)

2クラス分類問題における評価指標（4/4） 26 𝐹&'()*+' = 2 4 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 4 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
+ 𝑅𝑒𝑐𝑎𝑙𝑙 適合率と再現率をバランスよく達成できているかを⽰す F値モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

評価指標によって⼿法の良し悪しの判断が変わる 27 検査結果陽性陰性実際陽性 39 11
陰性 24 26 ウイルス検査⼿法B 検査結果陽性陰性実際陽性 20 30 陰性 5 45 ウイルス検査⼿法A Accuracy = !"#$% !"#%#&"#$% = 0.65 Precison = !" !"#% = 0.80 Recall = !" !"#&" = 0.40 F値 = 0.533 Accuracy = &'#!( &'#!$#))#!( = 0.65 Precison = &' &'#!$ = 0.619 Recall = &' &'#)) = 0.78 F値 = 0.690 ⼀般に適合率と再現率はトレードオフの関係にある ? ? ? ? ? ? ? ?

不均衡データに対する2クラス分類の評価指標 28 AUC (Area Under Curve) • 横軸に偽陽性率(FPR)，縦軸に再現率(TPR)とする曲線が作る平⾯の⾯積 •
ラベル分布に偏りがある不均衡データに⽤いる | | 1.0 1.0 0 True Positive Rate (TPP) False Positive Rate (FPP) AUC ・理想はオレンジの点線がなす領域・0から1の値をとる

絶対やってはいけないコト 29 # Python 1 from sklearn.neighbors import KNeighborsClassifier 20
model_K = KNeighborsClassifier(n_neighbors=5) 21 mode_K.fit(X_train, y_train) # K近傍法で学習 22 score_K = model_K.score(X_test, y_test) … ドキュメントに書いてあった予測性能のスコアを返す関数 23 print(score_K, score_S) モデルKとモデルSの「予測性能スコア」を表⽰ >> 0.80, 0.619 # モデルKのスコアの⽅が⾼い!! タスクに応じて適切な評価指標を使うこと!!

多クラス分類問題における評価指標（1/2） 30 モデルの予測 C1 … Ck 正解ラベル C1 n11
n1k … … Ck nk1 nkk 各クラスに対する再現率のマクロ平均 Balanced Accuracy 𝐴𝑐𝑐𝑢𝑟𝑎𝑟𝑦7(8(9#': = 1 𝑘 A ;<= ; 𝑅𝑒𝑐𝑎𝑙𝑙; これら再現率の平均を計算

多クラス分類問題における評価指標（2/2） 31 モデルの予測 C1 … Ck 正解ラベル C1 n11
n1k … … Ck nk1 nkk 正解ラベルとモデル予測したラベルの相関係数 (kは各クラス) マシューズ相関係数 (MCC) ∑! ∑" ∑# (𝐶!! 𝐶"# − 𝐶!" 𝐶#! ) ∑! (∑" 𝐶!" )(∑ !!|!!%! ∑ "! 𝐶!!"& ) ∑! (∑" 𝐶"! )(∑ !!|!!%! ∑ "! 𝐶"!!& ) 式は複雑だが，表現しているのは相関係数と理解しよう

教師あり学習の実践するときの基本的な流れ … データセット（特徴量x & ラベルyのリスト）データを⼀定の割合に分割訓練データテストデータ 𝑥!! ⋮
𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 … A B A

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを⽤いた学習 Step 2 ML … A B A

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを⽤いた学習 Step 2 ML A … 推論結果 A B ラベルを隠してテストデータのラベルを推論 Step 3 … A B A …

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテストデータのラベルを推論 Step 3 … A … 推論結果 B … 隠していたラベル推論結果と元ラベルとの⽐較による性能評価 Step 4 訓練データを⽤いた学習 Step 2 ML A A B B … A B A

ホールドアウト法 … データセット（特徴量x & ラベルyのリスト）データを⼀定の割合に分割訓練データテストデータ 𝑥!! ⋮
𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテストデータのラベルを推論 Step 3 A … 推論結果 B … 隠していたラベル推論結果と元ラベルとの⽐較による性能評価 Step 4 訓練データを⽤いた学習 Step 2 ML A A B B … … A B A

絶対にやってはいけないこと 37 1. データ分割をせず、同じデータを使ってモデルの訓練と評価する 2. データ分割時にデータをシャッフルしない 3. （分類問題の場合）ラベルの分布を考慮せずデータを分割

機械学習の⽬標 39 汎化性能の高い予測モデルの獲得未知データに対する予測性能が⾼いデータセット訓練データテストデータ ML 1. 分割
2. 学習 3. 評価テストデータは「未知データ」扱いデータセット ML 1. 学習 2. 評価評価が高く見えるよう自己最適化しているだけ（学習時と同じデータを使⽤）

汎化性能、モデルの複雑さ、学習回数 40 モデルの複雑さ、学習回数予測誤差訓練データテストデータモデルの複雑さや学習回数を増やしぎると
訓練データを過学習し、未知データに対する汎化性能が下がる訓練データに対してだけ予測誤差が下がっても意味なしベスト塩梅

シャッフルしない & ラベル分布を考慮しないデータ分割の問題 42 データセット … A A A B
B Aは70% Bは30% A A A … 訓練データ (ラベルA=100%) B B … … 先頭から7:3に分割テストデータ (ラベルB=100%) A … 推論結果 B … 隠していたラベル ML A B A B 偏った学習偏った性能評価汎化性能の低下!!

汎化性能向上のためのデータ分割⽅法 43 データセット … A A A B B Aは70%
Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% シャッフル & 層別化分割安直に前から50:50分割シャッフル & 層別化（stratification）

Bは30% … シャッフル & 層別化分割安直に前から50:50分割シャッフル & 層別化（stratification） # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3, # 7:3に分割 4 shuffle=True, # シャッフル 5 stratify=y_cancer) # 層別化 # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3) # 7:3に分割

Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% 安直に前から50:50分割シャッフル & 層別化分割ダメ、絶対シャッフル & 層別化（stratification）

K分割交差検証 (K-fold Cross Validation: CV) 〜汎化性能評価のため⼯夫 46 訓練データ 1回⽬
2回⽬ 3回⽬テストデータ訓訓訓訓訓訓テテテモデルモデルモデル 0.82 0.76 0.79 平均 0.79 学習性能評価最終スコア 1. データをK個に分割する 2. 分割データの1個をテスト，K-1個を訓練データとし学習・評価 3. 分割された各データがテストとなるようステップ2を繰り返す 4. ステップ3の評価スコアの平均値を最終スコアとする訓練/テストデータの選び⽅による過学習・性能評価のブレを防ぐ

Hands-on タイム以下のURLにアクセスして，教師あり学習のお作法を体験してみましょう https://mlnote.hontolab.org/ 47

今後の予定 48 回実施⽇トピック 1 04/13 ガイダンス 2 04/20
pandas⼊⾨ 3 04/27 決定⽊からはじめる機械学習 4 05/11 クラスタリング1：k-means & 階層的クラスタリング 5 05/18 クラスタリング2：密度ベースクラスタリング 6 05/25 分類1：K近傍法 & 教師あり機械学習のお作法 7 06/01 分類2：サポートベクターマシン 8 06/08 分類3：ニューラルネットワーク⼊⾨

機械学習 - K近傍法 & 機械学習のお作法

機械学習 - K近傍法 & 機械学習のお作法

More Decks by Y. Yamamoto

Other Decks in Science

Featured

Transcript