機械学習 - K近傍法 & 機械学習のお作法

分類問題1: K近傍法 & 教師あり機械学習のお作法⼭本祐輔名古屋市⽴⼤学データサイエンス研究科 [email protected] 第6回
機械学習発展（導入編）

授業資料 2 https://mlnote.hontolab.org/

講義のトピック機械学習教師あり学習教師なし学習強化学習・クラスタリング・データ圧縮・分類・回帰 …
… 3 行動情報学科に特有の応用手法・K近傍法・サポートベクタマシン・ニューラルネットワーク

教師あり学習の分類問題 4 データの特徴とラベルの対応関係を見つけるカツオ未知データの結果を予測するために，⼤量のデータから（特徴） 𝑓 結果 =

教師あり学習（分類問題）の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習（ML）アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ MLアルゴリズム学習フェーズ 5

1 意外に強力なインスタンス・ベースの教師あり学習 K近傍法

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習
1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 7

教師あり学習の歴史（⼀部抜粋）ロジスティック回帰サポートベクターマシン決定木パーセプトロン単純ベイズ分類器ランダムフォレスト k-近傍法ベイジアンネットワーク深層学習
1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代本⽇体験するのはコレ 8

STATLOG results Method Test Misclassification Error 2 4 6 8
10 12 14 0.0 0.05 0.10 0.15 LVQ RBF ALLOC80 CART Neural NewID C4.5 QDA SMART Logistic LDA DANN K-NN なぜK-近傍法を学ぶのか？ 9 単純だが非常に強力な教師あり学習器 470 13. Prototypes and Nearest-Neighbors Spectral Band 1 Spectral Band 2 Spec Spectral Band 4 Land Usage Predicte FIGURE 13.6. The ﬁrst four panels are LANDSAT images for a area in four spectral bands, depicted by heatmap shading. The r panels give the actual land usage (color coded) and the predicted lan スペクトル画像農地の地質 Michie, D., Spiegelhalter, D.J. and Taylor, C.C. (1994) Machine Learning, Neural and Statistical Classification. Ellis Horwood, New York. STATLOGデータセットに対する分類精度は第2位

歴史的に成功事例が多いK-近傍法 10 画像2出典: https://ja.wikipedia.org/wiki/MNISTデータベース画像3出典: https://www.shinyuri-hospital.com/column/column_202002.html ⼿書き⽂字認識 Spectral Band 4
Land Usage Predicted Land Usage FIGURE 13.6. The first four panels are LANDSAT images for an agricultural area in four spectral bands, depicted by heatmap shading. The remaining two panels give the actual land usage (color coded) and the predicted land usage using a five-nearest-neighbor rule described in the text. first problem, while 1-nearest-neighbor is best in the second problem by a factor of 18%. These results underline the importance of using an objective, data-based method like cross-validation to estimate the best value of a tuning parameter (see Figure 13.4 and Chapter 7). 13.3.2 Example: k-Nearest-Neighbors and Image Scene Classification The STATLOG project (Michie et al., 1994) used part of a LANDSAT image as a benchmark for classification (82×100 pixels). Figure 13.6 shows 衛星画像認識⼼電図の異常パターン検出

K-近傍法（k-NN: k nearest neighbor）のアイデア（1/5） 11 ？対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多数
決

K-近傍法（k-NN: k nearest neighbor）のアイデア（2/5） 12 ⻘ K=1 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（3/5） 13 緑 K=3 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（4/5） 14 ⻘ K=5 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する多
数決

K-近傍法（k-NN: k nearest neighbor）のアイデア（5/5） 15 対象データまでの距離が最も近いK個のデータのラベルのうち、最も多いラベルに分類する？ K=5:⻘ K=3:緑
K=1:⻘多数決

K-近傍法アルゴリズムの定式化 16 foreach x’ in S do compute dist(x, x’)
take the top k nearest neighbors S’ from S foreach ci in C do 𝑝! ← 𝑠 𝑠 ∈ 𝑆" 𝑎𝑛𝑑 𝑐𝑙𝑎𝑠𝑠 𝑠 = 𝑐! | return argmax #!∈% 𝑝! 1 2 3 4 5 6 タスクに応じて設定 K近傍データの中でクラスci に属するデータの数 Input: x: ターゲットデータ Input: S: ラベル付きデータセット Input: C: クラスラベルのリスト Input: k: 閾値 Input: dist: 距離関数

K-近傍法のメリット・デメリット 17 メリット • 単純なのに強⼒ • データの背後にある分布を仮定しなくてよい（ノンパラメトリックな⼿法）デメリット •
推論フェーズの計算量が⼤きい（毎回の距離計算） • 次元の呪いの影響を受けやすい

教師あり学習のための機械学習アルゴリズムの分類 18 ロジスティック回帰ナイーブベイズサポートベクターマシン K近傍法ランダムフォレスト & 決定木ニューラルネットワーク
訓練データをすべて記憶しておき，それら全部を使って予測を⾏う（推論計算が遅い）訓練データの背後にあるモデルを抽出し，それを予測時に使う（推論計算は速い）インスタンスベースモデルベース

Hands-on タイム以下のURLにアクセスして，K近傍法を体験してみましょう https://mlnote.hontolab.org/ 19

2 手順を知らないと痛い目にあう教師あり機械学習のお作法

教師あり学習の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ学習フェーズ 21

教師あり学習の流れ⼤量のデータ（正解ラベル付き）前処理特徴抽出学習（モデル構築）
機械学習アルゴリズム学習済みモデル ML 推論特徴抽出？前処理未知データ（ラベルなし）予測結果推論フェーズ学習フェーズ 22 構築したモデルの予測性能をどう評価するか？ [分類性能の基本的な考え方] 真の分類結果と同じ分類ができている率が高い Q. A. [回帰性能の基本的な考え方] 真の結果と推定結果の誤差が小さい

2クラス分類問題における評価指標（1/4） 23 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑃
+ 𝐹𝑁 + 𝑇𝑁 正例，負例と予測したものが実際にそうだった割合精度 (accuracy) モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

2クラス分類問題における評価指標（2/4） 24 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 正例 (注⽬ラベル)と予測したデータのうち，実際に正例
であった割合．正例に対する推論の正確さを⽰す．適合率 (precision) モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

2クラス分類問題における評価指標（3/4） 25 モデルの予測 Positive Negative 正解ラベル Positive TP （true
positive） FN (false negative) Negative FP (false positive) TN (true negative) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 実際に正例であるデータのうち，モデルが正例であると予測したデータの割合．取りこぼしの少なさを⽰す．再現率 (recall)

2クラス分類問題における評価指標（4/4） 26 𝐹&'()*+' = 2 4 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 4 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
+ 𝑅𝑒𝑐𝑎𝑙𝑙 適合率と再現率をバランスよく達成できているかを⽰す F値モデルの予測 Positive Negative 正解ラベル Positive TP （true positive） FN (false negative) Negative FP (false positive) TN (true negative)

評価指標によって⼿法の良し悪しの判断が変わる 27 検査結果陽性陰性実際陽性 39 11
陰性 24 26 ウイルス検査⼿法B 検査結果陽性陰性実際陽性 20 30 陰性 5 45 ウイルス検査⼿法A Accuracy = !"#$% !"#%#&"#$% = 0.65 Precison = !" !"#% = 0.80 Recall = !" !"#&" = 0.40 F値 = 0.533 Accuracy = &'#!( &'#!$#))#!( = 0.65 Precison = &' &'#!$ = 0.619 Recall = &' &'#)) = 0.78 F値 = 0.690 ⼀般に適合率と再現率はトレードオフの関係にある ? ? ? ? ? ? ? ?

不均衡データに対する2クラス分類の評価指標 28 AUC (Area Under Curve) • 横軸に偽陽性率(FPP)，縦軸に再現率(TPP)とする曲線が作る平⾯の⾯積 •
ラベル分布に偏りがある不均衡データに⽤いる | | 1.0 1.0 0 True Positive Rate (TPP) False Positive Rate (FPP) AUC ・理想はオレンジの点線がなす領域・0から1の値をとる

絶対やってはいけないコト 29 # Python 1 from sklearn.neighbors import KNeighborsClassifier 20
model_K = KNeighborsClassifier(n_neighbors=5) 21 mode_K.fit(X_train, y_train) # K近傍法で学習 22 score_K = model_K.score(X_test, y_test) … ドキュメントに書いてあった予測性能のスコアを返す関数 23 print(score_K, score_S) モデルKとモデルSの「予測性能スコア」を表⽰ >> 0.80, 0.619 # モデルKのスコアの⽅が⾼い!! タスクに応じて適切な評価指標を使うこと!!

多クラス分類問題における評価指標（1/2） 30 モデルの予測 C1 … Ck 正解ラベル C1 n11
n1k … … Ck nk1 nkk 各クラスに対する再現率のマクロ平均 Balanced Accuracy 𝐴𝑐𝑐𝑢𝑟𝑎𝑟𝑦7(8(9#': = 1 𝑘 A ;<= ; 𝑅𝑒𝑐𝑎𝑙𝑙; これら再現率の平均を計算

多クラス分類問題における評価指標（2/2） 31 モデルの予測 C1 … Ck 正解ラベル C1 n11
n1k … … Ck nk1 nkk 正解ラベルとモデル予測したラベルの相関係数 (kは各クラス) マシューズ相関係数 (MCC) ∑! ∑" ∑# (𝐶!! 𝐶"# − 𝐶!" 𝐶#! ) ∑! (∑" 𝐶!" )(∑ !!|!!%! ∑ "! 𝐶!!"& ) ∑! (∑" 𝐶"! )(∑ !!|!!%! ∑ "! 𝐶"!!& ) 式は複雑だが，表現しているのは相関係数と理解しよう

教師あり学習の実践するときの基本的な流れ … データセット（特徴量x & ラベルyのリスト）データを⼀定の割合に分割訓練データテストデータ 𝑥!! ⋮
𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 … A B A

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを⽤いた学習 Step 2 ML … A B A

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを⽤いた学習 Step 2 ML A … 推論結果 A B ラベルを隠してテストデータのラベルを推論 Step 3 … A B A …

𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテストデータのラベルを推論 Step 3 … A … 推論結果 B … 隠していたラベル推論結果と元ラベルとの⽐較による性能評価 Step 4 訓練データを⽤いた学習 Step 2 ML A A B B … A B A

ホールドアウト法 … データセット（特徴量x & ラベルyのリスト）データを⼀定の割合に分割訓練データテストデータ 𝑥!! ⋮
𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテストデータのラベルを推論 Step 3 A … 推論結果 B … 隠していたラベル推論結果と元ラベルとの⽐較による性能評価 Step 4 訓練データを⽤いた学習 Step 2 ML A A B B … … A B A

絶対にやってはいけないこと 37 1. データ分割をせず、同じデータを使ってモデルの訓練と評価する 2. データ分割時にデータをシャッフルしない 3. （分類問題の場合）ラベルの分布を考慮せずデータを分割

機械学習の⽬標 39 汎化性能の高い予測モデルの獲得未知データに対する予測性能が⾼いデータセット訓練データテストデータ ML 1. 分割
2. 学習 3. 評価テストデータは「未知データ」扱いデータセット ML 1. 学習 2. 評価評価が高く見えるよう自己最適化しているだけ（学習時と同じデータを使⽤）

汎化性能、モデルの複雑さ、学習回数 40 モデルの複雑さ、学習回数予測誤差訓練データテストデータモデルの複雑さや学習回数を増やしぎると
訓練データを過学習し、未知データに対する汎化性能が下がる訓練データに対してだけ予測誤差が下がっても意味なしベスト塩梅

シャッフルしない & ラベル分布を考慮しないデータ分割の問題 42 データセット … A A A B
B Aは70% Bは30% A A A … 訓練データ (ラベルA=100%) B B … … 先頭から7:3に分割テストデータ (ラベルB=100%) A … 推論結果 B … 隠していたラベル ML A B A B 偏った学習偏った性能評価汎化性能の低下!!

汎化性能向上のためのデータ分割⽅法 43 データセット … A A A B B Aは70%
Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% シャッフル & 層別化分割安直に前から50:50分割シャッフル & 層別化（stratification）

Bは30% … シャッフル & 層別化分割安直に前から50:50分割シャッフル & 層別化（stratification） # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3, # 7:3に分割 4 shuffle=True, # シャッフル 5 stratify=y_cancer) # 層別化 # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3) # 7:3に分割

Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% 安直に前から50:50分割シャッフル & 層別化分割ダメ、絶対シャッフル & 層別化（stratification）

K分割交差検証 (K-fold Cross Validation: CV) 〜汎化性能評価のため⼯夫 46 訓練データ 1回⽬
2回⽬ 3回⽬テストデータ訓訓訓訓訓訓テテテモデルモデルモデル 0.82 0.76 0.79 平均 0.79 学習性能評価最終スコア 1. データをK個に分割する 2. 分割データの1個をテスト，K-1個を訓練データとし学習・評価 3. 分割された各データがテストとなるようステップ2を繰り返す 4. ステップ3の評価スコアの平均値を最終スコアとする訓練/テストデータの選び⽅による過学習・性能評価のブレを防ぐ

Hands-on タイム以下のURLにアクセスして，教師あり学習のお作法を体験してみましょう https://mlnote.hontolab.org/ 47

今後の予定 48 回実施⽇トピック 1 04/14 ガイダンス 2 04/21
pandas⼊⾨ 3 04/28 決定⽊からはじめる機械学習 4 05/12 クラスタリング1：k-means & 階層的クラスタリング 5 05/19 クラスタリング2：密度ベースクラスタリング 6 05/26 分類1：K近傍法 & 教師あり機械学習のお作法 7 06/02 分類2：サポートベクターマシン 8 06/09 分類3：ニューラルネットワーク⼊⾨

機械学習 - K近傍法 & 機械学習のお作法

機械学習 - K近傍法 & 機械学習のお作法

More Decks by Y. Yamamoto

Other Decks in Science

Featured

Transcript