機械学習勉強会 #1

機械学習勉強会 #1 2016.5.6 @xkumiyu

⾃⼰紹介 lTwitter ID： @xkumiyu l⼤学：ソーシャルメディアを使ったデータマイニング的なことをやってました。 l仕事：サービス企画。最近、データ分析はじめました。 2

今⽇、話すこと lkNN法（k最近傍法）の概要 lPython（scikit-learn）での実装例最近、読みはじめました。 3

クラス分類（Classfication） l予め与えられたクラスに関する知識に基づいて、未知のパターンがどのクラスに属するかを決定すること 4

クラス分類の⽅法 l事後確率による⽅法 l確率分布を仮定して、事後確率が最⼤のクラスに分類 l例）ベイズの最⼤事後確率法（単純ベイズ分類器？） l距離による⽅法 l⼊⼒ベクトルとクラスの代表ベクトルとの距離が⼀番近いクラスに分類 l例）最近傍法 l関数値による⽅法 l関数f(x)の正負または最⼤値でクラスを決める l例）パーセプトロン、サポートベクターマシン
l決定⽊による⽅法 l識別規則の真偽に応じて、次の識別規則を順次適応し、クラスを決める l例）決定⽊ 5

最近傍法とは l⼊⼒データとすべての学習データの距離（⼀般にユークリッド距離）を計算して、最も近いデータのクラスに識別する⼿法 6

kNN法（k最近傍法） l⼊⼒データとの距離が近いk個のデータをとってきて、最も多く所属するクラスに識別する⼿法 7 k=3 •：2つ •：1つ → • に識別

kNN法（k最近傍法） l⼊⼒データとの距離が近いk個のデータをとってきて、最も多く所属するクラスに識別する⼿法 8 k=4 •：2つ •：2つ → リジェクト ※ランダムに識別する場合もある

kNN法（k最近傍法） l⼊⼒データとの距離が近いk個のデータをとってきて、最も多く所属するクラスに識別する⼿法 9 k=8 •：3つ •：5つ → • に識別

Pythonで実装 l機械学習パッケージ「scikit-learn」を使う 10 クラス分類 • SVM、近傍法、ランダムフォレストクラスタリング • k-means、Mean-Shift
次元削減 • 主成分分析検証 • 交差検証法

scikit-learnを使う 11 メソッド fit(X, y) 学習データをモデルに適⽤（学習）、 Xがデータで、yがラベル（クラス） predict(X) ⼊⼒データのクラスを予測 score(X,
y) テストデータXと正解クラスyを与えた時の正答率を算出 ※他のモデルでも使い⽅は同じ（らしい）

Cross-Validationもscikit-learnで 12

交差検証法（Cross-Validation） l全データをk個に分割して、1個をテストデータ、残りを学習データとする。 lテストデータを変えて、k回繰り返す。 13 テストデータ学習データ学習
データ学習データ学習データテストデータ学習データ学習データ学習データ学習データ … k回繰り返す

Kを変化させた結果 lkを⼤きくすると、ノイズデータに対して強くなり、精度が上がる。 l⼤きくしすぎると、他のクラスのデータも多く含まれるようになるため、精度が落ちる。 14

機械学習勉強会 #1

機械学習勉強会 #1

xkumiyu

Other Decks in Science

Featured

Transcript