Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習 勉強会 #1
Search
xkumiyu
May 06, 2016
Science
0
790
機械学習 勉強会 #1
xkumiyu
May 06, 2016
Tweet
Share
Other Decks in Science
See All in Science
データベース06: SQL (3/3) 副問い合わせ
trycycle
PRO
1
630
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
170
データマイニング - ノードの中心性
trycycle
PRO
0
270
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
610
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
1.3k
生成AIと学ぶPythonデータ分析再入門-Pythonによるクラスタリング・可視化をサクサク実施-
datascientistsociety
PRO
4
1.8k
機械学習 - SVM
trycycle
PRO
1
880
データマイニング - コミュニティ発見
trycycle
PRO
0
150
データベース10: 拡張実体関連モデル
trycycle
PRO
0
980
AIによる科学の加速: 各領域での革新と共創の未来
masayamoriofficial
0
130
Masseyのレーティングを用いたフォーミュラレースドライバーの実績評価手法の開発 / Development of a Performance Evaluation Method for Formula Race Drivers Using Massey Ratings
konakalab
0
190
【RSJ2025】PAMIQ Core: リアルタイム継続学習のための⾮同期推論・学習フレームワーク
gesonanko
0
120
Featured
See All Featured
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
BBQ
matthewcrist
89
9.8k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
3k
Testing 201, or: Great Expectations
jmmastey
45
7.7k
Music & Morning Musume
bryan
46
6.8k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.6k
Visualization
eitanlees
148
16k
Become a Pro
speakerdeck
PRO
29
5.5k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
830
KATA
mclloyd
32
14k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
Git: the NoSQL Database
bkeepers
PRO
431
66k
Transcript
機械学習 勉強会 #1 2016.5.6 @xkumiyu
⾃⼰紹介 lTwitter ID: @xkumiyu l⼤学:ソーシャルメディアを使ったデー タマイニング的なことをやってました。 l仕事:サービス企画。最近、データ分析 はじめました。 2
今⽇、話すこと lkNN法(k最近傍法)の概要 lPython(scikit-learn)での実装例 最近、読みはじめました。 3
クラス分類(Classfication) l予め与えられたクラスに関する知識に基づいて、未知のパ ターンがどのクラスに属するかを決定すること 4
クラス分類の⽅法 l事後確率による⽅法 l確率分布を仮定して、事後確率が最⼤のクラスに分類 l例)ベイズの最⼤事後確率法(単純ベイズ分類器?) l距離による⽅法 l⼊⼒ベクトルとクラスの代表ベクトルとの距離が⼀番近いクラスに分類 l例)最近傍法 l関数値による⽅法 l関数f(x)の正負または最⼤値でクラスを決める l例)パーセプトロン、サポートベクターマシン
l決定⽊による⽅法 l識別規則の真偽に応じて、次の識別規則を順次適応し、クラスを決める l例)決定⽊ 5
最近傍法とは l⼊⼒データとすべての学習データの距離(⼀般にユークリッ ド距離)を計算して、最も近いデータのクラスに識別する⼿法 6
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 7 k=3 •:2つ •:1つ → • に識別
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 8 k=4 •:2つ •:2つ → リジェクト ※ランダムに識別する場合もある
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 9 k=8 •:3つ •:5つ → • に識別
Pythonで実装 l機械学習パッケージ「scikit-learn」を使う 10 クラス分類 • SVM、近傍法、ランダムフォ レスト クラスタリング • k-means、Mean-Shift
次元削減 • 主成分分析 検証 • 交差検証法
scikit-learnを使う 11 メソッド fit(X, y) 学習データをモデルに適⽤(学習)、 Xがデータで、yがラベル(クラス) predict(X) ⼊⼒データのクラスを予測 score(X,
y) テストデータXと正解クラスyを与え た時の正答率を算出 ※他のモデルでも使い⽅は同じ(らしい)
Cross-Validationもscikit-learnで 12
交差検証法(Cross-Validation) l全データをk個に分割して、1個をテストデータ、残りを学習 データとする。 lテストデータを変えて、k回繰り返す。 13 テスト データ 学習 データ 学習
データ 学習 データ 学習 データ テスト データ 学習 データ 学習 データ 学習 データ 学習 データ … k回繰り返す
Kを変化させた結果 lkを⼤きくすると、ノイズデータに対して強くなり、精度が上がる。 l⼤きくしすぎると、他のクラスのデータも多く含まれるようになるため、 精度が落ちる。 14