Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習 勉強会 #1
Search
xkumiyu
May 06, 2016
Science
0
810
機械学習 勉強会 #1
xkumiyu
May 06, 2016
Tweet
Share
Other Decks in Science
See All in Science
データマイニング - グラフ埋め込み入門
trycycle
PRO
1
150
データマイニング - ウェブとグラフ
trycycle
PRO
0
230
知能とはなにかーヒトとAIのあいだー
tagtag
PRO
0
140
Celebrate UTIG: Staff and Student Awards 2025
utig
0
580
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
260
Agent開発フレームワークのOverviewとW&B Weaveとのインテグレーション
siyoo
0
400
高校生就活へのDA導入の提案
shunyanoda
0
6.2k
20251212_LT忘年会_データサイエンス枠_新川.pdf
shinpsan
0
220
データマイニング - ノードの中心性
trycycle
PRO
0
320
Algorithmic Aspects of Quiver Representations
tasusu
0
160
Hakonwa-Quaternion
hiranabe
1
170
データマイニング - コミュニティ発見
trycycle
PRO
0
190
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
141
7.3k
Navigating the moral maze — ethical principles for Al-driven product design
skipperchong
1
230
Mobile First: as difficult as doing things right
swwweet
225
10k
WCS-LA-2024
lcolladotor
0
420
Joys of Absence: A Defence of Solitary Play
codingconduct
1
270
Bootstrapping a Software Product
garrettdimon
PRO
307
120k
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.2k
The Cost Of JavaScript in 2023
addyosmani
55
9.4k
Leo the Paperboy
mayatellez
3
1.3k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
120
Reality Check: Gamification 10 Years Later
codingconduct
0
2k
My Coaching Mixtape
mlcsv
0
26
Transcript
機械学習 勉強会 #1 2016.5.6 @xkumiyu
⾃⼰紹介 lTwitter ID: @xkumiyu l⼤学:ソーシャルメディアを使ったデー タマイニング的なことをやってました。 l仕事:サービス企画。最近、データ分析 はじめました。 2
今⽇、話すこと lkNN法(k最近傍法)の概要 lPython(scikit-learn)での実装例 最近、読みはじめました。 3
クラス分類(Classfication) l予め与えられたクラスに関する知識に基づいて、未知のパ ターンがどのクラスに属するかを決定すること 4
クラス分類の⽅法 l事後確率による⽅法 l確率分布を仮定して、事後確率が最⼤のクラスに分類 l例)ベイズの最⼤事後確率法(単純ベイズ分類器?) l距離による⽅法 l⼊⼒ベクトルとクラスの代表ベクトルとの距離が⼀番近いクラスに分類 l例)最近傍法 l関数値による⽅法 l関数f(x)の正負または最⼤値でクラスを決める l例)パーセプトロン、サポートベクターマシン
l決定⽊による⽅法 l識別規則の真偽に応じて、次の識別規則を順次適応し、クラスを決める l例)決定⽊ 5
最近傍法とは l⼊⼒データとすべての学習データの距離(⼀般にユークリッ ド距離)を計算して、最も近いデータのクラスに識別する⼿法 6
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 7 k=3 •:2つ •:1つ → • に識別
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 8 k=4 •:2つ •:2つ → リジェクト ※ランダムに識別する場合もある
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 9 k=8 •:3つ •:5つ → • に識別
Pythonで実装 l機械学習パッケージ「scikit-learn」を使う 10 クラス分類 • SVM、近傍法、ランダムフォ レスト クラスタリング • k-means、Mean-Shift
次元削減 • 主成分分析 検証 • 交差検証法
scikit-learnを使う 11 メソッド fit(X, y) 学習データをモデルに適⽤(学習)、 Xがデータで、yがラベル(クラス) predict(X) ⼊⼒データのクラスを予測 score(X,
y) テストデータXと正解クラスyを与え た時の正答率を算出 ※他のモデルでも使い⽅は同じ(らしい)
Cross-Validationもscikit-learnで 12
交差検証法(Cross-Validation) l全データをk個に分割して、1個をテストデータ、残りを学習 データとする。 lテストデータを変えて、k回繰り返す。 13 テスト データ 学習 データ 学習
データ 学習 データ 学習 データ テスト データ 学習 データ 学習 データ 学習 データ 学習 データ … k回繰り返す
Kを変化させた結果 lkを⼤きくすると、ノイズデータに対して強くなり、精度が上がる。 l⼤きくしすぎると、他のクラスのデータも多く含まれるようになるため、 精度が落ちる。 14