Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習 勉強会 #1
Search
xkumiyu
May 06, 2016
Science
0
680
機械学習 勉強会 #1
xkumiyu
May 06, 2016
Tweet
Share
Other Decks in Science
See All in Science
効果検証入門に物申してみた_JapanR_2023
s1ok69oo
6
4.4k
ChatGPT によるプログラミング授業の課題の解答生成の評価
toskamiya
0
260
A Theory of Scrum Team Effectiveness 〜『ゾンビスクラムサバイバルガイド』の裏側にある科学〜
bonotake
12
5k
DEIM2024 チュートリアル ~AWSで生成AIのRAGを使ったチャットボットを作ってみよう~
yamahiro
2
570
20240127_OpenRadiossエアバッグ解析
kamakiri1225
0
140
Machine Learning for Materials (Lecture 3)
aronwalsh
0
820
東大・松尾研主催 LLM Summer 2023 コンペ解法 (11位 – 20位枠での優秀賞)
hayataka88
0
180
【論文紹介】DocTr_ Document Transformer for Structured Information Extraction in Documents / iccv2023-doctr
yuya4
3
560
Xpenologyなるアングラプロジェクト周りについて語るやつ
sushi514
0
620
同じデータでもP値が変わる話/key_considerations_in_NHST
florets1
1
1.1k
OptimizationNight~機械学習と数理最適化の融合~
hidenari
0
290
JSol'Ex : solar image processing in Java
melix
0
240
Featured
See All Featured
For a Future-Friendly Web
brad_frost
171
8.9k
The MySQL Ecosystem @ GitHub 2015
samlambert
242
12k
Facilitating Awesome Meetings
lara
41
5.6k
The Cost Of JavaScript in 2023
addyosmani
14
3.8k
How STYLIGHT went responsive
nonsquared
92
4.8k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
6
990
Learning to Love Humans: Emotional Interface Design
aarron
266
39k
Rebuilding a faster, lazier Slack
samanthasiow
72
8.2k
10 Git Anti Patterns You Should be Aware of
lemiorhan
646
57k
Clear Off the Table
cherdarchuk
83
310k
The Cult of Friendly URLs
andyhume
74
5.7k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
1
1.3k
Transcript
機械学習 勉強会 #1 2016.5.6 @xkumiyu
⾃⼰紹介 lTwitter ID: @xkumiyu l⼤学:ソーシャルメディアを使ったデー タマイニング的なことをやってました。 l仕事:サービス企画。最近、データ分析 はじめました。 2
今⽇、話すこと lkNN法(k最近傍法)の概要 lPython(scikit-learn)での実装例 最近、読みはじめました。 3
クラス分類(Classfication) l予め与えられたクラスに関する知識に基づいて、未知のパ ターンがどのクラスに属するかを決定すること 4
クラス分類の⽅法 l事後確率による⽅法 l確率分布を仮定して、事後確率が最⼤のクラスに分類 l例)ベイズの最⼤事後確率法(単純ベイズ分類器?) l距離による⽅法 l⼊⼒ベクトルとクラスの代表ベクトルとの距離が⼀番近いクラスに分類 l例)最近傍法 l関数値による⽅法 l関数f(x)の正負または最⼤値でクラスを決める l例)パーセプトロン、サポートベクターマシン
l決定⽊による⽅法 l識別規則の真偽に応じて、次の識別規則を順次適応し、クラスを決める l例)決定⽊ 5
最近傍法とは l⼊⼒データとすべての学習データの距離(⼀般にユークリッ ド距離)を計算して、最も近いデータのクラスに識別する⼿法 6
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 7 k=3 •:2つ •:1つ → • に識別
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 8 k=4 •:2つ •:2つ → リジェクト ※ランダムに識別する場合もある
kNN法(k最近傍法) l⼊⼒データとの距離が近いk個のデータをとってきて、最も 多く所属するクラスに識別する⼿法 9 k=8 •:3つ •:5つ → • に識別
Pythonで実装 l機械学習パッケージ「scikit-learn」を使う 10 クラス分類 • SVM、近傍法、ランダムフォ レスト クラスタリング • k-means、Mean-Shift
次元削減 • 主成分分析 検証 • 交差検証法
scikit-learnを使う 11 メソッド fit(X, y) 学習データをモデルに適⽤(学習)、 Xがデータで、yがラベル(クラス) predict(X) ⼊⼒データのクラスを予測 score(X,
y) テストデータXと正解クラスyを与え た時の正答率を算出 ※他のモデルでも使い⽅は同じ(らしい)
Cross-Validationもscikit-learnで 12
交差検証法(Cross-Validation) l全データをk個に分割して、1個をテストデータ、残りを学習 データとする。 lテストデータを変えて、k回繰り返す。 13 テスト データ 学習 データ 学習
データ 学習 データ 学習 データ テスト データ 学習 データ 学習 データ 学習 データ 学習 データ … k回繰り返す
Kを変化させた結果 lkを⼤きくすると、ノイズデータに対して強くなり、精度が上がる。 l⼤きくしすぎると、他のクラスのデータも多く含まれるようになるため、 精度が落ちる。 14