Introduction au machine learning avec Scitkit-learn

Introduction au machine learning avec scikit-learn Nicolas Garneau Université Laval
- L’Agence

Les bases

Prédiction à la bourse Applications du ML Analyse de comportement
Aide à la décision Classification de textes ...

S : {s1, s2, s3, ..., sn} Jeu de données
un «exemple»

sn : {x, y} une liste de «features» un «label»

sn : {x, y} x : {x1, x2, x3, ..., xn} chacun de nos features...

Exemple iris dataset 4 features: • Longueur pétale • Largeur
pétale • Longueur sépale • Largeur sépale

Exemple iris dataset 3 classes: Iris Setosa Iris Versicolor Iris
Virginica crédit photo: http://mirlab.org/jang/books/dcpr/dataSetIris.asp?title=2-2%20Iris%20Dataset

s1 : {(larg. sépale, long. sépale), type} Exemple iris dataset
si on sélectionne 2 features

s1 : {(larg. sépale, long. sépale), type} Exemple x1 :
{(0: 2, 1: 5), 1} x2 : {(0: 1, 1: 6), 0} ... iris dataset

Exemple iris dataset

Comment y arriver Différentes façons

K Nearest Neighbors (KNN) K plus proches voisins Mesure de
similarité

K Nearest Neighbors (KNN) Vote de majorité k = 3

K Nearest Neighbors (KNN) Vote de majorité ! k =
3

K Nearest Neighbors (KNN) Vote de majorité pondéré* !! 15
12 3 k = 3

K Nearest Neighbors

Notre problème Description du problème de classification qu’on a Classification
200 features 800 exemples 200 inconnus

Workflow 1. Pre-model 2. Model 3. Validation

1. Pre-model «Scaling» Réduction de la dimensionnalité «Imputation»

1. Pre-model Scaling Distribution normale Pour les distances...!

2. Model clf = KNeighborsClassifier(n_neighbors=35) clf.fit(X, y) clf.predict(X_mystery)

3. Validation Train/test sets Score «Cross-validation»

3. Validation Score precision: TP / (TP + FP) recall:
TP / (TP + FN) f1-score: 2TP / (2TP + FP + FN)

Bonus! Bagging

Introduction au machine learning avec Scitkit-l...

Introduction au machine learning avec Scitkit-learn

ngarneau

More Decks by ngarneau

Other Decks in Programming

Featured

Transcript

Introduction au machine learning avec scikit-learn Nicolas Garneau Université Laval

Les bases

Prédiction à la bourse Applications du ML Analyse de comportement

S : {s1, s2, s3, ..., sn} Jeu de données

S : {s1, s2, s3, ..., sn} Jeu de données

S : {s1, s2, s3, ..., sn} Jeu de données

Exemple iris dataset 4 features: • Longueur pétale • Largeur

Exemple iris dataset 3 classes: Iris Setosa Iris Versicolor Iris

s1 : {(larg. sépale, long. sépale), type} Exemple iris dataset

s1 : {(larg. sépale, long. sépale), type} Exemple x1 :

Exemple iris dataset

Comment y arriver Différentes façons

K Nearest Neighbors (KNN) K plus proches voisins Mesure de

K Nearest Neighbors (KNN) Vote de majorité k = 3

K Nearest Neighbors (KNN) Vote de majorité ! k =

K Nearest Neighbors (KNN) Vote de majorité pondéré* !! 15

K Nearest Neighbors

Notre problème Description du problème de classification qu’on a Classification

Workflow 1. Pre-model 2. Model 3. Validation

1. Pre-model «Scaling» Réduction de la dimensionnalité «Imputation»

1. Pre-model Scaling Distribution normale Pour les distances...!

2. Model clf = KNeighborsClassifier(n_neighbors=35) clf.fit(X, y) clf.predict(X_mystery)

3. Validation Train/test sets Score «Cross-validation»

3. Validation Score precision: TP / (TP + FP) recall:

Bonus! Bagging