Slide 1

Slide 1 text

MACHINE LEARNING Introduction au @providenz

Slide 2

Slide 2 text

Machine learning ? Pieces Chambres Surface Quartier Prix 3 2 90 Mourillon 137000 3 3 76 Faron 168500 7 5 160 La Rode 276500 6 4 126 Toulon Ouest 149000 … … … … …

Slide 3

Slide 3 text

Machine learning ? Pieces Chambres Surface Quartier Prix 8 4 101 Port ??????

Slide 4

Slide 4 text

Machine learning ? phase 1/2: apprentissage ALGO MODÈLE Données (beaucoup)

Slide 5

Slide 5 text

Machine learning ? phase 2/2: prédiction Prédiction MODÈLE Pieces Chambres Surface Quartier Prix 8 4 101 Port ??????

Slide 6

Slide 6 text

Applications Vision Moteurs de recherche Antispam Systèmes de recommandations Finance Détection de fraude Santé Analyse de sentiment Détection de langue Shazam Siri Art Sport…

Slide 7

Slide 7 text

2 types de problèmes Classification Régression

Slide 8

Slide 8 text

Classification

Slide 9

Slide 9 text

Iris Setosa Versicolor Virginica

Slide 10

Slide 10 text

Régression

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

Process

Slide 13

Slide 13 text

Process Spécifier le problème Collecter et préparer les données Feature engineering Sélectionner un algo Training Validation Prédiction

Slide 14

Slide 14 text

Feature engineering Pieces Chambres Surface Lat Long Prix 3 2 90 45.77966 3.08628 137000 Pieces Chambres Surface Quartier Prix 3 2 90 137000

Slide 15

Slide 15 text

Pieces Chambres Surface Quartier 3 2 90 Mourillon 3 3 76 Ouest 5 5 160 Vauban 4 4 126 Claret Prix 137000 168500 276500 149000 Features Target 3 2 68 N/A 3 2 67 Gare 93000 112000 Train Test Cross validation

Slide 16

Slide 16 text

Pratique

Slide 17

Slide 17 text

Pratique Weka Apis Python R Autres

Slide 18

Slide 18 text

R

Slide 19

Slide 19 text

http://www.r-project.org/

Slide 20

Slide 20 text

Weka

Slide 21

Slide 21 text

http://www.cs.waikato.ac.nz/ml/weka/index.html

Slide 22

Slide 22 text

Predictives apis BIGML : bigml.com GOOGLE PREDICTION API Machine learning en tant que service

Slide 23

Slide 23 text

No content

Slide 24

Slide 24 text

Python

Slide 25

Slide 25 text

Python scikit-learn gensim orange …

Slide 26

Slide 26 text

SCIKIT LEARN http://scikit-learn.org/

Slide 27

Slide 27 text

Compléments ipython pandas numpy scipy hdf5 nltk

Slide 28

Slide 28 text

No content

Slide 29

Slide 29 text

Classifiers (Algos) random forest k-means support vector machines lasso ridge regression …

Slide 30

Slide 30 text

Notebooks

Slide 31

Slide 31 text

Warnings

Slide 32

Slide 32 text

Trop peu de données Données non pertinentes

Slide 33

Slide 33 text

Warnings Corrélation != rapport de causes à effets Spurious correlations http://tylervigen.com/

Slide 34

Slide 34 text

Warnings Essais randomisés controlés + de features

Slide 35

Slide 35 text

C’est l’avenir le présent

Slide 36

Slide 36 text

Ressources http://scikit-learn.org/ http://pandas.pydata.org/ http://matplotlib.org/ http://stanford.edu/~mwaskom/software/seaborn/ https://www.kaggle.com/ libs python challenges

Slide 37

Slide 37 text

Ressources: livres Bootstrapping machine learning: http:// www.louisdorard.com/machine-learning-book/ An Introduction to Statistical Learning: http://www- bcf.usc.edu/~gareth/ISL/ La statistique sans formule mathématique Bernard Py

Slide 38

Slide 38 text

Ressources: livres Building Machine Learning Systems with Python: https:// www.packtpub.com/big-data-and-business-intelligence/ building-machine-learning-systems-python Programming collective intelligence : http:// www.amazon.com/gp/product/0596529325/

Slide 39

Slide 39 text

Ressources: livres weka Data Mining: Practical Machine Learning Tools and Techniques http:// www.cs.waikato.ac.nz/ml/weka/book.html

Slide 40

Slide 40 text

Crédits photo https://www.flickr.com/photos/arthurjohnpicton/ https://www.flickr.com/photos/styeb/

Slide 41

Slide 41 text

Merci @providenz • http://providenz.fr