Machine Learning Par la Pratique

Machine Learning Machine Learning Par la pratique Par la pratique
Casablanca big data meetup Anass BENSRHIR ([email protected])

Anass Bensrhir $ whoami $ whoami Directeur et Data Scientist
chez [email protected] @anassbensrhir ou @BoldData abensrhir

Agenda Agenda 1> Machine Learning ? 2> Applications 3> Algorithmes
4> Demo et étude de cas - Breast Cancer - Spam killer (<20 lignes de code) - Churn Prediction

Apprentissage par la pratique

« Field of study that gives the « Field of
study that gives the computer the ability to learn computer the ability to learn without being explicitly without being explicitly programmed. » programmed. » — Arthur Samuel (1959) — Arthur Samuel (1959)

Machine Learning Machine Learning Tente de trouver des patterns et
Tente de trouver des patterns et corrélations entre les données corrélations entre les données Déﬁnition

Machine Learning Machine Learning Un sujet de recherche sans Un
sujet de recherche sans aucune application dans aucune application dans l'industrie l'industrie

Machine Learning Machine Learning Computer Machine Learning Input Program Input
Output Output Program

Applications Applications

High frequency trading High frequency trading 90 % des ordres
envoyés sur le marché actions proviennent des traders haute fréquence

Web Search & Ranking Web Search & Ranking

Recommandation (Amazon) Recommandation (Amazon) 35% des ventes proviennent du système
de recommandations.

Robotique Robotique et Intelligence et Intelligence Artificielle Artificielle Robots ,
Siri ....

Intelligence Artificielle Intelligence Artificielle

Vous avez dit Vous avez dit par la par la
pratique pratique ? ?

Machine Learning : Familles Machine Learning : Familles Apprentissage Supervisé
: on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des exemples . Apprentissage Non-Supervisé (clustering) : Diviser un groupe hétérogène de données, en sous-groupes de manière à ce que les données considérées comme les plus similaires soient associées au sein d'un groupe commun. Apprentissage par renforcement : utilisé en Robotique

Apprentissage Supervisé : Apprentissage Supervisé : Classification Classification Input Output
(labels) 0 si l'élève ne va pas réussir le bac 1 si l'élève va réussir le bac Age Ville natale Profession des parents

Apprentissage Supervisé : Apprentissage Supervisé : Régression Régression Input Output
(Valeurs) Note au Bac Age Ville natale Profession des parents

Apprentissage non Supervisé : Apprentissage non Supervisé : Clustering Clustering
Given X. Learn something about X.

40 % 20 % 40 % Préparation des données Sélection
du modèle Feature Engineering Workflow Workflow Machine Learning / Datascience Project

Plus de données + Algorithme moyen > moins de données
+ Algorithme performant

Environnement Environnement Production Code Data Exploration

Librairies Librairies

Breast Cancer prediction Breast Cancer prediction L'objectif est de pouvoir
estimer le nombre de cas de cancer de seins dans diﬀérents villes ou pays en utilisant un modèle linéaire.

Model Prédictif Lineaire Model Prédictif Lineaire

301 observations 75% 25% Training Test Model X_train, y_train X_test,
y_test "population","cancer" 10000,30 47800,77

y_predicted Model X_test y_predicted == y_test ?

from sklearn import linear_model import pandas as pd data =
pd.read_csv('cancer.csv') train_index,test_index = train_test_split(data.index) X_train = data.ix[train_index][['population']] X_test = data.ix[test_index][['population']] y_train = data.ix[train_index][['cancer']] y_test = data.ix[test_index][['cancer']] regr = linear_model.LinearRegression() regr.fit(X_train,y_train)

Model Prédictif Lineaire Model Prédictif Lineaire

Filtre Antispam Filtre Antispam

Visit this link to win 100% free Viagra coupon. Visit
this link to win 100% free Cinema coupon. spam spam Hey George make sure to bring your coupon to the supermarket. ham George the supermarket is closed ! Ham spam ? Naive Bayes Naive Bayes

619 elements Training (naive bayes) Model "ham","Aaooooright are you at
work?" "spam","You are a winner U have been specially selected 2 receive £1000 cash or a 4* holiday (flights inc) speak to a live operator 2 claim 0871277810810"

Model Hahaha..use your brain dear ham ? spam?

from textblob.classifiers import NaiveBayesClassifier cl = NaiveBayesClassifier(trainingdata) cl.classify("hahaha..use your brain
dear")

Customer Churn Customer Churn Le taux d'attrition (churn) de l'anglais
est, au cours d'une période donnée, la proportion de clients perdus ou ayant changé de produit et service de la même entreprise. - Abandon et résiliation - Passage à la concurence L'acquisition de nouveaux clients est 15 plus coûteuse que de conserver ceux existants.

Decision Tree Decision Tree Un arbre de décision modélise une
hiérarchie de tests sur les valeurs d’un ensemble d'attributs. À l’issue de ces tests, le model produit choisit un élément dans un ensemble discret de conclusions. source : yhat

Random Forest Random Forest forêts aléatoires source : yhat from
sklearn.ensemble import RandomForestClassifier RF = RandomForestClassifier(n_estimators=10, n_jobs=5) RF.fit(X,y) Production de plusieurs arbres de décision , le résultat ﬁnal est conclu par vote.

Machine Learning Par la Pratique

Machine Learning Par la Pratique

More Decks by Anass Bensrhir

Other Decks in Programming

Featured

Transcript