Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Machine Learning Par la Pratique

Machine Learning Par la Pratique

Keynote pour le Casablanca Big Data meetup (Janvier 2015)
Code and supporting notebook : https://github.com/abensrhir/machinelearningcasablancameetup

Avatar for Anass Bensrhir

Anass Bensrhir

January 28, 2015
Tweet

More Decks by Anass Bensrhir

Other Decks in Programming

Transcript

  1. Agenda Agenda 1> Machine Learning ? 2> Applications 3> Algorithmes

    4> Demo et étude de cas - Breast Cancer - Spam killer (<20 lignes de code) - Churn Prediction
  2. « Field of study that gives the « Field of

    study that gives the computer the ability to learn computer the ability to learn without being explicitly without being explicitly programmed. » programmed. » — Arthur Samuel (1959) — Arthur Samuel (1959)
  3. Machine Learning Machine Learning Tente de trouver des patterns et

    Tente de trouver des patterns et corrélations entre les données corrélations entre les données Définition
  4. Machine Learning Machine Learning Un sujet de recherche sans Un

    sujet de recherche sans aucune application dans aucune application dans l'industrie l'industrie
  5. High frequency trading High frequency trading 90 % des ordres

    envoyés sur le marché actions proviennent des traders haute fréquence
  6. Machine Learning : Familles Machine Learning : Familles Apprentissage Supervisé

    : on cherche à produire automatiquement des règles à partir d'une base de données d'apprentissage contenant des exemples . Apprentissage Non-Supervisé (clustering) : Diviser un groupe hétérogène de données, en sous-groupes de manière à ce que les données considérées comme les plus similaires soient associées au sein d'un groupe commun. Apprentissage par renforcement : utilisé en Robotique
  7. Apprentissage Supervisé : Apprentissage Supervisé : Classification Classification Input Output

    (labels) 0 si l'élève ne va pas réussir le bac 1 si l'élève va réussir le bac Age Ville natale Profession des parents
  8. Apprentissage Supervisé : Apprentissage Supervisé : Régression Régression Input Output

    (Valeurs) Note au Bac Age Ville natale Profession des parents
  9. 40 % 20 % 40 % Préparation des données Sélection

    du modèle Feature Engineering Workflow Workflow Machine Learning / Datascience Project
  10. Breast Cancer prediction Breast Cancer prediction L'objectif est de pouvoir

    estimer le nombre de cas de cancer de seins dans différents villes ou pays en utilisant un modèle linéaire.
  11. 301 observations 75% 25% Training Test Model X_train, y_train X_test,

    y_test "population","cancer" 10000,30 47800,77
  12. from sklearn import linear_model import pandas as pd data =

    pd.read_csv('cancer.csv') train_index,test_index = train_test_split(data.index) X_train = data.ix[train_index][['population']] X_test = data.ix[test_index][['population']] y_train = data.ix[train_index][['cancer']] y_test = data.ix[test_index][['cancer']] regr = linear_model.LinearRegression() regr.fit(X_train,y_train)
  13. Visit this link to win 100% free Viagra coupon. Visit

    this link to win 100% free Cinema coupon. spam spam Hey George make sure to bring your coupon to the supermarket. ham George the supermarket is closed ! Ham spam ? Naive Bayes Naive Bayes
  14. 619 elements Training (naive bayes) Model "ham","Aaooooright are you at

    work?" "spam","You are a winner U have been specially selected 2 receive £1000 cash or a 4* holiday (flights inc) speak to a live operator 2 claim 0871277810810"
  15. Customer Churn Customer Churn Le taux d'attrition (churn) de l'anglais

    est, au cours d'une période donnée, la proportion de clients perdus ou ayant changé de produit et service de la même entreprise. - Abandon et résiliation - Passage à la concurence L'acquisition de nouveaux clients est 15 plus coûteuse que de conserver ceux existants.
  16. Decision Tree Decision Tree Un arbre de décision modélise une

    hiérarchie de tests sur les valeurs d’un ensemble d'attributs. À l’issue de ces tests, le model produit choisit un élément dans un ensemble discret de conclusions. source : yhat
  17. Random Forest Random Forest forêts aléatoires source : yhat from

    sklearn.ensemble import RandomForestClassifier RF = RandomForestClassifier(n_estimators=10, n_jobs=5) RF.fit(X,y) Production de plusieurs arbres de décision , le résultat final est conclu par vote.