Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data NoBlaBla : Séparez le Ham du Spam avec le ...

Data NoBlaBla : Séparez le Ham du Spam avec le langage R

Toulouse Data Science

October 12, 2015
Tweet

More Decks by Toulouse Data Science

Other Decks in Programming

Transcript

  1. Atelier R + Filtre Anti-Spam Geraud Architecte Big Data @

    Valtech Data Scientist en devenir Leonardo Co-organisateur TDS TOULOUSE DATA SCIENCE Lundi 12 octobre 2015
  2. Notre feuille de route 4 Apprendre les bases de R

    1 Représenter le problème en données Comprendre données ⇔ problème Comprendre et utiliser le Machine Learning 5 Évaluer la solution choix métier ⇔ performance algorithme 6 Communiquer la solution et prendre des décisions 7 Utilisateur satisfait 2 3
  3. Qu'est-ce que R ? R est un dialecte de S.

    S c'est quoi? C'est un environnement pour l'analyse statistique 1976 S développé en Fortran par les laboratoires Bell. 1988 Réécriture en C. 1991 Début de l'implémentation de R par l'université d'Aukland. 2007 Création de Revolution Analytics pour le support commercial de R 2008 S-PLUS devient la propriété de TIBCO. 2015 Création du consortium R Acquisition de Revolution Analytics par Microsoft R en version 3.2
  4. Les bases du langage > 1 + 2 ## [1]

    3 > log(5) ## [1] 1.609438 > ?log > resultat <- 1 + 2 > resultat ## [1] 3 > c(42,123) ## [1] 42 123 > prenoms <- c('Alice', 'Bob', 'Carole') > prenoms[2] ## [1] "Bob"
  5. Atelier R : Data Frame prenoms sexe ages Alice Bob

    Caroline F M F 24 30 23 Représentation Vector Alice Bob Carol.. F M F 24 30 23 Représentation DataFrame prenoms sexe ages monDF[2, 'prenoms'] monDF[2, 1] monDF$prenoms[2] 1 2 3
  6. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! i wanted to share with you what I feel are the remaining "to dos" Make big money foreclosed real estate in your area! i wanted to share with you what feel are the remaining "to dos" make big money foreclosed real estate in your area! Minuscule
  7. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! i wanted to share with you what feel are the remaining "to dos" make big money foreclosed real estate in your area! i wanted to share with you what feel are the remaining dos make big money foreclosed real estate in your area Ponctuation et caractères spéciaux
  8. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! i wanted to share with you what feel are the remaining dos make big money foreclosed real estate in your area wanted share feel remaining dos make big money foreclosed real estate area Stop words
  9. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! wanted share feel remaining dos make big money foreclosed real estate area want share feel remain dos make big money foreclos real estat area Stemming
  10. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 Doc1 0 0 0 0 0 1 1 1 1 1 1 1 Doc2 Bag of Words i wanted to share with you what I feel are the remaining "to dos" Make big money with foreclosed real estate in your area!
  11. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Doc1 Doc2 Bag of Words She wants to make sure that all the sharing remains good for you! Doc3
  12. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Doc1 Doc2 Bag of Words She wants to make sure that all the sharing remains good for you! Doc3 1 0 0 0 0 0 0 0 0 0 0 0
  13. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Doc1 Doc2 Bag of Words She wants to make sure that all the sharing remains good for you! Doc3 1 0 0 0 0 1 0 0 0 0 0 0
  14. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Doc1 Doc2 Bag of Words She wants to make sure that all the sharing remains good for you! Doc3 1 1 0 0 0 1 0 0 0 0 0 0
  15. Représentation du problème i wanted to share with you what

    I feel are the remaining "to dos" Make big money with foreclosed real estate in your area! want share feel remain dos make big money foreclos real estat area 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 Doc1 Doc2 Bag of Words She wants to make sure that all the sharing remains good for you! Doc3 1 1 0 1 0 1 0 0 0 0 0 0
  16. Fondamentaux en Machine Learning ML Supervisé Régression Classification Cours de

    la bourse Nb de vélos disponibles Impayé ou pas Spam ou pas Catégories de produits Statuts pièces (bonne, mauvaise, normale, etc) Binaire Multi classe
  17. Régression Logistique Rappel régression linéaire • prédire une variable continue

    Comment prédire une variable catégorielle (spam/ham) ? ⇒ régression logistique (prédire la probabilité qu’un résultat soit vrai, P(y = Classe) probabilité = un chiffre entre 0 et 1 (inclus)
  18. Régression Logistique P(y = 1) = P(Spam = 1) P(y

    = 0) = P(Spam = 0) ⇒ P(Spam = 0) = 1 - P(Spam = 1) 1 = Spam 0 = Ham
  19. Régression Logistique Définir un seul t entre 0 et 1

    : • Si P(Spam = 1) ≥ t ⇒ alors “Spam” • Si P(Spam = 1) < t ⇒ alors “Ham” Ham Spam Ham Spam Ham Spam t 0 1 t t
  20. Métriques d’évaluation Spam Ham Ham Spam Spam Ham Spam Ham

    Ham Spam ... Spam Ham Spam Ham Spam Ham Ham Ham Spam Spam Prédiction Connu
  21. Métriques d’évaluation Spam Ham Ham Spam Spam Ham Spam Ham

    Ham Spam Spam Ham Spam Ham Spam Ham Spam Ham Spam Spam Prédiction Connu Connu Ham Spam Prédiction Spam Ham 4 3 1 2 Confusion Matrix 3 + 4 3 + 1 + 2 + 4 Accuracy = = 7 10 = 70 % = 4 6 = 66 % True Positive = 4 4 + 2 = 3 4 = 75 % True Negative = 3 + 1 3 Sensitivity Specificity
  22. Métriques d’évaluation (récap’) Negative Positive Negative Positive True Positives (TP)

    True Negatives (TN) False Negatives (FN) False Positives (FP) Résultat connu (la vérité) Résultat prédit TP ratio = Sensitivity = TP TP + FN TN ratio = Specificity = TP + TN TN + TP + FP + FN Accuracy = TN TN + FP
  23. Arbre de décision simple Var1 Var2 Split 1 Split 2

    Split 3 Split 4 Split 5 Split 6 var1 < 0.2 Oui var2 < 0.89 Non var1 < 0.46 var2 < 0.64 var1 < 0.7 var1 < 0.88
  24. Cas d’étude : Enron • Enron était une grande entreprise

    dans le domaine d’énergie, Houston - Texas • Octobre 2001, scandale ⇒ fraude massive ($60 Milliards) Dirigeants d’Enron Corp
  25. Cas d’étude : Enron • Suite à ce scandale, l’état

    de Californie a mené plusieurs sanctions à l’encontre d’Enron • Entre 2000 et 2001, la Californie a connu plusieurs blackouts
  26. Cas d’étude : Enron • Le FERC, soupçonne Enron d’avoir

    manipulé la capacité de génération d'énergie et forcer les prix à la hausse • Les enquêteurs cherchent à déterminer le rôle Enron pendant la crise et estiment une amende de $1.52 Milliards
  27. Cas d’étude : Enron • Pour mener l'enquête, les avocats

    disposent de plus de 600 000 e-mails de 158 directeurs exécutifs • Il faut trouver des informations compromettantes, pièces à conviction
  28. Cas d’étude : Enron • Méthode traditionnelle : rechercher par

    des mots clés ◦ “prix de l'électricité” ◦ “planning distribution d’énergie” • Cette méthode prend beaucoup de temps et coûte chère ◦ Un avocat peut étudier entre 80-125 e-mails (avec PJ) par jour ◦ Les honoraires peuvent coûter jusqu’à $1 000/jour ◦ La justice accepte seulement les documents vérifiés par un avocat agrée