#19 Introduction aux statistiques

#19 Introduction aux statistiques

Si vous faites du Machine Learning, et que vous vous dites que vous ne connaissez rien aux statistiques, vous êtes comme M. Jourdain… vous faites des statistiques sans le savoir!

Alors, qu’appelle -t-on des statistiques?

Sam Hee Lazare vous propose de le découvrir dans une approche participative!

Au programme:

• La statistique vs les statistiques

• Data science, Machine Learning, Data mining, les statistiques… de quoi parle-t-on?

• Comment lire les statistiques?

---------------
Bio :

Sam Hee Lazare est diplômée de l’Ecole Nationale de la Statistique et de l’Analyse de l’Information et de Toulouse Business School.

Membre du cluster Digital Place dans la commission Big Data, elle travaille actuellement en tant que consultante en valorisation des données et intervient à TBS pour démontrer les impacts de l’utilisation de la Data Science dans les domaines du marketing et des ressources humaines.

---
Lien vers meet-up : https://www.meetup.com/fr-FR/Tlse-Data-Science/events/236120502/

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

December 14, 2016
Tweet

Transcript

  1. Introduction aux statistiques Décembre 2016

  2. Sommaire 01 – INTRODUCTION RAPIDE 03 – RAISONNEMENTS 05 -

    CONCLUSION 02 – LA STATISTIQUE? 04 - CONSEQUENCES
  3. La Statistique versus les statistiques? La statistique est l'étude de

    la collecte de données, leur analyse, leur traitement, l'interprétation des résultats et leur présentation afin de rendre les données compréhensibles par tous. C'est à la fois une science, une méthode et un ensemble de techniques. La Statistique = la science statistique Les statistiques = les indicateurs statistiques Une statistique est le résultat d'une suite d'opérations appliquées à un ensemble de nombres appelé échantillon. C’est une variable aléatoire, une fonction d'un vecteur composée de plusieurs observations d'une loi. C’est la connaissance des propriétés de cette loi qui permet de calculer des estimations. Apprendre la Statistique c’est apprendre à raisonner dans l’incertain!
  4. La Statistique versus les statistiques? La Statistique est composée de

    plusieurs familles, en voici quelques unes: • La statistique inférentielle: observer des phénomènes à partir d’échantillons • La statistique descriptive • La statistique non paramétrique (la loi de la variable aléatoire n’est pas connue) • La théorie des sondages • Les mesures répétées • Les séries temporelles (ou chronologiques) • Les modèles de survie…
  5. La Statistique versus les statistiques? La Statistique possède une composante

    théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur la théorie des probabilités. La statistique appliquée est utilisée dans presque tous les domaines de l'activité humaine: • géophysique, prévisions météorologiques, climatologie, pollution… • démographie : le recensement… • sciences économiques et sociales, économétrie, sociologie • marketing • jeux de hasard et les paris tels que le loto ou les paris équestres, • physique : mécanique statistique, thermodynamique statistique • métrologie, pour tout ce qui concerne les systèmes de mesure et les mesures elles-mêmes • médecine et en psychologie, tant pour le comportement des maladies que leur fréquence ou la validité d'un traitement ou d'un dépistage ar • assurance, finance (calcul des risques, actuariat, etc.) • informatique, surtout en algorithmique (anti-crénelage, interpolation numérique) …..
  6. Data Science, data mining, machine learning… La Statistique est pour

    les uns un domaine des mathématiques, pour les autres (en particulier les anglo-saxons) une discipline à part entière hors des mathématiques. L’exploration de données ou Data Mining a pour objet l’extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. L'apprentissage automatique ou Machine Learning concerne la conception, l'analyse, le développement et l'implémentation de méthodes permettant à une machine (au sens large) d'évoluer par un processus systématique. Un exemple possible d'apprentissage automatique est celui de la classification : étiqueter chaque donnée en l'associant à une classe. La Data Science est une discipline qui s'appuie sur des outils mathématiques, de statistiques, d'informatique et de visualisation des données.
  7. Un premier problème mathématique On décide de faire des frites

    pour le TDS! Achat de 100 kilos de pommes de terres, contenant 1% de matière sèche. Problème: considérant qu’il y a trop d’eau pour faire de bonnes frites je décide de réduire l’eau de mes pommes de terres afin que celle-ci ne représente plus que 98% . Question: quelle est la masse finale de mes pommes de terre?
  8. Un premier problème mathématique A. toujours 100 kilos! B. 97.2

    kilos C. 50 kilos D. Avec du ketchup ou de la mayo?
  9. Un premier problème mathématique A. toujours 100 kilos! B. 97.2

    kilos C. 50 kilos D. Avec du ketchup ou de la mayo? Au départ 1 kilo de matière sèche représente 1% de la masse initiale de 100 kilos Au final je veux que ce kilo représente 2% de la masse finale => donc la masse finale est 100/2 soit 50 kilos
  10. Une affaire de chance… P F F Test: lancer une

    pièce de monnaie jusqu’à obtenir PFF. Imaginons que plusieurs personnes fassent le test: la première obtient PFF après 10 lancers, la seconde après 4 lancers, la troisième après 15 lancers….
  11. Une affaire de chance… P F P Test: lancer une

    pièce de monnaie jusqu’à obtenir PFP. Imaginons que plusieurs personnes fassent le test: la première obtient PFP après 8 lancers, la seconde après 5 lancers, la troisième après 16 lancers….
  12. Une affaire de chance… P F P P F F

    Calculons la moyenne de chacun des cas observés, ie combien de fois en moyenne il faut lancer la pièce pour obtenir la suite bleue, puis la suite orange A. La moyenne pour obtenir la suite PFF est supérieure à la moyenne pour obtenir la suite PFP B. Les deux moyennes sont égales C. La moyenne pour obtenir la suite PFP est supérieure à la moyenne pour obtenir la suite PFF
  13. Une affaire de chance… P F P P F F

    Moyenne PFF = 8 A. La moyenne pour obtenir la suite PFF est supérieure à la moyenne pour obtenir la suite PFP B. Les deux moyennes sont égales C. La moyenne pour obtenir la suite PFP est supérieure à la moyenne pour obtenir la suite PFF Moyenne PFP = 10
  14. Une affaire de chance… P F P P F F

    F F P F P
  15. Corrélation, causalité, coïncidence… http://www.lepoint.fr/insolite/plus-un-pays-mange-de-chocolat-plus-il-a-de-prix-nobel- revele-une-etude-11-10-2012-1515892_48.php La Suède fait exception. Alors

    qu'avec 6,4 kilos de chocolat consommé par an et par tête elle aurait dû produire quelque 14 prix Nobel selon ces calculs, elle en a compté en fait 32, relève le Dr Messerli. Il y a deux explications possibles ironise-t-il: "Soit que le comité de Stockholm du Nobel favorise ses nationaux, soit que les Suédois sont particulièrement sensibles aux effets du chocolat". Le chercheur souligne que ces données sont basées sur des moyennes de consommation par pays et que les quantités de chocolat consommées individuellement par des lauréats du Nobel "restent inconnues", tout comme les doses cumulées de cacao nécessaires pour accroître ses chances de devenir un Nobel.
  16. Corrélation, causalité, coïncidence…

  17. Corrélation, causalité, coïncidence…

  18. Corrélation, causalité, coïncidence…

  19. Corrélation, causalité, coïncidence… Additionally, for 18 countries where data was

    available, the level of chocolate consumption per capita is significantly correlated with the (log) number of serial killers and rampage killers per capita (r = 0.52, p=0.02)
  20. Interprétation d’un test statistique Imaginons un test médical permettant de

    prédire si vous avez une maladie. Ce test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100. Prenons une personne au hasard et faisons le test sur cette personne: le test est positif. Quel est le pourcentage de chance que la personne soit effectivement malade? A. 99% B. Je ne peux pas le savoir C. 1%
  21. Interprétation d’un test statistique Imaginons un test médical permettant de

    prédire si vous avez une maladie. Ce test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100 Prenons une personne au hasard et faisons le test sur cette personne: le test est positif. Quel est le pourcentage de chance que la personne soit effectivement malade? A. 99% B. Je ne peux pas le savoir C. 1%
  22. Interprétation d’un test statistique Imaginons un test médical permettant de

    prédire si vous avez une maladie. Ce test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100 Prenons une personne au hasard et faisons le test sur cette personne: le test est positif. Quel est le pourcentage de chance que la personne soit effectivement malade? Il faut questionner la vraisemblance de deux explications opposées, chacune de ces explications étant en partie vraisemblable et en partie peu vraisemblable. • Une explication est que la personne n'a pas la maladie (ce qui est extrêmement probable si vous prenez quelqu'un au hasard) et que le test est faux, ce qui est peu probable. • L'autre explication est que la personne a la maladie, (peu probable) et que le test est juste, ce qui est probable.
  23. Interprétation d’un test statistique Imaginons un test médical permettant de

    prédire si vous avez une maladie. Ce test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100 La réponse dépend en fait de la rareté de la maladie, la prévalence, et non pas du test médical. Prenons une maladie rare, affectant 1 personne sur 10 000. Parmi 1 million d'individus, la plupart sont en bonne santé et seulement 100 ont la maladie. • Sur les 100 malades, le test aura la bonne réponse 99 fois sur cent, et 99 seront testés positifs: j’ai 1 faux négatif. • Sur 999 900 personnes en bonne santé, le test répondra juste à 99%. Il sera faux seulement 1 fois 100. Mais il y a tellement de gens qu'il y aura 9 999 de faux positifs
  24. Un cas réel: Sally Clark Sally Clark a été condamnée

    en 1999 pour la mort de ses deux bébés. Le premier diagnostic était, pour les deux enfants, « mort subite du nourrisson ».
  25. Un cas réel: Sally Clark Le procureur s’est appuyé sur

    le témoignage d’un pédiatre, expert de la mort subite du nourrisson, pour faire condamner Sally Clark. Cet expert a affirmé que le probabilité qu’il y ait deux morts subites du nourrisson dans la même famille était de 1 sur 73 000 000. Ce procès combine les trois erreurs dont nous avons parlé!
  26. Un cas réel: Sally Clark La première erreur vient du

    pédiatre: la prévalence de la mort subite du nourrisson est de 1 sur 8 500. Pour trouver la probabilité qu’il y ait deux morts subites du nourrisson dans une même famille, il a simplement fait: 1 sur (8 500)² parce que c’est arrivé deux fois! Depuis l’exercice des pièces, vous savez que c’est faux: l’hypothèse d’indépendance n’est pas respectée. Si une famille est victime d'une mort subite du nourrisson, elle devient de fait partie d'un groupe à haut risque, et la probabilité d’avoir une deuxième mort subite est probablement beaucoup plus élevée.
  27. Un cas réel: Sally Clark La deuxième erreur vient du

    procureur: Il s’appuie sur ce témoignage pour affirmer qu’il y a 1 chance sur 73 millions que les morts soient naturelles (donc que Sally Clark soit innocente) Depuis l’exemple du test médical, vous savez que c’est faux: la probabilité d’un faux positif n’est pas égale à la probabilité d’un faux négatif. Nous voulons savoir la probabilité de deux explications différentes: • Sally Clark était innocente (ce qui est, a priori, extrêmement probable car la plupart des mères ne tuent pas leur enfants) et la seconde partie de l'explication est qu'elle a subi un évènement incroyablement improbable. • L'autre explication est qu'elle est coupable, nous pouvons penser a priori que c'est improbable. Les éléments donnés ne permettent pas de le dire!
  28. Un cas réel: Sally Clark La troisième erreur vient du

    jury et du public: Le témoin de l’accusation était présenté comme un expert. Cependant, cet pédiatre n’était pas un expert en théorie statistique, mais personne n’a remis en cause son témoignage.
  29. Conclusion “Statistics are like bikinis. What they reveal is suggestive,

    but what they conceal is vital.” Aaron Levenstein 1901-1986 Statisticien et professeur américain Un test statistique permet de construire un raisonnement, mais nous sommes dans le domaine de l’incertain. Dans le cadre des probabilités, nous (statisticiens) sommes conscients de ne pas pouvoir apporter une réponse certaine!
  30. Bibliographie https://fr.wikipedia.org/wiki/Statistique https://www.ted.com/talks/peter_donnelly_shows_how_stats_fool_juries?la nguage=fr#t-324361 http://passeurdesciences.blog.lemonde.fr/2012/11/21/le-chocolat-engendre- t-il-des-tueurs-en-serie/ http://www.vulgarisation- scientifique.com/wiki/Pages/Pas_de_laur%C3%A9at_pas_de_chocolat_m%C3 %A9fiez-vous_des_statistiques https://ibmathsresources.com/tag/amanda-knox/

    http://www.courrierinternational.com/grand-format/statistiques-les- correlations-de-labsurde http://replicatedtypo.com/wp- content/uploads/2012/11/ChocolateSerialKillers_WintersRoberts.pdf
  31. shl@deiteo-consulting.com