Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#19 Introduction aux statistiques

#19 Introduction aux statistiques

Si vous faites du Machine Learning, et que vous vous dites que vous ne connaissez rien aux statistiques, vous êtes comme M. Jourdain… vous faites des statistiques sans le savoir!

Alors, qu’appelle -t-on des statistiques?

Sam Hee Lazare vous propose de le découvrir dans une approche participative!

Au programme:

• La statistique vs les statistiques

• Data science, Machine Learning, Data mining, les statistiques… de quoi parle-t-on?

• Comment lire les statistiques?

---------------
Bio :

Sam Hee Lazare est diplômée de l’Ecole Nationale de la Statistique et de l’Analyse de l’Information et de Toulouse Business School.

Membre du cluster Digital Place dans la commission Big Data, elle travaille actuellement en tant que consultante en valorisation des données et intervient à TBS pour démontrer les impacts de l’utilisation de la Data Science dans les domaines du marketing et des ressources humaines.

---
Lien vers meet-up : https://www.meetup.com/fr-FR/Tlse-Data-Science/events/236120502/

Toulouse Data Science

December 14, 2016
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. Introduction aux statistiques
    Décembre 2016

    View Slide

  2. Sommaire
    01 – INTRODUCTION RAPIDE
    03 – RAISONNEMENTS
    05 - CONCLUSION
    02 – LA STATISTIQUE?
    04 - CONSEQUENCES

    View Slide

  3. La Statistique versus les statistiques?
    La statistique est l'étude de la collecte de données, leur analyse, leur
    traitement, l'interprétation des résultats et leur présentation afin de rendre les
    données compréhensibles par tous.
    C'est à la fois une science, une méthode et un ensemble de techniques.
    La Statistique = la science statistique
    Les statistiques = les indicateurs statistiques
    Une statistique est le résultat d'une suite d'opérations appliquées à un
    ensemble de nombres appelé échantillon. C’est une variable aléatoire, une
    fonction d'un vecteur composée de plusieurs observations d'une loi. C’est la
    connaissance des propriétés de cette loi qui permet de calculer des
    estimations.
    Apprendre la Statistique c’est apprendre à raisonner dans l’incertain!

    View Slide

  4. La Statistique versus les statistiques?
    La Statistique est composée de plusieurs familles, en voici quelques unes:
    • La statistique inférentielle: observer des phénomènes à partir
    d’échantillons
    • La statistique descriptive
    • La statistique non paramétrique (la loi de la variable aléatoire n’est pas
    connue)
    • La théorie des sondages
    • Les mesures répétées
    • Les séries temporelles (ou chronologiques)
    • Les modèles de survie…

    View Slide

  5. La Statistique versus les statistiques?
    La Statistique possède une composante théorique ainsi qu'une composante
    appliquée. La composante théorique s'appuie sur la théorie des probabilités.
    La statistique appliquée est utilisée dans presque tous les domaines de
    l'activité humaine:
    • géophysique, prévisions météorologiques, climatologie, pollution…
    • démographie : le recensement…
    • sciences économiques et sociales, économétrie, sociologie
    • marketing
    • jeux de hasard et les paris tels que le loto ou les paris équestres,
    • physique : mécanique statistique, thermodynamique statistique
    • métrologie, pour tout ce qui concerne les systèmes de mesure et les
    mesures elles-mêmes
    • médecine et en psychologie, tant pour le comportement des maladies que
    leur fréquence ou la validité d'un traitement ou d'un dépistage ar
    • assurance, finance (calcul des risques, actuariat, etc.)
    • informatique, surtout en algorithmique (anti-crénelage, interpolation
    numérique) …..

    View Slide

  6. Data Science, data mining, machine learning…
    La Statistique est pour les uns un domaine des mathématiques, pour les autres
    (en particulier les anglo-saxons) une discipline à part entière hors des
    mathématiques.
    L’exploration de données ou Data Mining a pour objet l’extraction d'un savoir ou
    d'une connaissance à partir de grandes quantités de données, par des méthodes
    automatiques ou semi-automatiques.
    L'apprentissage automatique ou Machine Learning concerne la conception,
    l'analyse, le développement et l'implémentation de méthodes permettant à une
    machine (au sens large) d'évoluer par un processus systématique.
    Un exemple possible d'apprentissage automatique est celui de la classification :
    étiqueter chaque donnée en l'associant à une classe.
    La Data Science est une discipline qui s'appuie sur des outils mathématiques, de
    statistiques, d'informatique et de visualisation des données.

    View Slide

  7. Un premier problème mathématique
    On décide de faire des frites pour le TDS!
    Achat de 100 kilos de pommes de terres,
    contenant 1% de matière sèche.
    Problème: considérant qu’il y a trop d’eau
    pour faire de bonnes frites je décide de
    réduire l’eau de mes pommes de terres afin
    que celle-ci ne représente plus que 98% .
    Question: quelle est la masse finale de mes
    pommes de terre?

    View Slide

  8. Un premier problème mathématique
    A. toujours 100 kilos!
    B. 97.2 kilos
    C. 50 kilos
    D. Avec du ketchup ou de la mayo?

    View Slide

  9. Un premier problème mathématique
    A. toujours 100 kilos!
    B. 97.2 kilos
    C. 50 kilos
    D. Avec du ketchup ou de la mayo?
    Au départ 1 kilo de matière sèche représente
    1% de la masse initiale de 100 kilos
    Au final je veux que ce kilo représente 2% de
    la masse finale => donc la masse finale est
    100/2 soit 50 kilos

    View Slide

  10. Une affaire de chance…
    P F F
    Test: lancer une pièce
    de monnaie jusqu’à
    obtenir PFF.
    Imaginons que plusieurs personnes fassent le test: la première
    obtient PFF après 10 lancers, la seconde après 4 lancers, la
    troisième après 15 lancers….

    View Slide

  11. Une affaire de chance…
    P F P
    Test: lancer une pièce
    de monnaie jusqu’à
    obtenir PFP.
    Imaginons que plusieurs personnes fassent le test: la première
    obtient PFP après 8 lancers, la seconde après 5 lancers, la
    troisième après 16 lancers….

    View Slide

  12. Une affaire de chance…
    P F P
    P F F
    Calculons la moyenne de
    chacun des cas observés, ie
    combien de fois en moyenne
    il faut lancer la pièce pour
    obtenir la suite bleue, puis la
    suite orange
    A. La moyenne pour obtenir la suite PFF est
    supérieure à la moyenne pour obtenir la suite PFP
    B. Les deux moyennes sont égales
    C. La moyenne pour obtenir la suite PFP est
    supérieure à la moyenne pour obtenir la suite PFF

    View Slide

  13. Une affaire de chance…
    P F P
    P F F Moyenne PFF = 8
    A. La moyenne pour obtenir la suite PFF est
    supérieure à la moyenne pour obtenir la suite PFP
    B. Les deux moyennes sont égales
    C. La moyenne pour obtenir la suite PFP est
    supérieure à la moyenne pour obtenir la suite PFF
    Moyenne PFP = 10

    View Slide

  14. Une affaire de chance…
    P
    F
    P
    P F F F
    F P F
    P

    View Slide

  15. Corrélation, causalité, coïncidence…
    http://www.lepoint.fr/insolite/plus-un-pays-mange-de-chocolat-plus-il-a-de-prix-nobel-
    revele-une-etude-11-10-2012-1515892_48.php
    La Suède fait exception. Alors
    qu'avec 6,4 kilos de chocolat
    consommé par an et par tête elle
    aurait dû produire quelque 14 prix
    Nobel selon ces calculs, elle en a
    compté en fait 32, relève le Dr
    Messerli.
    Il y a deux explications possibles
    ironise-t-il: "Soit que le comité de
    Stockholm du Nobel favorise ses
    nationaux, soit que les Suédois sont
    particulièrement sensibles aux
    effets du chocolat".
    Le chercheur souligne que ces
    données sont basées sur des
    moyennes de consommation par
    pays et que les quantités de
    chocolat consommées
    individuellement par des lauréats du
    Nobel "restent inconnues", tout
    comme les doses cumulées de cacao
    nécessaires pour accroître ses
    chances de devenir un Nobel.

    View Slide

  16. Corrélation, causalité, coïncidence…

    View Slide

  17. Corrélation, causalité, coïncidence…

    View Slide

  18. Corrélation, causalité, coïncidence…

    View Slide

  19. Corrélation, causalité, coïncidence…
    Additionally, for
    18 countries
    where data was
    available, the
    level of chocolate
    consumption per
    capita is
    significantly
    correlated with
    the (log) number
    of serial killers
    and rampage
    killers per capita
    (r = 0.52, p=0.02)

    View Slide

  20. Interprétation d’un test statistique
    Imaginons un test médical permettant de prédire si vous avez une maladie. Ce
    test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100.
    Prenons une personne au hasard et faisons le test
    sur cette personne: le test est positif.
    Quel est le pourcentage de chance que la personne
    soit effectivement malade?
    A. 99%
    B. Je ne peux pas le savoir
    C. 1%

    View Slide

  21. Interprétation d’un test statistique
    Imaginons un test médical permettant de prédire si vous avez une maladie. Ce
    test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100
    Prenons une personne au hasard et faisons le test
    sur cette personne: le test est positif.
    Quel est le pourcentage de chance que la personne
    soit effectivement malade?
    A. 99%
    B. Je ne peux pas le savoir
    C. 1%

    View Slide

  22. Interprétation d’un test statistique
    Imaginons un test médical permettant de prédire si vous avez une maladie. Ce
    test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100
    Prenons une personne au hasard et faisons le test
    sur cette personne: le test est positif.
    Quel est le pourcentage de chance que la personne
    soit effectivement malade?
    Il faut questionner la vraisemblance de deux
    explications opposées, chacune de ces explications
    étant en partie vraisemblable et en partie peu
    vraisemblable.
    • Une explication est que la personne n'a pas la
    maladie (ce qui est extrêmement probable si vous
    prenez quelqu'un au hasard) et que le test est faux,
    ce qui est peu probable.
    • L'autre explication est que la personne a la maladie,
    (peu probable) et que le test est juste, ce qui est
    probable.

    View Slide

  23. Interprétation d’un test statistique
    Imaginons un test médical permettant de prédire si vous avez une maladie. Ce
    test n’est pas infaillible mais il est plutôt bon, il est juste 99 fois sur 100
    La réponse dépend en fait de la rareté de la maladie, la
    prévalence, et non pas du test médical.
    Prenons une maladie rare, affectant 1 personne sur
    10 000.
    Parmi 1 million d'individus, la plupart sont en bonne
    santé et seulement 100 ont la maladie.
    • Sur les 100 malades, le test aura la bonne réponse 99 fois
    sur cent, et 99 seront testés positifs: j’ai 1 faux négatif.
    • Sur 999 900 personnes en bonne santé, le test répondra
    juste à 99%. Il sera faux seulement 1 fois 100. Mais il y a
    tellement de gens qu'il y aura 9 999 de faux positifs

    View Slide

  24. Un cas réel: Sally Clark
    Sally Clark a été condamnée en 1999
    pour la mort de ses deux bébés.
    Le premier diagnostic était, pour les
    deux enfants, « mort subite du
    nourrisson ».

    View Slide

  25. Un cas réel: Sally Clark
    Le procureur s’est appuyé sur le témoignage
    d’un pédiatre, expert de la mort subite du
    nourrisson, pour faire condamner Sally Clark.
    Cet expert a affirmé que le probabilité qu’il y
    ait deux morts subites du nourrisson dans la
    même famille était de 1 sur 73 000 000.
    Ce procès combine les trois erreurs dont
    nous avons parlé!

    View Slide

  26. Un cas réel: Sally Clark
    La première erreur vient du pédiatre:
    la prévalence de la mort subite du nourrisson
    est de 1 sur 8 500.
    Pour trouver la probabilité qu’il y ait deux
    morts subites du nourrisson dans une même
    famille, il a simplement fait:
    1 sur (8 500)² parce que c’est arrivé deux
    fois!
    Depuis l’exercice des pièces, vous savez que
    c’est faux: l’hypothèse d’indépendance n’est
    pas respectée.
    Si une famille est victime d'une mort subite
    du nourrisson, elle devient de fait partie d'un
    groupe à haut risque, et la probabilité d’avoir
    une deuxième mort subite est probablement
    beaucoup plus élevée.

    View Slide

  27. Un cas réel: Sally Clark
    La deuxième erreur vient du procureur:
    Il s’appuie sur ce témoignage pour affirmer qu’il y a 1
    chance sur 73 millions que les morts soient naturelles
    (donc que Sally Clark soit innocente)
    Depuis l’exemple du test médical, vous savez que c’est
    faux: la probabilité d’un faux positif n’est pas égale à la
    probabilité d’un faux négatif.
    Nous voulons savoir la probabilité de deux explications
    différentes:
    • Sally Clark était innocente (ce qui est, a priori,
    extrêmement probable car la plupart des mères ne
    tuent pas leur enfants) et la seconde partie de
    l'explication est qu'elle a subi un évènement
    incroyablement improbable.
    • L'autre explication est qu'elle est coupable, nous
    pouvons penser a priori que c'est improbable.
    Les éléments donnés ne permettent pas de le dire!

    View Slide

  28. Un cas réel: Sally Clark
    La troisième erreur vient du jury et du public:
    Le témoin de l’accusation était présenté comme un
    expert.
    Cependant, cet pédiatre n’était pas un expert en
    théorie statistique, mais personne n’a remis en cause
    son témoignage.

    View Slide

  29. Conclusion
    “Statistics are like bikinis. What they reveal is suggestive, but what
    they conceal is vital.”
    Aaron Levenstein
    1901-1986
    Statisticien et professeur américain
    Un test statistique permet de construire un raisonnement, mais nous sommes
    dans le domaine de l’incertain.
    Dans le cadre des probabilités, nous (statisticiens) sommes conscients de ne pas
    pouvoir apporter une réponse certaine!

    View Slide

  30. Bibliographie
    https://fr.wikipedia.org/wiki/Statistique
    https://www.ted.com/talks/peter_donnelly_shows_how_stats_fool_juries?la
    nguage=fr#t-324361
    http://passeurdesciences.blog.lemonde.fr/2012/11/21/le-chocolat-engendre-
    t-il-des-tueurs-en-serie/
    http://www.vulgarisation-
    scientifique.com/wiki/Pages/Pas_de_laur%C3%A9at_pas_de_chocolat_m%C3
    %A9fiez-vous_des_statistiques
    https://ibmathsresources.com/tag/amanda-knox/
    http://www.courrierinternational.com/grand-format/statistiques-les-
    correlations-de-labsurde
    http://replicatedtypo.com/wp-
    content/uploads/2012/11/ChocolateSerialKillers_WintersRoberts.pdf

    View Slide

  31. View Slide