Upgrade to Pro — share decks privately, control downloads, hide ads and more …

(2024) Faire/défaire une fake news (v2)

(2024) Faire/défaire une fake news (v2)

Version mise à jour d'un exposé (pour la médiathèque d'Orléans) sur l'utilisation de la loi de Benford pour construire une fake news puis examiner sa "crédibilité".
Il s'agit autant d'une intervention de culture mathématique que d'éducation aux médias.

Roger Mansuy

October 10, 2024
Tweet

More Decks by Roger Mansuy

Other Decks in Education

Transcript

  1. Définition et exemples Une fake news (infox ou information fallacieuse)

    est une information mensongère, manipulée intentionnellement dans le but d’induire le public en erreur à des fins politiques, économiques ou (plus rarement) personnelles.
  2. • En 2003, l’Irak de Saddam Hussein dispose d’armes de

    destruction massive qui menace la paix mondiale. • En 2008, Barack Obama n’est pas un candidat légitime pour la présidentielle car né hors des États-Unis. • En 2017, les usines de charbon allemandes sont responsables des pics de pollution en France. • En 2020, en pleine pandémie de COVID-19, une clinique privée refuse une patiente qui n’avait pas de pass sanitaire. • En 2020, lors de la présidentielle US, il y a eu plus de bulletins que d’électeurs dans le Wisconsin. • En 2024, des migrants à Springfield mangent des chiens et des chats. Exemples de fake news récentes
  3. Certains ”auteurs” tentent d’augmenter la crédibilité de leurs fausses informations

    en invoquant des ”études scientifiques”. Selon une étude britannique, la pratique des sports de raquette réduit les risques cardiovasculaires.
  4. Certains ”auteurs” tentent d’augmenter la crédibilité de leurs fausses informations

    en invoquant des ”études scientifiques”. Selon une étude britannique, la pratique des sports de raquette réduit les risques cardiovasculaires. Selon une étude médicale, les personnes qui boivent jusqu’à quatre verres de vin par jour ont une meilleure espérance de vie que celles qui n’en boivent pas du tout.
  5. Certains ”auteurs” tentent d’augmenter la crédibilité de leurs fausses informations

    en invoquant des ”études scientifiques”. Selon une étude britannique, la pratique des sports de raquette réduit les risques cardiovasculaires. Selon une étude médicale, les personnes qui boivent jusqu’à quatre verres de vin par jour ont une meilleure espérance de vie que celles qui n’en boivent pas du tout. Selon une étude américaine, les personnes qui assistent à des exposés de mathématiques dans la médiathèque d’Orléans sont très intelligentes.
  6. The law of anomalous numbers, Frank Benford, Proceedings of the

    American Philosophical Society, Vol. 78, No. 4 (Mar. 31, 1938), pp. 551-572
  7. d log(1 + 1 d ) 1 0, 3010 2

    0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458
  8. d log(1 + 1 d ) 1 0, 3010 2

    0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458 D’après Newcomb, la proportion des données dont le premier chiffre est d est log(1 + 1 d ).
  9. Loi de Benford: Pour un grand échantillon de données naturelles,

    la loi de répartition du premier chiffre correspond à l’histogramme suivant: 1 2 3 4 5 6 7 8 9 0, 4 0, 2
  10. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  11. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  12. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 1 2 3 4 5 6 7 8 9 0, 4 0, 2 loi de Benford données Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  13. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Nombre de candidats pour chacune des (plus de 13000) formations Par- coursup
  14. Exemples avec la ville de Tours Examinons quelques jeux de

    données issus du portail OPENDATA Tours Métropole Val de Loire: https://data.tours-metropole.fr/
  15. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Aires des 542 espaces verts (jardin, petit parc, square, terrain de sport ex- térieur) de Tours Métropole Val de Loire
  16. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Comptages quotidiens de vélos par localisation des sites de comptage dans Tours en 2023
  17. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Fréquentation mensuelle des différentes lignes Filbleu entre 2018 et 2022
  18. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Nombres d’infractions constatées par la police municipale de Tours en- tre 2021 et 2023 regroupées par code NATINF (69276 infractions dans 100 catégories)
  19. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Montants réalisés des dépenses de la ville de Tours (budget principal 2023)
  20. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire
  21. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire
  22. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire On observe une ”déviation” par rapport à la loi de Benford: elle peut être comprise comme une ”manipulation” des données.
  23. Élection présidentielle de 2022 Notre exercice va être de créer

    une fake news ”l’élection 2022 a été truquée” à partir de la loi de Benford puis de montrer comment on peut la récuser.
  24. Pour l’élection présidentielle de 2022, il y avait 69682 bureaux

    de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits
  25. Pour l’élection présidentielle de 2022, il y avait 69682 bureaux

    de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits → On va réduire le nombre de bureaux de vote considérés pour éliminer les cas extrêmes tout en conservant de la ”représentativité” et un nombre assez ”grand” de bureaux de vote.
  26. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer...
  27. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne
  28. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne Sur ces bureaux de vote, le candidat Emmanuel Macron, président sortant, obtient 24% des suffrages exprimés au premier tour de l’élection.
  29. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022
  30. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022
  31. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022 Le 1 n’est pas le premier chiffre le plus fréquent. Le 3 est le premier chiffre le plus fréquent, puis le 4. Cela ne ressemble pas du tout à la loi de Benford!
  32. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Numéros de Sécurité Sociale dans la population française
  33. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Années de naissance des élèves en collège
  34. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Puisances de 10
  35. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 999
  36. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456
  37. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  38. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  39. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  40. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 nombres qui commencent par un 4
  41. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4
  42. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres
  43. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres Notons ces proportions sur l’histogramme.
  44. Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B,

    α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel.
  45. Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B,

    α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel. La suite des puissances de 2 respecte la loi de Benford d’après ce théorème (avec A = 1, B = 0, α = 2 et β = 1 et la propriété log 2 irrationnel).
  46. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premières puissances de 2
  47. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence
  48. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1
  49. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2
  50. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3
  51. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5
  52. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8
  53. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8 6e mois 13 7e mois 21 8e mois 34 9e mois 55
  54. Cette suite de nombre est baptisée suite de Fibonacci au

    XIXe siècle. Le n-ème terme de cette suite est donné par l’expression 1 √ 5 ( 1 + √ 5 2 ) n − 1 √ 5 ( 1 − √ 5 2 ) n , donc de la forme précédente (avec A = 1 √ 5 , B = − 1 √ 5 , α = 1+ √ 5 2 et β = 1− √ 5 2 ).
  55. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premiers termes de la suite de Fibonacci
  56. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premiers termes de la suite de Fibonacci La suite respecte la loi de Benford d’après ce théorème (car log 1+ √ 5 2 est irrationnel).
  57. Dressons un bilan de ces exemples illustratifs. • Notre série

    de nombres n’est pas de la forme requise par le critère mathématique. • Notre série de nombres correspond bien à des quantités et pas à des nombres ”indicatifs”. • Notre série de nombres ne s’étend malheureusement pas sur plusieurs ordres de grandeur. Sur les 16571 bureaux de vote considérés, il y en a 16123 où Emmanuel Macron obtient entre 10 et 99 voix.
  58. Dressons un bilan de ces exemples illustratifs. • Notre série

    de nombres n’est pas de la forme requise par le critère mathématique. • Notre série de nombres correspond bien à des quantités et pas à des nombres ”indicatifs”. • Notre série de nombres ne s’étend malheureusement pas sur plusieurs ordres de grandeur. Sur les 16571 bureaux de vote considérés, il y en a 16123 où Emmanuel Macron obtient entre 10 et 99 voix. Il n’y a aucune raison a priori que ces données suivent la loi de Benford, donc on ne peut rien déduire du fait qu’elle ne la suive pas.
  59. De manière empirique, pour dire qu’une série de nombres devrait

    suivre la loi de Benford, on ajoute les conditions suivantes: • la moyenne est supérieure à la médiane, • le coefficient d’asymétrie (moment d’ordre 3 de la série centrée) est positif.
  60. Retour sur l’élection présidentielle de 2022 Ré-examinons la fake news

    ”l’élection 2022 a été truquée” avec notre nouveau savoir.
  61. Considérons les 5854 bureaux de vote ayant comptabilisé plus de

    900 votants: ces nombres vont de 900 à 54751.
  62. Considérons les 5854 bureaux de vote ayant comptabilisé plus de

    900 votants: ces nombres vont de 900 à 54751. Le candidat Emmanuel Macron a obtenu dans ces bureaux entre 45 et 23903 voix: on couvre bien plusieurs ordres de grandeur.
  63. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022
  64. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022 Le même phénomène apparaît sur l’ensemble des bureaux de vote avec plus de 900 votants
  65. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3
  66. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur.
  67. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur. Même limitation qu’avant...
  68. Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on

    veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!
  69. Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on

    veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!
  70. Bonus: la loi de Benford, inutile? ”Dans un article publié

    en 1972, l’économiste Hal Varian propose l’idée d’utiliser la loi de Benford pour détecter la fraude fiscale” https://fr.wikipedia.org/wiki/Loi_de_Benford
  71. Au fait, l’élection présidentielle de 2022? 1 2 3 4

    5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur l’intégralité des bureaux de vote au premier tour de l’élection présidentielle de 2022
  72. Et l’élection municipale de 2020? 1 2 3 4 5

    6 7 8 9 0, 6 0, 4 0, 2 Scores par bureau de votes de Serge Grouard au second tour de l’élection municipale à Orléans en 2020