Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

(2024) Faire/défaire une fake news

(2024) Faire/défaire une fake news

Exposé pour les trophées Kangourou le 8 juin 2024 à l'Institut Henri Poincaré (Paris). Le sujet consiste à utiliser la loi de Benford pour construire une fake news puis d'examiner la "crédibilité" de celle-ci. Il s'agit autant d'une intervention de culture mathématique que d'éducation aux médias.

Roger Mansuy

May 23, 2024
Tweet

More Decks by Roger Mansuy

Other Decks in Education

Transcript

  1. The law of anomalous numbers, Frank Benford, Proceedings of the

    American Philosophical Society, Vol. 78, No. 4 (Mar. 31, 1938), pp. 551-572
  2. d log(1 + 1 d ) 1 0, 3010 2

    0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458
  3. d log(1 + 1 d ) 1 0, 3010 2

    0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458 D’après Newcomb, la proportion des données dont le premier chiffre est d est log(1 + 1 d ).
  4. Loi de Benford Pour un grand échantillon de données naturelles,

    la loi de répartition du premier chiffre correspond à l’histogramme suivant: 1 2 3 4 5 6 7 8 9 0, 4 0, 2
  5. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  6. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  7. donnée 1er chiffre 16030 1 21130 2 33402 3 29064

    2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 1 2 3 4 5 6 7 8 9 0, 4 0, 2 loi de Benford données Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)
  8. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Nombre de candidats pour chacune des (plus de 13000) formations Par- coursup
  9. Exemples dans la ville de Tours Examinons quelques jeux de

    données issus du portail OPENDATA Tours Métropole Val de Loire: https://data.tours-metropole.fr/
  10. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Aires des 542 espaces verts (jardin, petit parc, square, terrain de sport ex- térieur) de Tours Métropole Val de Loire
  11. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Comptages quotidiens de vélos par localisation des sites de comptage dans Tours en 2023
  12. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Fréquentation mensuelle des différentes lignes Filbleu entre 2018 et 2022
  13. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Nombres d’infractions constatées par la police municipale de Tours en- tre 2021 et 2023 regroupées par code NATINF (69276 infractions dans 100 catégories)
  14. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Montants réalisés des dépenses de la ville de Tours (budget principal 2023)
  15. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire
  16. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire
  17. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire On observe une ”déviation” par rapport à la loi de Benford: elle peut être comprise comme une ”manipulation” des données.
  18. Élection présidentielle de 2022 Notre exercice va être de créer

    une fake news ”l’élection 2022 a été truquée” à partir de la loi de Benford puis de montrer comment on peut la récuser.
  19. Pour l’élection présidentielle de 2022, il y avait 69682 bureaux

    de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits
  20. Pour l’élection présidentielle de 2022, il y avait 69682 bureaux

    de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits → On va réduire le nombre de bureaux de vote considérés pour éliminer les cas extrêmes tout en conservant de la ”représentativité” et un nombre assez ”grand” de bureaux de vote.
  21. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer...
  22. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne
  23. Pour construire notre fake news, on va considérer TOUS les

    bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne Sur ces bureaux de vote, le candidat Emmanuel Macron, président sortant, obtient 24% des suffrages exprimés au premier tour de l’élection.
  24. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022
  25. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022
  26. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022 Le 1 n’est pas le premier chiffre le plus fréquent. Le 3 est le premier chiffre le plus fréquent, puis le 4. Cela ne ressemble pas du tout à la loi de Benford!
  27. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Numéros de Sécurité Sociale dans la population française
  28. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Années de naissance des élèves en collège
  29. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 999
  30. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456
  31. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  32. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  33. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4
  34. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 nombres qui commencent par un 4
  35. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4
  36. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres
  37. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres Notons ces proportions sur l’histogramme.
  38. Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B,

    α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel.
  39. Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B,

    α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel. La suite des puissances de 10 ne respecte pas la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 10 et β = 1 et la propriété log 10 = 1 rationnel.
  40. Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B,

    α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel. La suite des puissances de 10 ne respecte pas la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 10 et β = 1 et la propriété log 10 = 1 rationnel. La suite des puissances de 2 respecte la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 2 et β = 1 et la propriété log 2 irrationnel.
  41. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premières puissances de 2
  42. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence
  43. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1
  44. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2
  45. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3
  46. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5
  47. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8
  48. Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire

    de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8 6e mois 13 7e mois 21 8e mois 34 9e mois 55
  49. Cette suite de nombre est baptisée suite de Fibonacci au

    XIXe siècle. Le n-ème terme de cette suite est donné par l’expression 1 √ 5 ( 1 + √ 5 2 ) n − 1 √ 5 ( 1 − √ 5 2 ) n , donc de la forme précédente avec A = 1 √ 5 , B = − 1 √ 5 , α = 1+ √ 5 2 et β = 1− √ 5 2 .
  50. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premiers termes de la suite de Fibonacci
  51. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 200 premiers termes de la suite de Fibonacci La suite respecte la loi de Benford d’après ce théorème car log 1+ √ 5 2 est irrationnel.
  52. Dressons un bilan de ces exemples illustratifs. • Notre série

    de nombres n’est pas de la forme requise par le critère mathématique. • Notre série de nombres correspond bien à des quantités et pas à des nombres ”indicatifs”. • Notre série de nombres ne s’étend malheureusement pas sur plusieurs ordres de grandeur. Sur les 16571 bureaux de vote considérés, il y en a 16123 où Emmanuel Macron obtient entre 10 et 99 voix.
  53. De manière empirique, pour dire qu’une série de nombres devrait

    suivre la loi de Benford, on ajoute les conditions suivantes: • la moyenne est supérieure à la médiane, • le coefficient d’asymétrie (moment d’ordre 3 de la série centrée) est positif.
  54. Retour sur l’élection présidentielle de 2022 Ré-examinons la fake news

    ”l’élection 2022 a été truquée” avec notre nouveau savoir.
  55. Considérons les 5854 bureaux de vote ayant comptabilisé plus de

    900 votants: ces nombres vont de 900 à 54751.
  56. Considérons les 5854 bureaux de vote ayant comptabilisé plus de

    900 votants: ces nombres vont de 900 à 54751. Le candidat Emmanuel Macron a obtenu dans ces bureaux entre 45 et 23903 voix: on couvre bien plusieurs ordres de grandeur.
  57. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022
  58. 1 2 3 4 5 6 7 8 9 0,

    4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022 Le même phénomène apparaît sur l’ensemble des bureaux de vote avec plus de 900 votants
  59. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3
  60. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur.
  61. Analysons plus précisément les données utilisées pour cet histogramme: nombre

    de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur. Même limitation qu’avant...
  62. Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on

    veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!
  63. Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on

    veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!
  64. ”Dans un article publié en 1972, l’économiste Hal Varian propose

    l’idée d’utiliser la loi de Benford pour détecter la fraude fiscale” https://fr.wikipedia.org/wiki/Loi_de_Benford Hal Varian, « Benford’s Law », The American Statistician, vol. 26, no 3, juin 1972, p. 65-66
  65. ”Dans un article publié en 1972, l’économiste Hal Varian propose

    l’idée d’utiliser la loi de Benford pour détecter la fraude fiscale” https://fr.wikipedia.org/wiki/Loi_de_Benford Hal Varian, « Benford’s Law », The American Statistician, vol. 26, no 3, juin 1972, p. 65-66 La vraie fake news?
  66. Au fait, l’élection présidentielle de 2022? 1 2 3 4

    5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur l’intégralité des bureaux de vote au premier tour de l’élection présidentielle de 2022