Slide 1

Slide 1 text

Faire/défaire une fake news Du bon usage des mathématiques... Roger Mansuy Trophées Kangourou 2024

Slide 2

Slide 2 text

Stellina, dessinatrice taïwanaise, Le Monde, 5 juin 2024

Slide 3

Slide 3 text

The law of anomalous numbers, Frank Benford, Proceedings of the American Philosophical Society, Vol. 78, No. 4 (Mar. 31, 1938), pp. 551-572

Slide 4

Slide 4 text

Frank Benford (1883-1948) ↬ 1938

Slide 5

Slide 5 text

Jérôme Franel (1859-1939) ↬ 1917 Hermann Weyl (1885-1955) ↬ 1916 Henri Poincaré (1854-1912) ↬ 1912

Slide 6

Slide 6 text

Simon Newcomb (1835-1909) ↬ 1881

Slide 7

Slide 7 text

No content

Slide 8

Slide 8 text

d log(1 + 1 d ) 1 0, 3010 2 0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458

Slide 9

Slide 9 text

d log(1 + 1 d ) 1 0, 3010 2 0, 1761 3 0, 1249 4 0, 0969 5 0, 0792 6 0, 0669 7 0, 0580 8 0, 0512 9 0, 0458 D’après Newcomb, la proportion des données dont le premier chiffre est d est log(1 + 1 d ).

Slide 10

Slide 10 text

Loi de Benford Pour un grand échantillon de données naturelles, la loi de répartition du premier chiffre correspond à l’histogramme suivant: 1 2 3 4 5 6 7 8 9 0, 4 0, 2

Slide 11

Slide 11 text

donnée 1er chiffre 16030 1 21130 2 33402 3 29064 2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)

Slide 12

Slide 12 text

donnée 1er chiffre 16030 1 21130 2 33402 3 29064 2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)

Slide 13

Slide 13 text

donnée 1er chiffre 16030 1 21130 2 33402 3 29064 2 57380 5 39625 3 48520 4 35631 3 60168 6 83459 8 144292 1 140311 1 177833 1 133967 1 229472 2 162820 1 166336 1 191135 1 183211 1 192120 1 chiffre effectif fréquence 1 10 0, 5 2 3 0, 15 3 3 0, 15 4 1 0, 05 5 1 0, 05 6 1 0, 05 7 0 0 8 1 0, 05 9 0 0 1 2 3 4 5 6 7 8 9 0, 4 0, 2 loi de Benford données Exemple avec les nombres d’habitants des arrondissements de Paris (en 2020)

Slide 14

Slide 14 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Nombre de candidats pour chacune des (plus de 13000) formations Par- coursup

Slide 15

Slide 15 text

Exemples dans la ville de Tours Examinons quelques jeux de données issus du portail OPENDATA Tours Métropole Val de Loire: https://data.tours-metropole.fr/

Slide 16

Slide 16 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Aires des 542 espaces verts (jardin, petit parc, square, terrain de sport ex- térieur) de Tours Métropole Val de Loire

Slide 17

Slide 17 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Comptages quotidiens de vélos par localisation des sites de comptage dans Tours en 2023

Slide 18

Slide 18 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Fréquentation mensuelle des différentes lignes Filbleu entre 2018 et 2022

Slide 19

Slide 19 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Nombres d’infractions constatées par la police municipale de Tours en- tre 2021 et 2023 regroupées par code NATINF (69276 infractions dans 100 catégories)

Slide 20

Slide 20 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Montants réalisés des dépenses de la ville de Tours (budget principal 2023)

Slide 21

Slide 21 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire

Slide 22

Slide 22 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire

Slide 23

Slide 23 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Effectifs des 598 écoles de Tours Métropole Val de Loire On observe une ”déviation” par rapport à la loi de Benford: elle peut être comprise comme une ”manipulation” des données.

Slide 24

Slide 24 text

Élection présidentielle de 2022 Notre exercice va être de créer une fake news ”l’élection 2022 a été truquée” à partir de la loi de Benford puis de montrer comment on peut la récuser.

Slide 25

Slide 25 text

Pour l’élection présidentielle de 2022, il y avait 69682 bureaux de vote.

Slide 26

Slide 26 text

Pour l’élection présidentielle de 2022, il y avait 69682 bureaux de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits

Slide 27

Slide 27 text

Pour l’élection présidentielle de 2022, il y avait 69682 bureaux de vote. Cependant il y a de fortes disparités entre ces bureaux; par exemple, • le bureau de vote de Genève (sixième circonscription des français de l’étranger) comptait 123786 inscrits • le huitième bureau de vote de Colombey-les-Deux-Églises (Haute-Marne) comptait seulement 7 inscrits → On va réduire le nombre de bureaux de vote considérés pour éliminer les cas extrêmes tout en conservant de la ”représentativité” et un nombre assez ”grand” de bureaux de vote.

Slide 28

Slide 28 text

Pour construire notre fake news, on va considérer TOUS les bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer...

Slide 29

Slide 29 text

Pour construire notre fake news, on va considérer TOUS les bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne

Slide 30

Slide 30 text

Pour construire notre fake news, on va considérer TOUS les bureaux de vote de taille moyenne (entre 100 et 350 votants), 16571 bureaux de vote répartis sur tout le territoire, ruraux comme citadins, métropole comme outre-mer... Par exemple, on considère des bureaux de vote à • Barenton-Bugny dans l’Aisne • Graincourt-lès-Havrincourt dans le Pas-de-Calais • Luxeuil-les-Bains en Haute-Saône • Papeete en Polynésie • Toulon dans le Var • Villejuif dans le Val-de-Marne Sur ces bureaux de vote, le candidat Emmanuel Macron, président sortant, obtient 24% des suffrages exprimés au premier tour de l’élection.

Slide 31

Slide 31 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022

Slide 32

Slide 32 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022

Slide 33

Slide 33 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de taille moyenne au premier tour de l’élection présidentielle de 2022 Le 1 n’est pas le premier chiffre le plus fréquent. Le 3 est le premier chiffre le plus fréquent, puis le 4. Cela ne ressemble pas du tout à la loi de Benford!

Slide 34

Slide 34 text

Les chiffres ne sont pas normaux: l’élection présidentielle a été truquée! Avec trucages

Slide 35

Slide 35 text

Démystification Pourquoi les résultats des bureaux de vote ne suivent-ils pas la loi de Benford?

Slide 36

Slide 36 text

Démystification Pourquoi les résultats des bureaux de vote devraient-ils suivre la loi de Benford?

Slide 37

Slide 37 text

Démystification Pourquoi des données devraient-elles suivre la loi de Benford?

Slide 38

Slide 38 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Numéros de Sécurité Sociale dans la population française

Slide 39

Slide 39 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Années de naissance des élèves en collège

Slide 40

Slide 40 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 999

Slide 41

Slide 41 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456

Slide 42

Slide 42 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4

Slide 43

Slide 43 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4

Slide 44

Slide 44 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 nombres qui commencent par un 3 nombres qui commencent par un 4

Slide 45

Slide 45 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 nombres qui commencent par un 4

Slide 46

Slide 46 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4

Slide 47

Slide 47 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres

Slide 48

Slide 48 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 10000 nombres choisis uniformément entre 1 et 456 Entre 1 et 456, il y a • 111 nombres qui commencent par un 1 • 111 nombres qui commencent par un 2 • 111 nombres qui commencent par un 3 • 68 nombres qui commencent par un 4 • 11 nombres qui commencent par chacun des autres chiffres Notons ces proportions sur l’histogramme.

Slide 49

Slide 49 text

Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B, α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel.

Slide 50

Slide 50 text

Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B, α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel. La suite des puissances de 10 ne respecte pas la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 10 et β = 1 et la propriété log 10 = 1 rationnel.

Slide 51

Slide 51 text

Voici un exemple d’énoncé mathématiquement prouvé. Théorème Soit A, B, α et β des nombres réels tels que A ̸= 0 et |α| > |β|. Alors, la suite (Aαn + Bβn)n respecte la loi de Benford si, et seulement si log|α| est un nombre irrationnel. La suite des puissances de 10 ne respecte pas la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 10 et β = 1 et la propriété log 10 = 1 rationnel. La suite des puissances de 2 respecte la loi de Benford d’après ce théorème avec A = 1, B = 0, α = 2 et β = 1 et la propriété log 2 irrationnel.

Slide 52

Slide 52 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 200 premières puissances de 2

Slide 53

Slide 53 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence

Slide 54

Slide 54 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1

Slide 55

Slide 55 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2

Slide 56

Slide 56 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3

Slide 57

Slide 57 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5

Slide 58

Slide 58 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8

Slide 59

Slide 59 text

Problème de Léonard de Pise, 1202: Quelqu’un plaça une paire de lapins dans un endroit clos de tout côtés afin de savoir combien de descen- dants cette seule paire engendrerait en une année. Or, il est dans leur nature de met- tre au monde une nouvelle paire chaque mois, et les lapins ont des de- scendants deux mois après leur nais- sance. Combien de paires de lapins sont en- gendrées en une année par une seule paire? Traduction de Marc Moyon d’après Baldassare Boncompagni, 1857 Manuscrit, biblothèque de Florence 1er mois 1 2e mois 2 3e mois 3 4e mois 5 5e mois 8 6e mois 13 7e mois 21 8e mois 34 9e mois 55

Slide 60

Slide 60 text

Cette suite de nombre est baptisée suite de Fibonacci au XIXe siècle. Le n-ème terme de cette suite est donné par l’expression 1 √ 5 ( 1 + √ 5 2 ) n − 1 √ 5 ( 1 − √ 5 2 ) n , donc de la forme précédente avec A = 1 √ 5 , B = − 1 √ 5 , α = 1+ √ 5 2 et β = 1− √ 5 2 .

Slide 61

Slide 61 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 200 premiers termes de la suite de Fibonacci

Slide 62

Slide 62 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 200 premiers termes de la suite de Fibonacci La suite respecte la loi de Benford d’après ce théorème car log 1+ √ 5 2 est irrationnel.

Slide 63

Slide 63 text

Dressons un bilan de ces exemples illustratifs.

Slide 64

Slide 64 text

Dressons un bilan de ces exemples illustratifs. • Notre série de nombres n’est pas de la forme requise par le critère mathématique. • Notre série de nombres correspond bien à des quantités et pas à des nombres ”indicatifs”. • Notre série de nombres ne s’étend malheureusement pas sur plusieurs ordres de grandeur. Sur les 16571 bureaux de vote considérés, il y en a 16123 où Emmanuel Macron obtient entre 10 et 99 voix.

Slide 65

Slide 65 text

De manière empirique, pour dire qu’une série de nombres devrait suivre la loi de Benford, on ajoute les conditions suivantes: • la moyenne est supérieure à la médiane, • le coefficient d’asymétrie (moment d’ordre 3 de la série centrée) est positif.

Slide 66

Slide 66 text

Retour sur l’élection présidentielle de 2022 Ré-examinons la fake news ”l’élection 2022 a été truquée” avec notre nouveau savoir.

Slide 67

Slide 67 text

Considérons les 5854 bureaux de vote ayant comptabilisé plus de 900 votants: ces nombres vont de 900 à 54751.

Slide 68

Slide 68 text

Considérons les 5854 bureaux de vote ayant comptabilisé plus de 900 votants: ces nombres vont de 900 à 54751. Le candidat Emmanuel Macron a obtenu dans ces bureaux entre 45 et 23903 voix: on couvre bien plusieurs ordres de grandeur.

Slide 69

Slide 69 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022

Slide 70

Slide 70 text

1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur les bureaux de vote de grande taille au premier tour de l’élection présidentielle de 2022 Le même phénomène apparaît sur l’ensemble des bureaux de vote avec plus de 900 votants

Slide 71

Slide 71 text

Les chiffres ne sont toujours pas normaux: l’élection présidentielle a vraiment été truquée! Avec trucages

Slide 72

Slide 72 text

Analysons plus précisément les données utilisées pour cet histogramme: nombre de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3

Slide 73

Slide 73 text

Analysons plus précisément les données utilisées pour cet histogramme: nombre de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur.

Slide 74

Slide 74 text

Analysons plus précisément les données utilisées pour cet histogramme: nombre de chiffres nombre de bureaux 1 0 2 2 3 5798 4 51 5 3 L’immense majorité des données appartient à un seul ordre de grandeur. Même limitation qu’avant...

Slide 75

Slide 75 text

Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!

Slide 76

Slide 76 text

Conclusion Un résultat mathématique comporte toujours des hypothèses! Quand on veut utiliser un résultat, il ne faut pas oublier d’en vérifier les hypothèses!

Slide 77

Slide 77 text

Bonus: Que faire de la loi de Benford?

Slide 78

Slide 78 text

”Dans un article publié en 1972, l’économiste Hal Varian propose l’idée d’utiliser la loi de Benford pour détecter la fraude fiscale” https://fr.wikipedia.org/wiki/Loi_de_Benford Hal Varian, « Benford’s Law », The American Statistician, vol. 26, no 3, juin 1972, p. 65-66

Slide 79

Slide 79 text

”Dans un article publié en 1972, l’économiste Hal Varian propose l’idée d’utiliser la loi de Benford pour détecter la fraude fiscale” https://fr.wikipedia.org/wiki/Loi_de_Benford Hal Varian, « Benford’s Law », The American Statistician, vol. 26, no 3, juin 1972, p. 65-66 La vraie fake news?

Slide 80

Slide 80 text

No content

Slide 81

Slide 81 text

No content

Slide 82

Slide 82 text

Merci de votre attention!

Slide 83

Slide 83 text

Au fait, l’élection présidentielle de 2022? 1 2 3 4 5 6 7 8 9 0, 4 0, 2 Résultats du candidat Emmanuel Macron sur l’intégralité des bureaux de vote au premier tour de l’élection présidentielle de 2022