Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Plénière AMI A 2 - 4 février 2020 matin

etalab-ia
February 04, 2020
110

Plénière AMI A 2 - 4 février 2020 matin

Présentation de la matinée de la journée de formation pour les porteurs de projet de l'AMI IA 2 : introduction à l'IA.

etalab-ia

February 04, 2020
Tweet

Transcript

  1. 1

  2. 3 Programme de la matinée 9h30 - 10h30 : Intelligence

    Artificielle: panorama • Les grands cas d’usage de l’IA • Les notions clés de l’IA 10h30 - 11h30 : Intelligence Artificielle: pour aller plus loin • Les grandes étapes d’un projet IA • Réussir sa campagne d’annotation • Les métriques d’évaluation des modèles 11h40 - 12h00 : Ateliers participatifs • Suis-je prêt à démarrer mon projet?
  3. 6 4 grands domaines et leurs applications dans la sphère

    publique. • Apprentissage sur des données structurées ; • Apprentissage sur des données images ; • Apprentissage sur du langage naturel ; • Apprentissage sur des données de voix.
  4. 7 Apprentissage sur des données structurées • Prédiction d’une grandeur

    d’intérêt ; ◦ Prédire les prix de l’essence ; • Classification automatique ; ◦ Prédire si une entreprise va embaucher ou non dans les trois prochains mois ; • Segmentation automatique ◦ Regrouper automatiquement les bâtiments avec les mêmes profils de consommation énergétiques.
  5. 8 Exemple de Signaux Faibles • Problème de classification automatique

    : prédire une défaillance d’entreprises à partir de données de type URSSAF (cotisations, effectifs, dettes) ou DIRECCTE (demande d’activité partielle, etc) ; • Il s’agit d’un problème de classification : on prédit une défaillance dans les 12 prochains mois ; • L’algorithme produit un classement qui permet de prioriser les visites en fonction de la probabilité défaillance.
  6. 9 Apprentissage sur des données images • Classification automatique d’images

    ; • Détection d’objets dans des images ; • Segmentation sémantique.
  7. 10 Classifier des images : OpenSolarMap • Comment évaluer le

    potentiel solaire des toits en France ? • Classification des toits en quatre catégories : • Nord-Sud, Est-Ouest, plat, autres • Annotation humaine via une interface (45 000 bâtiments) ; • Généralisation avec un modèle de classification automatique. • https://www.data.gouv.fr/fr/organizatio ns/opensolarmap/
  8. 11 Détecter des objets : IAFlash • Comment détecter les

    modèles de voitures pour limiter les erreurs dans les procès verbaux ? (ANTAI) • Deux étapes : • Détection de la voiture dans l’image • Classification du modèle de voiture • https://iaflash.fr/testapi/matchvec
  9. 12 Détecter des objets : les constructions illégales • Comment

    détecter les occupations irrégulières du sol dans les zones à risque (DDTM Hérault) • Deux étapes : • Annotation d’images aériennes pour détecter les caravanes, les mobil-homes, les navires, les constructions en dur • Entraînement d’un modèle permettant de généraliser
  10. 13 Apprentissage sur des données en langage naturel • Extraction

    automatique d’informations ; • Reconnaître les noms des personnes dans un texte ; • Classification automatique de documents ; • Classifier automatiquement les emails ; • Questions/réponses ou conversations automatisées ; • Répondre automatiquement à des questions ouvertes.
  11. 14 Extraire automatiquement les informations : la pseudonymisation • Comment

    pseudonymiser automatiquement les décisions de justice ? (Cour de cassation et Conseil d’Etat) ; • Détecter automatiquement les prénoms, les adresses, les dates de naissance ; • Deux étapes : • Annotation de décisions ; • Entraînement d’un modèle qui généralise pour l’ensemble des décisions. • https://pseudo.etalab.studio/
  12. 15 Extraire automatiquement les informations : autres cas d’usage •

    Datajust : extraction automatique d’informations sur les préjudices corporels dans la jurisprudence • Projet Ebers (CHU Toulouse) : extraction automatique d’infomations dans les compte-rendus médicaux • Projet Siance (Autorité de sûreté nucléaire) : extraction automatique d’information dans les lettres de suite des inspections
  13. 16 Moteur de questions réponses : le voicebot de l’ACOSS

    • Pour répondre aux questions des usagers sur le chèque emploi associatif, l’ACOSS a développé un voicebot qui permet de répondre aux questions simples ; • Détecter les “intentions” des questions pour trouver la bonne réponse ; • Distinguer 72 intentions différentes parmi les questions pour trouver la bonne réponse.
  14. 17 Apprentissage sur des données de voix • Transcription automatique

    ; • Synthèse vocale ; • Reconnaissance vocale.
  15. 18 Détection du genre du locuteur : InaSpeechAugmenter • Comment

    mesurer le temps de parole des femmes et des hommes à la radio ? • L’algorithme sépare la musique et la voix et les voix féminines et masculines ; • https://github.com/ina-foss/inaSpeechS egmenter.
  16. 19 1. Intelligence artificielle : panorama Les notions clés de

    l’IA Qu’est-ce que l’Intelligence Artificielle ? Qu’est-ce qu’un algorithme ? Différence entre apprentissage supervisé et non supervisé Focus sur le supervisé : un exemple simple, la régression linéaire Différence entre statistique et machine learning : décrire ou prédire ? Pourquoi prédire n’est pas comprendre ?
  17. 20 Qu’est-ce que l’IA ? En quoi consiste la plupart

    des IA aujourd’hui ? • Beaucoup de données • De grandes puissances de calcul • Des algorithmes d’apprentissage automatique
  18. 21 Qu’est-ce qu’un algorithme? Cas général Algorithme: suite d’opérations (de

    calculs) finie et non ambiguë d'opérations ou d'instructions permettant de résoudre une classe de problèmes. Exemples: une addition, le système de calcul des impôts Cas d’un algorithme d’apprentissage automatique Suite d’opérations (de calculs) pour trouver le modèle le plus performant possible au vue d’un certain critère (la fonction de coût) Dans ce cas, les paramètres de l’algorithme ne sont pas déterminés explicitements mais sont “ajustés” au fur et à mesure de façon automatique Conclusion: les algorithmes sont omniprésents dans les systèmes informatiques. Ils ne correspondent pas nécessairement à de l’IA.
  19. 22 Les 2 grandes familles de modèles d’apprentissage Supervisé A

    partir d’une série d’exemples étiquetés, on cherche à trouver une fonction de prédiction d’une variable. Non supervisé En non supervisé, la série d’ex. n’est pas étiquetée. Il s’agit de trouver des structures sous jacentes, afin de par exemple de créer des groupes d’exemples homogènes
  20. 23 Qu’est-ce qu’un modèle d’apprentissage automatique supervisé ? Données d’apprentissage

    crée prédit Données labellisées Données sans label Modèle entraîné Algorithme d’apprentissage Labels prédits Données à prédire
  21. 24 Un exemple d’apprentissage supervisé: la régression linéaire • On

    souhaite trouver une relation entre l’âge (x) et la tension artérielle (y). • Nous avons ici 32 points (correspondant aux mesures de 32 individus) • Trouver une fonction f: x -> f(x) qui minimise la somme des écarts entre f(x) et y Régression linéaire: f est de la forme f: x -> ax + b On cherche a et b tels que Σ (a*x + b - y )² soit le plus petit possible
  22. 25 Statistique ou machine learning : la différence entre décrire

    et prédire Dans le premier cas, on l’utilise pour identifier des corrélation et tenter de décrire un phénomène La régression linéaire peut être à la fois un outil de statistique et de machine learning. Dans le second cas, on l’utilise pour prédire: on souhaite, à partir de l’âge d’une personne, estimer sa tension artérielle
  23. 26 Pourquoi prédire n’est pas comprendre ? Approche par induction

    : déduire des lois par généralisation des observations, en utilisant les corrélations entre variables. Remarque : la prédiction ne désigne pas nécessairement une estimation d’une valeur dans le futur Nécessité d’une intelligence humaine pour interpréter/ comprendre les résultats d’un modèle. Exemple : l’étude statistique de la localisation des balles sur les avions de guerre (cf. biais du survivant)
  24. 28 Les cinq grandes étapes 1. Collecter, centraliser et enrichir

    des données 2. Comprendre ses données 3. Nettoyer et transformer les données 5. Prédire et évaluer 4. Choisir et entraîner un modèle
  25. 29 1. Collecter, centraliser et enrichir des données a. Identifier

    les sources de données b. Centraliser ces données c. Réconcilier et croiser les données d. Enrichir ou annoter les données
  26. 30 2. Comprendre ses données a. Décrire et visualiser c.

    Corriger les biais b. Analyser la qualité Index Valeur Catégorie Label A 13,4 AAA 0 B 45,7 BBB 1 C - AAA 1 D 4,6 - 0
  27. 31 3. Nettoyer et transformer les données Données structurées Texte

    Image Index Valeur Catégorie Label A 13,4 AAA 0 B 45,7 BBB 1 C - AAA 1 D 4,6 - 0 “Appel à manifestation d’intérêt intelligence artificielle” “appel”,” manifestat”, “intérêt”, “intelligen”, “artificiel” 0,15 0,26 0,07 0,56 0,12
  28. 32 4. Choisir et entraîner un modèle • Classifieur bayésien

    • Arbre de décision • Forêt aléatoire • Régression logistique • Machine à vecteur de support • Réseaux de neurones artificiels • ... Données préparées dites “d’entraînement” Algorithme d’apprentissage Divers algorithmes possibles Modèle entraîné Features Labels
  29. 33 5. Prédire et évaluer Modèle entraîné Données préparées dites

    “de test” Features seulement Labels prédits par le modèle Vrais labels Comparer les deux pour évaluer la performance du modèle
  30. 34 3. Intelligence Artificielle: pour aller plus loin Atelier 1

    : Réussir sa campagne d’annotation Pourquoi annoter ? Comment annoter ? Les différents arbitrages liés à l’annotation ?
  31. 35 1. Pourquoi annoter des données ? La plupart des

    systèmes d’IA font appel des algorithmes supervisés Dans beaucoup de situations, les “labels” à prédire ne sont pas directement disponibles et il faut les créer “à la main” Pour que l’algorithme affiche de bonnes performances, il est essentiel que les labels soient de qualité Évaluer la qualité d’un modèle nécessite des labels dont on
  32. 36 2. Comment annoter ? Identifier une équipe et le

    rôle de chacun de ses membres • Un manager qui forme et s’assure de la qualité des annotations • Un ou plusieurs annotateurs Choisir un logiciel d’annotation • Solution existante ou • Développement d’une solution sur mesure? Bien définir les tâches à effectuer: • Faire un schéma synthétique d’annotation • Une documentation détaillée • Un FAQ • Un quizz Évaluer la qualité des annotations • Constitution d’un “gold data set” • Contrôle régulier de la qualité des annotations • Tests de cohérence automatique (optionnel)
  33. 37 3. Les arbitrages liés à l’annotation Complétude du schéma

    d’annotation (extraire beaucoup d’informations) Simplicité/rapidité de la tâche d'annotation Gain de temps de développement avec un outil sur étagère Gain d'efficacité via le développement d'un outil custom Qualité/fiabilité des annotations Rapidité du travail d’annotation VS VS VS
  34. 39 3. Intelligence Artificielle: pour aller plus loin Atelier 2

    : Les métriques d’évaluation des modèles Matrice de confusion Métriques d’évaluation classiques Le cas de la régression
  35. 40 Qu’est-ce qu’un modèle d’apprentissage automatique? Données d’apprentissage crée prédit

    Données labellisées Données sans label Modèle entraîné Algorithme d’apprentissage Labels prédits Données à prédire • Classifieur bayésien • Arbre de décision • Forêt aléatoire • Régression logistique • Machine à vecteur de support • Réseaux de neurones artificiels • ...
  36. 41 Matrice de confusion Labels prédits Vrais labels 0 1

    0 vrai négatif faux négatif 1 faux positif vrai positif 0 1 0 … 1 1 0 1 0 … 1 0 Labels prédits Vrais labels
  37. 42 Matrice de confusion Labels prédits Vrais labels 0 1

    0 … 1 1 0 1 0 … 1 0 Labels prédits Vrais labels
  38. 43 Métriques d’évaluations classiques Justesse (accuracy) VP + VN VP

    + VN + FP + FN Une mesure simple : le taux de réponses correctes. Mais ne détaille pas où les erreurs sont commises, entre FP et FN. Précision VP VP + FP Parmi les observations classées positives, combien l’étaient vraiment ? Mesure la capacité à classer juste (qualité). Rappel (recall) VP VP + FN Parmi toutes les observations vraiment positives, combien ont été effectivement classées comme telles ? Mesure l’exhaustivité. Score F (ou score F1) 2 ⋅ précision ⋅ rappel précision + rappel La moyenne harmonique de la précision et du rappel, qui permet de prendre les deux en compte. Existe aussi le F2 score, F0.5, etc.
  39. 44 Des métriques pour comparer Modèle Justesse Précision Rappel Score

    F1 Forêt aléatoire 0.70 0.57 0.98 0.75 Régression logistique 0.81 0.99 0.48 0.74 Réseau de neurones 0.76 0.75 0.78 0.76
  40. 45 Le cas de la régression On cherche cette fois

    à mesurer “à quel point la courbe suit bien les points”. Mesure continue et non plus discrète pour chaque observation. Basée sur des mesures d’écart Exemples
  41. 46 Quelles métriques pour votre projet ? • Quel est

    l’objectif ? • Quel est le coût de “manquer” une observation positive • Quel est le coût de la vérifier à tort ? • Préférez vous en conséquence précision élevée ou rappel élevé ? • Doit-on toujours sacrifier l’un pour obtenir l’autre ? • Sur quoi peut-on à votre avis jouer pour augmenter l’un ou l’autre ?
  42. 48 A vous de jouer ! Questionnaire par projet: https://docs.google.com/forms/d/e/1FAIpQLSfZKE_3mkQZqJSgMCqIouCWy5W645MJ8t_cvmyhBFT_

    ZG_faA/viewform?usp=sf_link Plus d’éléments sur “Comment préparer l’arrivée des prestataires?” ici: https://github.com/etalab-ia/ami-ia/blob/master/accueil-prestataire.md