#32 Météo et Deep Learning - Partie 1

#32 Météo et Deep Learning - Partie 1

Le monde de la météorologie est imprégné de la culture de la modélisation physique. La prévision du temps, c'est avant tout les équations de Navier-Stokes. Pourtant, avec plusieurs dizaines de téra-octets de données produites chaque mois par Météo-France, il y a de la place pour les Data Sciences !

Lior nous propose dans cette conférence de faire un focus sur l'activité Deep Learning à Météo-France :
* Comment le Deep Learning a été introduit dans un monde de physiciens,
* Quelques exemples d'applications du Deep Learning à la météorologie : prévision d'images à courte échéance, correction de séries temporelles, post-traitement des sorties de modèle...

Bio :
Lior Perez, Météo-France, Responsable des Développements Informatiques

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

October 02, 2018
Tweet

Transcript

  1. Météo et Deep Learning Lior Perez Toulouse Data Science Meetup

    - 2 octobre 2018
  2. Page 2 Qui suis-je ? ▪ Lior Perez, Météo-France ―

    Responsable du département des développements informatiques ― Fondateur et animateur du Club du Deep Learning
  3. Page 3 Plan de la présentation ▪ Historique et organisation

    du Deep Learning à Météo-France ▪ Etudes de cas
  4. Présentation de Météo-France

  5. Page 5 Météo-France 3000 collaborateurs, dont 1100 à Toulouse La

    Météopole de Toulouse : le centre scientifique, technique et opérationnel Le supercalculateur BULL B710 DLC Le Centre National de Prévision
  6. Page 6 Une forte culture de la modélisation physique ▪

    Culture de la modélisation physique ― Modèle Arpège (monde) ― Modèle Arome (maille fine, métropole) Modèle AROME 1,3 km sur la Savoie
  7. Page 7 Plein de données ! 1 To archivés chaque

    jour
  8. Page 8 Pionnier dans les Data Sciences en météo ▪

    Les « adaptations statistiques » : du Machine Learning opérationnel depuis les années 80 ― Objectif : améliorer la prévision d’un modèle à l’aide de données historiques ― Prédicteurs : divers paramètres en sortie de modèle ― Vérité terrain : température mesurée par une station d’observation ▪ Encore aujourd’hui, les autres organismes météo européens et américains en sont au stade de la R&D sur le Machine Learning. ▪ Météo-France est le seul en phase opérationnelle
  9. Page 9 Autre application opérationnelle du Machine Learning : génération

    automatique de texte Situation de référence Quelques <précipitations <gouttes | flocons > 09> tombent <temps <au lever du jour | après le déjeuner>>. [...] Bulletin du département du Gard (30) élaboré le 11 septembre 2018 à 06:45:00 TU Pour demain mercredi 12 en journée, Quelques gouttes tombent au lever du jour. Des averses à partir de la fin de matinée peuvent nécessiter l’usage du parapluie sous un ciel qui reste très nuageux. L’après-midi, ces averses peuvent localement prendre un caractère orageux, des Causses à l’Aigoual.
  10. Page 10 Et le Deep Learning ? Mmmmmhhhhh…. On sait

    pas trop. Mais nous sommes des scientifiques curieux. Alors on explore...
  11. Comment nous avons lancé notre démarche Deep Learning La génèse

  12. Page 12 La génèse : des initiatives individuelles non structurées

    Au départ, quelques curieux ont exploré dans leur coin
  13. Page 13 Comment c’est arrivé pour moi ? Photos postées

    par des utilisateurs de notre appli mobile. Problème : comment modérer les photos en temps réel ? OK, c’est de la météo Pas OK, pas météo Découverte des algorithmes de classification d’image par Deep Learning
  14. Page 14 La génèse : des initiatives individuelles non structurées

    Il y a du potentiel pour d’autres applications ! Comment fait-on pour en savoir plus ? La classification d’image, c’était la partie facile...
  15. Page 15 La génèse : des initiatives individuelles non structurées

    Andrew Ng Justin Johnson Serena Yeung Retourner sur les bancs de la fac grâce à des cours en ligne De longues soirées à étudier Stanford CS231n: Convolutional Neural Networks for Visual Recognition coursera.org
  16. Page 16 La génèse : des initiatives individuelles non structurées

    Et puis de la mise en pratique Achat d’un GPU Désarchivage de données (images radar) Réalisation d’un POC Le Deep Learning, il faut le pratiquer pour comprendre ce qu’on peut en faire !
  17. Page 17 La génèse : des initiatives individuelles non structurées

    Pendant ce temps, autre initiative individuelle au centre de recherches Conférence sur le Deep Learning par l’entreprise Magellium (imagerie satellitaire) Salle comble ! => Il faut fédérer ces énergies !
  18. Comment nous avons lancé notre démarche Deep Learning Première étape

    de structuration
  19. Page 19 Création du Club du Deep Learning Objectifs du

    club : Partager la connaissance Echanger sur les travaux Deep Learning Identifier les sujets météo pouvant bénéficier du Deep Learning Gérer les compétences Apporter une expertise sur le choix des outils
  20. Page 20 Le Club du Deep Learning : premières actions

    • Réunion tous les 3 mois • Premières actions : 1. Création d’un wiki 2. Identification de sujets métier 3. Achat de GPUs 4. Recrutement de stagiaires 5. Mise en place d’une formation interne de 2 jours pour 18 personnes
  21. Page 21 Pendant ce temps, Deep Learning et IA devenaient

    des buzz words On en parlait de plus en plus... Dans la presse Dans les soirées parisiennes Avec la mission confiée à Cédric Villani par le gouvernement Sensibilisation à tous les niveaux de Météo-France. Les esprits étaient mûrs pour la deuxième étape de structuration.
  22. Page 22 Présentation des stagiaires en amphi Présentation en amphi

    des travaux de 4 stagiaires Deep Learning 150 participants ! Débat ouvert sur l’organisation : Le Deep Learning à Météo-France est-il une affaire d’experts en IA ou d’experts en météo ? => Créer une équipe dédiée ? Former les équipes métier ? Faire appel à expertise extérieure ?
  23. Comment nous avons lancé notre démarche Deep Learning Deuxième étape

    de structuration
  24. Page 24 Approche hybride Une approche hybride : • Des

    projets en partenariat • Consolidation de l’expertise interne
  25. Page 25 Approche hybride : projets en partenariat et consolidation

    des compétences internes Projets en partenariat • Projet de R&D - Deep4Cast • en partenariat avec des labos extérieurs expérimentés en Deep Learning (IRT Saint-Exupéry, CIMI, CERFACS) • Participation au projet 3IA : création d’un institut d’IA en région
  26. Page 26 Approche hybride : projets en partenariat et consolidation

    des compétences internes Consolidation de l’expertise interne • Création d’un Lab IA avec 4 experts • En support aux équipes métier • Avec le soutien financier du Fonds de Transformation de l’Action Publique • Recrutement de nouveaux stagiaires Deep Learning mis à disposition des équipes métier Investissement en infrastructure • 400k€ sur deux ans pour acquisition d’infrastructures GPU + stockage rapide • A l’étude : ajout de nœuds GPU sur le supercalculateur opérationnel
  27. Page 27 Conclusion : comment le Deep Learning s’est installé

    dans le paysage Le Deep Learning s’est installé dans le paysage à Météo-France, en trois phases : • Phase 0 : initiatives individuelles • Phase 1 : structuration « par le bas » • Club du Deep Learning • POC avec stagiaires • Phase 2 : structuration « par le haut » • Projets en partenariat • Création d’un Lab IA La démarche est récente, elle se structure, l’organisation va encore évoluer.
  28. Etudes de cas

  29. Modération d’images postées sur l’appli mobile de Météo-France

  30. Page 30 Observation participative : une source d’information de grande

    valeur Ajout de photo
  31. Page 31 Problème Comment modérer la photo en temps réel

    ? OK Pas OK
  32. Page 32 La classification d’images : un problème résolu Chat

    Chien
  33. Page 33 La classification d’images : un problème résolu ImageNet

    Challenge : 1000 classes
  34. Page 34 La classification : un problème résolu

  35. Page 35 Le transfer learning ▪ Utiliser un modèle déjà

    entraîné sur les millions d’images d’ImageNet ▪ Le spécialiser pour nos deux classes : ― Classe 1 : OK pour publication sur l’appli ― Classe 2 : Not OK
  36. Page 36 Le transfer learning : comment faire ▪ A

    partir d’un réseau déjà entraîné sur un autre jeu de données ▪ Remplacer la dernière couche ▪ Figer (freeze) les poids des premières couches ▪ Ré-entraîner sur notre nouveau problème Conserver (freeze weights) Remplacer et ré-entraîner
  37. Page 37 Le process d’entraînement Tri des données en 2

    classes (OK / not OK) Importer le modèle pré-entraîné sur des millions d’images Entraîner le modèle sur les 2 classes Data Augmentation Augmenter artificiellement le nombre d’images Entraîner de nouveau pour un meilleur score Avec la librairie Fast.ai, l’entraînement se fait en seulement 4 lignes de code !
  38. Page 38 Et ça fonctionne très bien ! OK Pas

    OK Classificateur Classificateur Temps d’inférence 100ms sur CPU
  39. Autre application de la classification d’images : détection de neige

    au sol
  40. Page 40 La mesure de neige au sol : une

    mesure difficile ▪ La mesure par instruments dédiés souffre d’un manque de représentativité géographique
  41. Page 41 Détection de neige au sol : avec des

    images ? • 700 images de neige / non-neige • peu de variabilité de l’information • seulement deux sites : Nancy et Entzheim Entrainement : Nancy Validation : Entzheim
  42. Page 42 Résultats • 95 % de bonnes prédictions •

    Entraînement sur 400 images 1. non-neige 2. neige 3. indéterminée
  43. Page 43 Quelques bonnes prédictions [non_neige,neige,indeterminée]

  44. Page 44 Erreurs de classification Label : neige Prédiction :

    indéterminée Label : neige Prédiction : non neige C’est l’humain qui s’est trompé pendant la labellisation. Ce n’est pas de la neige, c’est de la gelée blanche.
  45. Page 45 Conclusion sur la classification d’images La classification d’images

    automatique d’images est désormais un problème facile
  46. Détection automatique de zones de pluie prévue par les modèles

    de Météo-France Crédits : Lucie Rottner, Laure Raynaud, Philippe Arbogast
  47. Page 47 Détection automatique de pluie prévue ▪ Pluie faible

    en jaune ▪ Pluie modérée en orange ▪ Pluie forte en rouge Prévision de pluie cumulée sur 1h
  48. Page 48 Détection automatique de pluie prévue ▪ Un algorithme

    de détection automatique existe et donne satisfaction ▪ Coût de calcul trop important pour une utilisation à des fins opérationnelles ▪ Idée : utiliser un algorithme de deep learning ― Reproduire les résultats existants ► Jeu de données d’apprentissage fourni par l’algorithme existant ― Gain en temps de calcul espéré
  49. Page 49 Détection automatique de pluie prévue ▪ C’est un

    problème de segmentation sémantique ▪ Utilisation d’un réseau U-Net multi-classe ▪ Résultats obtenus par Claire Voreiter (stage M2)
  50. Page 50 Détection automatique de pluie prévue ▪ Gain de

    temps considérable ― Détection classique : supérieure à 1 minute ― Détection par réseau de neurones : quelques secondes (résultat que l’on espère encore améliorer…) ▪ Résultats obtenus très rapidement lors du stage ― Entraînement d’un réseau U-Net pour détecter les pluies continues et discontinues ► Jeu de données créé à la main ― Prochaine étape : fusionner les approches dans un réseau multi-label ▪ Méthode prometteuse : ajout de type d’objet à détecter grandement simplifié par l’utilisation du réseau de neurones
  51. Prévision immédiate radar de pluie

  52. Page 52 Animation radar de pluie

  53. Page 53 Animation radar de pluie +5’ +10’ +15’ +20’

    +25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Modèle Des modèles traditionnels existent. Peut-on faire aussi bien voire mieux en Deep Learning ?
  54. Page 54 Architecture du réseau de neurones +5’ +10’ +15’

    +20’ +25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Conv Maxpool Conv Conv Conv Conv Force brute !
  55. Page 55 Résultats Input + Forecast Ground truth

  56. Page 56 Difficultés rencontrées • Temps d’entraînement long, très long...

    • Images floues
  57. Page 57 Pistes d’amélioration ▪ Pour le temps d’apprentissage ―

    Réseaux convolutionnels : peu performants pour déplacer des objets ► Coupler modèles traditionnels et Deep Learning ― Casser la tirelire ► Acheter machine GPU puissante ▪ Pour le flou ― Utilisation de GAN (Generative Adversarial Network)
  58. Page 58 Les convolutions sont peu performantes pour déplacer des

    objets Translation des objets t 0min t+60min
  59. Page 59 Conclusion sur la prévision d’images radar ▪ Le

    Deep Learning peut apporter une réponse à certains problèmes de prévision à court terme ▪ Des travaux restent à effectuer pour découvrir ― les bonnes architectures, ― Et les bonnes combinaisons algos classiques / Deep Learning
  60. Correction de données de température des stations connectées Netatmo

  61. Page 61 Les données Netatmo

  62. Page 62 Les données Netatmo Avantages: • Capteurs de bonne

    qualité • maillage important en France (45 000 stations contre 1250 réseau Radome) Inconvénients: • Stations mal positionnées par l’utilisateur • Stations qui bougent dans le temps (déménagement…) • Stations qui se déconnectent souvent (Wifi…) • Données concentrées en zone urbaine
  63. Page 63 Jeu d’entraînement et de validation Validation Entraînement

  64. Page 64 La méthode : Vérité terrain : une station

    Météo-France Prédicteurs : 5 à 10 stations Netatmo proches
  65. Page 65 Séries temporelles : problème proche de la prédiction

    du prochain caractère d’un mot
  66. Page 66 Architecture RNN : réseau de neurones récurrent Netatmo

    t=0 x7 Netatmo t=1 x7 ... Netatmo t=48 x7 Netatmo t=49 x7 Netatmo t=50 x7 Meteo t=0 Meteo t=1 Meteo t=2 Meteo t=48 Meteo t=49 Meteo t=50 RNN RNN RNN RNN RNN RNN
  67. Page 67 Résultats obtenus Erreur < 1.2°

  68. Page 68 Résultats sur un site donné

  69. Page 69 Résultats sur site donné Bon filtrage par le

    modèle : • Du refroidissement trop lent des stations Netatmo • Des mesures aberrantes
  70. Page 70 Résultats sur plusieurs jours Difficultés du modèle à

    appréhender les extrêmes
  71. Page 71 Conclusion sur le traitement de séries temporelles ▪

    La méthode donne des résultats satisfaisants ▪ Reste à la benchmarker par rapport aux méthodes de Machine Learning traditionnel
  72. Conclusion

  73. Page 73 Conclusion ▪ En météo, le Deep Learning fonctionne

    bien sur les sujets « classiques » : ― Classification d’image ― Segmentation sémantique de phénomènes courants ▪ Sur les sujets moins explorés, il reste du chemin à parcourir pour exploiter le potentiel du Deep Learning : ― Segmentation sémantique de phénomènes rares ― Prévision de séquences d’images ― Identification de situations analogues ▪ Le Deep Learning ne remplace pas la modélisation physique et le Machine Learning traditionnel (random forest, gradient boosting…) ▪ La démarche Deep Learning se structure Nous poursuivons l’exploration !
  74. Merci de votre attention !