#32 Météo et Deep Learning - Partie 1

#32 Météo et Deep Learning - Partie 1

Le monde de la météorologie est imprégné de la culture de la modélisation physique. La prévision du temps, c'est avant tout les équations de Navier-Stokes. Pourtant, avec plusieurs dizaines de téra-octets de données produites chaque mois par Météo-France, il y a de la place pour les Data Sciences !

Lior nous propose dans cette conférence de faire un focus sur l'activité Deep Learning à Météo-France :
* Comment le Deep Learning a été introduit dans un monde de physiciens,
* Quelques exemples d'applications du Deep Learning à la météorologie : prévision d'images à courte échéance, correction de séries temporelles, post-traitement des sorties de modèle...

Bio :
Lior Perez, Météo-France, Responsable des Développements Informatiques

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

October 02, 2018
Tweet

Transcript

  1. 2.

    Page 2 Qui suis-je ? ▪ Lior Perez, Météo-France ―

    Responsable du département des développements informatiques ― Fondateur et animateur du Club du Deep Learning
  2. 3.

    Page 3 Plan de la présentation ▪ Historique et organisation

    du Deep Learning à Météo-France ▪ Etudes de cas
  3. 5.

    Page 5 Météo-France 3000 collaborateurs, dont 1100 à Toulouse La

    Météopole de Toulouse : le centre scientifique, technique et opérationnel Le supercalculateur BULL B710 DLC Le Centre National de Prévision
  4. 6.

    Page 6 Une forte culture de la modélisation physique ▪

    Culture de la modélisation physique ― Modèle Arpège (monde) ― Modèle Arome (maille fine, métropole) Modèle AROME 1,3 km sur la Savoie
  5. 8.

    Page 8 Pionnier dans les Data Sciences en météo ▪

    Les « adaptations statistiques » : du Machine Learning opérationnel depuis les années 80 ― Objectif : améliorer la prévision d’un modèle à l’aide de données historiques ― Prédicteurs : divers paramètres en sortie de modèle ― Vérité terrain : température mesurée par une station d’observation ▪ Encore aujourd’hui, les autres organismes météo européens et américains en sont au stade de la R&D sur le Machine Learning. ▪ Météo-France est le seul en phase opérationnelle
  6. 9.

    Page 9 Autre application opérationnelle du Machine Learning : génération

    automatique de texte Situation de référence Quelques <précipitations <gouttes | flocons > 09> tombent <temps <au lever du jour | après le déjeuner>>. [...] Bulletin du département du Gard (30) élaboré le 11 septembre 2018 à 06:45:00 TU Pour demain mercredi 12 en journée, Quelques gouttes tombent au lever du jour. Des averses à partir de la fin de matinée peuvent nécessiter l’usage du parapluie sous un ciel qui reste très nuageux. L’après-midi, ces averses peuvent localement prendre un caractère orageux, des Causses à l’Aigoual.
  7. 10.

    Page 10 Et le Deep Learning ? Mmmmmhhhhh…. On sait

    pas trop. Mais nous sommes des scientifiques curieux. Alors on explore...
  8. 12.

    Page 12 La génèse : des initiatives individuelles non structurées

    Au départ, quelques curieux ont exploré dans leur coin
  9. 13.

    Page 13 Comment c’est arrivé pour moi ? Photos postées

    par des utilisateurs de notre appli mobile. Problème : comment modérer les photos en temps réel ? OK, c’est de la météo Pas OK, pas météo Découverte des algorithmes de classification d’image par Deep Learning
  10. 14.

    Page 14 La génèse : des initiatives individuelles non structurées

    Il y a du potentiel pour d’autres applications ! Comment fait-on pour en savoir plus ? La classification d’image, c’était la partie facile...
  11. 15.

    Page 15 La génèse : des initiatives individuelles non structurées

    Andrew Ng Justin Johnson Serena Yeung Retourner sur les bancs de la fac grâce à des cours en ligne De longues soirées à étudier Stanford CS231n: Convolutional Neural Networks for Visual Recognition coursera.org
  12. 16.

    Page 16 La génèse : des initiatives individuelles non structurées

    Et puis de la mise en pratique Achat d’un GPU Désarchivage de données (images radar) Réalisation d’un POC Le Deep Learning, il faut le pratiquer pour comprendre ce qu’on peut en faire !
  13. 17.

    Page 17 La génèse : des initiatives individuelles non structurées

    Pendant ce temps, autre initiative individuelle au centre de recherches Conférence sur le Deep Learning par l’entreprise Magellium (imagerie satellitaire) Salle comble ! => Il faut fédérer ces énergies !
  14. 19.

    Page 19 Création du Club du Deep Learning Objectifs du

    club : Partager la connaissance Echanger sur les travaux Deep Learning Identifier les sujets météo pouvant bénéficier du Deep Learning Gérer les compétences Apporter une expertise sur le choix des outils
  15. 20.

    Page 20 Le Club du Deep Learning : premières actions

    • Réunion tous les 3 mois • Premières actions : 1. Création d’un wiki 2. Identification de sujets métier 3. Achat de GPUs 4. Recrutement de stagiaires 5. Mise en place d’une formation interne de 2 jours pour 18 personnes
  16. 21.

    Page 21 Pendant ce temps, Deep Learning et IA devenaient

    des buzz words On en parlait de plus en plus... Dans la presse Dans les soirées parisiennes Avec la mission confiée à Cédric Villani par le gouvernement Sensibilisation à tous les niveaux de Météo-France. Les esprits étaient mûrs pour la deuxième étape de structuration.
  17. 22.

    Page 22 Présentation des stagiaires en amphi Présentation en amphi

    des travaux de 4 stagiaires Deep Learning 150 participants ! Débat ouvert sur l’organisation : Le Deep Learning à Météo-France est-il une affaire d’experts en IA ou d’experts en météo ? => Créer une équipe dédiée ? Former les équipes métier ? Faire appel à expertise extérieure ?
  18. 24.

    Page 24 Approche hybride Une approche hybride : • Des

    projets en partenariat • Consolidation de l’expertise interne
  19. 25.

    Page 25 Approche hybride : projets en partenariat et consolidation

    des compétences internes Projets en partenariat • Projet de R&D - Deep4Cast • en partenariat avec des labos extérieurs expérimentés en Deep Learning (IRT Saint-Exupéry, CIMI, CERFACS) • Participation au projet 3IA : création d’un institut d’IA en région
  20. 26.

    Page 26 Approche hybride : projets en partenariat et consolidation

    des compétences internes Consolidation de l’expertise interne • Création d’un Lab IA avec 4 experts • En support aux équipes métier • Avec le soutien financier du Fonds de Transformation de l’Action Publique • Recrutement de nouveaux stagiaires Deep Learning mis à disposition des équipes métier Investissement en infrastructure • 400k€ sur deux ans pour acquisition d’infrastructures GPU + stockage rapide • A l’étude : ajout de nœuds GPU sur le supercalculateur opérationnel
  21. 27.

    Page 27 Conclusion : comment le Deep Learning s’est installé

    dans le paysage Le Deep Learning s’est installé dans le paysage à Météo-France, en trois phases : • Phase 0 : initiatives individuelles • Phase 1 : structuration « par le bas » • Club du Deep Learning • POC avec stagiaires • Phase 2 : structuration « par le haut » • Projets en partenariat • Création d’un Lab IA La démarche est récente, elle se structure, l’organisation va encore évoluer.
  22. 35.

    Page 35 Le transfer learning ▪ Utiliser un modèle déjà

    entraîné sur les millions d’images d’ImageNet ▪ Le spécialiser pour nos deux classes : ― Classe 1 : OK pour publication sur l’appli ― Classe 2 : Not OK
  23. 36.

    Page 36 Le transfer learning : comment faire ▪ A

    partir d’un réseau déjà entraîné sur un autre jeu de données ▪ Remplacer la dernière couche ▪ Figer (freeze) les poids des premières couches ▪ Ré-entraîner sur notre nouveau problème Conserver (freeze weights) Remplacer et ré-entraîner
  24. 37.

    Page 37 Le process d’entraînement Tri des données en 2

    classes (OK / not OK) Importer le modèle pré-entraîné sur des millions d’images Entraîner le modèle sur les 2 classes Data Augmentation Augmenter artificiellement le nombre d’images Entraîner de nouveau pour un meilleur score Avec la librairie Fast.ai, l’entraînement se fait en seulement 4 lignes de code !
  25. 38.

    Page 38 Et ça fonctionne très bien ! OK Pas

    OK Classificateur Classificateur Temps d’inférence 100ms sur CPU
  26. 40.

    Page 40 La mesure de neige au sol : une

    mesure difficile ▪ La mesure par instruments dédiés souffre d’un manque de représentativité géographique
  27. 41.

    Page 41 Détection de neige au sol : avec des

    images ? • 700 images de neige / non-neige • peu de variabilité de l’information • seulement deux sites : Nancy et Entzheim Entrainement : Nancy Validation : Entzheim
  28. 42.

    Page 42 Résultats • 95 % de bonnes prédictions •

    Entraînement sur 400 images 1. non-neige 2. neige 3. indéterminée
  29. 44.

    Page 44 Erreurs de classification Label : neige Prédiction :

    indéterminée Label : neige Prédiction : non neige C’est l’humain qui s’est trompé pendant la labellisation. Ce n’est pas de la neige, c’est de la gelée blanche.
  30. 45.

    Page 45 Conclusion sur la classification d’images La classification d’images

    automatique d’images est désormais un problème facile
  31. 46.

    Détection automatique de zones de pluie prévue par les modèles

    de Météo-France Crédits : Lucie Rottner, Laure Raynaud, Philippe Arbogast
  32. 47.

    Page 47 Détection automatique de pluie prévue ▪ Pluie faible

    en jaune ▪ Pluie modérée en orange ▪ Pluie forte en rouge Prévision de pluie cumulée sur 1h
  33. 48.

    Page 48 Détection automatique de pluie prévue ▪ Un algorithme

    de détection automatique existe et donne satisfaction ▪ Coût de calcul trop important pour une utilisation à des fins opérationnelles ▪ Idée : utiliser un algorithme de deep learning ― Reproduire les résultats existants ► Jeu de données d’apprentissage fourni par l’algorithme existant ― Gain en temps de calcul espéré
  34. 49.

    Page 49 Détection automatique de pluie prévue ▪ C’est un

    problème de segmentation sémantique ▪ Utilisation d’un réseau U-Net multi-classe ▪ Résultats obtenus par Claire Voreiter (stage M2)
  35. 50.

    Page 50 Détection automatique de pluie prévue ▪ Gain de

    temps considérable ― Détection classique : supérieure à 1 minute ― Détection par réseau de neurones : quelques secondes (résultat que l’on espère encore améliorer…) ▪ Résultats obtenus très rapidement lors du stage ― Entraînement d’un réseau U-Net pour détecter les pluies continues et discontinues ► Jeu de données créé à la main ― Prochaine étape : fusionner les approches dans un réseau multi-label ▪ Méthode prometteuse : ajout de type d’objet à détecter grandement simplifié par l’utilisation du réseau de neurones
  36. 53.

    Page 53 Animation radar de pluie +5’ +10’ +15’ +20’

    +25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Modèle Des modèles traditionnels existent. Peut-on faire aussi bien voire mieux en Deep Learning ?
  37. 54.

    Page 54 Architecture du réseau de neurones +5’ +10’ +15’

    +20’ +25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Conv Maxpool Conv Conv Conv Conv Force brute !
  38. 57.

    Page 57 Pistes d’amélioration ▪ Pour le temps d’apprentissage ―

    Réseaux convolutionnels : peu performants pour déplacer des objets ► Coupler modèles traditionnels et Deep Learning ― Casser la tirelire ► Acheter machine GPU puissante ▪ Pour le flou ― Utilisation de GAN (Generative Adversarial Network)
  39. 58.

    Page 58 Les convolutions sont peu performantes pour déplacer des

    objets Translation des objets t 0min t+60min
  40. 59.

    Page 59 Conclusion sur la prévision d’images radar ▪ Le

    Deep Learning peut apporter une réponse à certains problèmes de prévision à court terme ▪ Des travaux restent à effectuer pour découvrir ― les bonnes architectures, ― Et les bonnes combinaisons algos classiques / Deep Learning
  41. 62.

    Page 62 Les données Netatmo Avantages: • Capteurs de bonne

    qualité • maillage important en France (45 000 stations contre 1250 réseau Radome) Inconvénients: • Stations mal positionnées par l’utilisateur • Stations qui bougent dans le temps (déménagement…) • Stations qui se déconnectent souvent (Wifi…) • Données concentrées en zone urbaine
  42. 64.

    Page 64 La méthode : Vérité terrain : une station

    Météo-France Prédicteurs : 5 à 10 stations Netatmo proches
  43. 66.

    Page 66 Architecture RNN : réseau de neurones récurrent Netatmo

    t=0 x7 Netatmo t=1 x7 ... Netatmo t=48 x7 Netatmo t=49 x7 Netatmo t=50 x7 Meteo t=0 Meteo t=1 Meteo t=2 Meteo t=48 Meteo t=49 Meteo t=50 RNN RNN RNN RNN RNN RNN
  44. 69.

    Page 69 Résultats sur site donné Bon filtrage par le

    modèle : • Du refroidissement trop lent des stations Netatmo • Des mesures aberrantes
  45. 71.

    Page 71 Conclusion sur le traitement de séries temporelles ▪

    La méthode donne des résultats satisfaisants ▪ Reste à la benchmarker par rapport aux méthodes de Machine Learning traditionnel
  46. 73.

    Page 73 Conclusion ▪ En météo, le Deep Learning fonctionne

    bien sur les sujets « classiques » : ― Classification d’image ― Segmentation sémantique de phénomènes courants ▪ Sur les sujets moins explorés, il reste du chemin à parcourir pour exploiter le potentiel du Deep Learning : ― Segmentation sémantique de phénomènes rares ― Prévision de séquences d’images ― Identification de situations analogues ▪ Le Deep Learning ne remplace pas la modélisation physique et le Machine Learning traditionnel (random forest, gradient boosting…) ▪ La démarche Deep Learning se structure Nous poursuivons l’exploration !