#32 Météo et Deep Learning - Partie 1

Météo et Deep Learning Lior Perez Toulouse Data Science Meetup
- 2 octobre 2018

Qui suis-je ? ▪ Lior Perez, Météo-France ―
Responsable du département des développements informatiques ― Fondateur et animateur du Club du Deep Learning

Plan de la présentation ▪ Historique et organisation
du Deep Learning à Météo-France ▪ Etudes de cas

Présentation de Météo-France

Météo-France 3000 collaborateurs, dont 1100 à Toulouse La
Météopole de Toulouse : le centre scientifique, technique et opérationnel Le supercalculateur BULL B710 DLC Le Centre National de Prévision

Une forte culture de la modélisation physique ▪
Culture de la modélisation physique ― Modèle Arpège (monde) ― Modèle Arome (maille fine, métropole) Modèle AROME 1,3 km sur la Savoie

Plein de données ! 1 To archivés chaque
jour

Pionnier dans les Data Sciences en météo ▪
Les « adaptations statistiques » : du Machine Learning opérationnel depuis les années 80 ― Objectif : améliorer la prévision d’un modèle à l’aide de données historiques ― Prédicteurs : divers paramètres en sortie de modèle ― Vérité terrain : température mesurée par une station d’observation ▪ Encore aujourd’hui, les autres organismes météo européens et américains en sont au stade de la R&D sur le Machine Learning. ▪ Météo-France est le seul en phase opérationnelle

Autre application opérationnelle du Machine Learning : génération
automatique de texte Situation de référence Quelques <précipitations <gouttes | flocons > 09> tombent <temps <au lever du jour | après le déjeuner>>. [...] Bulletin du département du Gard (30) élaboré le 11 septembre 2018 à 06:45:00 TU Pour demain mercredi 12 en journée, Quelques gouttes tombent au lever du jour. Des averses à partir de la fin de matinée peuvent nécessiter l’usage du parapluie sous un ciel qui reste très nuageux. L’après-midi, ces averses peuvent localement prendre un caractère orageux, des Causses à l’Aigoual.

Et le Deep Learning ? Mmmmmhhhhh…. On sait
pas trop. Mais nous sommes des scientifiques curieux. Alors on explore...

Comment nous avons lancé notre démarche Deep Learning La génèse

La génèse : des initiatives individuelles non structurées
Au départ, quelques curieux ont exploré dans leur coin

Comment c’est arrivé pour moi ? Photos postées
par des utilisateurs de notre appli mobile. Problème : comment modérer les photos en temps réel ? OK, c’est de la météo Pas OK, pas météo Découverte des algorithmes de classification d’image par Deep Learning

Il y a du potentiel pour d’autres applications ! Comment fait-on pour en savoir plus ? La classification d’image, c’était la partie facile...

Andrew Ng Justin Johnson Serena Yeung Retourner sur les bancs de la fac grâce à des cours en ligne De longues soirées à étudier Stanford CS231n: Convolutional Neural Networks for Visual Recognition coursera.org

Et puis de la mise en pratique Achat d’un GPU Désarchivage de données (images radar) Réalisation d’un POC Le Deep Learning, il faut le pratiquer pour comprendre ce qu’on peut en faire !

Pendant ce temps, autre initiative individuelle au centre de recherches Conférence sur le Deep Learning par l’entreprise Magellium (imagerie satellitaire) Salle comble ! => Il faut fédérer ces énergies !

Comment nous avons lancé notre démarche Deep Learning Première étape
de structuration

Création du Club du Deep Learning Objectifs du
club : Partager la connaissance Echanger sur les travaux Deep Learning Identifier les sujets météo pouvant bénéficier du Deep Learning Gérer les compétences Apporter une expertise sur le choix des outils

Le Club du Deep Learning : premières actions
• Réunion tous les 3 mois • Premières actions : 1. Création d’un wiki 2. Identification de sujets métier 3. Achat de GPUs 4. Recrutement de stagiaires 5. Mise en place d’une formation interne de 2 jours pour 18 personnes

Pendant ce temps, Deep Learning et IA devenaient
des buzz words On en parlait de plus en plus... Dans la presse Dans les soirées parisiennes Avec la mission confiée à Cédric Villani par le gouvernement Sensibilisation à tous les niveaux de Météo-France. Les esprits étaient mûrs pour la deuxième étape de structuration.

Présentation des stagiaires en amphi Présentation en amphi
des travaux de 4 stagiaires Deep Learning 150 participants ! Débat ouvert sur l’organisation : Le Deep Learning à Météo-France est-il une affaire d’experts en IA ou d’experts en météo ? => Créer une équipe dédiée ? Former les équipes métier ? Faire appel à expertise extérieure ?

Comment nous avons lancé notre démarche Deep Learning Deuxième étape
de structuration

Approche hybride Une approche hybride : • Des
projets en partenariat • Consolidation de l’expertise interne

Approche hybride : projets en partenariat et consolidation
des compétences internes Projets en partenariat • Projet de R&D - Deep4Cast • en partenariat avec des labos extérieurs expérimentés en Deep Learning (IRT Saint-Exupéry, CIMI, CERFACS) • Participation au projet 3IA : création d’un institut d’IA en région

Approche hybride : projets en partenariat et consolidation
des compétences internes Consolidation de l’expertise interne • Création d’un Lab IA avec 4 experts • En support aux équipes métier • Avec le soutien financier du Fonds de Transformation de l’Action Publique • Recrutement de nouveaux stagiaires Deep Learning mis à disposition des équipes métier Investissement en infrastructure • 400k€ sur deux ans pour acquisition d’infrastructures GPU + stockage rapide • A l’étude : ajout de nœuds GPU sur le supercalculateur opérationnel

Conclusion : comment le Deep Learning s’est installé
dans le paysage Le Deep Learning s’est installé dans le paysage à Météo-France, en trois phases : • Phase 0 : initiatives individuelles • Phase 1 : structuration « par le bas » • Club du Deep Learning • POC avec stagiaires • Phase 2 : structuration « par le haut » • Projets en partenariat • Création d’un Lab IA La démarche est récente, elle se structure, l’organisation va encore évoluer.

Etudes de cas

Modération d’images postées sur l’appli mobile de Météo-France

Observation participative : une source d’information de grande
valeur Ajout de photo

Problème Comment modérer la photo en temps réel
? OK Pas OK

La classification d’images : un problème résolu Chat
Chien

La classification d’images : un problème résolu ImageNet
Challenge : 1000 classes

La classification : un problème résolu

Le transfer learning ▪ Utiliser un modèle déjà
entraîné sur les millions d’images d’ImageNet ▪ Le spécialiser pour nos deux classes : ― Classe 1 : OK pour publication sur l’appli ― Classe 2 : Not OK

Le transfer learning : comment faire ▪ A
partir d’un réseau déjà entraîné sur un autre jeu de données ▪ Remplacer la dernière couche ▪ Figer (freeze) les poids des premières couches ▪ Ré-entraîner sur notre nouveau problème Conserver (freeze weights) Remplacer et ré-entraîner

Le process d’entraînement Tri des données en 2
classes (OK / not OK) Importer le modèle pré-entraîné sur des millions d’images Entraîner le modèle sur les 2 classes Data Augmentation Augmenter artificiellement le nombre d’images Entraîner de nouveau pour un meilleur score Avec la librairie Fast.ai, l’entraînement se fait en seulement 4 lignes de code !

Et ça fonctionne très bien ! OK Pas
OK Classificateur Classificateur Temps d’inférence 100ms sur CPU

Autre application de la classification d’images : détection de neige
au sol

La mesure de neige au sol : une
mesure difficile ▪ La mesure par instruments dédiés souffre d’un manque de représentativité géographique

Détection de neige au sol : avec des
images ? • 700 images de neige / non-neige • peu de variabilité de l’information • seulement deux sites : Nancy et Entzheim Entrainement : Nancy Validation : Entzheim

Résultats • 95 % de bonnes prédictions •
Entraînement sur 400 images 1. non-neige 2. neige 3. indéterminée

Quelques bonnes prédictions [non_neige,neige,indeterminée]

Erreurs de classification Label : neige Prédiction :
indéterminée Label : neige Prédiction : non neige C’est l’humain qui s’est trompé pendant la labellisation. Ce n’est pas de la neige, c’est de la gelée blanche.

Conclusion sur la classification d’images La classification d’images
automatique d’images est désormais un problème facile

Détection automatique de zones de pluie prévue par les modèles
de Météo-France Crédits : Lucie Rottner, Laure Raynaud, Philippe Arbogast

Détection automatique de pluie prévue ▪ Pluie faible
en jaune ▪ Pluie modérée en orange ▪ Pluie forte en rouge Prévision de pluie cumulée sur 1h

Détection automatique de pluie prévue ▪ Un algorithme
de détection automatique existe et donne satisfaction ▪ Coût de calcul trop important pour une utilisation à des fins opérationnelles ▪ Idée : utiliser un algorithme de deep learning ― Reproduire les résultats existants ► Jeu de données d’apprentissage fourni par l’algorithme existant ― Gain en temps de calcul espéré

Détection automatique de pluie prévue ▪ C’est un
problème de segmentation sémantique ▪ Utilisation d’un réseau U-Net multi-classe ▪ Résultats obtenus par Claire Voreiter (stage M2)

Détection automatique de pluie prévue ▪ Gain de
temps considérable ― Détection classique : supérieure à 1 minute ― Détection par réseau de neurones : quelques secondes (résultat que l’on espère encore améliorer…) ▪ Résultats obtenus très rapidement lors du stage ― Entraînement d’un réseau U-Net pour détecter les pluies continues et discontinues ► Jeu de données créé à la main ― Prochaine étape : fusionner les approches dans un réseau multi-label ▪ Méthode prometteuse : ajout de type d’objet à détecter grandement simplifié par l’utilisation du réseau de neurones

Prévision immédiate radar de pluie

Animation radar de pluie

Animation radar de pluie +5’ +10’ +15’ +20’
+25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Modèle Des modèles traditionnels existent. Peut-on faire aussi bien voire mieux en Deep Learning ?

Architecture du réseau de neurones +5’ +10’ +15’
+20’ +25’ +30’ +35’ +40’ +45’ +50’ +55’ +60’ -10’ -5’ -15’ 0’ Prédicteurs Variables à prédire Conv Maxpool Conv Conv Conv Conv Force brute !

Résultats Input + Forecast Ground truth

Difficultés rencontrées • Temps d’entraînement long, très long...
• Images floues

Pistes d’amélioration ▪ Pour le temps d’apprentissage ―
Réseaux convolutionnels : peu performants pour déplacer des objets ► Coupler modèles traditionnels et Deep Learning ― Casser la tirelire ► Acheter machine GPU puissante ▪ Pour le flou ― Utilisation de GAN (Generative Adversarial Network)

Les convolutions sont peu performantes pour déplacer des
objets Translation des objets t 0min t+60min

Conclusion sur la prévision d’images radar ▪ Le
Deep Learning peut apporter une réponse à certains problèmes de prévision à court terme ▪ Des travaux restent à effectuer pour découvrir ― les bonnes architectures, ― Et les bonnes combinaisons algos classiques / Deep Learning

Correction de données de température des stations connectées Netatmo

Les données Netatmo

Les données Netatmo Avantages: • Capteurs de bonne
qualité • maillage important en France (45 000 stations contre 1250 réseau Radome) Inconvénients: • Stations mal positionnées par l’utilisateur • Stations qui bougent dans le temps (déménagement…) • Stations qui se déconnectent souvent (Wifi…) • Données concentrées en zone urbaine

Jeu d’entraînement et de validation Validation Entraînement

La méthode : Vérité terrain : une station
Météo-France Prédicteurs : 5 à 10 stations Netatmo proches

Séries temporelles : problème proche de la prédiction
du prochain caractère d’un mot

Architecture RNN : réseau de neurones récurrent Netatmo
t=0 x7 Netatmo t=1 x7 ... Netatmo t=48 x7 Netatmo t=49 x7 Netatmo t=50 x7 Meteo t=0 Meteo t=1 Meteo t=2 Meteo t=48 Meteo t=49 Meteo t=50 RNN RNN RNN RNN RNN RNN

Résultats obtenus Erreur < 1.2°

Résultats sur un site donné

Résultats sur site donné Bon filtrage par le
modèle : • Du refroidissement trop lent des stations Netatmo • Des mesures aberrantes

Résultats sur plusieurs jours Difficultés du modèle à
appréhender les extrêmes

Conclusion sur le traitement de séries temporelles ▪
La méthode donne des résultats satisfaisants ▪ Reste à la benchmarker par rapport aux méthodes de Machine Learning traditionnel

Conclusion

Conclusion ▪ En météo, le Deep Learning fonctionne
bien sur les sujets « classiques » : ― Classification d’image ― Segmentation sémantique de phénomènes courants ▪ Sur les sujets moins explorés, il reste du chemin à parcourir pour exploiter le potentiel du Deep Learning : ― Segmentation sémantique de phénomènes rares ― Prévision de séquences d’images ― Identification de situations analogues ▪ Le Deep Learning ne remplace pas la modélisation physique et le Machine Learning traditionnel (random forest, gradient boosting…) ▪ La démarche Deep Learning se structure Nous poursuivons l’exploration !

Merci de votre attention !

#32 Météo et Deep Learning - Partie 1

#32 Météo et Deep Learning - Partie 1

More Decks by Toulouse Data Science

Other Decks in Technology

Featured

Transcript