$30 off During Our Annual Pro Sale. View Details »

#32 Météo et Deep Learning - Partie 1

#32 Météo et Deep Learning - Partie 1

Le monde de la météorologie est imprégné de la culture de la modélisation physique. La prévision du temps, c'est avant tout les équations de Navier-Stokes. Pourtant, avec plusieurs dizaines de téra-octets de données produites chaque mois par Météo-France, il y a de la place pour les Data Sciences !

Lior nous propose dans cette conférence de faire un focus sur l'activité Deep Learning à Météo-France :
* Comment le Deep Learning a été introduit dans un monde de physiciens,
* Quelques exemples d'applications du Deep Learning à la météorologie : prévision d'images à courte échéance, correction de séries temporelles, post-traitement des sorties de modèle...

Bio :
Lior Perez, Météo-France, Responsable des Développements Informatiques

Toulouse Data Science

October 02, 2018
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. Météo et Deep Learning
    Lior Perez
    Toulouse Data Science Meetup - 2 octobre 2018

    View Slide

  2. Page 2
    Qui suis-je ?

    Lior Perez, Météo-France
    ― Responsable du département des développements
    informatiques
    ― Fondateur et animateur du Club du Deep Learning

    View Slide

  3. Page 3
    Plan de la présentation

    Historique et organisation du Deep Learning à Météo-France

    Etudes de cas

    View Slide

  4. Présentation de Météo-France

    View Slide

  5. Page 5
    Météo-France
    3000 collaborateurs, dont 1100 à Toulouse
    La Météopole de Toulouse : le centre scientifique, technique et opérationnel
    Le supercalculateur BULL B710 DLC
    Le Centre National de Prévision

    View Slide

  6. Page 6
    Une forte culture de la modélisation physique

    Culture de la modélisation physique
    ― Modèle Arpège (monde)
    ― Modèle Arome (maille fine, métropole)
    Modèle AROME 1,3 km
    sur la Savoie

    View Slide

  7. Page 7
    Plein de données !
    1 To archivés chaque jour

    View Slide

  8. Page 8
    Pionnier dans les Data Sciences en météo

    Les « adaptations statistiques » : du Machine Learning
    opérationnel depuis les années 80
    ― Objectif : améliorer la prévision d’un modèle à l’aide de
    données historiques
    ― Prédicteurs : divers paramètres en sortie de modèle
    ― Vérité terrain : température mesurée par une station
    d’observation

    Encore aujourd’hui, les autres organismes météo européens et
    américains en sont au stade de la R&D sur le Machine Learning.

    Météo-France est le seul en phase opérationnelle

    View Slide

  9. Page 9
    Autre application opérationnelle du Machine
    Learning : génération automatique de texte
    Situation de référence
    Quelques
    09> tombent déjeuner>>. [...]
    Bulletin du département du Gard (30) élaboré le
    11 septembre 2018 à 06:45:00 TU
    Pour demain mercredi 12 en journée,
    Quelques gouttes tombent au lever du jour. Des averses
    à partir de la fin de matinée peuvent nécessiter l’usage
    du parapluie sous un ciel qui reste très nuageux.
    L’après-midi, ces averses peuvent localement prendre un
    caractère orageux, des Causses à l’Aigoual.

    View Slide

  10. Page 10
    Et le Deep Learning ?
    Mmmmmhhhhh….
    On sait pas trop.
    Mais nous sommes des
    scientifiques curieux.
    Alors on explore...

    View Slide

  11. Comment nous avons lancé notre
    démarche Deep Learning
    La génèse

    View Slide

  12. Page 12
    La génèse : des initiatives individuelles non
    structurées
    Au départ, quelques curieux ont
    exploré dans leur coin

    View Slide

  13. Page 13
    Comment c’est arrivé pour moi ?
    Photos postées par des utilisateurs de notre appli mobile.
    Problème : comment modérer les photos en temps réel ?
    OK, c’est de la météo Pas OK, pas météo
    Découverte des algorithmes de classification d’image par Deep Learning

    View Slide

  14. Page 14
    La génèse : des initiatives individuelles non
    structurées
    Il y a du potentiel pour
    d’autres applications !
    Comment fait-on pour
    en savoir plus ?
    La classification
    d’image, c’était la
    partie facile...

    View Slide

  15. Page 15
    La génèse : des initiatives individuelles non
    structurées
    Andrew Ng Justin Johnson Serena Yeung
    Retourner sur les bancs de la fac grâce à
    des cours en ligne
    De longues soirées à étudier
    Stanford CS231n: Convolutional Neural
    Networks for Visual Recognition
    coursera.org

    View Slide

  16. Page 16
    La génèse : des initiatives individuelles non
    structurées
    Et puis de la mise en pratique
    Achat d’un GPU
    Désarchivage de données
    (images radar)
    Réalisation d’un POC
    Le Deep Learning, il faut le pratiquer pour
    comprendre ce qu’on peut en faire !

    View Slide

  17. Page 17
    La génèse : des initiatives individuelles non
    structurées
    Pendant ce temps, autre initiative
    individuelle au centre de recherches
    Conférence sur le Deep Learning par l’entreprise
    Magellium (imagerie satellitaire)
    Salle comble !
    => Il faut fédérer ces énergies !

    View Slide

  18. Comment nous avons lancé notre
    démarche Deep Learning
    Première étape de structuration

    View Slide

  19. Page 19
    Création du Club du Deep Learning
    Objectifs du club :
    Partager la connaissance
    Echanger sur les travaux Deep Learning
    Identifier les sujets météo pouvant bénéficier du Deep Learning
    Gérer les compétences
    Apporter une expertise sur le choix des outils

    View Slide

  20. Page 20
    Le Club du Deep Learning : premières actions

    Réunion tous les 3 mois

    Premières actions :
    1. Création d’un wiki
    2. Identification de sujets métier
    3. Achat de GPUs
    4. Recrutement de stagiaires
    5. Mise en place d’une formation interne de 2 jours pour 18 personnes

    View Slide

  21. Page 21
    Pendant ce temps, Deep Learning et IA
    devenaient des buzz words
    On en parlait de plus en plus...
    Dans la presse
    Dans les soirées
    parisiennes
    Avec la mission confiée à Cédric Villani
    par le gouvernement
    Sensibilisation à tous les niveaux de Météo-France.
    Les esprits étaient mûrs pour la deuxième étape de structuration.

    View Slide

  22. Page 22
    Présentation des stagiaires en amphi
    Présentation en amphi des travaux de 4
    stagiaires Deep Learning
    150 participants !
    Débat ouvert sur l’organisation :
    Le Deep Learning à Météo-France est-il une affaire d’experts en IA ou d’experts en météo ?
    => Créer une équipe dédiée ? Former les équipes métier ? Faire appel à expertise extérieure ?

    View Slide

  23. Comment nous avons lancé notre
    démarche Deep Learning
    Deuxième étape de structuration

    View Slide

  24. Page 24
    Approche hybride
    Une approche hybride :

    Des projets en partenariat

    Consolidation de l’expertise interne

    View Slide

  25. Page 25
    Approche hybride : projets en partenariat et
    consolidation des compétences internes
    Projets en partenariat

    Projet de R&D - Deep4Cast

    en partenariat avec des labos extérieurs expérimentés en Deep Learning (IRT
    Saint-Exupéry, CIMI, CERFACS)

    Participation au projet 3IA : création d’un institut d’IA en région

    View Slide

  26. Page 26
    Approche hybride : projets en partenariat et
    consolidation des compétences internes
    Consolidation de l’expertise interne

    Création d’un Lab IA avec 4 experts

    En support aux équipes métier

    Avec le soutien financier du Fonds de Transformation de l’Action Publique

    Recrutement de nouveaux stagiaires Deep Learning mis à disposition des équipes
    métier
    Investissement en infrastructure

    400k€ sur deux ans pour acquisition d’infrastructures GPU + stockage rapide

    A l’étude : ajout de nœuds GPU sur le supercalculateur opérationnel

    View Slide

  27. Page 27
    Conclusion : comment le Deep Learning s’est
    installé dans le paysage
    Le Deep Learning s’est installé dans le paysage à Météo-France,
    en trois phases :

    Phase 0 : initiatives individuelles

    Phase 1 : structuration « par le bas »

    Club du Deep Learning

    POC avec stagiaires

    Phase 2 : structuration « par le haut »

    Projets en partenariat

    Création d’un Lab IA
    La démarche est récente, elle se structure, l’organisation va encore
    évoluer.

    View Slide

  28. Etudes de cas

    View Slide

  29. Modération d’images postées sur
    l’appli mobile de Météo-France

    View Slide

  30. Page 30
    Observation participative :
    une source d’information de grande valeur
    Ajout de
    photo

    View Slide

  31. Page 31
    Problème
    Comment modérer la photo en temps réel ?
    OK Pas OK

    View Slide

  32. Page 32
    La classification d’images : un problème résolu
    Chat Chien

    View Slide

  33. Page 33
    La classification d’images : un problème résolu
    ImageNet Challenge : 1000 classes

    View Slide

  34. Page 34
    La classification : un problème résolu

    View Slide

  35. Page 35
    Le transfer learning

    Utiliser un modèle déjà entraîné sur les millions d’images d’ImageNet

    Le spécialiser pour nos deux classes :
    ― Classe 1 : OK pour publication sur l’appli
    ― Classe 2 : Not OK

    View Slide

  36. Page 36
    Le transfer learning : comment faire

    A partir d’un réseau déjà entraîné sur un autre jeu de données

    Remplacer la dernière couche

    Figer (freeze) les poids des premières couches

    Ré-entraîner sur notre nouveau problème
    Conserver
    (freeze weights)
    Remplacer
    et ré-entraîner

    View Slide

  37. Page 37
    Le process d’entraînement
    Tri des données en 2 classes
    (OK / not OK)
    Importer le modèle
    pré-entraîné sur des millions
    d’images
    Entraîner le modèle sur les 2
    classes
    Data Augmentation
    Augmenter artificiellement le
    nombre d’images
    Entraîner de nouveau pour un
    meilleur score
    Avec la librairie Fast.ai, l’entraînement se fait
    en seulement 4 lignes de code !

    View Slide

  38. Page 38
    Et ça fonctionne très bien !
    OK Pas OK
    Classificateur Classificateur
    Temps d’inférence
    100ms sur CPU

    View Slide

  39. Autre application de la classification d’images :
    détection de neige au sol

    View Slide

  40. Page 40
    La mesure de neige au sol : une mesure difficile

    La mesure par instruments dédiés souffre d’un manque de
    représentativité géographique

    View Slide

  41. Page 41
    Détection de neige au sol : avec des images ?
    ● 700 images de neige / non-neige
    ● peu de variabilité de l’information
    ● seulement deux sites : Nancy et Entzheim
    Entrainement : Nancy Validation : Entzheim

    View Slide

  42. Page 42
    Résultats
    ● 95 % de bonnes prédictions
    ● Entraînement sur 400 images
    1. non-neige
    2. neige
    3. indéterminée

    View Slide

  43. Page 43
    Quelques bonnes prédictions
    [non_neige,neige,indeterminée]

    View Slide

  44. Page 44
    Erreurs de classification
    Label : neige
    Prédiction : indéterminée
    Label : neige
    Prédiction : non neige
    C’est l’humain qui s’est trompé
    pendant la labellisation. Ce n’est
    pas de la neige, c’est de la gelée
    blanche.

    View Slide

  45. Page 45
    Conclusion sur la classification d’images
    La classification d’images automatique d’images est désormais un problème facile

    View Slide

  46. Détection automatique de zones de pluie
    prévue par les modèles de Météo-France
    Crédits : Lucie Rottner, Laure Raynaud, Philippe Arbogast

    View Slide

  47. Page 47
    Détection automatique de pluie prévue

    Pluie faible en
    jaune

    Pluie modérée
    en orange

    Pluie forte en
    rouge
    Prévision de pluie cumulée sur 1h

    View Slide

  48. Page 48
    Détection automatique de pluie prévue

    Un algorithme de détection automatique existe et donne satisfaction

    Coût de calcul trop important pour une utilisation à des fins
    opérationnelles

    Idée : utiliser un algorithme de deep learning
    ― Reproduire les résultats existants

    Jeu de données d’apprentissage fourni par l’algorithme existant
    ― Gain en temps de calcul espéré

    View Slide

  49. Page 49
    Détection automatique de pluie prévue

    C’est un problème de segmentation sémantique

    Utilisation d’un réseau U-Net multi-classe

    Résultats obtenus par Claire Voreiter (stage M2)

    View Slide

  50. Page 50
    Détection automatique de pluie prévue

    Gain de temps considérable
    ― Détection classique : supérieure à 1 minute
    ― Détection par réseau de neurones : quelques secondes
    (résultat que l’on espère encore améliorer…)

    Résultats obtenus très rapidement lors du stage
    ― Entraînement d’un réseau U-Net pour détecter les pluies continues et discontinues

    Jeu de données créé à la main
    ― Prochaine étape : fusionner les approches dans un réseau multi-label

    Méthode prometteuse : ajout de type d’objet à détecter grandement simplifié par
    l’utilisation du réseau de neurones

    View Slide

  51. Prévision immédiate radar de pluie

    View Slide

  52. Page 52
    Animation radar de pluie

    View Slide

  53. Page 53
    Animation radar de pluie
    +5’
    +10’
    +15’
    +20’
    +25’
    +30’
    +35’
    +40’
    +45’
    +50’
    +55’
    +60’
    -10’
    -5’
    -15’
    0’
    Prédicteurs Variables à prédire
    Modèle
    Des modèles traditionnels existent.
    Peut-on faire aussi bien voire mieux en Deep Learning ?

    View Slide

  54. Page 54
    Architecture du réseau de neurones
    +5’
    +10’
    +15’
    +20’
    +25’
    +30’
    +35’
    +40’
    +45’
    +50’
    +55’
    +60’
    -10’
    -5’
    -15’
    0’
    Prédicteurs Variables à prédire
    Conv
    Maxpool
    Conv
    Conv
    Conv
    Conv
    Force brute !

    View Slide

  55. Page 55
    Résultats
    Input + Forecast Ground truth

    View Slide

  56. Page 56
    Difficultés rencontrées
    ● Temps d’entraînement long, très long...
    ● Images floues

    View Slide

  57. Page 57
    Pistes d’amélioration

    Pour le temps d’apprentissage
    ― Réseaux convolutionnels : peu performants pour déplacer
    des objets

    Coupler modèles traditionnels et Deep Learning
    ― Casser la tirelire

    Acheter machine GPU puissante

    Pour le flou
    ― Utilisation de GAN (Generative Adversarial Network)

    View Slide

  58. Page 58
    Les convolutions sont peu performantes pour
    déplacer des objets
    Translation des
    objets
    t 0min
    t+60min

    View Slide

  59. Page 59
    Conclusion sur la prévision d’images radar

    Le Deep Learning peut apporter une réponse à certains
    problèmes de prévision à court terme

    Des travaux restent à effectuer pour découvrir
    ― les bonnes architectures,
    ― Et les bonnes combinaisons algos classiques / Deep
    Learning

    View Slide

  60. Correction de données de température
    des stations connectées Netatmo

    View Slide

  61. Page 61
    Les données Netatmo

    View Slide

  62. Page 62
    Les données Netatmo
    Avantages:
    ● Capteurs de bonne qualité
    ● maillage important en France (45 000 stations contre 1250 réseau Radome)
    Inconvénients:
    ● Stations mal positionnées par l’utilisateur
    ● Stations qui bougent dans le temps (déménagement…)
    ● Stations qui se déconnectent souvent (Wifi…)
    ● Données concentrées en zone urbaine

    View Slide

  63. Page 63
    Jeu d’entraînement et de validation
    Validation
    Entraînement

    View Slide

  64. Page 64
    La méthode :
    Vérité terrain : une station Météo-France
    Prédicteurs : 5 à 10 stations Netatmo proches

    View Slide

  65. Page 65
    Séries temporelles : problème proche de la
    prédiction du prochain caractère d’un mot

    View Slide

  66. Page 66
    Architecture RNN : réseau de neurones récurrent
    Netatmo t=0
    x7
    Netatmo t=1
    x7
    ... Netatmo t=48
    x7
    Netatmo t=49
    x7
    Netatmo t=50
    x7
    Meteo t=0 Meteo t=1 Meteo t=2 Meteo t=48 Meteo t=49 Meteo t=50
    RNN RNN RNN RNN RNN
    RNN

    View Slide

  67. Page 67
    Résultats obtenus
    Erreur < 1.2°

    View Slide

  68. Page 68
    Résultats sur un site donné

    View Slide

  69. Page 69
    Résultats sur site donné
    Bon filtrage par le modèle :

    Du refroidissement trop lent des stations Netatmo

    Des mesures aberrantes

    View Slide

  70. Page 70
    Résultats sur plusieurs jours
    Difficultés du modèle à appréhender les extrêmes

    View Slide

  71. Page 71
    Conclusion sur le traitement de séries temporelles

    La méthode donne des résultats satisfaisants

    Reste à la benchmarker par rapport aux méthodes de Machine
    Learning traditionnel

    View Slide

  72. Conclusion

    View Slide

  73. Page 73
    Conclusion

    En météo, le Deep Learning fonctionne bien sur les sujets « classiques » :
    ― Classification d’image
    ― Segmentation sémantique de phénomènes courants

    Sur les sujets moins explorés, il reste du chemin à parcourir pour exploiter le
    potentiel du Deep Learning :
    ― Segmentation sémantique de phénomènes rares
    ― Prévision de séquences d’images
    ― Identification de situations analogues

    Le Deep Learning ne remplace pas la modélisation physique et le Machine
    Learning traditionnel (random forest, gradient boosting…)

    La démarche Deep Learning se structure
    Nous poursuivons l’exploration !

    View Slide

  74. Merci de votre attention !

    View Slide