#35 Beyond Automatic Speech Recognition

#35 Beyond Automatic Speech Recognition

Les systèmes open source de reconnaissance automatique de la parole (RAP) conversationnelle produite en situation professionnelle, lors de réunions par exemple, sont rares voire inexistants.
Les transcriptions issues de ce type de systèmes doivent être aussi fiables que possible afin de permettre l'analyse des interactions linguistiques spontanées, faire des recommandations en temps réel destinées aux participants à la réunion et produire une synthèse de la réunion.
De tels services d'aide à la gestion de réunions ont été identifiés dans la littérature comme des scénarios complexes, centrés sur l'interaction conversationnelle et qui devraient voir le jour d'ici quelques années.
De tels scénarios doivent s'appuyer sur des systèmes de reconnaissance vocale adaptés à la parole conversationnelle et spontanée.
Sonia et Abdelwahab nous feront découvrir ce qui se cache derrière chaque module d'un système de RAP d'une façon interactive, et nous présenteront les enjeux de traitement et de libre accès aux données.

Bio:
Sonia BADENE et Abdelwahab HEBA, ingénieurs de recherche et doctorants à Linagora (leader français de l'Open Source).

6aa4f3c589d3108830b371d0310bc4da?s=128

Toulouse Data Science

February 12, 2019
Tweet

Transcript

  1. 1.

    1 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 1 Beyond Automatic Speech Recognition Sonia BADENE Abdelwahab HEBA {sbadene, aheba}@linagora.com 12 Février 2019
  2. 2.

    2 Nouvelles approches RAP 4 Demo + discussion 5 Pipeline

    traditionnelle de la RAP 3 Présentation de la société LINAGORA 1 Contexte Industriel de la RAP 2 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 2
  3. 3.

    3 LINAGORA RAP New approaches Demo Contexte RAP TDS, Harry

    Cow - 13 rue sainte Ursule - Toulouse, France 3 Un des Leaders de l’Open Source Premier investissement privé de R&D pour le libre.
  4. 4.

    4 Sonia BADENE – UPS - M2 Informatique IARF -

    05/09/2017 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 4 LINAGORA RAP New approaches Demo Contexte RAP Les valeurs de LINAGORA depuis 19 ans
  5. 5.

    5 Sonia BADENE – UPS - M2 Informatique IARF -

    05/09/2017 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 5 LINAGORA RAP New approaches Demo Contexte RAP https://linto.ai/ LinTO
  6. 6.

    6 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 6 LINAGORA RAP New approaches Demo Contexte RAP Reconnaissance de la parole assistée par recommandation contextuelle dans un contexte de réunion Abdelwahab HEBA
  7. 7.

    7 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 7 Sonia BADENE LINAGORA RAP New approaches Demo Contexte RAP Analyse de l'interaction langagière située multi-locuteur enrichie par des ressources multimodales pour un assistant conversationnel
  8. 8.

    Communication humaine LINAGORA RAP New approaches Demo Contexte RAP 8

    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 8
  9. 9.

    Le mot “appeler” LINAGORA RAP New approaches Demo Contexte RAP

    9 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 9 Domaine temporel Domaine spectral
  10. 10.

    10 LINAGORA RAP New approaches Demo Contexte RAP TDS, Harry

    Cow - 13 rue sainte Ursule - Toulouse, France 10
  11. 11.

    11 LINAGORA RAP New approaches Demo Contexte RAP TDS, Harry

    Cow - 13 rue sainte Ursule - Toulouse, France 10
  12. 12.

    Hybrid Speech Recognition System 12 TDS, Harry Cow - 13

    rue sainte Ursule - Toulouse, France 11 LINAGORA RAP New approaches Demo Contexte RAP
  13. 13.

    Apprentissage 13 TDS, Harry Cow - 13 rue sainte Ursule

    - Toulouse, France 12 - Feature Extraction - Acoustique Model + Lexicon - Language Model - Decoding LINAGORA RAP New approaches Demo Contexte RAP
  14. 14.

    Feature extraction 14 TDS, Harry Cow - 13 rue sainte

    Ursule - Toulouse, France 13 • Linear Predictive Coding (LPC) • Mel Frequency Cepstral Coefficients (MFCC) • LFCC Speech Features (LFCC-FB40) • HFCC-E • Pure FFT • Principal Component Analysis (PCA) • Independent Component Analysis (ICA) • Linear Discriminant Analysis (LDA) • Power Spectral Analysis • Perceptual Linear Prediction (PLP) • PLP Speech Features (PLP-FB19) • Mel Scale Cepstral Analysis (MEL) • Relative Spectra Filtering (RASTA) • RASTA-PLP • Use output or a low-dimensional bottleneck layer representation as features LINAGORA RAP New approaches Demo Contexte RAP
  15. 15.

    Acoustic Model 15 TDS, Harry Cow - 13 rue sainte

    Ursule - Toulouse, France 14 - Align data & text - Compute probabilities P(o/p) of each segments o - Update boundaries LINAGORA RAP New approaches Demo Contexte RAP
  16. 16.

    Lexicon 16 TDS, Harry Cow - 13 rue sainte Ursule

    - Toulouse, France 15 LINAGORA RAP New approaches Demo Contexte RAP Problématique - Out of Vocabulary
  17. 17.

    Architecture générale d’un système de reconnaissance automatique de la parole

    par modélisation statistique. Système de reconnaissance de la parole MFCC, RASTA-PLP, LPCC LINAGORA RAP New approaches Demo Contexte RAP 17 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16
  18. 18.

    Architecture générale d’un système de reconnaissance automatique de la parole

    par modélisation statistique. Système de reconnaissance de la parole MFCC, RASTA-PLP, LPCC kk aa ff ei/ai oo/au ll ai LINAGORA RAP New approaches Demo Contexte RAP 18 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16
  19. 19.

    Architecture générale d’un système de reconnaissance automatique de la parole

    par modélisation statistique. Système de reconnaissance de la parole MFCC, RASTA-PLP, LPCC kk aa ff ei/ai oo/au ll ai café eau cas fée au lait LINAGORA RAP New approaches Demo Contexte RAP 19 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16
  20. 20.

    Architecture générale d’un système de reconnaissance automatique de la parole

    par modélisation statistique. Système de reconnaissance de la parole MFCC, RASTA-PLP, LPCC kk aa ff ei/ai oo/au ll ai café eau cas fée au lait LINAGORA RAP New approaches Demo Contexte RAP 20 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16
  21. 21.

    Modèle de language 21 TDS, Harry Cow - 13 rue

    sainte Ursule - Toulouse, France 17 LINAGORA RAP New approaches Demo Contexte RAP
  22. 22.

    se loger dans un entrepôt se loger dans un entre

    peaux ... soigner une mort sûre soigner une morsure … il vient drap dix manches il viendra dix manches il viendra dimanche … il viendra deux mains il viendra demain ... café eau lait /café au lait bientôt / bien tôt … les hirondelles volent les six rondelles volent ... le bateau vient de rentrer au port/porc/pore Modèle du langage se loger dans un entrepôt soigner une morsure il viendra dimanche il viendra demain café au lait les hirondelles volent le bateau vient de rentrer au port Rôle du modèle de langage 22 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 18 LINAGORA RAP New approaches Demo Contexte RAP
  23. 23.

    - les modèles à base de grammaires formelles - ils

    sont réalisés par les experts linguistes et formulent des réponses en oui/non. - les modèles probabilistes - ils opèrent sur un corpus et décrivent automatiquement un langage à partir de l’observation du corpus. Ils sont beaucoup utilisés dans les systèmes de RAP pour leur réponse probabiliste qu’ils génèrent. - les modèles hybrides - ils combinent les approches à grammaires formelles et probabilistes. Ils sont aussi appelés les modèles à grammaire probabiliste. LinTo /1e-20/ oh mighty computer /1e-40/ Jarvis /1e-30/ autre phrase /1e-20/ grammar hello; public <greet> = (bonjour | salut) ( Jarvis | Sonia | Tom | Pierre ); Différents types de modèles de langage 23 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 19 LINAGORA RAP New approaches Demo Contexte RAP
  24. 24.

    - Simplification => hypothèse de Markov (Un mot ne dépend

    que des quelques mots précédents) N-grams : réduire l’historique aux N-1 mots précédents - Comment traiter les événements pas ou peu observés ? => Procéder à une étape de lissage des probabilités (smoothing) Modèle N-gramme : un modèle probabiliste de référence 24 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 20 LINAGORA RAP New approaches Demo Contexte RAP
  25. 25.

    Parole conversationnelle dans un contexte de réunion. Mots-clés :français parlé,

    parole spontanée, disfluences Particularité de la parole spontanée 25 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21 LINAGORA RAP New approaches Demo Contexte RAP
  26. 26.

    Parole conversationnelle dans un contexte de réunion. Mots-clés :français parlé,

    parole spontanée, disfluences Particularité de la parole spontanée 26 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21 LINAGORA RAP New approaches Demo Contexte RAP
  27. 27.

    Parole conversationnelle dans un contexte de réunion. Mots-clés :français parlé,

    parole spontanée, disfluences hésitation phrases répétées ou recommencées faux-départs Particularité de la parole spontanée mots coupés à mi-propos 27 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21 LINAGORA RAP New approaches Demo Contexte RAP
  28. 28.

    Parole conversationnelle dans un contexte de réunion. Mots-clés :français parlé,

    parole spontanée, disfluences hésitation phrases répétées ou recommencées faux-départs Particularité de la parole spontanée tics de langage propos non lexicaux « euh », « hum », « hem » mots coupés à mi-propos « ah », « genre », « euh » chevauchements 28 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21 LINAGORA RAP New approaches Demo Contexte RAP
  29. 29.

    Evaluation des performances des modèles de langage Perplexité La probabilité

    attribuée par le modèle ML au contenu du corpus de TEST Correspond au nombre moyen de mots candidats à la prédiction Word Error Rate (WER) où N est le nombre de mots de référence, S est le nombre de substitutions (mots incorrectement reconnus), D est le nombre de suppressions (mots omis), I est le nombre d'insertions (mots ajoutés) 29 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 22 LINAGORA RAP New approaches Demo Contexte RAP
  30. 30.

    Collecte des ressources linguistiques Outils de construction des modèles de

    langage - Le dictionnaire - Corpus de texte/ audio SRILM, MITLM, IRSTLM, RNNLM Etapes de construction - Préparer les fichiers nécessaires au système de RAP - Préparation du texte (nettoyer et segmenter) - Entraîner le modèle de langage avec un outil - Evaluer le modèle 30 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 23 LINAGORA RAP New approaches Demo Contexte RAP
  31. 31.

    Corpus de texte et d’audio Problème rencontré: peu de données

    libres en langue française et de parole conversationnelle (dépôt github https://github.com/openpaas-ng/openpaas-sp5-lm-preparation) Corpus Nb d'heures/mots Type de données ACSYNT 9h/124000 mots Conférences, présentations, interviews TCOF 124 h Discours spontanné CFPP2000 49 h Interviews ESLO 435h/5 million de mots Appels, interviews, visites, diner, rencontres Sous-titres de films beaucoup Divers 31 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 24 LINAGORA RAP New approaches Demo Contexte RAP
  32. 32.

    Trois types de fichiers dans chaque corpus - Audio -

    Transcription - Métadonnée Différents formats de transcription - Transcriber format (TCOF, CFPP2000) - PRAAT (textgrid format) (ASCYNT) - SubRip and SubStation Alpha subtitle text file format (Movie Subtitles) Différentes conventions de transcription Préparation des données et nettoyage du texte 32 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 25 LINAGORA RAP New approaches Demo Contexte RAP
  33. 33.

    Avant Après pour le MA Après pour le ML Il

    est rentré à la (x2) maison vers XXX 1h du matin! Euh non plus grand [bruit] je sais même pas en fait mais c'est <E: il y a des lycées il y a des collèges?> il y a il y a un seul lycée public il y a 3 lycées privés il est rentré à la la maison vers <noise> une heure du matin euh non plus grand <longnoise> je sais même pas en fait mais c'est il y a des lycées il y a des collèges il y a il y a un seul lycée public il y a trois lycées privés il est rentré à la la maison vers une heure du matin euh non plus grand je sais même pas en fait mais c'est il y a des lycées il y a des collèges il y a il y a un seul lycée public il y a trois lycées privés Préparation du texte pour les modèles 33 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 26 LINAGORA RAP New approaches Demo Contexte RAP
  34. 34.

    Évolution de la perplexité au cours des nettoyages des transcriptions

    d’ACSYNT. Impact du nettoyage des données sur le ML 34 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 27 LINAGORA RAP New approaches Demo Contexte RAP
  35. 35.

    Projet d’évaluation de combinaison des modèles de langage pour la

    parole conversationnelle Objectif: Amélioration des performances d’un ML générique pour la RAP conversationnelle avec des MLs spécifiques - Métriques utilisées: perplexité, WER - Modèle acoustique commun - Modèle de langage générique 35 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 28 LINAGORA RAP New approaches Demo Contexte RAP
  36. 36.

    Projet d’évaluation de combinaison des modèles de langage pour la

    parole conversationnelle 1 er étape Mixer le modèle générique avec un modèle spécifique 2 eme étape Mécanisme d’élagage (pruning) Réduire l’espace de recherche afin d’alléger le modèle Paramètres: pourcentage corpus, ordre, méthodes de lissage avec leurs options, ... 36 TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 29 LINAGORA RAP New approaches Demo Contexte RAP
  37. 37.

    Decodage 37 TDS, Harry Cow - 13 rue sainte Ursule

    - Toulouse, France 30 LINAGORA RAP New approaches Demo Contexte RAP
  38. 38.

    38 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 30 LINAGORA RAP New approaches Demo Contexte RAP DEMO
  39. 39.

    39 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 31 LINAGORA RAP New approaches Demo Contexte RAP HMM-NN End-To-End CTC fashion End-To-End with seq-2-seq fashion
  40. 40.

    40 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 32 CTC LINAGORA RAP New approaches Demo Contexte RAP
  41. 41.

    41 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 33 CTC prefix beam search LINAGORA RAP New approaches Demo Contexte RAP
  42. 42.

    42 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 34 Seq to Seq LINAGORA RAP New approaches Demo Contexte RAP
  43. 43.

    43 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 35 Home message Speech Recognition systems ★ HMM-GMM traditional system ★ Hybrid ASR system ★ Use Neural Networks for feature representation ★ Or , use Neural Networks for phoneme recognition ★ End-To-End Neural Networks system ★ Grapheme based model ★ Need lot of date to perform ★ Complex modeling LINAGORA RAP New approaches Demo Contexte RAP
  44. 44.

    44 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 36 Après la transcription ? LINAGORA RAP New Approaches Demo Contexte RAP Greeting Statement Request Question Answer Social Act Résumé automatique Analyse du discours Recommandations Détection d’intentions
  45. 45.

    45 TDS, Harry Cow - 13 rue sainte Ursule -

    Toulouse, France 36 LINAGORA RAP New Approaches Demo Contexte RAP DEMO https://github.com/linto-ai
  46. 46.

    Merci de votre attention. 46 TDS, Harry Cow - 13

    rue sainte Ursule - Toulouse, France 37