Upgrade to Pro — share decks privately, control downloads, hide ads and more …

#35 Beyond Automatic Speech Recognition

#35 Beyond Automatic Speech Recognition

Les systèmes open source de reconnaissance automatique de la parole (RAP) conversationnelle produite en situation professionnelle, lors de réunions par exemple, sont rares voire inexistants.
Les transcriptions issues de ce type de systèmes doivent être aussi fiables que possible afin de permettre l'analyse des interactions linguistiques spontanées, faire des recommandations en temps réel destinées aux participants à la réunion et produire une synthèse de la réunion.
De tels services d'aide à la gestion de réunions ont été identifiés dans la littérature comme des scénarios complexes, centrés sur l'interaction conversationnelle et qui devraient voir le jour d'ici quelques années.
De tels scénarios doivent s'appuyer sur des systèmes de reconnaissance vocale adaptés à la parole conversationnelle et spontanée.
Sonia et Abdelwahab nous feront découvrir ce qui se cache derrière chaque module d'un système de RAP d'une façon interactive, et nous présenteront les enjeux de traitement et de libre accès aux données.

Bio:
Sonia BADENE et Abdelwahab HEBA, ingénieurs de recherche et doctorants à Linagora (leader français de l'Open Source).

Toulouse Data Science

February 12, 2019
Tweet

More Decks by Toulouse Data Science

Other Decks in Technology

Transcript

  1. 1
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 1
    Beyond Automatic Speech
    Recognition
    Sonia BADENE
    Abdelwahab HEBA
    {sbadene, aheba}@linagora.com
    12 Février 2019

    View Slide

  2. 2
    Nouvelles approches RAP
    4
    Demo + discussion
    5
    Pipeline traditionnelle de la RAP
    3
    Présentation de la société LINAGORA
    1
    Contexte Industriel de la RAP
    2
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 2

    View Slide

  3. 3
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 3
    Un des Leaders de l’Open Source
    Premier investissement privé de R&D pour le libre.

    View Slide

  4. 4
    Sonia BADENE – UPS - M2 Informatique IARF - 05/09/2017
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 4
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    Les valeurs de LINAGORA depuis 19 ans

    View Slide

  5. 5
    Sonia BADENE – UPS - M2 Informatique IARF - 05/09/2017
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 5
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    https://linto.ai/
    LinTO

    View Slide

  6. 6
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 6
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    Reconnaissance de la
    parole assistée par
    recommandation
    contextuelle dans un
    contexte de réunion
    Abdelwahab HEBA

    View Slide

  7. 7
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 7
    Sonia BADENE
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    Analyse de l'interaction
    langagière située
    multi-locuteur enrichie par
    des ressources
    multimodales pour un
    assistant conversationnel

    View Slide

  8. Communication humaine
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    8
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 8

    View Slide

  9. Le mot “appeler”
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    9
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 9
    Domaine
    temporel
    Domaine
    spectral

    View Slide

  10. 10
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 10

    View Slide

  11. 11
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 10

    View Slide

  12. Hybrid Speech Recognition System
    12
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 11
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  13. Apprentissage
    13
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 12
    - Feature Extraction
    - Acoustique Model + Lexicon
    - Language Model
    - Decoding
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  14. Feature extraction
    14
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 13
    ● Linear Predictive Coding (LPC)
    ● Mel Frequency Cepstral Coefficients (MFCC)
    ● LFCC Speech Features (LFCC-FB40)
    ● HFCC-E
    ● Pure FFT
    ● Principal Component Analysis (PCA)
    ● Independent Component Analysis (ICA)
    ● Linear Discriminant Analysis (LDA)
    ● Power Spectral Analysis
    ● Perceptual Linear Prediction (PLP)
    ● PLP Speech Features (PLP-FB19)
    ● Mel Scale Cepstral Analysis (MEL)
    ● Relative Spectra Filtering (RASTA)
    ● RASTA-PLP
    ● Use output or a low-dimensional bottleneck layer representation as features
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  15. Acoustic Model
    15
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 14
    - Align data & text
    - Compute probabilities P(o/p)
    of each segments o
    - Update boundaries
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  16. Lexicon
    16
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 15
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    Problématique
    - Out of Vocabulary

    View Slide

  17. Architecture générale d’un système de reconnaissance
    automatique de la parole par modélisation statistique.
    Système de reconnaissance de la parole
    MFCC, RASTA-PLP,
    LPCC
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    17
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16

    View Slide

  18. Architecture générale d’un système de reconnaissance
    automatique de la parole par modélisation statistique.
    Système de reconnaissance de la parole
    MFCC, RASTA-PLP,
    LPCC
    kk aa ff ei/ai
    oo/au ll ai
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    18
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16

    View Slide

  19. Architecture générale d’un système de reconnaissance
    automatique de la parole par modélisation statistique.
    Système de reconnaissance de la parole
    MFCC, RASTA-PLP,
    LPCC
    kk aa ff ei/ai
    oo/au ll ai
    café eau
    cas fée au lait
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    19
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16

    View Slide

  20. Architecture générale d’un système de reconnaissance
    automatique de la parole par modélisation statistique.
    Système de reconnaissance de la parole
    MFCC, RASTA-PLP,
    LPCC
    kk aa ff ei/ai
    oo/au ll ai
    café eau
    cas fée au lait
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    20
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 16

    View Slide

  21. Modèle de language
    21
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 17
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  22. se loger dans un entrepôt
    se loger dans un entre peaux
    ...
    soigner une mort sûre
    soigner une morsure

    il vient drap dix manches
    il viendra dix manches
    il viendra dimanche

    il viendra deux mains
    il viendra demain
    ...
    café eau lait /café au lait
    bientôt / bien tôt

    les hirondelles volent
    les six rondelles volent
    ...
    le bateau vient de rentrer au port/porc/pore
    Modèle du
    langage
    se loger dans un entrepôt
    soigner une morsure
    il viendra dimanche
    il viendra demain
    café au lait
    les hirondelles volent
    le bateau vient de rentrer au port
    Rôle du modèle de langage
    22
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 18
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  23. - les modèles à base de grammaires formelles - ils sont réalisés par les experts linguistes
    et formulent des réponses en oui/non.
    - les modèles probabilistes - ils opèrent sur un corpus et décrivent automatiquement un
    langage à partir de l’observation du corpus. Ils sont beaucoup utilisés dans les systèmes
    de RAP pour leur réponse probabiliste qu’ils génèrent.
    - les modèles hybrides - ils combinent les approches à grammaires formelles et
    probabilistes. Ils sont aussi appelés les modèles à grammaire probabiliste.
    LinTo /1e-20/
    oh mighty computer /1e-40/
    Jarvis /1e-30/
    autre phrase /1e-20/
    grammar hello;
    public = (bonjour | salut) ( Jarvis | Sonia | Tom | Pierre );
    Différents types de modèles de langage
    23
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 19
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  24. - Simplification => hypothèse de Markov (Un mot ne dépend que des quelques mots
    précédents)
    N-grams : réduire l’historique aux N-1 mots précédents
    - Comment traiter les événements pas ou peu observés ? => Procéder à une étape de
    lissage des probabilités (smoothing)
    Modèle N-gramme : un modèle probabiliste de référence
    24
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 20
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  25. Parole conversationnelle dans un contexte de réunion.
    Mots-clés :français parlé, parole spontanée, disfluences
    Particularité de la parole spontanée
    25
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  26. Parole conversationnelle dans un contexte de réunion.
    Mots-clés :français parlé, parole spontanée, disfluences
    Particularité de la parole spontanée
    26
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  27. Parole conversationnelle dans un contexte de réunion.
    Mots-clés :français parlé, parole spontanée, disfluences
    hésitation
    phrases
    répétées ou
    recommencées
    faux-départs
    Particularité de la parole spontanée
    mots coupés à
    mi-propos
    27
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  28. Parole conversationnelle dans un contexte de réunion.
    Mots-clés :français parlé, parole spontanée, disfluences
    hésitation
    phrases
    répétées ou
    recommencées
    faux-départs
    Particularité de la parole spontanée
    tics de langage
    propos non
    lexicaux « euh »,
    « hum », « hem »
    mots coupés à
    mi-propos
    « ah », «
    genre », «
    euh »
    chevauchements
    28
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 21
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  29. Evaluation des performances des modèles de langage
    Perplexité
    La probabilité attribuée par le modèle ML au
    contenu du corpus de TEST
    Correspond au nombre moyen de mots
    candidats à la prédiction
    Word Error Rate (WER)

    N est le nombre de mots de référence,
    S est le nombre de substitutions (mots
    incorrectement reconnus),
    D est le nombre de suppressions (mots
    omis),
    I est le nombre d'insertions (mots ajoutés)
    29
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 22
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  30. Collecte des ressources linguistiques
    Outils de construction des modèles de langage
    - Le dictionnaire
    - Corpus de texte/ audio
    SRILM, MITLM, IRSTLM, RNNLM
    Etapes de construction
    - Préparer les fichiers nécessaires au système de RAP
    - Préparation du texte (nettoyer et segmenter)
    - Entraîner le modèle de langage avec un outil
    - Evaluer le modèle
    30
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 23
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  31. Corpus de texte et d’audio
    Problème rencontré: peu de données libres en langue française et de parole conversationnelle
    (dépôt github https://github.com/openpaas-ng/openpaas-sp5-lm-preparation)
    Corpus Nb d'heures/mots Type de données
    ACSYNT 9h/124000 mots Conférences, présentations,
    interviews
    TCOF 124 h Discours spontanné
    CFPP2000 49 h Interviews
    ESLO 435h/5 million de
    mots
    Appels, interviews, visites, diner,
    rencontres
    Sous-titres de
    films
    beaucoup Divers
    31
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 24
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  32. Trois types de fichiers dans chaque corpus
    - Audio
    - Transcription
    - Métadonnée
    Différents formats de transcription
    - Transcriber format (TCOF, CFPP2000)
    - PRAAT (textgrid format) (ASCYNT)
    - SubRip and SubStation Alpha subtitle text file
    format (Movie Subtitles)
    Différentes conventions de transcription
    Préparation des données et nettoyage du texte
    32
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 25
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  33. Avant Après pour le MA Après pour le ML
    Il est rentré à la (x2) maison
    vers XXX 1h du matin!
    Euh non plus grand [bruit]
    je sais même pas en fait
    mais c'est lycées il y a des collèges?>
    il y a il y a un seul lycée
    public il y a 3 lycées privés
    il est rentré à la la maison
    vers une heure du
    matin
    euh non plus grand
    je sais même
    pas en fait mais c'est
    il y a des lycées il y a des
    collèges
    il y a il y a un seul lycée
    public
    il y a trois lycées privés
    il est rentré à la la maison
    vers une heure du matin
    euh non plus grand je sais
    même pas en fait
    mais c'est
    il y a des lycées il y a des
    collèges
    il y a il y a un seul lycée
    public
    il y a trois lycées privés
    Préparation du texte pour les modèles
    33
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 26
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  34. Évolution de la perplexité au cours des nettoyages des
    transcriptions d’ACSYNT.
    Impact du nettoyage des données sur le ML
    34
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 27
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  35. Projet d’évaluation de combinaison des modèles de
    langage pour la parole conversationnelle
    Objectif: Amélioration des performances d’un ML générique pour la RAP
    conversationnelle avec des MLs spécifiques
    - Métriques utilisées: perplexité, WER
    - Modèle acoustique commun
    - Modèle de langage générique
    35
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 28
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  36. Projet d’évaluation de combinaison des modèles de
    langage pour la parole conversationnelle
    1 er étape
    Mixer le modèle générique
    avec un modèle spécifique
    2 eme étape
    Mécanisme d’élagage (pruning)
    Réduire l’espace de recherche
    afin d’alléger le modèle
    Paramètres: pourcentage corpus, ordre, méthodes de lissage avec leurs options, ...
    36
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 29
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  37. Decodage
    37
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 30
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  38. 38
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 30
    LINAGORA RAP New
    approaches
    Demo
    Contexte
    RAP
    DEMO

    View Slide

  39. 39
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 31
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP
    HMM-NN End-To-End CTC fashion
    End-To-End with seq-2-seq fashion

    View Slide

  40. 40
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 32
    CTC
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  41. 41
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 33
    CTC prefix beam search
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  42. 42
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 34
    Seq to Seq
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  43. 43
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 35
    Home message
    Speech Recognition systems
    ★ HMM-GMM traditional system
    ★ Hybrid ASR system
    ★ Use Neural Networks for feature representation
    ★ Or , use Neural Networks for phoneme recognition
    ★ End-To-End Neural Networks system
    ★ Grapheme based model
    ★ Need lot of date to perform
    ★ Complex modeling
    LINAGORA RAP
    New
    approaches
    Demo
    Contexte
    RAP

    View Slide

  44. 44
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 36
    Après la transcription ?
    LINAGORA RAP
    New
    Approaches
    Demo
    Contexte
    RAP
    Greeting
    Statement
    Request
    Question
    Answer
    Social Act
    Résumé automatique
    Analyse du discours
    Recommandations
    Détection d’intentions

    View Slide

  45. 45
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 36
    LINAGORA RAP
    New
    Approaches
    Demo
    Contexte
    RAP
    DEMO
    https://github.com/linto-ai

    View Slide

  46. Merci de votre attention.
    46
    TDS, Harry Cow - 13 rue sainte Ursule - Toulouse, France 37

    View Slide