La voix avec common voice

A51a19db1e861ad9e007de8a955d5141?s=47 hellosct1
November 01, 2019

La voix avec common voice

Présentation effectuée à la création numérique "Alchimie 13" par Christophe Villeneuve sur "La voix avec Common Voice".

Vous allez voir l'avancé de ces appareils, des projets libres comme Common Voice et DeepSpeech, la qualité des participations et contributions
Consulter le site officiel https://voice.mozilla.org

A51a19db1e861ad9e007de8a955d5141?s=128

hellosct1

November 01, 2019
Tweet

Transcript

  1. 06/11/19 1/1 La voix avec Common Voice @hellosct1 @hellosct1@mamot.fr Christophe

    Villeneuve
  2. Christophe Villeneuve ? Consultant Dresseur animaux Free Software

  3. Aujourd’hui Assistants vocaux Construire son Assistant La qualité

  4. Assistants vocaux Construire son Assistant La qualité

  5. Assistant numérique : au service de l’utilisateur Smartphone Enceinte connectée

    Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer Que faire avec ?
  6. Matériels

  7. Traitement de la voix Obligation d’un réseau – Connecter aux

    internets Accès aux services cloud pour pouvoir fonctionner – Entrainement et transcription gourmands en calculs Contraintes – Souvent laissé à des services tiers en-ligne – Nécessite beaucoup de données audio avec texte associé – Voix personnelle, mais enregistrement parfois constant
  8. Fonctionnement Assistant vocaux Requêtes Résultat Traitement

  9. L’utilisation de la recherche vocale aujourd’hui 2016 2020 2016 2020

    + 50 % web
  10. Aujourd’hui : Un constat Des gros acteurs (4-5) – Dominé

    par les géants du Web d’aujourd’hui Difficile d’accès pour les petits acteurs – Développeurs logiciels – Langues et marchés « minoritaires » Alternative pour outiller la communauté – Emergence d’outils vocaux → Projet Common Voice de Mozilla
  11. Alternative Raspberry PI – Respeaker 2 – Mics PI Hat

    Arduino – Movi d’Audème – Grasp.io – Voice Recognition Briques pour Les assistants vocaux – Common Voice – DeepSpeech de Mozilla
  12. Common Voice But – Aider à apprendre aux machines comment

    les humains parlent vraiment Destiné à rendre la reconnaissance vocale ouverte et accessible à tout le monde Objectifs – 10 000 heures de données validées par langue – Mini 2 000 heures → Assistant numérique et voix Common Voice & Deep Speech
  13. Objectifs (1/2) Cassons les barrières de la voix – Accès

    : peu de gros jeux de données publiquement accessibles – Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales – Biais : seuls certains marchés sont bien pourvus
  14. Objectifs (2/2) Collecte de données ouvertes pour l’apprentissage machine Données

    : audio et texte correspondant Diversité – Langues – Accents – Ages – Genres – Qualité sonore Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org
  15. Ingredients

  16. Assistants vocaux Construire son Assistant La qualité

  17. Construire son assistant Import CC0 Import CC0 Sentence Collector Sentence

    Collector Saisie Saisie
  18. Voice.mozilla.org → Parler https://voice.mozilla.org/speak

  19. Voice.mozilla.org → Ecouter https://voice.mozilla.org/listen

  20. Proposer et valider de nouvelles phrases Posséder un compte sur

    Common Voice. Identifiez-vous sur le Collecteur de phrases – Avec vos identifiants de Common Voice. Validation des phrases Page → page de validation. Ajouter de nouvelle phrases Page → Ajouter une nouvelle phrase
  21. Collecteur de phrases : Ajouter https://common-voice.github.io/sentence-collector/

  22. Collecteur de phrases : Valider https://common-voice.github.io/sentence-collector/

  23. None
  24. Heures enregistrées / Heures validées Qualité ?

  25. Mots ajoutés Les mots ajoutés quand on parle L’erreur est

    le mot ‘de’ qui a été ajouté Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche
  26. Mots oubliés Les mots qu’on oublie L’erreur est le mot

    ‘de’ qui a été oublié Angel est sur le point de l’interroger mais Wo-Pang se suicide Angel est sur le point de l’interroger mais Wo-Pang se suicide
  27. Mots accrochés Les mots qu’on accroche La première syllabe du

    mot ‘Phénicie’ a été accrochée Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie
  28. Lettre(s) oubliée(s) Les lettres oubliées qui modifient le sens de

    la phrase La lettre ‘s’ a été oubliée → la phrase ne veut plus rien dire En conséquence, Durant Motors perdit des parts de marché et des revendeurs. En conséquence, Durant Motors perdit des parts de marché et des revendeurs.
  29. Inversion de syllabe Une syllabe inversée dans un mot Le

    môt ‘évêché’ est prononcé « échevé » → qui est une erreur Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours. Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours.
  30. Matériels

  31. Mauvaise compréhension de l’échantillon Le matériel « Micro » de

    mauvaise qualité Un « brouhaha » empêche la compression
  32. Bruit de souffle Le réglage du micro est mal réglé

    ou trop élevé → Nous obtenons un bruit de souffle
  33. Volume faible Le volume du micro est faible → rend

    l’échantillon incompréhensible
  34. Début coupé le ou les premiers mots ne sont pas

    enregistrés L’enregistrement est déclenché trop tard Les deux premiers ne sont enregistrés → Clavier ou souris appuyé trop tard Puis il affine son plumage et replie les ailes. Puis il affine son plumage et replie les ailes.
  35. Echantillon coupé l’enregistrement de l’échantillon est stoppé avant la fin

    → Il manque une partie de la phrase Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante. Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante.
  36. Le dernier mot a été coupé le ou les derniers

    mots sont coupés avant la fin de l’enregistrement La dernière syllabe du mot ‘Montgeroult’ est coupé L’ensemble du groupe scolaire se situe à Montgeroult. L’ensemble du groupe scolaire se situe à Montgeroult.
  37. Construire son assistant

  38. DeepSpeech Speech To Text – Voix vers le texte Text

    To Speech – Texte vers la Voix
  39. Données ouvertes Décentraliser les données : plus de pouvoir aux

    utilisateurs et contributeurs – Facile à obtenir, exploiter – Partage des données – Intégration dans d’autres jeux de données – Outiller les communautés https://voice.mozilla.org/fr/datas ets
  40. La répartition des données Accent 64% Français de France 3%

    Français de Belgique 2% Français de Suisse 1% Français du Canada Âge < 19 : 4 % 19 - 29 : 24 % 30 - 39 : 21 % 40 - 49 : 17 % 50 - 59 : 5 % 60 - 69 : 6 % Genre 70 % Masculin 9 % Féminin Jeux de données vocales disponible – Contenu officiel https://voice.mozilla.org/fr/datasets
  41. Comment fait on ? Modèles – https://github.com/mozilla/deepspeech Languages – Python

    / Rust / NodeJS / .Net Projets locals – Pas de dépendance aux réseaux Compatilibité Navigateurs – Firefox et les autres
  42. Projets disponible Assistants numériques – Mycroft – Snips – Université

    de Bangor (Pays de Galles) Assistant personnel – Leon Transcription des messages – FusionPBX
  43. https://voice.mozilla.org

  44. Alors Pensez à faire des pauses Changez vous l’esprit Un

    peu de détente
  45. Allez plus loin ! Site officiel Common Voice – https://voice.mozilla.org/

    Dépôt Github Francophone Common Voice – DeepSpeech – https://github.com/Common-Voice/commonvoice-fr Nous contacter – Forum Discourse Francophone • https://discourse.mozilla.org/c/voice/fr
  46. Merci Christophe Villeneuve @hellosct1 @hellosct1@mamot.fr