La voix avec common voice

06/11/19 1/1 La voix avec Common Voice @hellosct1 @[email protected] Christophe
Villeneuve

Christophe Villeneuve ? Consultant Dresseur animaux Free Software

Aujourd’hui Assistants vocaux Construire son Assistant La qualité

Assistants vocaux Construire son Assistant La qualité

Assistant numérique : au service de l’utilisateur Smartphone Enceinte connectée
Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer Que faire avec ?

Matériels

Traitement de la voix Obligation d’un réseau – Connecter aux
internets Accès aux services cloud pour pouvoir fonctionner – Entrainement et transcription gourmands en calculs Contraintes – Souvent laissé à des services tiers en-ligne – Nécessite beaucoup de données audio avec texte associé – Voix personnelle, mais enregistrement parfois constant

Fonctionnement Assistant vocaux Requêtes Résultat Traitement

L’utilisation de la recherche vocale aujourd’hui 2016 2020 2016 2020
+ 50 % web

Aujourd’hui : Un constat Des gros acteurs (4-5) – Dominé
par les géants du Web d’aujourd’hui Difficile d’accès pour les petits acteurs – Développeurs logiciels – Langues et marchés « minoritaires » Alternative pour outiller la communauté – Emergence d’outils vocaux → Projet Common Voice de Mozilla

Alternative Raspberry PI – Respeaker 2 – Mics PI Hat
Arduino – Movi d’Audème – Grasp.io – Voice Recognition Briques pour Les assistants vocaux – Common Voice – DeepSpeech de Mozilla

Common Voice But – Aider à apprendre aux machines comment
les humains parlent vraiment Destiné à rendre la reconnaissance vocale ouverte et accessible à tout le monde Objectifs – 10 000 heures de données validées par langue – Mini 2 000 heures → Assistant numérique et voix Common Voice & Deep Speech

Objectifs (1/2) Cassons les barrières de la voix – Accès
: peu de gros jeux de données publiquement accessibles – Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales – Biais : seuls certains marchés sont bien pourvus

Objectifs (2/2) Collecte de données ouvertes pour l’apprentissage machine Données
: audio et texte correspondant Diversité – Langues – Accents – Ages – Genres – Qualité sonore Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org

Ingredients

Assistants vocaux Construire son Assistant La qualité

Construire son assistant Import CC0 Import CC0 Sentence Collector Sentence
Collector Saisie Saisie

Voice.mozilla.org → Parler https://voice.mozilla.org/speak

Voice.mozilla.org → Ecouter https://voice.mozilla.org/listen

Proposer et valider de nouvelles phrases Posséder un compte sur
Common Voice. Identifiez-vous sur le Collecteur de phrases – Avec vos identifiants de Common Voice. Validation des phrases Page → page de validation. Ajouter de nouvelle phrases Page → Ajouter une nouvelle phrase

Collecteur de phrases : Ajouter https://common-voice.github.io/sentence-collector/

Collecteur de phrases : Valider https://common-voice.github.io/sentence-collector/

Heures enregistrées / Heures validées Qualité ?

Mots ajoutés Les mots ajoutés quand on parle L’erreur est
le mot ‘de’ qui a été ajouté Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche Elle est située dans la zec Louise- Gosford, une aire publique de chasse et de pêche

Mots oubliés Les mots qu’on oublie L’erreur est le mot
‘de’ qui a été oublié Angel est sur le point de l’interroger mais Wo-Pang se suicide Angel est sur le point de l’interroger mais Wo-Pang se suicide

Mots accrochés Les mots qu’on accroche La première syllabe du
mot ‘Phénicie’ a été accrochée Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie Elle relie le nord de l’égypte à la Phé Phénicie, l’Assyrie et la Mésopotamie

Lettre(s) oubliée(s) Les lettres oubliées qui modifient le sens de
la phrase La lettre ‘s’ a été oubliée → la phrase ne veut plus rien dire En conséquence, Durant Motors perdit des parts de marché et des revendeurs. En conséquence, Durant Motors perdit des parts de marché et des revendeurs.

Inversion de syllabe Une syllabe inversée dans un mot Le
môt ‘évêché’ est prononcé « échevé » → qui est une erreur Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours. Selon l’échevé de Liège, l’abbé Schoonbroodt ne dispose d’aucun recours.

Matériels

Mauvaise compréhension de l’échantillon Le matériel « Micro » de
mauvaise qualité Un « brouhaha » empêche la compression

Bruit de souffle Le réglage du micro est mal réglé
ou trop élevé → Nous obtenons un bruit de souffle

Volume faible Le volume du micro est faible → rend
l’échantillon incompréhensible

Début coupé le ou les premiers mots ne sont pas
enregistrés L’enregistrement est déclenché trop tard Les deux premiers ne sont enregistrés → Clavier ou souris appuyé trop tard Puis il affine son plumage et replie les ailes. Puis il affine son plumage et replie les ailes.

Echantillon coupé l’enregistrement de l’échantillon est stoppé avant la fin
→ Il manque une partie de la phrase Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante. Les droits de Gielow sont ensuite rachetés au moment de la Réforme protestante.

Le dernier mot a été coupé le ou les derniers
mots sont coupés avant la fin de l’enregistrement La dernière syllabe du mot ‘Montgeroult’ est coupé L’ensemble du groupe scolaire se situe à Montgeroult. L’ensemble du groupe scolaire se situe à Montgeroult.

Construire son assistant

DeepSpeech Speech To Text – Voix vers le texte Text
To Speech – Texte vers la Voix

Données ouvertes Décentraliser les données : plus de pouvoir aux
utilisateurs et contributeurs – Facile à obtenir, exploiter – Partage des données – Intégration dans d’autres jeux de données – Outiller les communautés https://voice.mozilla.org/fr/datas ets

La répartition des données Accent 64% Français de France 3%
Français de Belgique 2% Français de Suisse 1% Français du Canada Âge < 19 : 4 % 19 - 29 : 24 % 30 - 39 : 21 % 40 - 49 : 17 % 50 - 59 : 5 % 60 - 69 : 6 % Genre 70 % Masculin 9 % Féminin Jeux de données vocales disponible – Contenu officiel https://voice.mozilla.org/fr/datasets

Comment fait on ? Modèles – https://github.com/mozilla/deepspeech Languages – Python
/ Rust / NodeJS / .Net Projets locals – Pas de dépendance aux réseaux Compatilibité Navigateurs – Firefox et les autres

Projets disponible Assistants numériques – Mycroft – Snips – Université
de Bangor (Pays de Galles) Assistant personnel – Leon Transcription des messages – FusionPBX

https://voice.mozilla.org

Alors Pensez à faire des pauses Changez vous l’esprit Un
peu de détente

Allez plus loin ! Site officiel Common Voice – https://voice.mozilla.org/
Dépôt Github Francophone Common Voice – DeepSpeech – https://github.com/Common-Voice/commonvoice-fr Nous contacter – Forum Discourse Francophone • https://discourse.mozilla.org/c/voice/fr

Merci Christophe Villeneuve @hellosct1 @[email protected]

La voix avec common voice

La voix avec common voice

More Decks by hellosct1

Other Decks in Technology

Featured

Transcript