Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Common Voice

Common Voice

Présentation effectuée au Geek Faëries 2019 (9 juin 2019) par Alexandre Lissy et Christophe Villeneuve sur "Common Voice".
Vous allez voir l'avancé de ce projet libre, le moyen de participer et de contribuer
Consulter le site officiel https://voice.mozilla.org

hellosct1

June 08, 2019
Tweet

More Decks by hellosct1

Other Decks in Technology

Transcript

  1. Common Voice Produire des données vocales libres Alexandre Lissy –

    Christophe Villeneuve [email protected][email protected] Alexandre Lissy – Christophe Villeneuve | Common Voice 1/22
  2. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice

    3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 2/22
  3. Assistant numérique et voix Impacts de la navigation Web vocale

    Assistant numérique : au service de l’utilisateur Smartphone Enceinte connectée Mixed Reality Souvent utilisé dans des contextes où la voix est plus efficace pour communiquer Traitement de la voix Entrainement et transcription gourmands en calculs Souvent laissé à des services tiers en-ligne Nécessite beaucoup de données audio avec texte associé Voix personnelle, mais enregistrement parfois constant Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 3/22
  4. Assistant numérique et voix L’utilisation de la recherche vocale aujourd’hui

    et demain 2016 2020 Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 4/22
  5. Assistant numérique et voix Verrous de l’écosystème L’écosystème vocal, aujourd’hui

    Entre les mains de 4-5 gros acteurs, dominé par les géants du Web d’aujourd’hui Difficile d’accès pour les petits acteurs Développeurs logiciel Langues et marchés « minoritaires » Mozilla doit aider à l’émergence d’outils vocaux en outillant la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Assistant numérique et voix 5/22
  6. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice

    3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 7/22
  7. https://common-voice.github.io/sentence-collector/ – Comment ça marche Ajouter du texte Alexandre Lissy

    – Christophe Villeneuve | Common Voice | Projet Common Voice 10/22
  8. Common Voice Objectifs Cassons les barrières de la voix Accès

    : peu de gros jeux de données publiquement accessibles Coût : ticket d’entrée important pour les jeux de données commerciaux, avec des complexités légales Biais : seuls certains marchés sont bien pourvus Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 11/22
  9. Common Voice Objectifs Collecte de données ouvertes pour l’apprentissage machine

    Données : audio et texte correspondant Diversité Langues Accents Ages Genres Qualité sonore Nous visons 10 000 heures de données validées par langue : https://voice.mozilla.org Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 12/22
  10. Common Voice Données ouvertes Décentraliser les données : plus de

    pouvoir aux utilisateurs et contributeurs Facile à obtenir, exploiter Partage des données Intégration dans d’autres jeux de données Outiller les communautés Alexandre Lissy – Christophe Villeneuve | Common Voice | Projet Common Voice 14/22
  11. Sommaire 1 Assistant numérique et voix 2 Projet Common Voice

    3 Accompagner la communauté Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 15/22
  12. Accompagner la communauté Construit avec la communauté Alexandre Lissy –

    Christophe Villeneuve | Common Voice | Accompagner la communauté 16/22
  13. Accompagner la communauté Mozilla ne serait rien sans sa communauté

    Qui est un contributeur ? Tout le monde ! Sociétés et startups Institutions et chercheurs Hobbyistes individuels Utiliser c’est déjà contribuer : télémétrie dans Firefox Commencer à contribuer est un jeu d’enfants : enregistrez votre voix et écoutez celles des autres. Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 17/22
  14. Accompagner la communauté Mozilla ne serait rien sans sa communauté

    Le cas du kabyle Région d’Algérie, avec sa propre langue, ≈ 5M locuteurs localement (≈ 25 − 30M dans le monde) Forte culture locale Déjà des contributeurs qui traduisent Firefox Implication forte : ≈ 300 contributeurs, et plus de 95 heures déjà collectées Chercheurs et institutions Contributions de gouvernements pour leur langue Université de l’Illinois : Flickr30k, 130 000 phrases supplémentaires Benchmark non biaisé : Speech Advisory Group Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 18/22
  15. Accompagner la communauté Mozilla ne serait rien sans sa communauté

    Contributions par les faits 30 langues actives, dont l’anglais, l’allemand, le kabyle, le français, le catalan, le breton, le basque. 1200 heures validées en novembre 2018 au total, 2100 heures validées en juin 2019, 2700 heures enregistrées ; contributeurs de 112 pays. Dont 202 heures enregistrées et 190 validées en français. Plus de 110000 contributeurs individuels ont enregistré et/ou validé. Plus de 200 développeurs ont participé. Mycroft et Snips (assistants numériques), Université de Bangor (Pays de Galles). Jeu de données téléchargé des centaines de fois tous les mois. Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 19/22
  16. Première version du jeu de données Common Voice Sortie officielle

    en plusieurs langues : février 2019 Données accumulées depuis la mise en place (juin) jusqu’à fin décembre : 18 langues disponibles Quelques statistiques Accents : 74% france ; 2% belgique ; 1% suisse ; 1% canada Genres : 72% masculin ; 7% féminin Âges : 6% < 19 ans ; 23% 19-29 ans ; 20% 30-39 ans ; 25% 40-49 ans ; 2% 50-59 ans ; 2% 60-69 ans Alexandre Lissy – Christophe Villeneuve | Common Voice | Accompagner la communauté 20/22
  17. Comment pouvez-vous aider ? Ce n’est pas fini ! Impliquez-vous

    ! Parlez-en ; partagez votre voix et validez des échantillons Utilisez le jeu de données, et donnez nous votre point de vue Améliorez le corpus de texte, en partageant sous licence CC-0 du texte utile Construisez des outils innovants avec Common Voice et Deep Speech un assistant numérique local ? de l’identification de locuteur ? de la domotique avec contrôle vocal 100% local ? Alexandre Lissy – Christophe Villeneuve | Common Voice | Comment pouvez-vous aider ? 21/22
  18. Aller plus loin Site officiel Common Voice https://voice.mozilla.org Dépôt Github

    Francophone Common Voice / DeepSpeech https://github.com/Common-Voice/commonvoice-fr Forum Discourse Francophone https ://discourse.mozilla.org/c/voice/fr Merci. Alexandre Lissy – Christophe Villeneuve | Common Voice | 22/22