projet Gender Equality Monitor Décrire la représentation des femmes et des hommes dans les JT pendant la crise Covid-19 Une approche semi-automatique fondée sur l’analyse des incrustations
des documents audiovisuels ? Approches manuelles • Description de phénomènes complexes • Partiellement subjectif • Coûteux: temp d’analyse > temps de visionnage • Biais d’échantillonnage => généralisation à partir de peu d’exemples Approches automatiques • Description de phénomènes “simples” • Analyses exhaustives (100% des flux audiovisuel) • Indicateurs numériques pour alimenter le débat citoyen • Monitoring temps-réel • Interaction avec les approches manuelles 2
cibles (positions spatiales) • Détection des images de synthèse (différence temporelle) • Classification en bandeaux à l’aide de modèles colorimétriques (GMM) nécessitant entre 2 et 5 exemples choisis semi-automatiquement Clustering Image • Regrouper les bandeaux similaires pour diminuer la suite des traitements Reconnaissance Optique (OCR) • Google Cloud Vision (1 % d’erreur environ) Clustering Texte • diminuer le temps d’intervention manuelle Analyse manuelle: 20 secondes par incrustation
de contenu BFM-TV résumé en 130 incrustations différentes • Diminution du nombre d’appels à l’OCR: 4 images par journée au lieu de 86400 (3600*24) • temps de correction moyen de l’OCR: 9 secondes par incrustation, soit 20 minutes par tranche de 24h • temps de catégorisation moyen: 10 secondes pour le codage du sexe, de l’autorité symbolique et du domaine • Temps d’analyse très inférieur au temps de visionnage!
et samedis compris entre le 17 mars et le 11 avril • JT du soir pour TF1, France2 et France 3 • Tranches de 24h pour les chaînes d’info en continu: BFM TV & CNEWS • Chaque incrustation n’est comptabilisée qu’une fois par jour et par chaîne • 2802 incrustations - 1867 personnes différentes • Normalisation des résultat par chaîne
entraîner et évaluer des solutions OCR. Diffusion grand public à l’étude. • Mise au point de modèles de catégorisation automatique (Rémi Uro) Domaine (F1: 0.77) Autorité (F1: 0.90) • Aide à l’indexation automatique des JT 130 bandeaux par tranche de 24h peuvent être analysés à coûts faibles: 4 images au lieu de 86000!
et Marlène Coulomb-Gully (juin 2020). En période de coronavirus, la parole d’autorité dans l’info télé reste largement masculine. La revue des Médias Rémi Uro et David Doukhan (septembre 2020). Pendant le confinement, le temps de parole des femmes a baissé à la télévision et à la radio. La revue des Médias David Doukhan (2019). A la radio et à la télé, les femmes parlent deux fois moins que les hommes. La revue des Médias. Femmes dans les médias: rôles de dames-épisode, 2(8). Doukhan, D., Rezgui, Z., Poels, P., Carrive, J. (2019). Estimer automatiquement les différences de représentation existant entre les femmes et les hommes dans les médias. journée DAHLIA : ”Informatique et Humanités numériques : quelles problématiques pour quels domaines ?” Logiciels Open-Source https://github.com/ina-foss/inaSpeechSegmenter https://github.com/ina-foss/inaFaceGender Données Open-Data (1 million d’heures) https://www.data.gouv.fr/fr/organizations/institut-national-de-laudiovisuel