Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20200924_datadrink_INA

etalab-ia
September 24, 2020
210

 20200924_datadrink_INA

etalab-ia

September 24, 2020
Tweet

Transcript

  1. David Doukhan - Ingénieur de recherche - [email protected] Coordinateur du

    projet Gender Equality Monitor Décrire la représentation des femmes et des hommes dans les JT pendant la crise Covid-19 Une approche semi-automatique fondée sur l’analyse des incrustations
  2. Concilier les approches manuelles et les approches automatiques pour l’analyse

    des documents audiovisuels ? Approches manuelles • Description de phénomènes complexes • Partiellement subjectif • Coûteux: temp d’analyse > temps de visionnage • Biais d’échantillonnage => généralisation à partir de peu d’exemples Approches automatiques • Description de phénomènes “simples” • Analyses exhaustives (100% des flux audiovisuel) • Indicateurs numériques pour alimenter le débat citoyen • Monitoring temps-réel • Interaction avec les approches manuelles 2
  3. Titre de la présentation |12 janvier 2012 3 Exemple d’analyse

    100% automatique: évolution du pourcentage de parole des femmes à la radio de 25.1% en 2001 à 34.4% en 2018 3
  4. Chaîne de traitement Détection des incrustation • Définition des zones

    cibles (positions spatiales) • Détection des images de synthèse (différence temporelle) • Classification en bandeaux à l’aide de modèles colorimétriques (GMM) nécessitant entre 2 et 5 exemples choisis semi-automatiquement Clustering Image • Regrouper les bandeaux similaires pour diminuer la suite des traitements Reconnaissance Optique (OCR) • Google Cloud Vision (1 % d’erreur environ) Clustering Texte • diminuer le temps d’intervention manuelle Analyse manuelle: 20 secondes par incrustation
  5. Intervention manuelle: 20 secondes par incrustation Correction manuelle de l’OCR:

    9 secondes par incrustation Codage manuel: 11 secondes par incrustation • Catégories définies par des chercheuses en sciences humaines: ◦ Cécile Méadel (CARISM) et Marlène Coulomb-Gully (LERASS) • 9 Domaine d’intervention: Santé, Sécurité, Enseignement, Politique… • Autorité Symbolique: ◦ Plus: représentant syndical, maire, chef d’entreprise, médecin ◦ Moins: infirmier, témoin, employé
  6. Analyser 24h de contenu BFM-TV en 40 minutes! • 24h

    de contenu BFM-TV résumé en 130 incrustations différentes • Diminution du nombre d’appels à l’OCR: 4 images par journée au lieu de 86400 (3600*24) • temps de correction moyen de l’OCR: 9 secondes par incrustation, soit 20 minutes par tranche de 24h • temps de catégorisation moyen: 10 secondes pour le codage du sexe, de l’autorité symbolique et du domaine • Temps d’analyse très inférieur au temps de visionnage!
  7. Périmètre de l’étude : 400 heures • 8 journées: mardis

    et samedis compris entre le 17 mars et le 11 avril • JT du soir pour TF1, France2 et France 3 • Tranches de 24h pour les chaînes d’info en continu: BFM TV & CNEWS • Chaque incrustation n’est comptabilisée qu’une fois par jour et par chaîne • 2802 incrustations - 1867 personnes différentes • Normalisation des résultat par chaîne
  8. La masse pour réduire les biais d'échantillonnage Sur France 2,

    la proportion de femmes à l’antenne varie entre 10 et 55%
  9. Travaux en cours • Utilisation de la vérité terrain pour

    entraîner et évaluer des solutions OCR. Diffusion grand public à l’étude. • Mise au point de modèles de catégorisation automatique (Rémi Uro) Domaine (F1: 0.77) Autorité (F1: 0.90) • Aide à l’indexation automatique des JT 130 bandeaux par tranche de 24h peuvent être analysés à coûts faibles: 4 images au lieu de 86000!
  10. 14 Pour aller plus loin Articles David Doukhan, Cécile Méadel

    et Marlène Coulomb-Gully (juin 2020). En période de coronavirus, la parole d’autorité dans l’info télé reste largement masculine. La revue des Médias Rémi Uro et David Doukhan (septembre 2020). Pendant le confinement, le temps de parole des femmes a baissé à la télévision et à la radio. La revue des Médias David Doukhan (2019). A la radio et à la télé, les femmes parlent deux fois moins que les hommes. La revue des Médias. Femmes dans les médias: rôles de dames-épisode, 2(8). Doukhan, D., Rezgui, Z., Poels, P., Carrive, J. (2019). Estimer automatiquement les différences de représentation existant entre les femmes et les hommes dans les médias. journée DAHLIA : ”Informatique et Humanités numériques : quelles problématiques pour quels domaines ?” Logiciels Open-Source https://github.com/ina-foss/inaSpeechSegmenter https://github.com/ina-foss/inaFaceGender Données Open-Data (1 million d’heures) https://www.data.gouv.fr/fr/organizations/institut-national-de-laudiovisuel