Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20201029-datadrink-igf

8eada3aa8251117a617e101bb2881366?s=47 etalab-ia
October 29, 2020
31

 20201029-datadrink-igf

8eada3aa8251117a617e101bb2881366?s=128

etalab-ia

October 29, 2020
Tweet

Transcript

  1. MINISTÈRE DE L’ECONOMIE, DES FINANCES ET DE LA RELANCE Consultation

    citoyenne sur le RUA Analyse et visualisation via Cartolabe Alice Schoenauer Sebag En collaboration avec Philippe Caillou (Equipe TAU – Univ. Paris-Saclay-CNRS-Inria)
  2. • L’Inspection générale des finances • Corps d’inspection à vocation

    interministérielle • Répond aux lettres de mission du Premier ministre, de son ministre de tutelle ainsi que des autres ministres • Conduit des missions d’évaluation des politiques publiques et d’aide à la décision (2/3), ainsi que des missions d’assistance (1/3) • Le pôle Science des données de l’IGF • Créé en février 2019 • Appui aux missions dans leur composante quantitative 2 Introduction Introduction
  3. • L’Inspection générale des finances • Corps d’inspection à vocation

    interministérielle • Répond aux lettres de mission du Premier ministre, de son ministre de tutelle ainsi que des autres ministres • Conduit des missions d’évaluation des politiques publiques et d’aide à la décision (2/3), ainsi que des missions d’assistance (1/3) • Le pôle Science des données de l’IGF • Créé en février 2019 • Appui aux missions dans leur composante quantitative • Mission d’assistance à Fabrice Lenglart sur le Revenu Universel d’Activité (RUA) • Organisation d’une consultation citoyenne : https://www.consultation-rua.gouv.fr/ autour de trois thèmes : • Principes : pourquoi le RUA ? • A qui le RUA doit-il s’adresser ? • Comment devra fonctionner le RUA ? • Données publiques : https://www.data.gouv.fr/fr/datasets/consultation-vers-un-revenu-universel-dactivite-1/ • Questions possibles : qui sont les contributeurs ? quels sont les sujets des contributions ? 3 Introduction Introduction
  4. Données et méthode Choix du nombre de topics Résultats préliminaires

    4
  5. Données brutes • 10,555 utilisateurs Peu d’informations sur les profils

    (~50% sans profil renseigné) • 1,757 propositions, dont 30 majeures (avec plus de 100 votes) • 8,986 arguments • 46,031 votes, dont ~2/3 sur les 30 majeures 5 Consultation citoyenne – Revenu Universel d’Activité
  6. Données brutes • 10,555 utilisateurs Peu d’informations sur les profils

    (~50% sans profil renseigné) • 1,757 propositions, dont 30 majeures (avec plus de 100 votes) • 8,986 arguments • 46,031 votes, dont ~2/3 sur les 30 majeures 6 Consultation citoyenne – Revenu Universel d’Activité
  7. Données brutes • 10,555 utilisateurs Peu d’informations sur les profils

    (~50% sans profil renseigné) • 1,757 propositions, dont 30 majeures (avec plus de 100 votes) • 8,986 arguments • 46,031 votes, dont ~2/3 sur les 30 majeures 7 Pre-processing • Environ 10% de contributions courtes ou vides  Jeu de données de 9,522 contributions • Découpage en phrases • Suppression des doublons  Jeu de données de 19,548 phrases Consultation citoyenne – Revenu Universel d’Activité
  8. 1. Préparation des données • Découpage en phrases, suppression des

    phrases trop courtes/doublons • Standardisation des abréviations • Lemmatisation 2. Calcul des thèmes • Comptage de n-grams : 1-gram, 1+2+3-gram, ou 3-2-1-gram • Latent Dirichlet Allocation (LDA) [Blei et al., 2003]  Thème par phrase -> vote -> thème par contribution 3. Visualisation et clustering visuel [Caillou et al., 2020] • Projection non-linéaire en 2D (Umap) • K-means 8 Méthode
  9. Données et méthode Choix du nombre de topics Résultats préliminaires

    9
  10. Plusieurs approches • Perplexité d’un test set (perplexity) : vraisemblance

    d’un jeu de test [Blei et al., 2003] • Mesures de cohérence, e.g. UCI coherence [Röder et al., 2015] où • Mesures : diversité x cohérence [Dieng et al., 2019] 10 Evaluation d’un topic model
  11. 11 Evaluation des topic models obtenus par LDA texte

  12. Données et méthode Choix du nombre de topics Résultats préliminaires

    12
  13. 13 Principaux thèmes obtenus (topics) Carte : https://cartolabe-dev.lri.fr/map/debatr [Caillou et

    al., 2020] Emploi 11% Services publics, démarches et accompagnement 10% Visions : du monde, de la société 10% Famille, enfant et foyer 9% Universalité 9% APL et autres allocations 7% AAH 7% Ce que le RUA devrait permettre aux bénéficiaires 7% Utilisation de chiffres 7% Financement, et notamment lien avec l’impôt 7% Activité 6% Divers 10%
  14. Concept-clef de Cartolabe : l’item • Un mot (bleu roi)

    ; • Une question de la consultation (violet) ; • Un thème (topic, bleu turquoise) ; • Une proposition (rose pâle) ; • Un avis positif/négatif (rouge/vert). 14 Options de Cartolabe • Naviguer en (dé)zoomant ; • Faire des recherches (mot, groupe de mots) ; • Une fois un item « cliqué », possibilités • Trouver l’item le plus proche ; • Filtrer la carte sur cet item, i.e. n’afficher que les éléments s’y rapportant. Visualisation des contributions et topics avec Cartolabe Concept-clef de Cartolabe : l’item • Un mot (bleu roi) ; • Une question de la consultation (violet) ; • Un thème (topic, bleu turquoise) ; • Une proposition (rose pâle) ; • Un avis positif/négatif (rouge/vert).
  15. 15 Options de Cartolabe • Naviguer en (dé)zoomant ; •

    Faire des recherches (mot, groupe de mots) ; • Une fois un item « cliqué », possibilités • Trouver l’item le plus proche ; • Filtrer la carte sur cet item, i.e. n’afficher que les éléments s’y rapportant. Visualisation des contributions et topics avec Cartolabe Outils de Cartolabe • Navigation ; • Recherche (mot, groupe de mots) ; • A partir d’un item, trouver l’item le plus proche ; • Filtrer la carte sur cet item, i.e. n’afficher que les éléments s’y rapportant.
  16. Exemples • « Vous trouverez le détail du revenu universel

    tel que je l'imagine grâce à ce lien :https://monrevenudebase.wordpress.com/Sa définition :Le revenu de base est un droit inaliénable, inconditionnel, cumulable avec d’autres revenus, distribué par l’état français à tous ses citoyens, de la naissance à la mort, sur une base individuelle. Le montant de ce revenu est indexé sur l’inflation. » • « Un revenu universel qui n'est pas versé à tous n'est pas universel !Il doit être versé à tous sans conditions, et simplement être imposé pour neutraliser son effet pour les plus aisés. » • « 1000 euros c'est encore trop faible ou alors il faut que ce soit versé à tous sans conditions donc en plus d'autres revenus » • « De plus, le RUA devrait être attribué sans conditions autres que le fait de vivre sur le territoire, l'impôt rétablira l'équilibre entre les bénéficiaires. » 16 Thème « Universalité » - 9% des contributions 0 50 100 150 200 250 300 350 400 450 1. Principes 2. A quels publics 3. Comment Titre de l'axe Thème de la consultation
  17. Exemples • « L'administration qui assurera ce suivi social devra

    obligatoirement se rapprocher de pôle emploi, avec des moyens techniques adéquats, il faut des données mutualisées , une formation des personnels, des protocoles pré-établis de fonctionnement et des possibilités d'échange en vue d'efficacité. » • « Il faut que l'opération soit simple à réaliser, possible par internet ou par téléphone avec un interlocuteur qui confirme les termes de l'échange a posteriori dans un court mail en laissant son nom et ses coordonnées mail et téléphone, avec échanges par mail et pièces jointes, en limitant le recours aux courriers papier […]. » • « Voter des lois permettant de sanctionner massivement les travailleurs sociaux et Présidents de Départements, qui placent les publics en péril en refusant d'effectuer les démarches qui leur incombent et en les privant de leurs droits socio économiques. » 17 Thème « Services publics, démarches et accompagnement » - 10% des contributions 0 100 200 300 400 500 600 700 800 1. Principes 2. A quels publics 3. Comment Nombre de contributions Thème de la consultation
  18. Cartolabe • Représentation de l’intégralité des contributions ; • Accessibilité

    des résultats par toutes les parties prenantes ; Perspectives • Meilleur preprocessing • Appliquer les résultats des tests de sélection du nombre de topics • Autres représentations des textes (camemBERT) [Martin et al., 2020] 18 Perspectives
  19. Pôle Science des données, Inspection générale des finances Alice Schoenauer

    Sebag alice.schoenauer-sebag@igf.finances.gouv.fr Equipe TAU, Univ. Paris-Saclay-CNRS-Inria Philippe Caillou caillou@lri.fr Contacts Références “Cartolabe: A Web-Based Scalable Visualization of Large Document Collections”. Caillou Philippe, Renault Jonas, Fekete Jean-Daniel, Letournel Anne-Catherine, Sebag Michèle. arXiv (2020) Manuscrit https://arxiv.org/abs/2003.00975 Code https://gitlab.inria.fr/caillou/cartolabe-data Résultats https://cartolabe-dev.lri.fr/map/debatr “Latent Dirichlet Allocation”. Blei David, Ng Andrew, Jordan Michael. Journal of Machine Learning Research (2003) Données de la consultation sur le RUA https://www.data.gouv.fr/fr/datasets/consultation-vers-un-revenu-universel-dactivite-1/