Upgrade to Pro — share decks privately, control downloads, hide ads and more …

https://speakerdeck.com/etalabia/20201029-datad...

etalab-ia
October 29, 2020
210

 https://speakerdeck.com/etalabia/20201029-datadrink-peren

etalab-ia

October 29, 2020
Tweet

Transcript

  1. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Constitution d’une base de donn´ ee PEReN Outils et preuves de concept Nicolas Rolin PEReN: Pˆ ole d’Expertise de la R´ egulation du Num´ erique 2020 Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  2. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Le PEReN en quelques mots Cr´ ee en septembre 2020. Sous l’autorit´ e de trois ministres : culture, num´ erique et ´ economie. Rattach´ e ` a la DGE (Minist` ere de l’´ economie). Pool d’experts ` a partager avec ses partenaires : les services de l’Etat intervenant dans la r´ egulation des plateformes num´ eriques: CSA, ARCEP, ADLC, ART, Hadopi, CNIL, DGMIC, DGT, DGE, DGCCRF, INRIA, DINUM, ...autres acteurs int´ eress´ es par la r´ egulation des plateformes num´ eriques. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  3. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Missions du pˆ ole expertise et assistance technique g´ en´ erale. contribution et une expertise techniques dans le cadre de contrˆ oles, enquˆ etes ou ´ etudes. animation d’´ echanges r´ eguliers avec les partenaires. animation d’un r´ eseau d’experts publics en sciences des donn´ ees et des traitements algorithmiques. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  4. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Caract´ eristiques Caract´ eristiques du scrapping dans le cadre de la preuve de concept : Gros volume de donn´ ees. Donn´ ees faciles ` a scrapper. Donn´ ees non personnalis´ ees (cold customer). Donn´ ees changeantes au fil du temps. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  5. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Point d’attention : charges pour les entreprises POC a vocation volumique: charges financi` eres pour l’entreprise scrapp´ e, dˆ u ` a la publicit´ e et aux serveurs ? Probl` emes de donn´ ees pour l’entreprise scrapp´ ee ? Surveillance par les pouvoirs publics ? Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  6. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Point d’attention : volet juridique Le scrapping peut ˆ etre interdit par l’entit´ ee scrapp´ ee. (v´ erifier les CGU et robots.txt) Exemple : NYU se fait attaquer en justice par Facebook pour la fabrication d’une extension de navigateur qui r´ ecolte les donn´ ees de publicit´ es politiques. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  7. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Point d’attention : volet juridique En France Texte de loi P´ enal : encourt jusqu’` a 3 ans d’emprisonnement et 300 000 euros d’amende. ⇒ Contacter ses services juridiques avant de faire du scrapping substantiel. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  8. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Difficult´ es du scrapping Pour constituer une base de donn´ ees fiable ` a partir d’un script de scrapping il faut r´ egler les probl` emes de : la constitution du catalogue de pages ` a scrapper; la gestion des erreurs. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  9. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Constitution du catalogue listing disponible → simple pas de listing exhaustif → n´ ecessit´ e de strat´ egie Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  10. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Constitution du catalogue Si pas de listing exhaustif disponible, strat´ egies possibles : prendre une liste d´ ej` a constitu´ ee par d’autres acteurs, scrapper des adresses ` a partir de r´ esultats de recherches, scrapper des adresses ` a partir des recommandations sur des adresses d´ ej` a identifi´ ees, ...et probablement un mix de ces trois strat´ egies Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  11. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Gestion des erreurs Si on ne r´ ecup` ere pas de donn´ ees sur une adresse : 1 parce que l’adresse en question n’est plus valide (ex : app supprim´ ee ou renomm´ ee), 2 parce que l’on se fait bloquer sp´ ecifiquement par un dispositif anti-bot, 3 random.internet(). Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  12. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Solutions g´ en´ erales N´ ecessit´ e : ˆ etre capable de relancer des ´ echecs de scrapping, ˆ etre capable de rep´ erer les ´ echecs cons´ ecutifs. ⇒ En consid´ erant les scrappings ind´ ependants, on distingue les vrais erreurs des fausses. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  13. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Architecture en ”place de l’emploi” Un listing des travaux ` a faire : une adresse + une tˆ ache ` a faire dessus, Un moyen pour un travailleur de prendre un ou plusieurs travaux dans le listing, Le listing se met ` a jour en notant qui a pris quel travaux ` a faire. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  14. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Architecture en ”place de l’emploi” Avantages : Permet d’avoir une compl` ete tra¸ cabilit´ e sur le travail fait, Permet tr` es facilement de parall´ eliser les travaux fait. Inconv´ enients : Lourdeur de code, Lourdeur de calcul (r´ epartition du travail difficile). Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  15. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base N´ ecessit´ e d’avoir des donn´ ees dans le temps ´ etude de ph´ enom` enes temporels, fiabilisation des donn´ ees. Nicolas Rolin Constitution d’une base de donn´ ee PEReN
  16. Pr´ esentation du pˆ ole Preuve de concept : magasins

    d’applications Probl´ ematiques Constituer un catalogue Gestion des erreurs Proposition d’architecture Mise ` a jour de la base Solutions mise ` a jour de la liste des adresses/nom, ordonnancement des nouveaux travaux ` a faire (questions de volumes). Nicolas Rolin Constitution d’une base de donn´ ee PEReN