Just Data : Crawling et extraction d'information avec Python

*Just* Data Crawling et extraction d'information avec Python

Disclaimer • Tout ceci est à but pédagogique • Respectez
le cadre légal • Apprenez à sécuriser vos données • En sommes :

Me • Dev Java, Python • Finance, Santé • Fondateur
• APPARTINFO • Lateral Thoughts (LT)

LT • Not Only SSII • A plat • Orientée
innovations

LT Data «Big Data Forever» Functional Programming Data vs. Code
NLP Python Machine Learning NLP Machine Learning NoSQL Mahoot Java

Good Hunting I. Organiser sa recherche II.Extraire l’information III.Construire et
déployer un crawler IV.Techniques de protection LIVE

Stats • Plus de 45 Milliards de pages web

Evolution du traﬁc internet

1990 1992 1994 1996 1998 2000 2002 2004 2006 2008
2010 0 PB 10 000 PB 20 000 PB 30 000 PB Evolution du traﬁc internet

1990 1992 1994 1996 1998 2000 2002 2004 2006 2008
2010 0 PB 10 000 PB 20 000 PB 30 000 PB 0,001 0,002 0,004 0,01 0,02 0,17 1,8 5 11 26 75 175 356 681 1 267 2 055 3 339 5 219 7 639 10 676 14 929 20 634 Evolution du traﬁc internet

Cadre légal

FR • loi DADVSI (droit d’auteur et aux droits voisins
dans la société de l’information) • Spécialement : Article L 342-1 du Code de propriété intellectuelle

Code de la propriété Intellectuelle

Mais... • Il faut justiﬁer d’être «producteur de base de
données» • Exemple : • SeLoger Vs Solus Immo, Yakaz, Gloobot

L-341-1 du CPI *TRIBUNAL DE GRANDE INSTANCE DE PARIS –
CHAMBRE SOCIALE, 3EME CHAMBRE, 4EME SECTION JUGEMENT DU 26 JANVIER 2012 PRESSIMMO ON LINE / SOLUS IMMO, YAKAS, GLOOBOT

Donc • Si on n’est pas «producteur» => Aucune protection
• Si on l’est, encore faut-il justiﬁer : • d’une «extraction qualitativement ou quantitativement substantielle» ( L. 342-1) • Achèvement inférieur à 15 ans après le 1er janvier ( L. 342-5)

Ce droit • Nommé «Droit Sui Generis» est issue d’une
directive européenne de 1996 • Donc valable dans toute l’Europe (même si transcrit dans les lois locales)

Dans le monde • Australia • United States • United
Kingdom (... still in Europe)

Organiser sa recherche

Trouver sa cible • 2 ratios à prendre en compte
: • Qualité de la donnée • Difﬁculté d’extraction

Extraction d’information

Une Cible est trouvée • Premiers reﬂexes ? • API
• MetaData (RDFa, microformat) • (x)HTML(5) • Texte brut

En somme Est-ce qu’il y a une API ? Est-ce
qu’il y a des tags ? Est-ce que le HTML peut m’aider ? Le texte brut est-il utilisable ? Pour le site normal ? Pour le site mobile ? Pour l’App ?

On tente ? • 2 objectifs : extraire titre et
réalisateur • Les outils : • Chrome => (Console, Network) • Python => (Requests, BeautifulSoup) • Regexp DEMO

Sympa • BeautifulSoup (Python) • JSoup (Java, JVM-based...)

Constat • Fatiguant • Très dépendant de la structure de
la page • un peu répétitif

Scrapely • Idée : Instance-Based Machine Learning to scrap

En action

Scrapely • Conclusion: • Super sympa • mais très sensible

Industrialisation

Quelques frameworks

Quelques frameworks • Scrapy (Python)

Quelques frameworks • Scrapy (Python) • Apache Nutch (Java)

Scrapy ? • Framework pour déployer un crawler • Concepts
: • Items • Pipeline • Spiders • Rules

Scrapy Architecture

Scrapy en SAAS • Scrappinghub • Déployer son crawler sur
un cluster • Monitorer les items récupérés • Autoscrapping

Autoscraping http://www.youtube.com/watch? feature=player_embedded&v=lSJvVqDLOOs

Techniques de protection

Dummies • Ne pas mettre tout dans le sitemap.xml •
Sécuriser ses APIs • Fail2ban • Analyser les utilisations « inhabituelles » • Ne pas lier tout à tout/listing non ex-haustif

*Just Data* : Crawling et extraction d'informat...

*Just Data* : Crawling et extraction d'information avec Python

More Decks by Olivier Girardot

Other Decks in Programming

Featured

Transcript

Just Data : Crawling et extraction d'informat...

Just Data : Crawling et extraction d'information avec Python