Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
UniCrawler - IC05 - UTC - 2013-11-26
Search
MiLk
November 26, 2013
Technology
88
0
Share
UniCrawler - IC05 - UTC - 2013-11-26
Présentation de UniCrawler en amphi de IC05 à l'Université de Technologie de Compiègne
MiLk
November 26, 2013
Other Decks in Technology
See All in Technology
GitHub Copilot Dev Days
tomokusaba
0
150
Agent の「自由」と「安全」〜未来に向けて今できること〜
katayan
0
340
アクセシビリティはすべての人のもの
tomokusaba
0
290
Digital Independence: Why, When and How
wannesrams
0
290
毎日の作業を Claude Code 経由にしたら、 ノウハウがコードになった
kossykinto
1
1k
もっとコンテンツをよく構造化して理解したいので、LLM 時代こそ Taxonomy の設計品質に目を向けたい〜!
morinota
0
200
GKE Agent SandboxでAIが生成したコードを 安全に実行してみた
lamaglama39
0
200
バイブコーディングで3倍早く⚪⚪を作ってみた
samakada
0
220
オライリーイベント登壇資料「鉄リサイクル・産廃業界におけるAI技術実応用のカタチ」
takarasawa_
0
320
需要創出(Chatwork)×供給(BPaaS) フライホイールとMoat 実行能力の最適配置とAI戦略
kubell_hr
0
2.1k
ハーネスエンジニアリング入門
knishioka
0
130
Vision Banana: Image Generators are Generalist Vision Learners
kzykmyzw
0
300
Featured
See All Featured
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
780
4 Signs Your Business is Dying
shpigford
187
22k
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Marketing to machines
jonoalderson
1
5.2k
A Soul's Torment
seathinner
6
2.8k
Building Applications with DynamoDB
mza
96
7k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
The Cost Of JavaScript in 2023
addyosmani
55
9.9k
A better future with KSS
kneath
240
18k
Agile that works and the tools we love
rasmusluckow
331
21k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
1k
Transcript
UniCrawler A Magic Web Crawler with Rainbows
Pourquoi un crawler ? Récupère les liens pour les indexer
Moteur de recherche Archivage Structuration des données
Qu’est-ce qu’un crawler ? Explore des pages web automatiquement Détecter
“http://...” dans la page Filtrer Aller sur la nouvelle adresse Recommencer
Les données sous forme de graphe Le graphe contient :
un nœud pour chaque URL, avec éventuellement des mots-clés des liens entre les nœuds en fonction du chemin suivi par le crawler
Avant UniCrawler Navicrawler Basé sur une version dépassée de Firefox
S’exécute sur le client Sélection manuelle des liens
Avant UniCrawler
Pourquoi UniCrawler ? UniCrawler Technologie web S’exécute sur un serveur
distant Sélection automatique des liens (filtres)
Comparaison des architectures Navicrawler UniCrawler
Comparaison des architectures
Comparaison des architectures
Technologies
Architecture MongoDB Redis Crawler Interface web API Crawler Crawler Crawler
Crawler
Interface Web
API
API
Crawler
Démonstration Go !
Exercice http://unicrawler.emilienkenler.com/index1.html http://unicrawler.emilienkenler.com/index2.html http://unicrawler.emilienkenler.com/index3.html http://unicrawler.emilienkenler.com/index4.html ! À vous !
Contribuez ! https://github.com/MiLk/UniCrawler
UniCrawler A Magic Web Crawler with Rainbows