Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
(´ŋ_ŋ`)
Slide 2
Slide 2 text
贴⼀一个 URL,得到数据 “抓”
Slide 3
Slide 3 text
需要结构化的数据 • ⽤用统计学⽅方法猜测 —— Readability、Pocket、搜索引擎 • ⽤用约定的协议(如 schema.org、OpenGraph) —— Facebook、Twitter Card、搜索引擎 • 抓取者定制规则 —— ⾖豆瓣东⻄西
Slide 4
Slide 4 text
⽐比较笨的实现 写⼀一个函数去匹配和分解 URL
Slide 5
Slide 5 text
⽐比较笨的实现 ⼜又写⼀一个函数去抽取信息
Slide 6
Slide 6 text
其实⼤大部分规则 都是可以 ⽤用配置⽂文件写出来的
Slide 7
Slide 7 text
配置⽂文件就是这样 。。。。。。
Slide 8
Slide 8 text
静态配置的问题 • 原来 title_pattern = `//*[@id=info]/h2/text()` • 后来这个⺴⽹网站改版了,需要请求另⼀一个 API 才能拿 到标题 • 我们就 。。。。。。
Slide 9
Slide 9 text
如果需要能伸能缩 DSL
Slide 10
Slide 10 text
最好的例⼦子 DSL with Ruby
Slide 11
Slide 11 text
既是语⾔言,也是配置
Slide 12
Slide 12 text
Brownant 基于 Python 的 descriptor 特性
Slide 13
Slide 13 text
Python 的 descriptor • 拦截 getattr、setattr、delattr • 能访问宿主对象 • “元属性”
Slide 14
Slide 14 text
No content
Slide 15
Slide 15 text
Pipeline o.title o.etree o.text_response o.http_client o.url
Slide 16
Slide 16 text
Pipeline o.title o.etree o.text_response o.http_client o.ajax_response o.ajax_json o.price o.url o.ajax_url
Slide 17
Slide 17 text
借助了其他开源库 • Werkzeug —— URL 分发 • lxml 和 requests —— 访问⺴⽹网络、解析 HTML • six —— 兼容 Python 2 / Python 3
Slide 18
Slide 18 text
接下来希望解决的问题 • ⽂文档太简陋 • 内置 PipelineProperty 类型太少 • 不会画蚂蚁,所以没 Logo
Slide 19
Slide 19 text
github.com:douban/brownant Waiting your pull request tonight~❤️