Slide 1

Slide 1 text

(´ŋ_ŋ`)

Slide 2

Slide 2 text

贴⼀一个 URL,得到数据 “抓”

Slide 3

Slide 3 text

需要结构化的数据 • ⽤用统计学⽅方法猜测
 —— Readability、Pocket、搜索引擎 • ⽤用约定的协议(如 schema.org、OpenGraph)
 —— Facebook、Twitter Card、搜索引擎 • 抓取者定制规则
 —— ⾖豆瓣东⻄西

Slide 4

Slide 4 text

⽐比较笨的实现 写⼀一个函数去匹配和分解 URL

Slide 5

Slide 5 text

⽐比较笨的实现 ⼜又写⼀一个函数去抽取信息

Slide 6

Slide 6 text

其实⼤大部分规则
 都是可以
 ⽤用配置⽂文件写出来的

Slide 7

Slide 7 text

配置⽂文件就是这样 。。。。。。

Slide 8

Slide 8 text

静态配置的问题 • 原来 title_pattern = `//*[@id=info]/h2/text()` • 后来这个⺴⽹网站改版了,需要请求另⼀一个 API 才能拿 到标题 • 我们就 。。。。。。

Slide 9

Slide 9 text

如果需要能伸能缩
 
 DSL

Slide 10

Slide 10 text

最好的例⼦子 DSL with Ruby

Slide 11

Slide 11 text

既是语⾔言,也是配置

Slide 12

Slide 12 text

Brownant 基于 Python 的 descriptor 特性

Slide 13

Slide 13 text

Python 的 descriptor • 拦截 getattr、setattr、delattr • 能访问宿主对象 • “元属性”

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

Pipeline o.title o.etree o.text_response o.http_client o.url

Slide 16

Slide 16 text

Pipeline o.title o.etree o.text_response o.http_client o.ajax_response o.ajax_json o.price o.url o.ajax_url

Slide 17

Slide 17 text

借助了其他开源库 • Werkzeug —— URL 分发 • lxml 和 requests —— 访问⺴⽹网络、解析 HTML • six —— 兼容 Python 2 / Python 3

Slide 18

Slide 18 text

接下来希望解决的问题 • ⽂文档太简陋 • 内置 PipelineProperty 类型太少 • 不会画蚂蚁,所以没 Logo

Slide 19

Slide 19 text

github.com:douban/brownant Waiting your pull request
 tonight~❤️