Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kan.pdf

Avatar for vi vi
June 08, 2012
160

 kan.pdf

Avatar for vi

vi

June 08, 2012

Transcript

  1. 各部分划分 • 服务器端 ◦ 随身看服务及API ◦ S3兼容存储服务 ◦ 数据净化和转换 •

    客户端 ◦ iOS 客户端 ◦ Android 客户端 ◦ Chrome 浏览器插件 • 产品网站
  2. 服务功能 • 网页的收藏和抓取及存储 • 网页图片的抓取及存储 • (网页视频的抓取和存储) • 用户书签的管理 ◦

    CRUD增删改查 ◦ 已读/未读/历史记录的管理 ◦ 分类的管理 • 用户书签的同步 • 内容的净化和转换
  3. 服务设计实现 • 基于RESTful的轻量级Web Service • 异步的URI调用 • Web服务框架 Django •

    分布任务分发框架 PyCelery • 消息队列 RabbitMQ • 独立woker process用于处理专项事务 • 支持xml和json两种格式 • Redis实现客户端同步
  4. 净化转换 • 文本净化 ◦ 通用算法,开源库Readability 研究和改进 ◦ 特定规则,针对各大网站维护相应规则 ◦ 针对不同类型网站的模式学习与匹配

    ◦ 人工干预 • 资源转换 ◦ 自写或者开源图片格式转换库 ◦ 开源的音频/视频格式转换库 ◦ 提高转换效率