GitRadar——毕业论文答辩

基于GitHub开放数据的开发者能力评价系统刘帅 1103710207 指导教师
计算机科学与技术学院吴晋的设计与实现

内容提要 •  项目来源 & 背景 •  需求分析 • 
系统设计 & 实现 •  运行结果 & 性能分析 •  结论

项目来源 & 背景为什么要做这个项目？

ü  招聘会 ü  评阅简历 ü  笔试 & 面试
ü  找的人真的靠谱？

为了解决这个问题… •  对GitHub上开发者的行为做分析 •  设计一个评价模型对开发者做评价 •  根据地域对开发者做分类
•  支持检索

行为数据的获取 h"ps://api.github.com/events h"p://www.githubarchive.org/

需求分析这样的系统该有什么功能？

功能需求 •  GitHub上开发者行为数据的处理 •  下载、归档、清洗、持久化 •  数据查询、可视化
•  为每个开发者生成能力评价报告

非功能需求 •  性能 •  数据处理 •  网络访问
•  可靠性 •  数据的可靠性 •  系统的可用性

系统设计 & 实现

系统功能结构模型图

GitHub上开发者评价模型设计开发者对软件项目做了操作做了什么软件项目开发者项目被star的个数 ×
star权重 + 项目被fork个数 × fork权重 PushEvent、 IssueEvent、PullRequestEvent 截止到某一时间点开发者的所有行为价值之和

总体实现方案 •  Python •  Node.js •  MongoDB
+ Redis •  并发操作的实现：多进程 + 协程 •  gevent + whoosh + Fluentd + SemanHc-‐UI + mapbox.js + high-‐charts

遇到的问题——规范化开发者地域信息 Harbin Heilongjiang China Harbin 中国黑龙江省哈尔滨市 … …

系统运行结果 & 性能测试结果怎么样？

性能测试 •  每天行为总数量：50万（平均每小时2万） •  经过数据清洗后：12万（平均每小时5000） •  调用地名规范化的Web Service次数：≤800
•  缓存命中次数：≥7.5万，缓存数量：2.4万，命中率：98% •  平均每天数据处理所需时间：约300秒

性能测试缓存命中率趋势图每日数据处理时间趋势图

性能测试——nGrinder 简单页面虚拟用户为100时的TPS变化复杂页面虚拟用户为30时的TPS变化

结论总结

总结 •  利用GitHub开放的描述开发者行为的数据 •  设计了一个对开发者进行能力评价的模型 •  在前端对数据做了可视化
•  对系统做了测试，分析了系统的不足之处

对未来的展望 •  继续调整能力评价模型 •  对系统性能方面优化不足 •  提高系统的安全性

谢谢各位老师。

GitRadar——毕业论文答辩

GitRadar——毕业论文答辩

Shuai Liu

More Decks by Shuai Liu

Other Decks in Programming

Featured

Transcript

基于GitHub开放数据的开发者能力评价系统刘帅 1103710207 指导教师

内容提要 •  项目来源 & 背景 •  需求分析 •

项目来源 & 背景为什么要做这个项目？

ü  招聘会 ü  评阅简历 ü  笔试 & 面试

为了解决这个问题… •  对GitHub上开发者的行为做分析 •  设计一个评价模型对开发者做评价 •  根据地域对开发者做分类

行为数据的获取 h"ps://api.github.com/events h"p://www.githubarchive.org/

需求分析这样的系统该有什么功能？

功能需求 •  GitHub上开发者行为数据的处理 •  下载、归档、清洗、持久化 •  数据查询、可视化

非功能需求 •  性能 •  数据处理 •  网络访问

系统设计 & 实现

系统功能结构模型图

GitHub上开发者评价模型设计开发者对软件项目做了操作做了什么软件项目开发者项目被star的个数 ×

总体实现方案 •  Python •  Node.js •  MongoDB

遇到的问题——规范化开发者地域信息 Harbin Heilongjiang China Harbin 中国黑龙江省哈尔滨市 … …

系统运行结果 & 性能测试结果怎么样？

性能测试 •  每天行为总数量：50万（平均每小时2万） •  经过数据清洗后：12万（平均每小时5000） •  调用地名规范化的Web Service次数：≤800

性能测试缓存命中率趋势图每日数据处理时间趋势图

性能测试——nGrinder 简单页面虚拟用户为100时的TPS变化复杂页面虚拟用户为30时的TPS变化

结论总结

总结 •  利用GitHub开放的描述开发者行为的数据 •  设计了一个对开发者进行能力评价的模型 •  在前端对数据做了可视化

对未来的展望 •  继续调整能力评价模型 •  对系统性能方面优化不足 •  提高系统的安全性

谢谢各位老师。