Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GitRadar——毕业论文答辩
Search
Shuai Liu
June 30, 2014
Programming
0
180
GitRadar——毕业论文答辩
Shuai Liu
June 30, 2014
Tweet
Share
More Decks by Shuai Liu
See All by Shuai Liu
Auto-Layout.pdf
liushuaikobe
2
130
Python-intro-2
liushuaikobe
0
76
Python-intro-1
liushuaikobe
0
72
NoSQL & MongoDB
liushuaikobe
0
160
Other Decks in Programming
See All in Programming
AI Agent の開発と運用を支える Durable Execution #AgentsInProd
izumin5210
7
2.1k
HTTPプロトコル正しく理解していますか? 〜かわいい猫と共に学ぼう。ฅ^•ω•^ฅ ニャ〜
hekuchan
2
650
IFSによる形状設計/デモシーンの魅力 @ 慶應大学SFC
gam0022
0
210
今こそ知るべき耐量子計算機暗号(PQC)入門 / PQC: What You Need to Know Now
mackey0225
3
320
Honoを使ったリモートMCPサーバでAIツールとの連携を加速させる!
tosuri13
1
140
Pythonではじめるオープンデータ分析〜書籍の紹介と書籍で紹介しきれなかった事例の紹介〜
welliving
3
810
なるべく楽してバックエンドに型をつけたい!(楽とは言ってない)
hibiki_cube
0
120
例外処理とどう使い分ける?Result型を使ったエラー設計 #burikaigi
kajitack
16
5.6k
16年目のピクシブ百科事典を支える最新の技術基盤 / The Modern Tech Stack Powering Pixiv Encyclopedia in its 16th Year
ahuglajbclajep
5
890
フルサイクルエンジニアリングをAI Agentで全自動化したい 〜構想と現在地〜
kamina_zzz
0
370
AI によるインシデント初動調査の自動化を行う AI インシデントコマンダーを作った話
azukiazusa1
1
150
Architectural Extensions
denyspoltorak
0
170
Featured
See All Featured
Marketing to machines
jonoalderson
1
4.5k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
170
The Spectacular Lies of Maps
axbom
PRO
1
440
Product Roadmaps are Hard
iamctodd
PRO
55
12k
Mobile First: as difficult as doing things right
swwweet
225
10k
Utilizing Notion as your number one productivity tool
mfonobong
2
200
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
Color Theory Basics | Prateek | Gurzu
gurzu
0
180
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
48k
GraphQLとの向き合い方2022年版
quramy
50
14k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
180
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
67
Transcript
基于GitHub开放数据的 开发者能力评价系统 刘帅 1103710207 指导教师
计算机科学与技术学院 吴晋 的设计与实现
内容提要 • 项目来源 & 背景 • 需求分析 •
系统设计 & 实现 • 运行结果 & 性能分析 • 结论
项目来源 & 背景 为什么要做这个项目?
None
ü 招聘会 ü 评阅简历 ü 笔试 & 面试
ü 找的人真的靠谱?
None
为了解决这个问题… • 对GitHub上开发者的行为做分析 • 设计一个评价模型对开发者做评价 • 根据地域对开发者做分类
• 支持检索
行为数据的获取 h"ps://api.github.com/events h"p://www.githubarchive.org/
需求分析 这样的系统该有什么功能?
功能需求 • GitHub上开发者行为数据的处理 • 下载、归档、清洗、持久化 • 数据查询、可视化
• 为每个开发者生成能力评价报告
非功能需求 • 性能 • 数据处理 • 网络访问
• 可靠性 • 数据的可靠性 • 系统的可用性
系统设计 & 实现
系统功能结构模型图
GitHub上开发者评价模型设计 开发者 对 软件项目 做了操作 做了什么 软件项目 开发者 项目被star的个数 ×
star权重 + 项目被fork个数 × fork权重 PushEvent、 IssueEvent、PullRequestEvent 截止到某一时间点开发者的所有行为价值之和
总体实现方案 • Python • Node.js • MongoDB
+ Redis • 并发操作的实现:多进程 + 协程 • gevent + whoosh + Fluentd + SemanHc-‐UI + mapbox.js + high-‐charts
遇到的问题——规范化开发者地域信息 Harbin Heilongjiang China Harbin 中国黑龙江省哈尔滨市 … …
None
系统运行结果 & 性能测试 结果怎么样?
None
None
None
None
None
性能测试 • 每天行为总数量:50万(平均每小时2万) • 经过数据清洗后:12万(平均每小时5000) • 调用地名规范化的Web Service次数:≤800
• 缓存命中次数:≥7.5万,缓存数量:2.4万,命中率:98% • 平均每天数据处理所需时间:约300秒
性能测试 缓存命中率趋势图 每日数据处理时间趋势图
性能测试——nGrinder 简单页面虚拟用户为100时的TPS变化 复杂页面虚拟用户为30时的TPS变化
结论 总结
总结 • 利用GitHub开放的描述开发者行为的数据 • 设计了一个对开发者进行能力评价的模型 • 在前端对数据做了可视化
• 对系统做了测试,分析了系统的不足之处
对未来的展望 • 继续调整能力评价模型 • 对系统性能方面优化不足 • 提高系统的安全性
谢谢各位老师。
None