Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GitRadar——毕业论文答辩
Search
Shuai Liu
June 30, 2014
Programming
190
0
Share
GitRadar——毕业论文答辩
Shuai Liu
June 30, 2014
More Decks by Shuai Liu
See All by Shuai Liu
Auto-Layout.pdf
liushuaikobe
2
130
Python-intro-2
liushuaikobe
0
80
Python-intro-1
liushuaikobe
0
74
NoSQL & MongoDB
liushuaikobe
0
180
Other Decks in Programming
See All in Programming
의존성 주입과 모듈화
fornewid
0
130
Coding as Prompting Since 2025
ragingwind
0
830
ハンズオンで学ぶクラウドネイティブ
tatsukiminami
0
120
KagglerがMixSeekを触ってみた
morim
0
380
RSAが破られる前に知っておきたい 耐量子計算機暗号(PQC)入門 / Intro to PQC: Preparing for the Post-RSA Era
mackey0225
3
130
「話せることがない」を乗り越える 〜日常業務から登壇テーマをつくる思考法〜
shoheimitani
4
770
瑠璃の宝石に学ぶ技術の声の聴き方 / 【劇場版】アニメから得た学びを発表会2026 #エンジニアニメ
mazrean
0
240
How We Benchmarked Quarkus: Patterns and anti-patterns
hollycummins
1
120
クラウドネイティブなエンジニアに向ける Raycastの魅力と実際の活用事例
nealle
1
140
The Monolith Strikes Back: Why AI Agents ❤️ Rails Monoliths
serradura
0
320
Server-Side Kotlin LT大会 vol.18 [Kotlin-lspの最新情報と Neovimのlsp設定例]
yasunori0418
1
130
Make GenAI Production-Ready with Kubernetes Patterns
bibryam
0
120
Featured
See All Featured
Become a Pro
speakerdeck
PRO
31
5.9k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.3k
SEO in 2025: How to Prepare for the Future of Search
ipullrank
3
3.4k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
230
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.7k
Agile that works and the tools we love
rasmusluckow
331
21k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.8k
Impact Scores and Hybrid Strategies: The future of link building
tamaranovitovic
0
260
Practical Orchestrator
shlominoach
191
11k
Bioeconomy Workshop: Dr. Julius Ecuru, Opportunities for a Bioeconomy in West Africa
akademiya2063
PRO
1
93
Paper Plane (Part 1)
katiecoart
PRO
0
6.6k
The AI Search Optimization Roadmap by Aleyda Solis
aleyda
1
5.6k
Transcript
基于GitHub开放数据的 开发者能力评价系统 刘帅 1103710207 指导教师
计算机科学与技术学院 吴晋 的设计与实现
内容提要 • 项目来源 & 背景 • 需求分析 •
系统设计 & 实现 • 运行结果 & 性能分析 • 结论
项目来源 & 背景 为什么要做这个项目?
None
ü 招聘会 ü 评阅简历 ü 笔试 & 面试
ü 找的人真的靠谱?
None
为了解决这个问题… • 对GitHub上开发者的行为做分析 • 设计一个评价模型对开发者做评价 • 根据地域对开发者做分类
• 支持检索
行为数据的获取 h"ps://api.github.com/events h"p://www.githubarchive.org/
需求分析 这样的系统该有什么功能?
功能需求 • GitHub上开发者行为数据的处理 • 下载、归档、清洗、持久化 • 数据查询、可视化
• 为每个开发者生成能力评价报告
非功能需求 • 性能 • 数据处理 • 网络访问
• 可靠性 • 数据的可靠性 • 系统的可用性
系统设计 & 实现
系统功能结构模型图
GitHub上开发者评价模型设计 开发者 对 软件项目 做了操作 做了什么 软件项目 开发者 项目被star的个数 ×
star权重 + 项目被fork个数 × fork权重 PushEvent、 IssueEvent、PullRequestEvent 截止到某一时间点开发者的所有行为价值之和
总体实现方案 • Python • Node.js • MongoDB
+ Redis • 并发操作的实现:多进程 + 协程 • gevent + whoosh + Fluentd + SemanHc-‐UI + mapbox.js + high-‐charts
遇到的问题——规范化开发者地域信息 Harbin Heilongjiang China Harbin 中国黑龙江省哈尔滨市 … …
None
系统运行结果 & 性能测试 结果怎么样?
None
None
None
None
None
性能测试 • 每天行为总数量:50万(平均每小时2万) • 经过数据清洗后:12万(平均每小时5000) • 调用地名规范化的Web Service次数:≤800
• 缓存命中次数:≥7.5万,缓存数量:2.4万,命中率:98% • 平均每天数据处理所需时间:约300秒
性能测试 缓存命中率趋势图 每日数据处理时间趋势图
性能测试——nGrinder 简单页面虚拟用户为100时的TPS变化 复杂页面虚拟用户为30时的TPS变化
结论 总结
总结 • 利用GitHub开放的描述开发者行为的数据 • 设计了一个对开发者进行能力评价的模型 • 在前端对数据做了可视化
• 对系统做了测试,分析了系统的不足之处
对未来的展望 • 继续调整能力评价模型 • 对系统性能方面优化不足 • 提高系统的安全性
谢谢各位老师。
None