Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Python的数据工具箱
Search
Leo
December 25, 2015
120
1
Share
Python的数据工具箱
Leo
December 25, 2015
More Decks by Leo
See All by Leo
简单实用的自制Rest API工具
nerd
0
320
Luiti 来构建数据仓库
nerd
0
130
py + gi - 高效 C 庫整合方案
nerd
0
64
基于Tornado打造通用长链接代理服务器
nerd
0
130
柔性数据接口的设计与实现.pdf
nerd
0
68
Featured
See All Featured
The AI Revolution Will Not Be Monopolized: How open-source beats economies of scale, even for LLMs
inesmontani
PRO
3
3.4k
Facilitating Awesome Meetings
lara
57
6.8k
Digital Projects Gone Horribly Wrong (And the UX Pros Who Still Save the Day) - Dean Schuster
uxyall
0
1.3k
Intergalactic Javascript Robots from Outer Space
tanoku
273
27k
Designing for Performance
lara
611
70k
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
70
39k
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
340
Exploring the relationship between traditional SERPs and Gen AI search
raygrieselhuber
PRO
2
3.9k
We Are The Robots
honzajavorek
0
220
Exploring anti-patterns in Rails
aemeredith
3
350
Principles of Awesome APIs and How to Build Them.
keavy
128
17k
Ruling the World: When Life Gets Gamed
codingconduct
0
220
Transcript
Python的数据工具箱 肖凯
关于我 • 喜欢折腾数据 • 1号店-商务智能部 • 《数据科学中的R语言》
哪一项最重要? • 问题 • 数据 • 方法 • 工具
大纲 • 为何使用Python • Python VS R • 数据相关模块 •
学习资源
为何使用Python • 填补数据研究和产品开发之间的鸿沟 • 配合数据科学家完成多领域任务(Bigdata/Deepleaning/NLP)
Python VS R 两种工具的相同点: • 均为开源免费 • 均可在三种操作系统中运行 • 均有大量的用户群和社区支持
• 均有大量的扩展包和教程资源 • 调查显示它们是业界人士最为喜爱的两种工具
Python VS R
Python VS R 两种工具的差异点: • Python是一种通用编程工具,R偏向于统计专业 • R有更为丰富的统计分析函数,Python长于机器学习 • R有更好的静态可视化包,Python正在进步
• Python和R的核心语法非常简洁,R包的语法兼收并蓄, 错综复杂
Python VS R R: results <- lm(y ~ x1 +
x2 + x3, data=dataframe) Python: results = sm.OLS(y, X).fit()
Python VS R R: • 如果你不是计算机背景 • 未来有很强的学术化需求 Python: •
如果你是计算机背景 • 未来有很强的工业化需求
数据相关模块 • IPython: 增强的交互式运行环境 • NumPy : 数组数据结构和矩阵计算 • SciPy
: 科学计算 • Matplotlib : 数据绘图 • Pandas : 提供data frames数据结构 • Statsmodels:统计模型 • Scikit-learn:机器学习 • Pyspark:Spark接口 • NLTK:自然语言处理 • Networkx:社交网络分析
深度学习框架 • Theano:高效的数值计算库 • 与Numpy紧密结合 • 优化了速度和稳定性 • 利用GPU做高负荷运算 •
自动计算函数导数,适合深度学习 • Lasagne • Keras • Opendeep • Blocks
基于keras构建CNN
分析流程中的Python
科学计算套件
推荐阅读
The End