Slide 1

Slide 1 text

Another Buzzword Data Science 一些關於資料科學有的沒有的雜事 – 宅小哇

Slide 2

Slide 2 text

What is “Data Science” ● 1960年代首次出現提議用Data Science替代Computer Science ● 1997年11月,當時密西根大學教授吳建福(C. F. Jeff Wu,美國華裔統計學家) 發表「統計 = 資料科學?」就任演講中,重新描述統計工作為:資料收集、資 料建模和分析、決策制定的三部曲 ● 1997年密西根大學教授吳建福將資料科學家定義:能夠將大型數據集中取出數 據,並進行統計推斷的統計學家 ● 2012年,資料科學家被「哈佛商業評論」稱為「二十一世紀最性感的職業」 然後就變成了Buzzword

Slide 3

Slide 3 text

No content

Slide 4

Slide 4 text

No content

Slide 5

Slide 5 text

Danger Zone ● Data mining 挖出來的東西,真的能下正確的決策嗎? ● 例子: ○ 自殺率與科研經費 ○ 啤酒與尿布 ○ 颶風與草莓夾心酥

Slide 6

Slide 6 text

偽相關

Slide 7

Slide 7 text

再回頭來看資料科學......

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

Data Preparation ● 資料科學約80%的工作時間都在處理Data preparation (2016, Survey of Data Science by Forbes) ● Language: SQL, Python, Java, Scala, R, Excel (對,沒看錯,就是Excel) ● Data Preparation: Collect、Move/Store、Transform ● 很多資料來源(Data Source),確認可信度、資料邏輯

Slide 11

Slide 11 text

Data Cleaning 資料清理

Slide 12

Slide 12 text

Data Cleaning is Important!!! ● 不準確、未確認的資料可能會造成問題 ○ 出現不合理的分析或是預測結果,進而誤導資料使用者 ○ 最嚴重造成決策錯誤影響公司營運

Slide 13

Slide 13 text

先研究不傷身體,再來講求效用

Slide 14

Slide 14 text

Data Pipeline ● 建置資料管道(Data Pipeline)基礎設施(Infrastructure) ● 建置ETL (Extract, Transform, Load),從資料來源擷取、轉換資料再導入目標 ○ 改欄位名稱 ○ 去除missing value ○ 資料整合,套用商業邏輯 ○ 轉變資料格式(ex. JSON資料展開成DataFrame或是轉成資料倉儲格式)

Slide 15

Slide 15 text

Data Analysis ● 清理、選取資料,去除無關資訊 ● 提出正確的問題,做出分析以及洞察新發現 ● 分析進行解讀資料 ● 利用資料視覺化工具和視覺化報告 ● 提出建議 好處:輔助商業決策、改進產品、發現新商機...etc

Slide 16

Slide 16 text

結論

Slide 17

Slide 17 text

No content

Slide 18

Slide 18 text

Reference Engineering Data - Whether You Know It or Not https://www.prowesscorp.com/engineering-data-whether-you-know-it-or-not/ The AI Hierarchy of Needs https://hackernoon.com/the-ai-hierarchy-of-needs-18f111fcc007 Data Engineer vs Data Scientist https://towardsdatascience.com/data-engineer-vs-data-scientist-bc8dab5ac124

Slide 19

Slide 19 text

Reference A New Venn Diagram for Data Science https://www.linkedin.com/pulse/new-venn-diagram-data-science-pierluigi-casale/ 資料科學的Danger Zone https://readata.org/tag/data-science-danger-zone/ Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time- consuming-least-enjoyable-data-science-task-survey-says/#20a7a376f637

Slide 20

Slide 20 text

Reference Use the Iceberg to Manage Stakeholder Expectations https://towardsdatascience.com/better-manage-stakeholder-expectations- 1713f0bf0f7a

Slide 21

Slide 21 text

Q&A