Slide 1

Slide 1 text

Green Giant 數據爵⼠樂

Slide 2

Slide 2 text

Charlie Wang Data Scientist 清⼤⼯⼯ -> 台⼤商研 2017-2019 : 天下雜誌 2020-2021 : Vpon 2021-Now : LINE TW

Slide 3

Slide 3 text

01 02 03 如何做數據轉型 如何讓數據發揮槓桿效益 職場上的資料科學家 CONTENT

Slide 4

Slide 4 text

SECTION 01 職場上的 資料科學家

Slide 5

Slide 5 text

預測模型專案 DS DS DS DS 在學校,你可能負責: EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis 已知問題 + 既有資料

Slide 6

Slide 6 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?

Slide 7

Slide 7 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? Biz problem ML problem Key metrics How to use ⾊情貼⽂辨識 檢舉率 / 曝光量 定期偵測排除 Method 影像辨識 / 社群網絡 找出⾊情貼⽂

Slide 8

Slide 8 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? 潛在問題: • 資料散落各地,形同孤島 • 權限控管 • 指標定義不同 • ⽂件沒有統⼀格式

Slide 9

Slide 9 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 1. 將 [統計指標] 轉換成 [商業指標] 2. 線下與線上測試 ?

Slide 10

Slide 10 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 批量預測 或 即時預測 ?

Slide 11

Slide 11 text

預測模型專案 進到職場後: DS DE MLE DA PM Biz DS DE DS DS DE DA MLE EDA Model build Hyper- parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?

Slide 12

Slide 12 text

預測模型專案 圖片來源:https://www.tutorialscampus.com/agile/software-development.htm

Slide 13

Slide 13 text

SECTION 02 如何做 數據轉型

Slide 14

Slide 14 text

使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據轉型 Source: ⾞品覺, ⼤數據的關鍵思考

Slide 15

Slide 15 text

營收(Supply Side) =購買⼈數x客單價 =市場⼤⼩x市佔率x客單價 =(A產品市場⼤⼩x市佔率x客單價)+(B產品x…..) =超商通路x(….) 商業邏輯建立 對比上下趨勢

Slide 16

Slide 16 text

⼩明說今天段考五科平均考80分 你覺得⼩明考很好還是考很糟? 商業邏輯建立 對比上下趨勢 要有Benchmark 才能進⾏判讀! 跟同班同學比 跟上次段考比 跟去年段考比 對比 下鑽 五科拆開來比 趨勢 近六次段考比 判斷「⼩明」本⾝的表現 判斷「不同考題」的影響 排除「季節因素」的影響 判斷「科⽬強弱」的組成 判斷⼩明本⾝「穩定性」與趨勢

Slide 17

Slide 17 text

商業邏輯建立 對比上下趨勢 ⼩明說今天段考五科平均考80分 你覺得⼩明考很好還是考很糟? 要有Benchmark 才能進⾏判讀! 跟同班同學比 跟上次段考比 跟去年段考比 對比 下鑽 五科拆開來比 趨勢 近六次段考比 • ⼩明考得比⼤多數 同學⾼ • 過去六次都有相近 表現,但這次名次 稍微退步 • 除了數學60分, 其他都在85分上 下 拉升 • ⼩明認真唸書 • ⼩明學習⼒不錯 • ⼩明數學可能不好 • 也許可以單看數學近 六次表現 • 判斷是「數學」不拿 ⼿,還是這次數學 「題材」不拿⼿

Slide 18

Slide 18 text

使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據轉型 Source: ⾞品覺, ⼤數據的關鍵思考

Slide 19

Slide 19 text

Data Cleaning Raw Data Dashboard AI / ML Data Mart 運營數據就像是料理供應鏈 Picture Source: google search

Slide 20

Slide 20 text

Data Cleaning Raw Data Dashboard AI / ML Data Mart 運營數據的關鍵議題 (SCM in Data) 更新頻率 / 儲存 更新同步 / ⼝徑 商業邏輯維運 運算效能 / 重構 Picture Source: google search

Slide 21

Slide 21 text

Source: https://www.qubole.com/what-is-data-lake/

Slide 22

Slide 22 text

使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 Source: ⾞品覺, ⼤數據的關鍵思考

Slide 23

Slide 23 text

SECTION 03 如何讓數據 發揮槓桿效益?

Slide 24

Slide 24 text

Data-Driven Decision-Making 有個⽬標,需要決策: 分配 有限資源 使⽤經驗作為依據 使⽤數據

Slide 25

Slide 25 text

使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據平台 Data-Driven Decision-making Source: ⾞品覺, ⼤數據的關鍵思考

Slide 26

Slide 26 text

Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledge Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV LINE TODAY ⽽Data Dev Team,就是在思考如何跨服務強化數據賦能

Slide 27

Slide 27 text

Smart Text Source: Penny Sun

Slide 28

Slide 28 text

Smart Text Source: Penny Sun

Slide 29

Slide 29 text

Picture Source: google search 數據平台 Data-Driven Decision-making

Slide 30

Slide 30 text

No content