Upgrade to Pro — share decks privately, control downloads, hide ads and more …

數據的多重宇宙 @ LINE Taiwan

數據的多重宇宙 @ LINE Taiwan

數據的多重宇宙 by Charlie Wang @ LINE Taiwan

Event: 台大決策社企也參訪

More Decks by LINE Developers Taiwan

Other Decks in Technology

Transcript

  1. Charlie Wang LINE Taiwan, Data Scientist • 清⼤⼯⼯ + 台⼤商研

    • Digital Marketing @COPLAY • Internship @Nestle & SAS • Data Analyst @天下雜誌 & Vpon • Data Scientist @LINE Taiwan
  2. 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 要有Benchmark 才能進⾏判讀︕ 跟同班同學⽐ 跟上次段考⽐ 跟去年段考⽐

    對⽐ 下鑽 五科拆開來⽐ 趨勢 近六次段考⽐ 判斷「⼩明」本⾝的表現 判斷「不同考題」的影響 排除「季節因素」的影響 判斷「科⽬強弱」的組成 判斷⼩明本⾝「穩定性」與趨勢 7
  3. 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 要有Benchmark 才能進⾏判讀︕ 跟同班同學⽐ 跟上次段考⽐ 跟去年段考⽐

    對⽐ 下鑽 五科拆開來⽐ 趨勢 近六次段考⽐ • ⼩明考得⽐⼤多數 同學⾼ • 過去六次都有相近 表現,但這次名次 稍微退步 • 除了數學60分,其 他都在85分上下 拉升 • ⼩明認真唸書 • ⼩明學習⼒不錯 • ⼩明數學可能不好 • 也許可以單看數學近 六次表現 • 判斷是「數學」不拿 ⼿,還是這次數學 「題材」不拿⼿ 8
  4. 咖啡店業績不太好 (相對隔壁店) >來客數少 >客單價太低 問題 (拆解) 對症 下藥 提升知名度(提出方案) 買FB廣告

    請工讀生在路口發傳單 假設 來客數少(假設) >知名度低,自主造訪客太少 >外觀不佳,路人不願進入 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 Source:謝守澤, 資料如何幫助產品決策 10
  5. 咖啡店業績不太好 (相對隔壁店) >來客數少 >客單價太低 問題 (拆解) 對症 下藥 提升知名度(提出方案) 買FB廣告

    請工讀生在路口發傳單 假設 來客數少(假設) >知名度低,自主造訪客太少 >外觀不佳,路人不願進入 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 數據驗證 (if弱假說) 知名度低 <- hashtag少 外觀不佳 <- 問卷調查 Source:謝守澤, 資料如何幫助產品決策 11
  6. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據就像是料理供應鏈 Picture Source: google search 13
  7. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    為何⼤多企業都做不到數據轉型︖ Picture Source: google search 14
  8. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    為何⼤多企業都做不到數據轉型︖ Picture Source: google search 15
  9. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    如何做到進階的運營數據︖ 主動收集 外部採買 ⼯具採買 價值進階萃取 Picture Source: google search 16
  10. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據的關鍵議題 (SCM in Data) 更新頻率 / 儲存 更新同步 / ⼝徑 商業邏輯維運 運算效能 / 重構 Picture Source: google search 17
  11. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledge Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV LINE TODAY ⽽Data Dev Team,就是在思考如何跨服務強化數據賦能 23
  12. 穩定性︓資料源要有備案管理 資料聚合清整 數據產品運算 數據產品前端 即時資料流⼊ 批次資料流⼊ ⼩份備料 資料去頭去尾 接受多久更新⼀次︖ 所有資料都要最新鮮嗎

    開發評估 實驗POC ⾃動化 測試檢驗 ⾵險管理 內部推廣 如果哪天, 有個資料源掛了、格式改了,該怎麼辦︖ Picture Source: google search 29
  13. Q&A TIME LINE 資料⼯程團隊相關 • LINE 資料⼯程團隊平常的⼯作內容 • 想知道 LINE

    這個多⾓化組織中,LINE 資料⼯程團隊包含什 麼職位、怎麼分⼯、分別負責什麼⼯作內容︖ • LINE 資料⼯程團隊與其他部⾨的合作概況 • LINE ⽬前資料⼯程團隊的成員組成背景 • LINE 資料⼯程團隊⾯試時重視的能⼒與特質 資料科學家相關 • 有沒有特別的專案經驗可以分享〜 • 處理的資料種類和商業命題 • 資料科學家的⼯作內容
  14. 成員組成 • Build and optimize da ta pipeline architectur e

    • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps
  15. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE Data preparation Scaling Performance Model decay Data drift EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis 預測模型專案