Upgrade to Pro — share decks privately, control downloads, hide ads and more …

數據的多重宇宙 @ LINE Taiwan

數據的多重宇宙 @ LINE Taiwan

數據的多重宇宙 by Charlie Wang @ LINE Taiwan

Event: 台大決策社企也參訪

2102a6b8760bd6f57f672805723dd83a?s=128

LINE Developers Taiwan
PRO

May 17, 2022
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Technology

Transcript

  1. 數據的多重宇宙 Charlie Wang, Data Dev team 2022.05.13

  2. Charlie Wang LINE Taiwan, Data Scientist • 清⼤⼯⼯ + 台⼤商研

    • Digital Marketing @COPLAY • Internship @Nestle & SAS • Data Analyst @天下雜誌 & Vpon • Data Scientist @LINE Taiwan
  3. 難道數據已經不再性感︖ Source: https://analyticsindiamag.com/, wikipedia

  4. 不同公司對數據的掌握可能只差「⼀點點」…︖︓數據的多重宇宙 數據轉型 Source: meme

  5. 使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據轉型 Source:

    ⾞品覺, ⼤數據的關鍵思考 4
  6. 營收(Supply Side) =購買人數x客單價 =市場大小x市佔率x客單價 =(A產品市場大小x市佔率x客單價)+(B產品x…..) =超商通路x(….) 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 5

  7. 營收(Demand Side) =購買人數x客單價 =新客x客單價+舊客x客單價 =新客x客單價+ (距今(Recency)x 頻率(Frequency)x 消費力(Monetary))x客單價 商業邏輯建⽴ 對⽐上下趨勢

    實驗與假說 6
  8. 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 要有Benchmark 才能進⾏判讀︕ 跟同班同學⽐ 跟上次段考⽐ 跟去年段考⽐

    對⽐ 下鑽 五科拆開來⽐ 趨勢 近六次段考⽐ 判斷「⼩明」本⾝的表現 判斷「不同考題」的影響 排除「季節因素」的影響 判斷「科⽬強弱」的組成 判斷⼩明本⾝「穩定性」與趨勢 7
  9. 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 小明說今天段考五科平均考80分 你覺得小明考很好還是考很糟? 要有Benchmark 才能進⾏判讀︕ 跟同班同學⽐ 跟上次段考⽐ 跟去年段考⽐

    對⽐ 下鑽 五科拆開來⽐ 趨勢 近六次段考⽐ • ⼩明考得⽐⼤多數 同學⾼ • 過去六次都有相近 表現,但這次名次 稍微退步 • 除了數學60分,其 他都在85分上下 拉升 • ⼩明認真唸書 • ⼩明學習⼒不錯 • ⼩明數學可能不好 • 也許可以單看數學近 六次表現 • 判斷是「數學」不拿 ⼿,還是這次數學 「題材」不拿⼿ 8
  10. 咖啡店業績不太好 問題 作法 (直覺) 請人發傳單 買十送一活動 研發新的菜色 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說

    Source:謝守澤, 資料如何幫助產品決策 9
  11. 咖啡店業績不太好 (相對隔壁店) >來客數少 >客單價太低 問題 (拆解) 對症 下藥 提升知名度(提出方案) 買FB廣告

    請工讀生在路口發傳單 假設 來客數少(假設) >知名度低,自主造訪客太少 >外觀不佳,路人不願進入 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 Source:謝守澤, 資料如何幫助產品決策 10
  12. 咖啡店業績不太好 (相對隔壁店) >來客數少 >客單價太低 問題 (拆解) 對症 下藥 提升知名度(提出方案) 買FB廣告

    請工讀生在路口發傳單 假設 來客數少(假設) >知名度低,自主造訪客太少 >外觀不佳,路人不願進入 商業邏輯建⽴ 對⽐上下趨勢 實驗與假說 數據驗證 (if弱假說) 知名度低 <- hashtag少 外觀不佳 <- 問卷調查 Source:謝守澤, 資料如何幫助產品決策 11
  13. 使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據轉型 Source:

    ⾞品覺, ⼤數據的關鍵思考 12
  14. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據就像是料理供應鏈 Picture Source: google search 13
  15. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    為何⼤多企業都做不到數據轉型︖ Picture Source: google search 14
  16. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    為何⼤多企業都做不到數據轉型︖ Picture Source: google search 15
  17. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    如何做到進階的運營數據︖ 主動收集 外部採買 ⼯具採買 價值進階萃取 Picture Source: google search 16
  18. Data Cleaning Raw Data Dashboard AI / ML Data Mart

    運營數據的關鍵議題 (SCM in Data) 更新頻率 / 儲存 更新同步 / ⼝徑 商業邏輯維運 運算效能 / 重構 Picture Source: google search 17
  19. Source: https://www.qubole.com/what-is-data-lake/ 18

  20. 使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 Source: ⾞品覺,

    ⼤數據的關鍵思考 19
  21. 數據分析不該是⼀種職位,⽽是⼀種能⼒。 你的建議能否發揮成效,有時取決於誰接球︕ 思考⼀下,如何才能發揮槓桿效益︖ 當我們做到數據轉型時,Data⼈還可以做什麼︖ 20

  22. Data-Driven Decision-Making 有個⽬標,需要決策︓ 分配 有限資源 使⽤經驗作為依據 使⽤數據 21

  23. 使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據產品 Data-Driven

    Decision-making Source: ⾞品覺, ⼤數據的關鍵思考 22
  24. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledge Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV LINE TODAY ⽽Data Dev Team,就是在思考如何跨服務強化數據賦能 23
  25. Internal: RFM-CLV 24

  26. Internal: Smart Text 25

  27. External: LINE CLOVA 26

  28. 使⽤MVP概念來快速失敗與快速修正 開發評估 實驗POC ⾃動化 測試檢驗 ⾵險管理 內部推廣 抽取⼩資料進⾏實驗 (確認商業邏輯與解決能⼒) 餵⼊全量資料

    (確認效能與穩定性) 27
  29. ⼀切關鍵都在︓對資料的保鮮度、完整度要求有多⾼ 資料聚合清整 數據產品運算 數據產品前端 即時資料流⼊ 批次資料流⼊ ⼩份備料 資料去頭去尾 接受多久更新⼀次︖ 所有資料都要最新鮮嗎

    開發評估 實驗POC ⾃動化 測試檢驗 ⾵險管理 內部推廣 Picture Source: google search 28
  30. 穩定性︓資料源要有備案管理 資料聚合清整 數據產品運算 數據產品前端 即時資料流⼊ 批次資料流⼊ ⼩份備料 資料去頭去尾 接受多久更新⼀次︖ 所有資料都要最新鮮嗎

    開發評估 實驗POC ⾃動化 測試檢驗 ⾵險管理 內部推廣 如果哪天, 有個資料源掛了、格式改了,該怎麼辦︖ Picture Source: google search 29
  31. 使⽤數據 解決問題 數據創新/改善 收集數據 判斷 創新 數據運營 運營數據 數據產品 Data-Driven

    Decision-making Source: ⾞品覺, ⼤數據的關鍵思考 30
  32. Picture Source: google search 數據產品 Data-Driven Decision-making 31

  33. Q&A TIME LINE 資料⼯程團隊相關 • LINE 資料⼯程團隊平常的⼯作內容 • 想知道 LINE

    這個多⾓化組織中,LINE 資料⼯程團隊包含什 麼職位、怎麼分⼯、分別負責什麼⼯作內容︖ • LINE 資料⼯程團隊與其他部⾨的合作概況 • LINE ⽬前資料⼯程團隊的成員組成背景 • LINE 資料⼯程團隊⾯試時重視的能⼒與特質 資料科學家相關 • 有沒有特別的專案經驗可以分享〜 • 處理的資料種類和商業命題 • 資料科學家的⼯作內容
  34. 成員組成 • Build and optimize da ta pipeline architectur e

    • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps
  35. DS DE MSE DA PM Biz DS DE DS DS

    DE DA MSE Data preparation Scaling Performance Model decay Data drift EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis 預測模型專案
  36. THANK YOU