Upgrade to Pro — share decks privately, control downloads, hide ads and more …

資料科學哪有這麼可愛

 資料科學哪有這麼可愛

LINE Data Dev team - Charlie Tang @ 臺大資料分析與決策社
Date: 2022.02.16

LINE Developers Taiwan

March 02, 2022
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Science

Transcript

  1. Charlie Tang LINE Taiwan, Data Scientist 2011 – 2017: 台大工管系暨商研所

    2015 – 2016: Presales Intern @SAS 2016 – 2017: Data Analyst Intern @Tomofun 2018 – 2020: Machine Learning Engineer @趨勢科技 2020 – Present: Data Scientist @LINE Taiwan
  2. AI-enable Applications Business Intelligence Data Dev LINE Family Services LINE

    TODAY LINE SHOPPING LINE SPOT LINE MUSIC LINE Sticker LINE VOOM LINE Reward Official Account Fact Checker LINE HELP TW LINE Travel Ads 獨立的資料工程部門,提供資料科學解決方案 LINE TODAY
  3. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledg e Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV 從報表、分析洞見到預測模型 LINE TODAY
  4. 成員組成 • Build and optimize da ta pipeline architectur e

    • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps
  5. Subtitle 成員組成 • Build and optimize da ta pipeline architectur

    e • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY Pipeline Biz • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech Model ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps Service
  6. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成
  7. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 找尋廣告敏感族群 • 預測店家未來30天的每日銷售額 • 偵測惡意使用者
  8. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成
  9. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 圖⽚來源︓https://www.tableau.com/zh-tw/products/linux
  10. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 投遞 條件 SQL Query 投放 名單
  11. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 工程團隊內部分享 • 與業務團隊分享 • 對外宣傳分享
  12. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 行銷廣告成效分析 • 用戶對免費貼圖的偏好分析 • 計程車車流分析
  13. 預測模型專案 DS DS DS DS 在學校,你可能負責: EDA Model build Hyper-parameter

    tuning Evaluation Feature Engineering Error analysis 已知問題 + 既有資料
  14. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  15. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? Biz problem ML problem Key metrics How to use
  16. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? 潛在問題: • 資料散落各地,形同孤島 • 文件沒有統一格式 • 指標定義不同
  17. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 1. Transform ML metrics to Business metrics 2. Offline and Online evaluation ?
  18. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift Batch Prediction / Online Prediction? ?
  19. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  20. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗 圖⽚來源︓梗圖產⽣器
  21. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗 Campaign Service Category CTR xCTR 1 LINE Sticker Promotion … … 2 LINE Sticker Product … … 3 LINE VOOM Product … … … … … … … Service CTR xCTR LINE Sticker … … LINE VOOM … … LINE Taxi … … … … … Type CTR xCTR Content … … Sales … … Mixed … … … … …
  22. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗
  23. 學習歷程 專業知識 企業實習 資料科學競賽 初等統計學 實驗設計 統計計算 貝氏統計分析 多變量分析 量化研究

    行銷研究 DA DS 機器學習(李宏毅) 深度學習(吳恩達) 時間序列 DA DS 重複測量分析
  24. 學習歷程 專業知識 企業實習 資料科學競賽 2015 ⽟⼭ x SAS ⼤數據分析競賽, 2nd

    Prize 2018 T-Brain 保險續約金額預測, 3rd Prize 2019 NAVER x LINE AI RUSH, 2nd Round @Korea 2020 Shopee TW I’m the Best Coder, 1st Prize
  25. 數據產業與職業現況 IT部門 行銷部門 產品部門 • 廣告成效分析 • 撈取行銷名單 • CTR預測模型

    • 顧客終生價值 • 顧客留存預測 • 惡意用戶識別 • 機台異常檢測 • 事件分析
  26. 面試準備 專業知識 專案經驗 情境題 程式 測驗 統計 知識 分析 報告

    SQL, Python 線上測驗或白板題。 • SQL: 真實的商業資料處理場景 • Python: 資料結構處理、演算法 Q1: 請解釋何謂p-value? p-value有什麼缺點? Q2: 什麼是 overfitting 跟 underfitting? Q3: Bagging 跟 Boosting 差在哪邊? 根據影音瀏覽資料, 建立預測用戶未來觀影時段的模型 Leetcode, HackerRank, Codility 多查考古題、複習觀念 多參與一些專案, 並維護好你的程式碼
  27. 面試準備 專業知識 專案經驗 情境題 開放式 根據 經驗 • 你最近一年學到的新技術是什麼? •

    拿到新資料時,你如何檢查資料的品質? 說說看你幫LINE貼圖團隊建立貼圖檢索引擎的經驗? • S: LINE貼圖團隊過去花費大量時間在準備活動貼圖素材 • T: 打造貼圖檢索引擎還節省人力成本 • A: 搜集資料、建立模型、評估… • R: 為LINE貼圖團隊減少X%的人力成本 回顧過往, 整理出關於你的精彩故事