Upgrade to Pro — share decks privately, control downloads, hide ads and more …

資料科學哪有這麼可愛

 資料科學哪有這麼可愛

LINE Data Dev team - Charlie Tang @ 臺大資料分析與決策社
Date: 2022.02.16

2102a6b8760bd6f57f672805723dd83a?s=128

LINE Developers Taiwan
PRO

March 02, 2022
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Science

Transcript

  1. 資料科學 哪有這麼可愛 Charlie Tang, Data Dev team 2022.02.16

  2. Charlie Tang LINE Taiwan, Data Scientist 2011 – 2017: 台大工管系暨商研所

    2015 – 2016: Presales Intern @SAS 2016 – 2017: Data Analyst Intern @Tomofun 2018 – 2020: Machine Learning Engineer @趨勢科技 2020 – Present: Data Scientist @LINE Taiwan
  3. 資料科學家大解密 商轉資料科學 求職停看聽 你問我答 Text Text Text 01 02 03

    04 05 06 07 Contents
  4. 資料科學家大解密 - LINE資料工程部門介紹 - 資料科學生活 - 職場眉眉角角

  5. Closing the Distance Official Account Ads 圖⽚來源︓https://hub.line.me/

  6. Closing the Distance Official Account Ads 圖⽚來源︓https://hub.line.me/ 如何推薦用戶會感興趣的商家? 如何確保新聞品質? 如何判斷假新聞?

    如何判斷潛在的訂閱制流失戶?
  7. AI-enable Applications Business Intelligence Data Dev LINE Family Services LINE

    TODAY LINE SHOPPING LINE SPOT LINE MUSIC LINE Sticker LINE VOOM LINE Reward Official Account Fact Checker LINE HELP TW LINE Travel Ads 獨立的資料工程部門,提供資料科學解決方案 LINE TODAY
  8. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledg e Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV 從報表、分析洞見到預測模型 LINE TODAY
  9. 成員組成 • Build and optimize da ta pipeline architectur e

    • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps
  10. Subtitle 成員組成 • Build and optimize da ta pipeline architectur

    e • Assemble large, com plex data sets that m eet requirements Data Engineer Data Analyst Big data infra, SQL, ET L, message queuing • Interpret data, analyz e results using statisti cal techniques • Identify, analyze, and interpret trends or pat terns in complex data sets Statistics, Data Visualiz ation, Business Knowle dge SKILL RESPONSIBILITY Pipeline Biz • Select appropriate da tasets and data repre sentation methods • Research and imple ment appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Spe ech Model ML Svc Engineer • Build and scale mach ine learning infrastruc ture • Monitor model perfor mance System infrastructure d esign, DevOps Service
  11. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成
  12. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 找尋廣告敏感族群 • 預測店家未來30天的每日銷售額 • 偵測惡意使用者
  13. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成
  14. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 圖⽚來源︓https://www.tableau.com/zh-tw/products/linux
  15. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 投遞 條件 SQL Query 投放 名單
  16. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 工程團隊內部分享 • 與業務團隊分享 • 對外宣傳分享
  17. 10% 10% 10% 15% 20% 35% 0% 5% 10% 15%

    20% 25% 30% 35% 40% 資料分析 講座分享 撈行銷名單 監控報表 打造產品 建立預測模型 12 11 10 9 資料科學家的工作組成 • 行銷廣告成效分析 • 用戶對免費貼圖的偏好分析 • 計程車車流分析
  18. 企業的數據化程度 圖⽚來源︓Gartner

  19. 企業的數據化程度 圖⽚來源: Charlie Wang

  20. 預測模型專案 DS DS DS DS 在學校,你可能負責: EDA Model build Hyper-parameter

    tuning Evaluation Feature Engineering Error analysis 已知問題 + 既有資料
  21. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  22. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? Biz problem ML problem Key metrics How to use
  23. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ? 潛在問題: • 資料散落各地,形同孤島 • 文件沒有統一格式 • 指標定義不同
  24. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift 1. Transform ML metrics to Business metrics 2. Offline and Online evaluation ?
  25. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift Batch Prediction / Online Prediction? ?
  26. 預測模型專案 進到職場後: DS DE MSE DA PM Biz DS DE

    DS DS DE DA MSE EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis Data preparation Scaling Performance Model decay Data drift ?
  27. 預測模型專案 圖⽚來源︓https://www.tutorialscampus.com/agile/software-development.htm

  28. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗 圖⽚來源︓梗圖產⽣器
  29. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗 Campaign Service Category CTR xCTR 1 LINE Sticker Promotion … … 2 LINE Sticker Product … … 3 LINE VOOM Product … … … … … … … Service CTR xCTR LINE Sticker … … LINE VOOM … … LINE Taxi … … … … … Type CTR xCTR Content … … Sales … … Mixed … … … … …
  30. 職場眉眉⾓⾓ Users Rule Always Data-driven Go Brave. No Fear. No

    Regrets 以使用者需求為依歸 憑藉事實、而非直覺 勇敢地挑戰、不要害怕失敗
  31. 商轉資料科學 - 動機 - 學習歷程

  32. 驗證假設 探索 商轉動機 質化行銷 量化行銷

  33. 學習歷程 專業知識 企業實習 資料科學競賽 初等統計學 實驗設計 統計計算 貝氏統計分析 多變量分析 量化研究

    行銷研究 DA DS 機器學習(李宏毅) 深度學習(吳恩達) 時間序列 DA DS 重複測量分析
  34. 學習歷程 專業知識 企業實習 資料科學競賽 Presales Intern, SAS(⼄⽅) Data Analyst Intern,

    Tomofun(甲⽅)
  35. 學習歷程 專業知識 企業實習 資料科學競賽 2015 ⽟⼭ x SAS ⼤數據分析競賽, 2nd

    Prize 2018 T-Brain 保險續約金額預測, 3rd Prize 2019 NAVER x LINE AI RUSH, 2nd Round @Korea 2020 Shopee TW I’m the Best Coder, 1st Prize
  36. 求職停看聽 - 數據產業與職業現況 - 面試準備

  37. 數據產業與職業現況

  38. 數據產業與職業現況 IT部門 行銷部門 產品部門 • 廣告成效分析 • 撈取行銷名單 • CTR預測模型

    • 顧客終生價值 • 顧客留存預測 • 惡意用戶識別 • 機台異常檢測 • 事件分析
  39. 面試準備 專業知識 專案經驗 情境題 程式 測驗 統計 知識 分析 報告

    SQL, Python 線上測驗或白板題。 • SQL: 真實的商業資料處理場景 • Python: 資料結構處理、演算法 Q1: 請解釋何謂p-value? p-value有什麼缺點? Q2: 什麼是 overfitting 跟 underfitting? Q3: Bagging 跟 Boosting 差在哪邊? 根據影音瀏覽資料, 建立預測用戶未來觀影時段的模型 Leetcode, HackerRank, Codility 多查考古題、複習觀念 多參與一些專案, 並維護好你的程式碼
  40. 面試準備 專業知識 專案經驗 情境題 開放式 根據 經驗 • 你最近一年學到的新技術是什麼? •

    拿到新資料時,你如何檢查資料的品質? 說說看你幫LINE貼圖團隊建立貼圖檢索引擎的經驗? • S: LINE貼圖團隊過去花費大量時間在準備活動貼圖素材 • T: 打造貼圖檢索引擎還節省人力成本 • A: 搜集資料、建立模型、評估… • R: 為LINE貼圖團隊減少X%的人力成本 回顧過往, 整理出關於你的精彩故事
  41. 面試準備 專業知識 專案經驗 情境題 Q: 銀行想進行分眾行銷, 發送原價、9折與8折的信用卡循環利率優惠通知給客戶, 想請問你會如何幫銀行打造一個決策系統?

  42. 最後,我想說的是… 你必須先拆解問題,才能解決問題, 而資料可以幫助你做決策。

  43. 你問我答 - 問卷問題 - 現場QA

  44. 怎麼找到第一份數據相關工作的呢?您有哪些經歷讓您順利取得 Data 工作的入場券? Q. 問卷問題 在從BA轉到 DS的過程,需要花大量時間學習新技術嗎?怎麼克服的呢? Q. 選擇數據相關工作,要考慮的點有哪些?(能見度、薪水、影響力、產業等等) Q.

    如何規劃自己的職涯路徑以及要學習什麼技能呢? Q. LINE 工作環境的優點是什麼~ Q. 上班的一天大概是如何呢? Q.
  45. THANK YOU