$30 off During Our Annual Pro Sale. View Details »

Green Giant 數據爵士樂

Green Giant 數據爵士樂

Speaker: Charlie Wang
Event: 清華大學企業參訪

LINE Developers Taiwan
PRO

September 11, 2023
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Technology

Transcript

  1. Green Giant
    數據爵⼠樂

    View Slide

  2. Charlie Wang
    Data Scientist
    清⼤⼯⼯ -> 台⼤商研
    2017-2019 : 天下雜誌
    2020-2021 : Vpon
    2021-Now : LINE TW

    View Slide

  3. 01
    02
    03
    如何做數據轉型
    如何讓數據發揮槓桿效益
    職場上的資料科學家
    CONTENT

    View Slide

  4. SECTION 01
    職場上的
    資料科學家

    View Slide

  5. 預測模型專案
    DS DS DS DS
    在學校,你可能負責:
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    已知問題

    既有資料

    View Slide

  6. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    ?

    View Slide

  7. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    ?
    Biz problem
    ML problem Key metrics How to use
    ⾊情貼⽂辨識 檢舉率 / 曝光量 定期偵測排除
    Method
    影像辨識 / 社群網絡
    找出⾊情貼⽂

    View Slide

  8. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    ?
    潛在問題:
    • 資料散落各地,形同孤島
    • 權限控管
    • 指標定義不同
    • ⽂件沒有統⼀格式

    View Slide

  9. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    1. 將 [統計指標] 轉換成 [商業指標]
    2. 線下與線上測試
    ?

    View Slide

  10. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    批量預測 或 即時預測
    ?

    View Slide

  11. 預測模型專案
    進到職場後:
    DS
    DE MLE
    DA
    PM Biz DS
    DE DS DS DE DA
    MLE
    EDA Model build
    Hyper-
    parameter
    tuning Evaluation
    Feature
    Engineering Error analysis
    Data
    preparation Scaling
    Performance
    Model decay
    Data drift
    ?

    View Slide

  12. 預測模型專案
    圖片來源:https://www.tutorialscampus.com/agile/software-development.htm

    View Slide

  13. SECTION 02
    如何做
    數據轉型

    View Slide

  14. 使⽤數據 解決問題
    數據創新/改善 收集數據
    判斷
    創新
    數據運營
    運營數據
    數據轉型
    Source: ⾞品覺, ⼤數據的關鍵思考

    View Slide

  15. 營收(Supply Side)
    =購買⼈數x客單價
    =市場⼤⼩x市佔率x客單價
    =(A產品市場⼤⼩x市佔率x客單價)+(B產品x…..)
    =超商通路x(….)
    商業邏輯建立 對比上下趨勢

    View Slide

  16. ⼩明說今天段考五科平均考80分
    你覺得⼩明考很好還是考很糟?
    商業邏輯建立 對比上下趨勢
    要有Benchmark
    才能進⾏判讀!
    跟同班同學比
    跟上次段考比
    跟去年段考比
    對比
    下鑽 五科拆開來比
    趨勢 近六次段考比
    判斷「⼩明」本⾝的表現
    判斷「不同考題」的影響
    排除「季節因素」的影響
    判斷「科⽬強弱」的組成
    判斷⼩明本⾝「穩定性」與趨勢

    View Slide

  17. 商業邏輯建立 對比上下趨勢
    ⼩明說今天段考五科平均考80分
    你覺得⼩明考很好還是考很糟?
    要有Benchmark
    才能進⾏判讀!
    跟同班同學比
    跟上次段考比
    跟去年段考比
    對比
    下鑽 五科拆開來比
    趨勢 近六次段考比
    • ⼩明考得比⼤多數
    同學⾼
    • 過去六次都有相近
    表現,但這次名次
    稍微退步
    • 除了數學60分,
    其他都在85分上

    拉升
    • ⼩明認真唸書
    • ⼩明學習⼒不錯
    • ⼩明數學可能不好
    • 也許可以單看數學近
    六次表現
    • 判斷是「數學」不拿
    ⼿,還是這次數學
    「題材」不拿⼿

    View Slide

  18. 使⽤數據 解決問題
    數據創新/改善 收集數據
    判斷
    創新
    數據運營
    運營數據
    數據轉型
    Source: ⾞品覺, ⼤數據的關鍵思考

    View Slide

  19. Data Cleaning
    Raw Data
    Dashboard
    AI / ML
    Data Mart
    運營數據就像是料理供應鏈
    Picture Source: google search

    View Slide

  20. Data Cleaning
    Raw Data
    Dashboard
    AI / ML
    Data Mart
    運營數據的關鍵議題 (SCM in Data)
    更新頻率 / 儲存 更新同步 / ⼝徑 商業邏輯維運
    運算效能 / 重構
    Picture Source: google search

    View Slide

  21. Source: https://www.qubole.com/what-is-data-lake/

    View Slide

  22. 使⽤數據 解決問題
    數據創新/改善 收集數據
    判斷
    創新
    數據運營
    運營數據
    Source: ⾞品覺, ⼤數據的關鍵思考

    View Slide

  23. SECTION 03
    如何讓數據
    發揮槓桿效益?

    View Slide

  24. Data-Driven Decision-Making
    有個⽬標,需要決策:
    分配 有限資源
    使⽤經驗作為依據
    使⽤數據

    View Slide

  25. 使⽤數據 解決問題
    數據創新/改善 收集數據
    判斷
    創新
    數據運營
    運營數據
    數據平台
    Data-Driven Decision-making
    Source: ⾞品覺, ⼤數據的關鍵思考

    View Slide

  26. Data Dev
    LINE
    Family
    Services
    LINE
    SHOPPING
    LINE
    SPOT
    LINE
    MUSIC
    LINE
    Sticker
    LINE
    VOOM
    LINE
    Reward
    Fact
    Checker
    LINE
    HELP
    TW
    LINE
    Travel
    NLP Knowledge
    Graph
    Uplift
    Modeling
    NER
    Classifier
    Duplication
    Detector
    Auto
    completion
    Keyword
    Extraction
    Related
    Search
    Text
    Generation
    User
    Tagging
    Data
    Analytics
    Recom-
    mendation
    CLV
    LINE
    TODAY
    ⽽Data Dev Team,就是在思考如何跨服務強化數據賦能

    View Slide

  27. Smart Text
    Source: Penny Sun

    View Slide

  28. Smart Text
    Source: Penny Sun

    View Slide

  29. Picture Source: google search
    數據平台
    Data-Driven Decision-making

    View Slide

  30. View Slide