Upgrade to Pro — share decks privately, control downloads, hide ads and more …

從零開始養-機器學習工程師篇

 從零開始養-機器學習工程師篇

Event: 台科大 Career 企業參訪
Speaker: Maggie Lee

LINE Developers Taiwan

November 15, 2022
Tweet

More Decks by LINE Developers Taiwan

Other Decks in Technology

Transcript

  1. Maggie Lee Machine learning engineer • 政⼤中⽂+政⼤資科 • Research Assistant

    @CKIP Lab • LINE TECH FRESH @LINE Data Dev • Software graphics intern @Intel CCG • Machine learning engineer @LINE Data Dev
  2. Data Dev LINE Family Services LINE SHOPPING LINE SPOT LINE

    MUSIC LINE Sticker LINE VOOM LINE Reward Fact Checker LINE HELP TW LINE Travel NLP Knowledge Graph Uplift Modeling NER Classifier Duplication Detector Auto completion Keyword Extraction Related Search Text Generation User Tagging Data Analytics Recom- mendation CLV LINE TODAY 3 Data Dev的任務有哪些
  3. Data Dev成員組成 • Build and optimize data pipeline architecture •

    Assemble large, complex data sets that meet requirements Data Engineer Data Analyst Big data infra, SQL, ETL, message queuing • Interpret data, analyze results using statistical techniques • Identify, analyze, and interpret trends or patterns in complex data sets Statistics, Data Visualization, Business Knowledge SKILL RESPONSIBILITY • Select appropriate datasets and data representation methods • Research and implement appropriate ML algorithms Data Scientist Machine learning, deep learning, CV, NLP, Speech ML Engineer
  4. DS DE MLE DA PM Biz DS DE DS DS

    DE DA MLE Data preparation Scaling Performance Model decay Data drift EDA Model build Hyper-parameter tuning Evaluation Feature Engineering Error analysis 一個ML專案會經過… MLE MLE MLE DE
  5. 開發評估 實驗POC 自動化 測試檢驗 風險管理 1.保持實驗的可追溯與可重現性 2. 對資料集以及模型進行版本控制 3. 視覺化模型測試結果

    上傳模型訓練/測試資訊 觀察模型在不同 參數/資料集下的結果 選擇表現最優的模型 進⾏部署
  6. Hyper-parameter tuning 開發評估 實驗POC 自動化 測試檢驗 風險管理 ⽬標函數 搜索參數空間 探索算法

    可視化/視覺化 用於在尷尬的搜索空間上 不支援grid search 以及Bayesian optimization 搜索算法很多可以適應許多場景 支援tensorboard可視化 支援最常見的三大算法 有提供視覺化套件
  7. 19 Packaging Containerizing Deployment Model Service 當你有了模型後 該如何部署 Bundle file

    Docker Image Model file Meta data pipeline Object Storage harbor Bento service Docker build/push
  8. 資料聚合清整 數據產品運算 數據產品前端 即時資料流入 批次資料流入 小份備料 資料去頭去尾 接受多久更新一次? 所有資料都要最新鮮嗎 Picture

    Source: google search 22 開發評估 實驗POC 自動化 測試檢驗 風險管理 如果哪天,你暫存預測結果的資料庫壞了 該怎麼辦?
  9. 開發評估 實驗POC 自動化 測試檢驗 風險管理 • 建立自動化報表定期監測 • 針對特定重要指標進行監測 (例如:UU/AU)

    • 建立Grafana dashboard 監測系統CPU/Memory 使用量以及相關矩陣 資料輸⼊監測 系統健康監測 一旦出現出現異常,可即時發送警告信或訊息