Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Airflow+SageMakerで安定稼動する機械学習バッチインフラへ

 Airflow+SageMakerで安定稼動する機械学習バッチインフラへ

Airflow+SageMakerで安定稼動する機械学習バッチインフラへ

Tech Leverages

June 30, 2023
Tweet

More Decks by Tech Leverages

Other Decks in Technology

Transcript

  1. 何が辛いの? - バッチ数が増えると、実行時間を被らせないのが大変に - 可用性の懸念 - 実行時間が被ると、共倒れする - 機械学習はリソース食うので、共倒れ発生しやすい -

    運用工数の懸念 - そもそも何がいつ実行されているのか管理必要 - 一度書いて終わりじゃない サーバー使用表の抜粋
  2. 導入技術 Airflow - スケジューラー - Pythonで実行タイミングと処理を記述 - 今回は順次ワーカーを起動するだけ AWS SageMaker

    Processing Job - ワーカー - ECSタスクみたいなもの - Dockerイメージをpullして実行 - CPU / GPU / メモリを指定可能
  3. Airflowの他のメリット - 依存関係定義が楽 - コストカット - 必要なリソースだけ稼動するので - リトライ設定簡単 -

    通知設定簡単 - 実行履歴やログ見れる などなど Pythonでの定義 taskA >> [taskB, taskC] >> taskD