GKEでのMLバッチ運用のコツ

GKE上でのMLバッチ運用のコツエムスリー株式会社北川亮(@kitagry) #kyototechtalk

自己紹介 Vim, Go, k8sが好き新卒4年目で現在AI・機械学習チームのチームリーダー今年の４月から京都オフィス所属になりました。エンジニア所属２人なので仲間が欲しい！！

現在のチームの特徴 • チームで管理しているほぼすべてのバッチ・APIがGKE上で動いている • チームで定期実行しているバッチは300個ほど • バッチには数分で終わる小規模なものから数日かかる大規模なものまである

GKEで出てくる単語をおさらい • Pod ◦ コンテナのグループを表す   ◦ docker-composeくらいの認識で良いと思う   •
Node  ◦ VMまたは物理マシンを表す   ◦ GCPならGCE・AWSならEC2・お家なら Raspberry Pi  • Node Pool  ◦ Nodeのグループ  ◦ 利用状況に応じてスケールイン・スケールアウトを行う 

Node Poolのありがたさ • Nodeのリソースが余っていると適切に分配してNode数を減らしてくれる • Node課金の場合切り詰めて使ってくれると節約になってありがたい • ありがとうKubernetes
kubernetes/autoscalerのコードにはNodeの料金を計算してやすいものを選択してくれるソースがあります https://github.com/kubernetes/autoscaler/blob/master/cluster-autoscal er/cloudprovider/gce/gce_price_model.go

この機能MLバッチでは致命的半日かけて学習した内容がEvictionとともに破壊されてしまう。。。

この機能MLバッチでは致命的半日かけて学習した内容がEvictionとともに破壊されてしまう。。。 MLバッチはある意味ではステートフル

safe-to-evictionという機能 • evictionを制限するための機能リソースにアノテーションをつけるだけで簡単に設定可

safe-to-evictionという機能 • evictionを制限するための機能リソースにアノテーションをつけるだけで簡単に設定可やったか！？

safe-to-evictionの落とし穴巨大なPodが動いているNodeに小さなPod が迷い込んできます。 Node Pool 巨大Node 巨大Pod 小さいPodが迷い込む

safe-to-evictionの落とし穴巨大なPodが正常に終了します。このNode消して小さいNodeに移動してほしいですよね？ Node Pool 巨大Node

safe-to-evictionの落とし穴小さなPodはsafe-to-evicitionのため、どいてくれません。 Node Pool 巨大Node Node だが断る無事にクラウド破産＼(^o^)／

Podごとに使って良いNodeを決めることに。。 • 大きなPodは大きいNodeへ • 小さなPodは小さなNodeへエンジニア側がある程度メモリどれくらい使うかは与えないといけない。。えーあいってやつでなんとかしたい。。。

この先の話はブログで！(10分短い) https://www.m3tech.blog/entry/ai-gke-ml-batch

まとめ • MLバッチは実はステートフル • ステートフルなシステムの運用は本質的に難しい • Kubernetesの特殊な使い方を出来る環境はとても楽しい

GKEでのMLバッチ運用のコツ

GKEでのMLバッチ運用のコツ

Ryo Kitagawa

More Decks by Ryo Kitagawa

Featured

Transcript

GKE上でのMLバッチ運用のコツエムスリー株式会社北川亮(@kitagry) #kyototechtalk

自己紹介 Vim, Go, k8sが好き新卒4年目で現在AI・機械学習チームのチームリーダー今年の４月から京都オフィス所属になりました。エンジニア所属２人なので仲間が欲しい！！

現在のチームの特徴 • チームで管理しているほぼすべてのバッチ・APIがGKE上で動いている • チームで定期実行しているバッチは300個ほど • バッチには数分で終わる小規模なものから数日かかる大規模なものまである

GKEで出てくる単語をおさらい • Pod ◦ コンテナのグループを表す   ◦ docker-composeくらいの認識で良いと思う   •

Node Poolのありがたさ • Nodeのリソースが余っていると適切に分配してNode数を減らしてくれる • Node課金の場合切り詰めて使ってくれると節約になってありがたい • ありがとうKubernetes

この機能MLバッチでは致命的半日かけて学習した内容がEvictionとともに破壊されてしまう。。。

この機能MLバッチでは致命的半日かけて学習した内容がEvictionとともに破壊されてしまう。。。 MLバッチはある意味ではステートフル

safe-to-evictionという機能 • evictionを制限するための機能リソースにアノテーションをつけるだけで簡単に設定可

safe-to-evictionという機能 • evictionを制限するための機能リソースにアノテーションをつけるだけで簡単に設定可やったか！？

safe-to-evictionの落とし穴巨大なPodが動いているNodeに小さなPod が迷い込んできます。 Node Pool 巨大Node 巨大Pod 小さいPodが迷い込む

safe-to-evictionの落とし穴巨大なPodが正常に終了します。このNode消して小さいNodeに移動してほしいですよね？ Node Pool 巨大Node

safe-to-evictionの落とし穴小さなPodはsafe-to-evicitionのため、どいてくれません。 Node Pool 巨大Node Node だが断る無事にクラウド破産＼(^o^)／

Podごとに使って良いNodeを決めることに。。 • 大きなPodは大きいNodeへ • 小さなPodは小さなNodeへエンジニア側がある程度メモリどれくらい使うかは与えないといけない。。えーあいってやつでなんとかしたい。。。

この先の話はブログで！(10分短い) https://www.m3tech.blog/entry/ai-gke-ml-batch

まとめ • MLバッチは実はステートフル • ステートフルなシステムの運用は本質的に難しい • Kubernetesの特殊な使い方を出来る環境はとても楽しい