Slide 10
Slide 10 text
BACKGROUND
● Kubernetes (GKE) を極力避けたい
○ GPUの扱いの難しさ
■ CPUマシンとのリソースの取り方の違いによるAuto ScalingやProvisioning
○ k8sクラスタ管理の大変さ
■ MLモデルに起因した問題か一見して判別出来るようになるまでに整備が必要
■ yaml, ArgoCD, CLI, Logging ,監視, Driver, …など関連ツールや権限の管理
○ サービス毎に必要な単位でGKEクラスタ自体はあるが、横断組織であるAI Labにはない
○ MLOps Engineerが居る場合やSREチームが面倒見てくれる場合は良いがAI LabにはToo Match
● モデルファイル用のバージョン管理だとかストレージだとかloaderとかも頑張りたくない
● Cloud Runくらい簡単なコンテナベースでマネージドな上に粗結合なシステムで運用したい!
○ Cloud RunでGPUはAnthosで出来なくはないけど…
● 定期学習/推論を考えるとAPIとBatch両方扱える必要がある