Slide 1

Slide 1 text

CloudNative な目線で Google Cloud Release Note を診る 18th Mar, Jagu'e'r Next ’24『The way to Next ’24』 Kento Kimura

Slide 2

Slide 2 text

Self-Introduction ● 所属:Technical Solutions / Sales Engineer ● 担当:パブリッククラウドのアーキテクト知識を活かした  Datadog のプリセールス技術支援 ● 資格:Google Cloud 全 11 資格、AWS 全 12 資格、Azure 13 資格 ● 表彰:Google Cloud Partner Top Engineer 2023-24 Jagu'e'r Award 2023 優秀賞 木村 健人 (Kento Kimura) Datadog Japan GK Technical Solutions Sales Engineering History データセンター運用保守 → パブリッククラウド技術支援 → プリセールス技術支援 Community Jagu’e’r デジクラ人材育成分科会 運営リード O11y-SRE/CloudNative/TechWriters 分科会 運営メンバー Partner Top Engineer 2023 Partner Top Engineer 2024

Slide 3

Slide 3 text

3 2023年(個人的)注目アップデート

Slide 4

Slide 4 text

GKE Enterprise エディション Anthos の後継としてできた、Goolge Cloud 内外でのマルチクラスタ運用機能 ● フリートによる、他クラウド・オンプレミス上のクラスタを統合管理 ● GitOps・ポリシー制御・クラスター権限管理、セキュリティスキャン機能 クラスターをフリートに所属させ、Google Cloud 外でも Cloud Console, CLI で管理ができる! ※クラスターモード(Autopilot, Enterprise)やデータプレーン(V1, V2)とは別機能。 それぞれの GKE クラスターでモード・データプレーン・エディションが選択できる 4

Slide 5

Slide 5 text

TPU ノード in GKE AI ワークロードを実行するために TPU を利用するノードが構成できる機能 ● AI モデルのトレーニングから推論までのワークロードを実行 ● TPU のプロビジョニング・スケーリング・スケジュール・修復・アップデートを自動化 ● TPU のメトリクス・ログ・エラーレポートを Cloud Monitoring, Logging へ連携 Google Cloud ならではの TPU を用いた、効率的な AI ワークロードの実行が GKE で可能! Vertex AI と統合され、最新のオープン AI モデルの推論をスケーラブルな環境で実行できるように… Release notes - Feb 26: GKE now supports Gemma (2B, 7B), Google's new state-of-the-art open models. 5

Slide 6

Slide 6 text

Cloud Run マルチコンテナ(サイドカー) 最大10個のマルチコンテナを Cloud Run インスタンスで実行できる機能 ● サイドカーデプロイで、プロキシ・監視エージェント・アプリケーションの分離を実現 ● マルチコンテナで、複雑なスケーリングが不要な Kubernetes ワークロードの移行 マネージド Knative サービスとして、k8s の運用負荷を軽減してコンテナを利用できる! 6 Cloud Run Instance Sidecar container Ingress container Cloud Run Instance Monitoring agent Network Proxy Backend application Frontend application

Slide 7

Slide 7 text

Cloud Run + Prometheus サイドカーデプロイで Prometheus メトリクスを GMP に収集できる ● サイドカーデプロイで、監視エージェントをデプロイしマネージドサービスへ連携 ● OpenTelemetry や 3rd Party の監視エージェントの正式対応が続きそう(希望) サイドカーの利点を活かして、監視エージェントを Cloud Run 上で安定的に運用できる! 7 Cloud Run Instance Prometheus container Ingress container Cloud Monitoring API

Slide 8

Slide 8 text

8 Next ’24アップデート予想(希望)

Slide 9

Slide 9 text

Cloud Run の GPU/TPU 対応 現状:GKE ではコンテナによる MLOps が kubeflow によって実現できる Good ● コンテナの俊敏性・可搬性・冪等性を活かして、環境構築や本番適用が容易 ● kubeflow によって AI/ML に必要なワークロードを k8s で実現できる ● GKE は GPU/TPU ノードを利用でき、効率的にモデルのトレーニング・推論を行える Issue! ● kubeflow で扱うサービスメッシュや基盤自体の運用・管理負荷 ● AI/ML 技術者にとって本質的ではない k8s 学習コストの増大 マネージドサービスの Cloud Run で GPU/TPU が使えれば k8s を意識しなくて良い! 9

Slide 10

Slide 10 text

Cloud Run 監視情報へのアクセス・カスタム 現状:Cloud Run の監視情報は Cloud Monitoring, Logging に自動的に連携される Good ● マネージドサービスとして、設定せずにメトリクス・ログ確認できる ● コンテナの標準出力をログとして簡単に記録できる Issue! ● 粒度の荒いメトリクスのみでは、何が来ているかがわかりづらい ● O11y で重要なシグナルの相関が難しく、監視エージェントを導入する Cloud Run で監視情報へのアクセス・カスタマイズができれば、O11y を向上できる! 10

Slide 11

Slide 11 text

Thank you