DMMプラットフォームゼロから始めるKubernetes運用課題と改善

DMMプラットフォームゼロから始めるk8s運用課題と改善

スピーカー名前：pospome（ぽすぽめ）所属：DMM Twitter：https://twitter.com/pospome 職種：サーバサイド & SRE見習い

ゼロから始めるk8s運用　課題と改善 k8sを運用して直面した課題 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

DMMプラットフォームの概要扱う領域：会員、決済、不正対策、認証認可などエンジニア数：100名以上開発チーム：16チームマイクロサービス数：約40サービスピーク時のリクエスト数：14,000RPS

マイクロサービスアーキテクトグループ SREチーム k8sクラスターを運用している。 DMMプラットフォームのインフラ周りのエコシステムを構築し、組織全体の開発効率とセキュリティレベルを向上させるミッションを持つチームである。

DMMプラットフォームざっくりシステムアーキテクチャ GKEクラスター API Gateway (golang) Client Microservices オンプレ Microservices

GKEクラスターについて • DMMプラットフォームにて共通利用する。 • オンプレ上のアプリケーションの移行先である。

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

課題：引き継いだGKEクラスター運用に必要な仕組みが整っていなかった。 • Alert/Monitoring • クラスターアップグレード • その他いろいろ

安定運用できる仕組みを整える主に以下を実施した。 1. Datadog による Metrics, Monitor, SLO の整備 2.
クラスターのアップグレードルールの定義 3. GKEやアプリケーションの各種設定の導入 4. 運用定例の実施

組織としてk8sをどのように活かすか専任のチームがないと運用するのは難しい。専任のチームを作り、マルチテナント & エコシステム活用によって組織全体の開発効率を向上させる戦略を取る必要がある。 Cloud Run, ECSの下位互換にならないように・・・。

課題：SREチームのエンジニアが足りない当時の立ち上げたばかりのSREチームはエンジニアが1名 + pospome の2名体制だった。シンプルにエンジニアが足りない。

SREチームが開発で意識していること • 一元管理 • 自動化 • スケールする仕組みづくり

“スケールする仕組みづくり”は最も重要である GKEの利用者や稼働するアプリケーション数に比例して SREチームのエンジニア数を増やさなくて良いようにする。

仕組み：k8sマニフェストをモノレポで管理するアプリケーションごとにディレクトリを用意し、コードオーナーを設定する。利用者が自分で管理し、更新することができる。

仕組み：マニフェストファイルの新規作成 GitHub Actions WorkFlow から新規アプリケーションのマニフェストファイルを作成できる。 SREの承認なしで利用者が作成できる。

仕組み：マニフェストファイルに対するCI 適切なマニフェストファイルであることをCIでチェックしている。最低限のガードレールは必要になる。 e.g. ポッドの CPU, Memory の request/limit
の指定があるかどうか。

仕組み：CDパイプライン CDパイプラインとしてSpinnakerを採用している。利用者が自分でデプロイできる。

仕組み：RBACによる権限管理 1アプリケーション = 1Namespace の構成にしている。 Namespace単位のRBACは利用者自身で管理してもらう。チームの都合に合わせて権限管理できる。

SREチームが開発で意識していること仕組み一元管理自動化スケールするマニフェストファイル管理 o - o
マニフェストファイル CI - o o マニフェストファイル作成 - o o CDパイプライン o - o RBAC - - o

スケールする仕組みづくりの実現方法利用者にオーナーシップを持たせることで、利用者自身で安全に作業が完結しするような仕組みを目指す。

スケールする仕組みづくりの実現方法マニフェストファイル、Namespace、RBACなどあらゆるリソースをアプリケーション単位で管理している。 SREチームが開発した仕組みが組織体制の変更による影響を受けないようにしている。

利用者のオーナーシップ vs SREによる管理どこまでオーナーシップを持たせるのかが重要である。オーナーシップと安全性を天秤にかける。

課題：SREチームにk8sの知見が足りない GKEの構築・運用経験に乏しく、知識と経験が足りなかった。

課題：SREチームにk8sの知見が足りない事故りながら知見を得た。 • 特定のノードのLoad Averageが極端に高い → Deschedulerの導入 • Egress がドロップする
→Cloud NATの設定変更

課題：SREチームにk8sの知見が足りない問題を最小限に抑える必要がある。 • 監視（Datadog Monitor）による異変の検知 • 運用定例によるメトリクス確認 • サンプルアプリケーションの開発・運用

課題：SREチームにk8sの知見が足りないオンプレからGKEへの移行ということもあり、ゆっくりとアプリケーションが増えていったので、仕組みづくりや知見獲得に時間をかけることができた。

課題：k8s利用者の学習コストが高い開発チームにはk8sやCDパイプラインなどのエコシステムを理解してもらう必要がある。 SREのサポートなしで開発チームが自立してエコシステムを理解できるのが理想である（スケールする仕組み）。

課題：k8s利用者の学習コストが高い利用者の学習コストを下げる仕組み。 • 利用者ドキュメント • サンプルアプリケーションの提供 • テックリードミーティングやSlackでの情報共有

まとめゼロから始める場合、人が少なかったり、知見がなかったりするが、人が揃うまで待つわけにはいかないので、スモールスタートで始めてみるのが良いと思う。

おわりご清聴ありがとうございました

DMMプラットフォームゼロから始めるKubernetes運用課題と改善

DMMプラットフォームゼロから始めるKubernetes運用課題と改善

pospome

More Decks by pospome

Other Decks in Technology

Featured

Transcript

DMMプラットフォームゼロから始めるk8s運用課題と改善

スピーカー名前：pospome（ぽすぽめ）所属：DMM Twitter：https://twitter.com/pospome 職種：サーバサイド & SRE見習い

ゼロから始めるk8s運用　課題と改善 k8sを運用して直面した課題 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

DMMプラットフォームの概要扱う領域：会員、決済、不正対策、認証認可などエンジニア数：100名以上開発チーム：16チームマイクロサービス数：約40サービスピーク時のリクエスト数：14,000RPS

DMMプラットフォームざっくりシステムアーキテクチャ GKEクラスター API Gateway (golang) Client Microservices オンプレ Microservices

GKEクラスターについて • DMMプラットフォームにて共通利用する。 • オンプレ上のアプリケーションの移行先である。

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

課題：引き継いだGKEクラスター運用に必要な仕組みが整っていなかった。 • Alert/Monitoring • クラスターアップグレード • その他いろいろ

安定運用できる仕組みを整える主に以下を実施した。 1. Datadog による Metrics, Monitor, SLO の整備 2.

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

課題：SREチームのエンジニアが足りない当時の立ち上げたばかりのSREチームはエンジニアが1名 + pospome の2名体制だった。シンプルにエンジニアが足りない。

SREチームが開発で意識していること • 一元管理 • 自動化 • スケールする仕組みづくり

“スケールする仕組みづくり”は最も重要である GKEの利用者や稼働するアプリケーション数に比例して SREチームのエンジニア数を増やさなくて良いようにする。

仕組み：k8sマニフェストをモノレポで管理するアプリケーションごとにディレクトリを用意し、コードオーナーを設定する。利用者が自分で管理し、更新することができる。

仕組み：マニフェストファイルの新規作成 GitHub Actions WorkFlow から新規アプリケーションのマニフェストファイルを作成できる。 SREの承認なしで利用者が作成できる。

仕組み：マニフェストファイルに対するCI 適切なマニフェストファイルであることをCIでチェックしている。最低限のガードレールは必要になる。 e.g. ポッドの CPU, Memory の request/limit

仕組み：CDパイプライン CDパイプラインとしてSpinnakerを採用している。利用者が自分でデプロイできる。

仕組み：RBACによる権限管理 1アプリケーション = 1Namespace の構成にしている。 Namespace単位のRBACは利用者自身で管理してもらう。チームの都合に合わせて権限管理できる。

SREチームが開発で意識していること仕組み一元管理自動化スケールするマニフェストファイル管理 o - o

スケールする仕組みづくりの実現方法利用者にオーナーシップを持たせることで、利用者自身で安全に作業が完結しするような仕組みを目指す。

利用者のオーナーシップ vs SREによる管理どこまでオーナーシップを持たせるのかが重要である。オーナーシップと安全性を天秤にかける。

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

課題：SREチームにk8sの知見が足りない GKEの構築・運用経験に乏しく、知識と経験が足りなかった。

課題：SREチームにk8sの知見が足りない事故りながら知見を得た。 • 特定のノードのLoad Averageが極端に高い → Deschedulerの導入 • Egress がドロップする

課題：SREチームにk8sの知見が足りない問題を最小限に抑える必要がある。 • 監視（Datadog Monitor）による異変の検知 • 運用定例によるメトリクス確認 • サンプルアプリケーションの開発・運用

課題：SREチームにk8sの知見が足りないオンプレからGKEへの移行ということもあり、ゆっくりとアプリケーションが増えていったので、仕組みづくりや知見獲得に時間をかけることができた。

ゼロから始めるk8s運用　課題と改善 1. 引き継いだGKEクラスター 2. SREチームのエンジニアが足りない 3. SREチームにk8sの知見が足りない 4. k8s利用者の学習コストが高い

課題：k8s利用者の学習コストが高い利用者の学習コストを下げる仕組み。 • 利用者ドキュメント • サンプルアプリケーションの提供 • テックリードミーティングやSlackでの情報共有

まとめゼロから始める場合、人が少なかったり、知見がなかったりするが、人が揃うまで待つわけにはいかないので、スモールスタートで始めてみるのが良いと思う。

おわりご清聴ありがとうございました

DMMプラットフォーム ゼロから始めるKubernetes運用 課題と改善

DMMプラットフォーム ゼロから始めるKubernetes運用 課題と改善

More Decks by pospome

Other Decks in Technology

Featured

Transcript

DMMプラットフォームゼロから始めるKubernetes運用課題と改善

DMMプラットフォームゼロから始めるKubernetes運用課題と改善