ステートフルPodのマルチAZ化のために行ったこと

2 0 2 2 年 3 月 2 3 日
李俊起ステートフルPodのマルチAZ化のために行ったこと

自己紹介いじゅんぎ李俊起・ KDDI株式会社/SRE ・運用自動化、運用共通機能提供・
監視基盤をEKS上に構築するために奮闘中

本日のアジェンダ・ VictoriaMetｒicsについて・マルチAZ構成のために試したこと（Podのスケジューリング設定について）・まとめ

VictoriaMetｒicsとは・ Prometheusメトリクスデータの長期保存/冗長化ツール・書き込み、読み込み、データ保存等、機能ごとにコンポーネントが分かれているDistributed System

VictoriaMetricsのアーキテクチャ・vminsert PrometheusのRemoteWrite APIを通じてメトリクスを各vmstorageに分散して格納する・vmstorage Prometheusのデータが保存される領域複数のvmstorageにデータを分割して格納 ≒RAID0(ストライピング) ・vmselect
Grafana等よりPromQLを受け付けて各vmstorageからデータを集計しマージするこの部分をマルチAZ化したい ≒ PodをAZごとに分散させる

ワーカーノードをAZごとに配置して、Podを各ワーカーノードにデプロイすればいいじゃん

Podのスケジューリング(配置)設定・ nodeSelector ・ node (Anti-)Affinity ・ Inter-pod (Anti-)Affinity ・
TopologySpreadConstraints

nodeSelector ・ nodeのラベルでpodを配置するnodeを選ぶ最もシンプルな方法・複雑な条件文は指定できない・ podを分散する事はできない ※built-in node labels
Well-Known Labels, Annotations and Taints | Kubernetes apiVersion: apps/v1 kind: Deployment metadata: labels: app: nginx name: nginx spec: replicas: 3 selector: matchLabels: app: nginx template: metadata: labels: app: nginx spec: containers: - image: nginx name: nginx nodeSelector: topology.kubernetes.io/zone: ap-northeast-1c

node (Anti-)Affinity ・ nodeのラベルでpodを配置するnodeを指定(除外)する考え方はnodeSeletorと一緒・複雑な条件文が書ける・ podを分散する事はできない apiVersion:
apps/v1 kind: Deployment ・・ spec: replicas: 3 ・・ spec: affinity: nodeAffinity: requiredDuringSchedulingIgnoredDuringExecution: nodeSelectorTerms: - matchExpressions: - key: topology.kubernetes.io/zone operator: In values: - ap-northeast-1a

Inter-pod (Anti-)Affinity ・ podの配置状態を見てpodを配置するnodeを決定・ podを分散する事ができる・１つのnode上に2つ以上同一podを配置できない (podAntiAffinityの場合)
apiVersion: apps/v1 kind: Deployment ・・ spec: replicas: 3 ・・ template: metadata: labels: app: nginx spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - nginx topologyKey: topology.kubernetes.io/zone 「labelSelector」のPodがある(ない) 「topologyKey」ドメイン(region,AZ等)の node上にpodをスケジューリングする

Inter-pod Anti-Affinityの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas:
3 ・・ template: metadata: labels: app: nginx spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - nginx topologyKey: topology.kubernetes.io/zone EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node

3 ・・ template: metadata: labels: app: nginx spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - nginx topologyKey: topology.kubernetes.io/zone EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod 1つ目のpodはapp=nginxラベルを持つPodがまだ存在しないため、AZ-aとAZ-cのどちらかのnodeにPodがスケジューリングされる app=nginx Pod

3 ・・ template: metadata: labels: app: nginx spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - nginx topologyKey: topology.kubernetes.io/zone EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod app=nginx Pod 2つ目のpodはAZ-aのnode上にすでに app=nginxラベルを持つPodが存在するため、 AZ-c上のnodeにPodがスケジューリングされる app=nginx Pod

3 ・・ template: metadata: labels: app: nginx spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: - nginx topologyKey: topology.kubernetes.io/zone EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod app=nginx Pod app=nginx Pod すでに各AZ上にPodが存在していて、 3つ目のPodはスケジューリングされない（Pending状態になる）

TopologySpreadConstraints ・ドメイン(region,AZ等)間のPodの偏り(maxSkew)で podを配置するnodeを決定・最も柔軟な設定が可能 apiVersion: apps/v1 kind: Deployment
・・ spec: replicas: 3 ・・ template: metadata: labels: app: nginx spec: topologySpreadConstraints: - maxSkew: 1 topologyKey: topology.kubernetes.io/zone whenUnsatisfiable: DoNotSchedule labelSelector: matchLabels: app: nginx 「topologyKey」に指定したドメイン間の pod数の差異を「maxSkew」で指定した数まで許容し、それを超えないように Podがスケジューリングされる

TopologySpreadConstraintsの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas: 3
・・ template: metadata: labels: app: nginx spec: topologySpreadConstraints: - maxSkew: 1 topologyKey: topology.kubernetes.io/zone whenUnsatisfiable: DoNotSchedule labelSelector: matchLabels: app: nginx EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod 1つ目のpodはどこに配置されてもAZ間のPod数の差異(maxSkew)は１なのでAZ-aとAZ-cのどちらかのnodeにPodがスケジューリングされる app=nginx Pod

・・ template: metadata: labels: app: nginx spec: topologySpreadConstraints: - maxSkew: 1 topologyKey: topology.kubernetes.io/zone whenUnsatisfiable: DoNotSchedule labelSelector: matchLabels: app: nginx EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod app=nginx Pod app=nginx Pod 2つ目のpodはAZ-a上に配置されたらAZ間のPod数の差異(maxSkew)が２になってしまうため、 AZ-c上のnodeにPodがスケジューリングされる

・・ template: metadata: labels: app: nginx spec: topologySpreadConstraints: - maxSkew: 1 topologyKey: topology.kubernetes.io/zone whenUnsatisfiable: DoNotSchedule labelSelector: matchLabels: app: nginx EKS Cluster VPC Worker Node AZ-a subnet AZ-c subnet Worker Node app=nginx Pod app=nginx Pod app=nginx Pod app=nginx Pod 3つ目のpodもどこに配置されてもAZ間のPod数の差異(maxSkew)は１なのでAZ-aとAZ-cのどちらかのnodeにPodがスケジューリングされる

これでマルチAZ化対応完了？・vmstorage Prometheusのデータが保存される領域複数のvmstorageにデータを分割して格納 ≒RAID0(ストライピング) ※再掲 StatefulSet + EBSや TopologySpreadConstraints
等でAZを固定するとAZ障害で片方のAZがダウンした時、不完全なデータになる。

・データ保存をマルチAZで使用可能な EFSにすることで、 AZを固定せず Deploymentでのデプロイが可能・１つのAZ(ワーカーノード)にPodが集中する可能性はあるが、AZ障害時に生きているAZ(ワーカーノード)で新しいPodがEFSがマウントされた状態で作成され、完全なデータで継続的に監視ができる
EKSクラスター AZ-a AZ-c POD Service(ELB) Service(ELB) Deployment POD EFS POD POD Deployment Deployment / EFSで解決

まとめ・ステートフルなPodのマルチAZ化には考慮が必要・ステートレスなPodも負荷分散やダウンタイムが生じないよう、 TopologySpreadConstraints等で均等に分散 ※Podスケジューリングの詳細については以下で検索 Assigning Pods to
Nodes | Kubernetes

ご清聴ありがとうございました。

ステートフルPodのマルチAZ化のために行ったこと

ステートフルPodのマルチAZ化のために行ったこと

nutslove

More Decks by nutslove

Other Decks in Technology

Featured

Transcript

2 0 2 2 年 3 月 2 3 日

自己紹介いじゅんぎ李俊起・ KDDI株式会社/SRE ・運用自動化、運用共通機能提供・

本日のアジェンダ・ VictoriaMetｒicsについて・マルチAZ構成のために試したこと（Podのスケジューリング設定について）・まとめ

VictoriaMetｒicsとは・ Prometheusメトリクスデータの長期保存/冗長化ツール・書き込み、読み込み、データ保存等、機能ごとにコンポーネントが分かれているDistributed System

ワーカーノードをAZごとに配置して、Podを各ワーカーノードにデプロイすればいいじゃん

Podのスケジューリング(配置)設定・ nodeSelector ・ node (Anti-)Affinity ・ Inter-pod (Anti-)Affinity ・

nodeSelector ・ nodeのラベルでpodを配置するnodeを選ぶ最もシンプルな方法・複雑な条件文は指定できない・ podを分散する事はできない ※built-in node labels

node (Anti-)Affinity ・ nodeのラベルでpodを配置するnodeを指定(除外)する考え方はnodeSeletorと一緒・複雑な条件文が書ける・ podを分散する事はできない apiVersion:

Inter-pod (Anti-)Affinity ・ podの配置状態を見てpodを配置するnodeを決定・ podを分散する事ができる・１つのnode上に2つ以上同一podを配置できない (podAntiAffinityの場合)

Inter-pod Anti-Affinityの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas:

Inter-pod Anti-Affinityの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas:

Inter-pod Anti-Affinityの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas:

Inter-pod Anti-Affinityの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas:

TopologySpreadConstraints ・ドメイン(region,AZ等)間のPodの偏り(maxSkew)で podを配置するnodeを決定・最も柔軟な設定が可能 apiVersion: apps/v1 kind: Deployment

TopologySpreadConstraintsの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas: 3

TopologySpreadConstraintsの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas: 3

TopologySpreadConstraintsの例 apiVersion: apps/v1 kind: Deployment ・・ spec: replicas: 3

これでマルチAZ化対応完了？・vmstorage Prometheusのデータが保存される領域複数のvmstorageにデータを分割して格納 ≒RAID0(ストライピング) ※再掲 StatefulSet + EBSや TopologySpreadConstraints

まとめ・ステートフルなPodのマルチAZ化には考慮が必要・ステートレスなPodも負荷分散やダウンタイムが生じないよう、 TopologySpreadConstraints等で均等に分散 ※Podスケジューリングの詳細については以下で検索 Assigning Pods to

ご清聴ありがとうございました。