k8sの可用性とScalabilityを担保するための大事な観点 / Best practices for ensuring availability and scalability for k8s

k8sͷAvailabilityͱScalabilityΛ୲อ͢ΔͨΊͷେࣄͳ؍఺ @taisho6339

ࣗݾ঺հ ࡔຊେক (Hiroki Sakamoto) Twitter: taisho6339 Github: taisho6339 ΩϟϦΞ Ϡϑʔ
→ ϦΫϧʔτςΫϊϩδʔζ → ϑϦʔϥϯε ݱࡏͷ࢓ࣄ k8sʹΑΔϚΠΫϩαʔϏεͷͨΊͷج൫ͮ͘Γͱӡ༻ ࠓޙͷํ਑ ΑΓࡋྔΛ΋ͬͯಇͨ͘Ίɺਖ਼ࣾһݕ౼தɻ

ຊ೔ͷςʔϚ k8sΛ҆શʹӡ༻͢Δʹ͋ͨͬͯ୲อͨ͠؍఺Λ2఺ʹߜͬͯ੔ཧʂ Scalability Availability

ࢿྉͷ໨త ະདྷͷPJͰৼΓฦΔͨΊͷόΠϒϧΛ໨ࢦ͢

5ͭͷେࣄͳ؍఺ 1. ϨΠςϯγΛ୲อ͢Δ 2. εϧʔϓοτΛ୲อ͢Δ 3. εύΠΫʹඋ͑Δ 4. ϊʔυͷμ΢ϯʹඋ͑Δ 5.
ϚϧνΫϥελʹΑΔϝϯςφϯεઓུ

1. LatencyΛ୲อ͠Α͏ Throughput Latency

ϨΠςϯγͷ୲อ Pod୯ମͰ૝ఆϨΠςϯγ಺ͰϨεϙϯεΛฦͤΔ͔ΛνΣοΫʂ ͜͜ͷ୲อ͕͓Ζ͔ͦͩͱਫฏεέʔϧͤͯ͞΋ޮՌ͕ബ͍ Pod of Service A locust cluster How
fast?

ϨΠςϯγͷ୲อ ໰୊ ϨΠςϯγ͕૝ఆΑΓߴ͍ ରࡦ 1. PodΛεέʔϧΞοϓ 2. ࠷దͳNodeʹ഑ஔ͢Δ 3. ΞϓϦέʔγϣϯΛνϡʔχϯά

ϨΠςϯγͷ୲อ ~PodͷεέʔϧΞοϓ~ containers: ... resources: limits: cpu: 1.0 memory: 512Mi
requests: cpu: 0.2 memory: 512Mi ղܾࡦ1. PodͷεέʔϧΞοϓ • CPUɺϝϞϦͳͲͷϦιʔεΛࢦఆՄೳ • PodͷఆٛʹrequestͱlimitͰઃఆ

ϨΠςϯγͷ୲อ ~PodͷεέʔϧΞοϓ~ requestʹΑΔࢦఆ • PodʹׂΓ౰ͯΔϝϞϦͱCPUΛࢦఆ • Podʹrequest͞ΕͨϦιʔεྔΛݩʹ഑ஔ͞ΕΔϊʔυΛܾఆ

ϨΠςϯγͷ୲อ ~PodͷεέʔϧΞοϓ~ limitʹΑΔࢦఆ • Pod͕࣮ࡍʹ࢖༻Ͱ͖ΔݶքͷϦιʔεྔ ◦ requestͷׂ౰ϦιʔεΛ௒͑Δ͜ͱ͕Ͱ͖Δ ◦ ࢦఆ͠ͳ͍ͱrequestͱಉ͡ʹͳΔ ◦
ීஈ͸গͳ͍͍͕ͯ͘ɺҰ࣌తʹόʔετ͢ΔՄೳੑͷ͋ΔϫʔΫϩʔυʹ༗ޮ • limitΛӽ͑Α͏ͱ͢ΔͱεϩοτϦϯά͞Εɺ࢖༻཰Λ཈͑ΒΕΔ

ϨΠςϯγͷ୲อ ~PodͷεέʔϧΞοϓ~ requestͱlimitͷ஫ҙ఺ • limitͱrequest ͷ͕ࠩେ͖͍৔߹ ◦ limit·Ͱ࢖༻཰্͕͕ͬͨͱ͖ʹϊʔυϦιʔε͕ރׇ͢ΔՄೳੑ • requestࢦఆ͕ͳ͍৔߹
◦ Scheduler͕Ϧιʔε࢖༻ྔΛ൑ఆͰ͖ͳ͍ͷͰಛఆϊʔυʹूத͢ΔՄೳੑ

ϨΠςϯγͷ୲อ ~࠷దͳϊʔυ΁ͷ഑ஔ~ ղܾࡦ2. ࠷దͳϊʔυ΁ͷ഑ஔ • GPUɺSSDͳͲͷϦιʔελΠϓΛબ୒ͯ͠഑ஔ HDD SSD Node1 Node2
ߴ଎ʹIOॲཧΛͯ͠ ΄͍͠ͷͰ SSDͷϊʔυ΁

ϨΠςϯγͷ୲อ ~࠷దͳϊʔυ΁ͷ഑ஔ~ ϊʔυΛࢦఆ͢Δํ๏ • nodeSelector ◦ ಛఆͷϥϕϧΛ࣋ͭNodeʹ഑ஔ • NodeAffinity ◦
ಛఆͷϥϕϧΛ࣋ͭNodeʹ഑ஔɻͪ͜Βͷ΄͏͕ΑΓॊೈ • Taint + Toleration ◦ Nodeʹ഑ஔ੍ݶΛՃ͑ɺ഑ஔද໌Λ͍ͯ͠ΔPodͷΈ഑ஔ ࢀߟϦϯΫ: Node্΁ͷPodͷεέδϡʔϦϯά

ϨΠςϯγͷ୲อ ~ΞϓϦέʔγϣϯΛνϡʔχϯά~ ղܾࡦ3. ΞϓϦέʔγϣϯΛνϡʔχϯά • APMͳͲΛ׆༻ͯ͠ϘτϧωοΫΛಛఆ͠ɺ࣮૷Λมߋͯ͠ ύϑΥʔϚϯεվળΛߦ͏

2. ThroughputΛ୲อ͠Α͏ Throughput Latency

૝ఆΞʔΩςΫνϟ Ingress Gateway Service A Service B Service C LB
ϚΠΫϩαʔϏε + API Gatewayͳύλʔϯ

εϧʔϓοτͷ୲อ جຊํ਑ • LBɺAPI GatewayɺServiceͷॱʹ୲อ͍ͯ͘͠ • ϘτϧωοΫΛݟ͑΍͘͢͢ΔͨΊʹHPA͸ແޮʹ͠ɺखಈͰεέʔϧ

εϧʔϓοτͷ୲อ 6000RPSΛ ୲อ͍ͨ͠ʂ جຊํ਑ Ingress Gateway Service A Service B
Service C LB ϚΠΫϩαʔϏε + API Gatewayͳύλʔϯ

εϧʔϓοτͷ୲อ Ingress Gateway Service A Service B Service C LB
ϚΠΫϩαʔϏε + API Gatewayͳύλʔϯ LB͸6000RPS ग़Δʁ Nginx (੩తίϯςϯπΛฦ٫) جຊํ਑

εϧʔϓοτͷ୲อ Ingress Gateway Service A Service B Service C LB
ϚΠΫϩαʔϏε + API Gatewayͳύλʔϯ Ingress Gateway ͸6000RPSग़Δʁ جຊํ਑

εϧʔϓοτͷ୲อ جຊํ਑ Ingress Gateway Service A Service B Service C
LB ϚΠΫϩαʔϏε + API Gatewayͳύλʔϯ αʔϏε͸ 6000RPSग़Δʁ

εϧʔϓοτͷ୲อ εϧʔϓοτ͕৳ͼͳ͘ͳͬͨΒ.... • Ͳ͜ʹϘτϧωοΫ͕དྷ͍ͯΔ͔Λ֬ೝ͢Δ ◦ CPU࢖༻཰ɺϝϞϦ࢖༻཰ɺIOPSɺϩʔυΞϕϨʔδɺJVMͷώʔϓɺ ίωΫγϣϯϓʔϧɺΩϟογϡώοτ཰... • ϘτϧωοΫΛҠಈͤ͞Α͏ʂ ◦
ਫฏεέʔϧɺਨ௚εέʔϧɺΞϓϦέʔγϣϯνϡʔχϯάɺ࠷దͳ ϊʔυ΁ͷ഑ஔɺϧʔςΟϯάͷ࢓ํͷݟ௚͠Λ࣮ࢪ

3. εύΠΫʹඋ͑Α͏ ٸܹͳ Traffic૿ʂ

εύΠΫͰ͸ͳ͘؇΍͔ͳτϥϑΟοΫ૿ͳΒɾɾɾ • Horizontal Pod Autoscaler + Cluster Autoscaler ͰରԠͰ͖Δ εύΠΫʹඋ͑Α͏

εύΠΫʹඋ͑Α͏ ~Horizontal Pod Autoscaler~ HPAͷ࢓૊Έ • 30ඵ͝ͱʹCPU࢖༻཰ɺϦΫΤετ਺ͳͲͷϝ τϦΫεΛνΣοΫ͠ɺPod਺Λܭࢉ͢Δ • ࠷େͰ3෼ʹ1ճεέʔϧΞ΢τɺ5෼ʹҰճε
έʔϧΠϯ ࢀߟ: Horizontal Pod Autoscaler

εύΠΫʹඋ͑Α͏ ~Horizontal Pod Autoscaler~ HPAͷܭࢉࣜ desiredReplicas = ceil[currentReplicas * (
currentMetricValue / desiredMetricValue )] εέʔϧޙPod਺ = ceil [4 * (90 / 60)] = 6 ܭࢉྫ ܭࢉର৅ϝτϦΫε: CPU࢖༻཰ Target CPU࢖༻཰: 60% ݱࡏͷReplica਺ = 4 ݱࡏͷPodͷฏۉCPU࢖༻཰: 90%

εύΠΫʹඋ͑Α͏ ~Cluster Autoscaler~ Cluster Autoscalerͷ࢓૊Έ request͞ΕͨϦιʔε͕଍Γͳ͘ͳΓɺ Pod͕഑ஔͰ͖ͳ͘ͳͬͨλΠϛϯάͰϊʔυ͕εέʔϧ͢Δ Node1 Node2 Full!
Full! εέδϡʔϧ ͢Δ ͱ͜Ζ͕ͳ͍...

εύΠΫʹඋ͑Α͏ ~Cluster Autoscaler~ Cluster Autoscalerͷ࢓૊Έ request͞ΕͨϦιʔε͕଍Γͳ͘ͳΓɺ Pod͕഑ஔͰ͖ͳ͘ͳͬͨλΠϛϯάͰϊʔυ͕εέʔϧ͢Δ Node1 Node2 Node3
ϊʔυ௥Ճ Scheduled!

εύΠΫʹඋ͑Α͏ HPA + Cluster Autoscalerͷ໰୊఺ ϊʔυɺPod͕εέʔϧ͢Δ·ͰͷҰఆͷϦʔυλΠϜ͕͔͔ΔͷͰ εύΠΫతͳ૿Ճͩͱؒʹ߹Θͳ͍

εύΠΫʹඋ͑Α͏ ରԠࡦ • ͕࣌ؒ༧ଌͰ͖Δ৔߹ (CMޮՌɺYahoo๒ͳͲ) ◦ CronJobͳͲͰಛఆ࣌ؒʹHPAͷminReplica਺Λ্͛Δ • ͕࣌ؒ༧ଌͰ͖ͳ͍৔߹ ◦
ྫ͑͹CPU࢖༻཰ͷ໨ඪ஋ΛΏΔ͓ͯ͘͘͠ ◦ ༧ΊminReplica਺ΛੵΜͰ͓͘ ◦ CDNͳͲͷΩϟογϡઓུΛݟ௚͢

4. ϊʔυͷμ΢ϯʹඋ͑Α͏ Node1 Node2 Node3 Evict!

ϊʔυͷμ΢ϯʹඋ͑Α͏ ϊʔυ͕μ΢ϯ͢Δཧ༝ • ϋʔυ΢ΣΞো֐ • κʔϯɺϦʔδϣϯো֐ • ΫϥελΞοϓάϨʔυ • Մ༻ੑͷอূ͞Εͳ͍ϊʔυ
(PreemptibleϊʔυɺSpotΠϯελϯε) • ΦϖϨʔγϣϯϛε

ϊʔυͷμ΢ϯʹඋ͑Α͏ ϊʔυͷμ΢ϯʹର͢Δରࡦ 1. Podͷ৑௕Խͱκʔϯ෼ࢄ 2. ҆શͳPodͷఀࢭ ◦ Graceful Shutdownͷઃఆ ◦
Podͷద੾ͳୀආઓུ 3. Ϋϥελͷਖ਼͍͠ઃఆ ◦ ϝϯςφϯε΢Οϯυ΢ͱSurge Upgradeͷઃఆ ◦ Մ༻ੑඇอূϊʔυͷਖ਼͍͠ӡ༻

4.1 ϊʔυͷμ΢ϯʹඋ͑Α͏ Node1 Node2 Node3 Evict! - Podͷ৑௕Խͱκʔϯ෼ࢄ -

ϊʔυͷμ΢ϯʹඋ͑Α͏ ~Podͷ৑௕Խͱκʔϯ෼ࢄ~ Podͷ෼ࢄઓུ ~഑ஔϊʔυͷ෼ࢄ~ Node1 Node2 serviceA serviceA Pod Anti
AffinityΛ׆༻ͯ͠ɺ ಉαʔϏεͷPod͕ ಉ͡ϊʔυʹ ͳΔ΂͘഑ஔ͞Εͳ͍Α͏ʹ͢Δ

ϊʔυͷμ΢ϯʹඋ͑Α͏ ~Podͷ৑௕Խͱκʔϯ෼ࢄ~ Podͷ෼ࢄઓུ ~κʔϯͷ෼ࢄ~ Node1 asia-northeast1-a serviceA serviceA Node2 asia-northeast1-b
Pod Anti AffinityΛ׆༻ͯ͠ɺ ಉαʔϏεͷPod͕ ಉ͡κʔϯʹ ͳΔ΂͘഑ஔ͞Εͳ͍Α͏ʹ͢Δ 1.18Ҏ্͸ Topology Spread Constraints ͕Φεεϝʂ ϦʔδϣφϧΫϥελʂ

4.2 ϊʔυͷμ΢ϯʹඋ͑Α͏ Node1 Node2 Node3 Evict! - ҆શͳPodͷఀࢭ -

ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ ϊʔυ͕ఀࢭ͢Δͱ͖ Node1 Node2 Node3 Schedule͞Ε͍ͯΔ Pod͕ऴྃ͞ΕΔ Terminate!

ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ ϊʔυ͕ఀࢭ͢Δͱ͖ Node1 Node2 Node3 ผͷϊʔυͰ৽ͨʹCreate

ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ ҆શͳӡ༻ͷͨΊʹ͸ PodΛ҆શʹఀࢭ͢Δॲཧ͕ඞཁෆՄܽ

Graceful Shutdownͷઃఆ ৽ͨͳϦΫΤετ͸ࢭΊͭͭɺॲཧதͷϦΫΤετͷ׬ྃΛ଴͔ͬͯΒϓϩηε Λམͱͨ͢Ίͷઃఆ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ ϦΫΤετͷ ॲཧΛ׬ྃͤ͞Δ

Podͷऴྃ࣌ͷڍಈ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ Podͷऴྃ PreStopॲཧ SIGTERM SIGTERM ॲཧ SIGKILL Endpoint͔ΒPodΛ࡟আ

̎ͭͷϥΠϯ͸ಉ࣌ʹॲཧ͕૸Δ

Service Endpoint ϧʔςΟϯά͕ࢭ·Δʂ

೚ҙͷίϚϯυ ॲཧ ΞϓϦέʔγϣϯ ଆͰϋϯυϧ

͜͏ͳΔͱࢮΜͩίϯςφʹ ϧʔςΟϯά͞ΕΔ

Pod΁ͷϧʔςΟϯάఀࢭΛ଴ͭ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ PreStopॲཧ SIGTERM ॲཧ Endpoint͔ΒPodΛ࡟আ lifecycle: preStop: exec:
command: ["/bin/sh", "-c", "sleep 10"]

ॲཧதͷϦΫΤετ͸ॲཧ׬ྃΛ଴ͬͯϓϩηεΛऴྃ͢Δ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ PreStopॲཧ SIGTERM ॲཧ Endpoint͔ΒPodΛ࡟আ ΞϓϦέʔγϣϯShutdownॲཧ

Pod Disruption Budget ϊʔυ͕PodΛഉग़͢Δͱ͖ʹಉ࣌ʹఀࢭ͢ΔPodͷ਺Λ੍ޚ͢ΔͨΊͷϦιʔε ϊʔυͷμ΢ϯʹඋ͑Α͏ ~҆શͳఀࢭ~ ࢀߟ: Disruption Node ࢦఆͷ਺ͣͭ
ഉग़ apiVersion: policy/v1beta1 kind: PodDisruptionBudget metadata: name: sample spec: maxUnavailable: "25%" selector: matchLabels: app: sample

4.3 ϊʔυͷμ΢ϯʹඋ͑Α͏ Node1 Node2 Node3 Evict! - Ϋϥελͷઃఆ -

ΫϥελͷAuto Upgradeʹඋ͑Δ • ϝϯςφϯε΢Οϯυ΢͸τϥϑΟοΫ͕গͳ͍࣌ؒʹઃఆ͢Δ • Surge UpgradeΛઃఆͯ͠ɺॱ൪ʹUpgrade͞ΕΔΑ͏ʹ͢Δ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~ΫϥελͷΞοϓάϨʔυ~

Preemptibleϊʔυͷӡ༻ ϊʔυͷμ΢ϯʹඋ͑Α͏ ~ඇՄ༻ੑอূͷϊʔυͷӡ༻~ Node1 ௨ৗͷNode Pool Node2 Node1 Preemptible Node
Pool Node2 • ྆ํͷNode Poolʹ ഑ஔ͢Δ • ॏཁͳPod͸഑ஔ͠ͳ ͍ • શମͷϊʔυ਺ͷҰ෦ ʹݶఆ͢Δ ServiceA ServiceB ServiceA ServiceB

5. Ϋϥελͷϝϯςφϯεઓུ Ingress Gateway Service A Service B Service C
LB Ingress Gateway Service A Service B Service C

ΫϥελϝϯςφϯεʹవΔ໰୊఺ ΫϥελͷϝϯςφϯεʹవΔϦεΫ • k8sͷόʔδϣϯΞοϓͰյΕΔΞϓϦέʔγϣϯ͸ͳ͍͔ʁ • Istioͷߋ৽ͳͲͰαʔϏεͷૄ௨͕ࢮ͵Մೳੑ • Ϧʔδϣϯো֐ͰҰ੪ʹࢮ͵Մೳੑ

ΫϥελϝϯςφϯεʹవΔ໰୊఺ Ϋϥελϝϯςφϯε΁ͷରॲ ΫϥελΛ৑௕Խͯ͠ϚϧνΫϥελԽ͢Δ

ϚϧνΫϥελͰՄ༻ੑΛ޲্ Ingress Gateway Service A Service B Service C LB
Ingress Gateway Service A Service B Service C ΫϥελΛ৑௕Խ ୯ҰͷVIPΛఏڙ͢ΔLB

Ingress Gateway Service A Service B Service C Ϋϥελͷߋ৽࣌

Ingress Gateway Service A Service B Service C LB͔Β੾Γ཭ͯ͠ Ϋϥελߋ৽࡞ۀ

Ingress Gateway Service A Service B Service C ࠶ϧʔςΟϯά

Ingress Gateway Service A Service B Service C ໰୊ͳ͚Ε͹ ͪ͜Β΋ߋ৽

Ingress Gateway Service A Service B Service C ࠶ϧʔςΟϯά

Ingress Gateway Service A Service B Service C Ϋϥελͷ ϩʔϦϯάΞοϓσʔτΛ࣮ݱ

Ingress Gateway Service A Service B Service C Ϧʔδϣϯো֐Ͱ΋ ϑΣΠϧΦʔόʔ

ϚϧνΫϥελͷ࣮ݱํ๏ • GCLB + NEGΛ࢖ͬͨϧʔςΟϯάΛࣗಈ Ͱߏங • ManagedͳService MeshΛఏڙ •
Observabilityͷ୲อͱSLO/SLIϞχλϦϯ ά • ΫϥελϦιʔεͷΫϥελؒಉظ GCP Anthos

ϚϧνΫϥελʹΑΔ෇ՃՁ஋ Մ༻ੑ޲্͚ͩͰͳ͘ɺ༷ʑͳϝϦοτ΋ • κʔϯΫϥελΛϚϧνΫϥελԽ͢Δ͜ͱͰϦʔδϣφϧΑΓ ҆͘ࡁΉՄೳੑ • VIP + IP AnycastʹΑΔ௿ϨΠςϯγԽ

·ͱΊ • ϨΠςϯγΛ୲อ͢Δ ◦ requestͱlimitΛద੾ʹઃఆ͠Α͏ʂ ◦ ࠷దͳϦιʔεΛ࣋ͭϊʔυʹ഑ஔ͠Α͏ʂ ◦ ΞϓϦέʔγϣϯΛνϡʔχϯά͠Α͏

·ͱΊ • εϧʔϓοτΛ୲อ͢Δ ◦ Ͳ͜ʹϘτϧωοΫ͕དྷ͍ͯΔͷ͔ΛՄࢹԽͯ͠νϡʔχϯά͍ͯ͜͠͏ ◦ PodͷਫฏεέʔϧɺrequestͱlimitʹΑΔਨ௚εέʔϧΛ͠Α͏

·ͱΊ • εύΠΫʹඋ͑Α͏ ◦ HPAͱCluster Autoscalerͷ࢓૊ΈΛཧղͯ͠࢖͓͏ ◦ ෆे෼ͳ৔߹͸CronJobͳͲͰReplica਺Λௐ੔ͨ͠ΓɺεέʔϧͷϝτϦΫε໨ඪ஋Λ ΏΔͨ͘͠Γ͠Α͏

·ͱΊ • ϊʔυͷμ΢ϯʹඋ͑Α͏ ◦ κʔϯɺϊʔυΛ෼ࢄͯ͠PodΛ഑ஔ͠Α͏ ◦ Graceful ShutdownɺPDBΛద੾ʹઃఆͯ҆͠શʹఀࢭ͠Α͏ ◦ Ϋϥελͷϝϯςφϯε࣌ؒɺϝϯςφϯεํ਑ΛͪΌΜͱઃఆ͠Α͏
◦ Preemptible͸৻ॏʹʂ

·ͱΊ • Ϋϥελͷϝϯςφϯεઓུ ◦ ϚϧνΫϥελԽ͢Δͱ҆શʹΫϥελΛΧφϦϦϦʔεɺϩʔϦϯάΞοϓσʔτͰ͖ Δ ◦ ௿ϨΠςϯγԽͳͲͷ෇ՃՁ஋΋ଘࡏ ◦ GCP
AnthosΛ࢖͏ͱ୯ҰVIPʹෳ਺ΫϥελΛͿΒԼ͛Δߏ੒ΛͱΔ͜ͱ͕Ͱ͖Δ

Follow Me!! @taisho6339

Thank you for listening!

k8sの可用性とScalabilityを担保するための大事な観点 / Best practic...

k8sの可用性とScalabilityを担保するための大事な観点 / Best practices for ensuring availability and scalability for k8s

More Decks by Hiroki Sakamoto

Other Decks in Technology

Featured

Transcript