Reliability in a Serverless world

ComIT Driss Amri (AWSome) February 2023 Reliability in a Serverless
world

What is Reliability

Availability Downtime Per Year Downtime Per Month 99% (“Two Nines”)
99.9% (“Three Nines”) 99.99% (“Four Nines”) 7,2 hours 3,65 days 43,2 minutes 8,76 hours 4,32 minutes 52,6 minutes

is the wrong reliability target for pretty much everything 100%

Reliability on AWS

Serverless Reliability

Multi-AZ out of the box

Multi-Region

Challenges • Protecting downstream services that don’t scale as well
• Service Limit Quotas • More granular architectures • Denial Of Wallet • Per Function and Service (mis)conﬁguration • Lots of services to choose from

Chaos Engineering

Chaos Engineering is the discipline of experimenting on a system
in order to build conﬁdence in the system’s capability to withstand turbulent conditions in production.

Common faults • Network ◦ Latency ◦ Bandwidth ◦ Failure
to connect ◦ 4XX/5XX HTTP Response • Resource Exhaustion: ◦ CPU Stress ◦ Memory ◦ Disk Space • Weaknesses ◦ Error handling ◦ Timeout values ◦ Events ◦ Fallbacks ◦ Fail overs

Static stability using Availability Zones https://aws.amazon.com/builders-library/static-stability-using-availability-zones/ Beyond ﬁve 9s: Lessons
from our highest available data planes https://www.youtube.com/watch?v=2L1S0zfnIzo Chaos testen voor betrouwbaarheid https://nsdigitaal.sharepoint.com/sites/TestenBijNS/SitePages/Chaos-testen-voor-betrouwbaarheid.as px?source=https%3A%2F%2Fnsdigitaal.sharepoint.com%2Fsites%2FTestenBijNS

Reliability in a Serverless world

Reliability in a Serverless world

Driss Amri

More Decks by Driss Amri

Other Decks in Technology

Featured

Transcript

ComIT Driss Amri (AWSome) February 2023 Reliability in a Serverless

What is Reliability

Availability Downtime Per Year Downtime Per Month 99% (“Two Nines”)

is the wrong reliability target for pretty much everything 100%

Reliability on AWS

Serverless Reliability

Multi-AZ out of the box

Multi-Region

Challenges • Protecting downstream services that don’t scale as well

Chaos Engineering

Chaos Engineering is the discipline of experimenting on a system

Chaos Engineering is the discipline of experimenting on a system

Chaos Engineering is the discipline of experimenting on a system

Chaos Engineering is the discipline of experimenting on a system

Common faults • Network ◦ Latency ◦ Bandwidth ◦ Failure

Demo

Demo

Static stability using Availability Zones https://aws.amazon.com/builders-library/static-stability-using-availability-zones/ Beyond ﬁve 9s: Lessons