Fault-Tolerant Clients: Escrevendo Clients e Services Tolerantes a Falhas

cep) { // consulta frete em outro microsserviço String url = "https://ms.fast-fretes.com/calcula-frete/" ;   ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();  return ResponseEntity.ok(frete); } }

@RestController public class CalculadoraDeFretesController { @GetMapping(path="/fretes/calcula") public ResponseEntity<Frete> calcula(@RequestParam String

Design for Failures

Rafael Ponte @rponte

None

Fortaleza - Terra do Sol

None

FAULT-TOLERANT CLIENTS Implementando clients e services mais resilientes e tolerantes

a falhas

Implementação Ingênua

@RestController public class CalculadoraDeFretesController { @GetMapping(path="/fretes/calcula") public ResponseEntity<Frete> calcula(@RequestParam String

ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url

) .withParameter("cep", cep ) .execute();

ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url

) .withParameter("cep", cep ) .execute(); Pode ser qualquer HTTP Client!

ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url

O problema dessa implementação…

Spring Boot App Client Spring Boot App Service   Internet

None

Tudo isso porque esperamos demais…

Timeout

ZupClientConfig config = // ... ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) )

.build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = // ... .withRequestTimeout(Duration.of(5, SECONDS) ) .build() ;

ZupHttpClient<Frete> client = new ZupHttpClient<>() ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = // ... .withRequestTimeout(Duration.of(5, SECONDS) ) .build() ;

ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .build() ;

ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute(); Depende do caso de uso e contexto

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .build() ;

Spring Boot App Client Spring Boot App Service   Internet

Fail Fast

…mas não para Transient Failures

Spring Boot App Client Spring Boot App Service   Internet

Não podemos jogar esse problema no usuário…

Retry

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .build() ;

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy( )

.build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom().build() )

.build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute(); Transient Failures

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .build() ) .build(); ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .build() ) .build(); ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute(); Depende do caso de uso e contexto

Spring Boot App Client Spring Boot App Service   Internet

Original Request:

Spring Boot App Client Spring Boot App Service   Internet

Original Request:

Spring Boot App Client Spring Boot App Service   Internet

Retry #1: Original Request:

Spring Boot App Client Spring Boot App Service   Internet

Retry #1: Retry #2: Original Request:

Spring Boot App Client Spring Boot App Service   Internet

Retry #1: Retry #2: Original Request:

Clients são EGOISTAS

Spring Boot App Client Spring Boot App Service   Internet

None

RETRY STORM   Vamo surrar esse servidor ae!

Não demos tempo pro serviço se recuperar

Retry with Backo f

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(Duration.of(100, MILLIS) ) .build() ) .build(); ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

100ms  100ms  100ms  100ms  …  Retry #1 Retry #2 Retry

#3 Retry #4

Não resolvemos o problema, somente "empurramos" ele 100ms pra frente…

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(Duration.of(100, MILLIS) ) .build() ) .build(); ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(Duration.of(100, MILLIS), 2 ) .build() ) .build(); ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(Duration.of(100, MILLIS), 2 ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute(); Delay Factor

100ms  200ms  400ms  800ms  …  Retry #1 Retry #2 Retry

#3 Retry #4 Dobramos Dobramos Dobramos Dobramos

Retry with Exponential Backo f

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(Duration.of(100, MILLIS), 2 ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(Duration.of(100, MILLIS) ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

Demos folêgo pro servidor ter tempo para se recuperar, porém…

None

SINCRONIA ENTRE CLIENTS

Precisamos diminuir as chances dessa sincronização…

Retry with Backo f f and Jitter

jitter /ˈdʒɪtə/ n.   the deviation from true periodicity of

a presumably periodic signal.

jitter /ˈdʒɪtə/ n.   add randomness to the periodicity of

a periodic signal.

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(Duration.of(100, MILLIS) ) .build() ) .build();  ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(Duration.of(100, MILLIS) ) .withJitter(0.25 ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute();

ZupClientConfig config = ZupClientConfig.custom( ) .withRequestTimeout(Duration.of(5, SECONDS) ) .withRetryPolicy(RetryPolicy.custom( )

.retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(Duration.of(100, MILLIS) ) .withJitter(0.25 ) .build() ) .build() ; ZupHttpClient<Frete> client = new ZupHttpClient<>(config) ; Frete frete = client.get(url ) .withParameter("cep", cep ) .execute(); Jitter Factor

delay random(0, delay*0.25) + -

delay random(0, delay*0.25) Jitter + -

100ms  200ms  400ms  800ms  …  Retry #1 Retry #2 Retry

#3 Retry #4

121ms +21ms   203ms +3ms   393ms -7ms   788ms

-12ms   …  Retry #1 Retry #2 Retry #3 Retry #4

Não só evitamos a sincronização…

… como também distribuímos melhor os requests entre os intervalos

Retry with Exponential Backo f https://aws.amazon.com/blogs/architecture/exponential-backo f f -and-jitter/

Retry with Exponential Backo f https://aws.amazon.com/blogs/architecture/exponential-backo f f -and-jitter/ Intervalos

longos   e ociosos

Intervalos longos   e ociosos Retry with Exponential Backo f

Picos ainda podem ocorrer https://aws.amazon.com/blogs/architecture/exponential-backo f f -and-jitter/

Retry with Exponential Backo f f and Jitter https://aws.amazon.com/blogs/architecture/exponential-backo f

f -and-jitter/

Retry with Exponential Backo f f and Jitter https://aws.amazon.com/blogs/architecture/exponential-backo f

f -and-jitter/ Distribui as requisições entre os intervalos

Distribui as requisições entre os intervalos Retry with Exponential Backo

f f and Jitter Menor incidência de picos https://aws.amazon.com/blogs/architecture/exponential-backo f f -and-jitter/

Distribui as requisições entre os intervalos Retry with Exponential Backo

f f and Jitter Menor incidência de picos https://aws.amazon.com/blogs/architecture/exponential-backo f f -and-jitter/

Pra entender melhor como tudo isso funciona…

Efeitos de Particionamento de Rede

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(ofMillis(100)) .build( ) (Rede

particionada) https://www.usenix.org/sites/default/ f i les/conference/protected- f i les/srecon18asia_slides_goh.pdf

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(ofMillis(100)) .build( ) https://www.usenix.org/sites/default/

f i les/conference/protected- f i les/srecon18asia_slides_goh.pdf (Rede particionada)

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(ofMillis(100)) .withJitter(0.25)  .build() https://www.usenix.org/sites/default/

f i les/conference/protected- f i les/srecon18asia_slides_goh.pdf (Rede particionada)

Efeitos de falhas parciais

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withDelay(ofMillis(100)) .build( ) (taxa

de falha de 25 %) https://www.usenix.org/sites/default/ f i les/conference/protected- f i les/srecon18asia_slides_goh.pdf

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(ofMillis(100)) .build( ) (taxa

RetryPolicy.custom( ) .retryOn(HttpStatus5xxException.class ) .withMaxAttempts(3 ) .withExponentialBackoff(ofMillis(100)) .withJitter(0.25)  .build() (taxa

Fault-Tolerant Clients: Escrevendo Clients e Se...

Fault-Tolerant Clients: Escrevendo Clients e Services Tolerantes a Falhas

More Decks by Rafael Ponte

Other Decks in Technology

Featured

Transcript