do Deployment API Uniforme, Replicação, Load Balancing, Configuração Picos periódicos de utilização Conferências internacionais, Campanhas de Reprocessamento
Horas Minutos ou Horas Utilização Fraca Manutenção Muito Intrusivo Virtualização e Cloud Minutos Minutos ou Horas Minutos ou Horas Boa Possivelmente Menos Intrusivo Containers Segundos Segundos Segundos Muito Boa Menos Intrusivo
públicas Múltiplas opções para deployment privado API declarativa para toda a infra-estrutura : computação, armazenamento, networking Ecosistema com vários produtos para funcionalidade adicional Kubernetes
a Service, Spark clusters em Kubernetes KubeFlow e ML distribuído Sistemas Batch em Kubernetes WebLogic e outros serviços internos Experiências com DR para a Oracle Cloud
separada em filtros de Hardware e Software ( a mudar gradualmente ) 40 milhões de colisões / segundo ~3000 nós multi core ~30.000 aplicações a monitorizar Sistema critico, falha significa perda de dados Melhorias para a Run 4? Estudo 2017, Mattia Cadeddu, Giuseppe Avolio Kubernetes 1.5.x Primeiro deployment este ano com 1.18.x ATLAS Event Filter
separada em filtros de Hardware e Software ( a mudar gradualmente ) 40 milhões de colisões / segundo ~3000 nós multi-core ~30.000 aplicações a monitorizar Sistema critico, falha significa perda de dados Melhorias para a Run 4? Estudo 2017, Mattia Cadeddu, Giuseppe Avolio Kubernetes 1.5.x Primeiro deployment este ano ATLAS Event Filter
para HL-LHC Simulação Rápida com Deep Learning Como reduzir o tempo de treino dos modelos? Sofia Vallecorsa, CERN OpenLab Konstantinos Samaras-Tsakiris
na maior parte dos deployments Incluindo os das clouds publics E deployments de Rancher / k3s Usar uma stack comum facilita a manutenção Master Kubelet cri-containerd containerd Master Kubelet
Ansible Git como única “source of truth” para configuração Múltiplos modelos de deployment possíveis 1 ⇢ 1: Actualmente o mais popular: uma aplicação, um cluster 1 ⇢ *: Uma aplicação, múltiplos clusters (HA, Blast Radius, Rolling Upgrades) * ⇢ *: Melhoria de utilização dos recursos Meta Chart git push FluxCD git pull Helm Release CRD Helm Operator
exploração de recursos externos para análise Challenge: Re-processamento da análise do Higgs em menos de 10min Processamento de um dataset de ~70TB e ~25000 ficheiros Criação do Cluster Pre-Pull da Imagem Stage-In dos Dados Process amento 5 min 4 min 4 min 90 sec Kubernetes para Análise de Dados
stargz (seekable stargz), tar de ficheiros tar Imagens compatíveis com runtimes actuais estargz (enhanced stargz) Melhoramento com pre-fetch dos dados Usa o entrypoint para escolher esses dados Tempo de start do container: sempre < 6 segs https://medium.com/nttlabs/startup-containers-in-lightning-speed-with-lazy-image-distribution-on-containerd-243d94522361 https://kccnceu20.sched.com/event/ZepQ/startup-containers-in-lightning-speed-with-lazy-image-distribution-kohei-tokunaga-ntt
recursos High Luminosity Large Hadron Collider - HL-LHC x7 colisões por segundo, x10 mais dados e computação Machine Learning Simulacao rapida, filtros nos detetores, deteção de anomalias, … Melhorar a integração com GPUs, utilização de TPUs, IPUs, FPGAs, ...