#HA #DR
지난 10월 15일, 카카오가 사용하고 있던 SKC&C 판교 데이터센터에 화재가 났습니다. 이로 인해 카카오 전체 서버의 1/3의 전원이 꺼지면서 서비스에 장시간 장애가 발생하여, 이용자분들에게 많은 불편을 드렸습니다.
그 후 카카오는 '데이터센터 단위로 어떻게 다중화를 해야 이번과 같은 화재시에도 장애를 최소화 할 수 있는지' 광범위하고 깊은 원인 분석을 했고, 해결책을 고민하고 오늘도 계속 보완/실행해가고 있습니다.
이번 이프카카오에서 '1015장애 회고' 트랙을 통해, 각 시스템 레이어별로 어떻게 다중화할지 그 방안을 상세히 공유드리고자 합니다.
'1015장애 회고' 트랙은 다음과 같이 총 5개의 발표로 구성하였습니다. 이 영상은 카카오의 서비스의 사용자 접점인 서비스 애플리케이션 레이어에 대한 다중화를 설명드립니다. 서비스를 위한 컴포넌트 구성 및 소프트웨어가 여기에 해당합니다. 애플리케이션에서 전략적으로 이중화를 구성하고, 의존성을 관리해 설계를 하고, 트래픽을 잘 관리하며, 실시간 대응도 잘 해야하는 등 이중화가 잘 동작하기 위해 신경써야할 주제를 다룹니다.
1. 데이터센터 단위의 다중화를 위한 고민
2. 인프라 설비 레이어 다중화
3. 데이터 레이어 다중화
4. 서비스 플랫폼 레이어 다중화
5. 애플리케이션 레이어 다중화
발표자 : indy.jones
카카오에서 회원플랫폼사업실을 맡고 있는 indy 입니다.