Upgrade to Pro — share decks privately, control downloads, hide ads and more …

2. 인프라 설비 레이어 다중화

kakao
PRO
December 08, 2022

2. 인프라 설비 레이어 다중화

#HA #DR

지난 10월 15일, 카카오가 사용하고 있던 SKC&C 판교 데이터센터에 화재가 났습니다. 이로 인해 카카오 전체 서버의 1/3의 전원이 꺼지면서 서비스에 장시간 장애가 발생하여, 이용자분들에게 많은 불편을 드렸습니다.

그 후 카카오는 '데이터센터 단위로 어떻게 다중화를 해야 이번과 같은 화재시에도 장애를 최소화 할 수 있는지' 광범위하고 깊은 원인 분석을 했고, 해결책을 고민하고 오늘도 계속 보완/실행해가고 있습니다.
이번 이프카카오에서 '1015장애 회고' 트랙을 통해, 각 시스템 레이어별로 어떻게 다중화할지 그 방안을 상세히 공유드리고자 합니다.

'1015장애 회고' 트랙은 다음과 같이 총 5개의 발표로 구성하였습니다. 그 중 이 발표는 데이터센터 및 네트웍 중심의 인프라 설비 레이어 다중화에 대해 집중적으로 설명드립니다.

1. 데이터센터 단위의 다중화를 위한 고민
2. 인프라 설비 레이어 다중화
3. 데이터 레이어 다중화
4. 서비스 플랫폼 레이어 다중화
5. 애플리케이션 레이어 다중화

발표자 : crea.m
카카오 데이터센터파트 crea입니다.

milo.seo
카카오 네트워크엔지니어링파트 milo 입니다.

kakao
PRO

December 08, 2022
Tweet

More Decks by kakao

Other Decks in Programming

Transcript

  1. 문승조 (crea.m)


    서상덕 (milo.seo)


    카카오
    2. 인프라 설비 레이어의 다중화
    if(kakao)2022
    Copyright 2022. Kakao Corp. All rights reserved. Redistribution or public display is not permitted without written permission from Kakao.
    데이터센터, 네트워크

    View Slide

  2. 1. 데이터센터


    2. 네트워크

    View Slide

  3. 1. 데이터센터


    2. 네트워크

    View Slide

  4. 문승조 (crea.m)


    카카오
    1. 데이터센터
    if(kakao)2022
    Copyright 2022. Kakao Corp. All rights reserved. Redistribution or public display is not permitted without written permission from Kakao.
    전력, 상면

    View Slide

  5. 32,000 Server


    Network
    DC 2 DC 4
    DC 1(판교)
    데이터센터
    DC 3

    View Slide

  6. 판교 DC 화재 사진 및 기사
    출처: 조선일보, 권상은 기자, https:/
    /www.chosun.com/national/incident/2022/10/17/3BZCIYTCKNBWPGZKCZ7DIVOMQE/

    View Slide

  7. 2022. 10. 15 15:19 ~
    32,000 Server


    Network
    DC 2 DC 4
    DC 1(판교)
    DC 3

    View Slide

  8. 화재 발생부터 데이터센터 건물 전체 전원 차단까지
    2022. 10. 15 (토) 15:19 ~ 데이터센터 화재 발생
    15:27 네트워크 장비 일부 장애 발생
    15:28 2층 전원 불안정(추정)

    View Slide

  9. 화재 발생부터 데이터센터 건물 전체 전원 차단까지
    15:38 ~ 15:40 카카오 화재 인지 카카오 내부 전파
    16:07 카카오 직원 최초 현장 도착
    16:21 4층 전원 불안정(추정)
    16:53 ~ 소방서, 건물 전원 차단 결정
    16:58 건물 전원 차단

    View Slide

  10. 전원 되살리기(복전)까지
    21:48 소방서장 승인 하에 2층 전산실 진입
    22:42 복전 시도
    23:02 배터리실 화재 재발로 복전 중단
    10/16 00:23 ~ 00:53 건물 메인 전원 복전
    01:41 2층 일부 복전. 배터리 없는 상태

    View Slide

  11. 전원 되살리기(복전)까지
    2층 6,000대의 서버를 제외한 상면 복전
    03:43 4층 041 정상 복전
    05:20 3층 복전. 배터리 없는 상태
    11: 40 2층 일부 네트워크열 B만 복전

    View Slide

  12. PG1-024


    B회로만 복전 PG1-023 Off 상태
    PG1-021 배터리 없이 복전
    PG1-041 정상
    PG1-022


    배터리 없이 복전
    PG1-025 배터리 없이 복전
    PG3-032
    PG3-033
    PG3-021
    PG1-02..
    한전 순간 정전 0.04초
    2,000대의 서버 전원 차단 발생

    View Slide

  13. 장애 원인 분석 및 향후 데이터센터 구축 시 유의점
    - 소화가스와 스프링쿨러 이중화 구성


    - 배터리 모듈 간 최대 설치 거리 확보


    - 섬광 감지 카메라를 도입해 열이나 공기에 의한

    감지보다 빠른 화재 탐지


    - 자동 화재 속보기를 설치로 최대한 빠르게

    소방서로부터 지원받는 환경 구현

    View Slide

  14. 장애 원인 분석 및 향후 데이터센터 구축 시 유의점
    - 배터리실 다원화


    - UPS/배터리를 각 상면 옆에 위치시켜 피해 최소화


    - 배터리실과 UPS 사이 최대 공간 확보


    - 배터리실 완전 침수 대비한 방수 구성

    View Slide

  15. 장애 원인 분석 및 향후 데이터센터 구축 시 유의점
    - 카카오 신규 구축 시 검토 강화

    View Slide

  16. 요약
    화재 원인 : 리튬이온배터리 발화 추정
    장애 원인 : 전원 불안정으로 장비류들 다운되면서 발생
    장애 시작 부터 복전에 걸린 시간 : 10시간 14분
    방지 대책 : 모든 시설을 세밀하게 살펴 구축 진행

    View Slide

  17. 서상덕 (milo.seo)


    카카오
    2. 네트워크
    if(kakao)2022
    Copyright 2022. Kakao Corp. All rights reserved. Redistribution or public display is not permitted without written permission from Kakao.

    View Slide

  18. 장애 당시의 네트워크 동작
    판교IDC 장애 시
    AS
    -
    IS

    View Slide

  19. 장애 당시의 네트워크 동작
    데이터센터 복구 이후


    - 전원이 들어오면서 대부분 장애 이전의 상태로 복구


    - 일부 장비들은 정상 부팅 불능, 수동 부팅이 필요


    - 일부 장비들은 하드웨어 결함(H/W Fault) 상태여서 교체가 필요

    (장애 당시 불완전한 전류로 인한 결함을 원인으로 추정)


    잘 진행한 부분


    - 기존의 정적 라우팅 사용을 극도 배제


    - 운영자의 조작 없이도 트래픽 우회가 자동 동작


    - 망 전체 엣지 장비까지 BGP(Border Gateway Protocol)로 구성

    View Slide

  20. 장애 당시의 네트워크 동작
    이슈 및 개선 필요 사항


    - 모니터링, 분석 툴 등이 마비되어 장비 모니터링 및 장애 탐지 등이 원활히 작동하지 못함


    - NMS(Network Management System) 데이터베이스에 서버 이동 및 재설치에 필요한 정보가 있었으나,

    관련 서버들이 대부분 판교 데이터센터에 위치하여 해당 정보를 조회하는 데 한계


    운이 좋았던 부분


    - 자율 재택근무로 인해 활성화되어 있었던 원격관리 환경이 신속한 장애 대응에 도움

    View Slide

  21. 네트워크 구조 개선 계획 1 : (네트워크 백본 삼중화)
    AS
    -
    IS TO
    -
    BE

    View Slide

  22. 네트워크 구조 개선 계획 2 : (데이터센터 내부 다중화 강화)
    AS
    -
    IS TO
    -
    BE

    View Slide

  23. 네트워크 구조 개선 계획 3 : (데이터센터 간 전송망 대폭확장)
    AS
    -
    IS TO
    -
    BE
    초기단계 확장단계

    View Slide

  24. 네트워크 구조 개선 계획 3 : (데이터센터 간 전송망 대폭확장)
    - 서비스 다중화를 위해 데이터 센터가 증가하면 데이터 센터 간 East
    <-
    > West 트래픽도 증가


    - 대용량 트래픽 전송이 필요한 서비스(예: Hadoop, GPU 등)의 데이터 센터 간 다중화를 위해 별도 전용
    (Private) 네트워크 구성 필요

    - 일반 서비스 망과 분리 독립된 연동 망


    - East
    <-
    > West 트래픽의 지속 증가에 따라 필요한 데이터센터 간 대역폭도 지속 증가


    - 현재 데이터센터 간 구성인 P2P 방식은 한계 발생


    - 확장성을 고려하여 모든 센터를 연결할 수 있는 링(Ring) 방식 구성 설계 검토

    - 기본 백본 네트워크
    <-
    > PoP 네트워크 연동 방식

    - 필요시 POP
    <-
    > POP 간 전용 네트워크(Private Network) 구성 가능

    View Slide

  25. - 판교를 포함하여 데이터센터 다중화를 구성해 총 4개의 장비를 운영 중


    - 카카오 NS 와 GSLB 장비는 모두 Anycast IP 로 구성하여 데이터센터 다중화를 구현
    PG
    GSLB #1


    Anycast IP: 3.3.3.3
    GSLB #2


    Anycast IP: 3.3.3.3
    GSLB
    GSLB #3


    Anycast IP: 3.3.3.3
    GSLB #4


    Anycast IP: 3.3.3.3
    DC #1
    User

    View Slide

  26. LDNS
    (6) 1.1.1.1 or 2.2.2.2
    (1) a.kakao.com (3) a.gslb.kakao.com
    (2) a.kakao.com
    (5) 1.1.1.1 or 2.2.2.2
    (4) a.gslb.kakao.com
    (3) a.gslb.kakao.com
    (2) a.kakao.com
    (5) 2.2.2.2
    (4) a.gslb.kakao.com
    KAKAO NS


    [Anycast]
    GSLB


    [Anycast]
    Service A


    ( 1.1.1.1 )
    User
    User
    LDNS
    (6) 2.2.2.2
    (1) a.kakao.com
    KAKAO NS


    [Anycast]
    GSLB


    [Anycast]
    Service A


    ( 2.2.2.2 )
    PG
    DC #1
    KAKAO NS


    [Anycast]
    GSLB


    [Anycast]
    Service A


    ( 1.1.1.1 )
    KAKAO NS


    [Anycast]
    GSLB


    [Anycast]
    Service A


    ( 2.2.2.2 )
    PG
    DC #1
    GSLB

    View Slide

  27. GSLB
    데이터센터 복구 이후


    - 장애 복구 시 판교 데이터센터에 서비스들이 산발적으로 올라오면서

    서비스 상황에 따라 선별적인 제외 및 투입 작업 진행
    잘 진행한 부분


    - 장애 복구를 위한 수백 건의 작업 요청을 GSLB 장비와 API로 연동된 관리 포털을 통해 신속히 처리함

    View Slide

  28. GSLB
    이슈 및 개선 필요 사항


    - 모니터링, 로깅 이중화


    향후 발전 사항


    - 각 서비스 담당자들이 GSLB 도메인을 신속하게 제어할 수 있도록 관리 페이지 및 API 오픈 예정

    View Slide