Upgrade to Pro — share decks privately, control downloads, hide ads and more …

kt cloud의 AI 사업 성장기, 이래서 파트너가 중요합니다.-황성진(kt cloud)

kt cloud의 AI 사업 성장기, 이래서 파트너가 중요합니다.-황성진(kt cloud)

Lablup Inc.

November 27, 2024
Tweet

More Decks by Lablup Inc.

Other Decks in Technology

Transcript

  1. kt cloud AI 사업을? • kt 그룹 내 역할 분리

    • kt • kt cloud • 태국 사업 • kt + kt cloud + kt ds • 그리고 파트너사 • 소버린(Sovereign)
  2. kt cloud AI 사업을? • kt 그룹 내 역할 분리

    • kt • kt cloud • 태국 사업 • kt + kt cloud + kt ds • 그리고 파트너사 • 소버린(Sovereign)
  3. kt cloud 의 AI 사업 AI 서비스 운영비용 절감 AI

    SERV (NVIDIA) 상품 출시 ’23.10월 기존 서빙용 GPU 대비 가성비 개선 AI SERV NPU 출시 *AI SERV 내 인프라(NPU)추가 (’24.7월) ’24.5월 & 7월 ’22.6월 HAC 유료 서비스 출시 국내최초 ’24.4Q AI연구-응용 서비스 E2E 자동화 지원 토탈 솔루션 AI Ops 상품 출시 범용성 지원 및 기존 HAC 서비스 장점 승계 AI TRAIN 상품 출시 (’24.5월)
  4. Hype Cycle for Emerging Technologies, 2024 • Gartner의 Hype Cycle

    • 생성형 AI & Cloud Native ‘부풀려진 기대’ > ‘환멸의 단계’ 입구로 • 그럼에도 AI!
  5. 대규모 LLM 학습 및 배포의 복잡성 수조 개의 파라미터를 가진

    초대형 언어모델의 등장 AI 개발 난이도 상승 모델 학습에 막대한 컴퓨팅 자원과 데이터 필요 복잡해지는 배포 과정 개별 기업이 대규모 LLM을 다루기에는 어려움 기술/비용 장벽
  6. • kt cloud 의 초고성능 인프라와 Backend.AI의 AI 플랫폼 결합

    • 도전과제 : 거대한 하이퍼스케일러인 kt cloud에 어떤 가치를 더할 수 있을까? • kt cloud & lablup 의 지향점 통합 솔루션의 구조와 작동 확장성과 유연성 확보 다양한 규모의 AI 프로젝트 수용 사용자 친화적인 인터페이스 개발자들의 원활한 플랫폼 사용유도 자원 최적화 및 성능 우선 구현 한정된 연산 자원을 가장 효율적으로 배치/운영
  7. 통합 솔루션의 구조와 작동 kt cloud Infrastructure GPU Farm AI

    전용 스토리지 / Openstack Manila NAS Security Backend.AI Manager kt cloud IaaS Client Service Public Cloud Console Baremetal Server VM Server Backend.AI GUI Backend.AI Session 컨테이너 수준 GPU 가상화 Monitoring Control Plane 통합 IDE
  8. 대규모 GPU Farm의 관리 문제 H100 GPU 8장 서버 1대

    : 10kW 이상 (벤더 권장) B200 GPU 8장 서버 1대 : 13kW 이상 (벤더 권장) ※ 일반 스위치, Cnode용 서버: 2kW 이하 데이터센터 랙당 전력 : (과거) 5kW 내외 (최근) 10kW “문제는 전력이야” 하나의 데이터센터에 모든 GPU 자원을 넣기 어려움 여러 클라우드 Zone(리전)에 분산된 GPU 서버의 통합 관리 필요!
  9. 대규모 GPU Farm의 관리 문제 - 효율적인 GPU 자원 관리

    Branch Region A Branch Region B GPU Farm GPU Farm Region A VLAN Region B VLAN kt cloud Connect Hub (전용회선 + VPN) 모든 GPU 자원을 하나의 플랫폼에서 이용 가능
  10. 여러 GPU 서버를 클러스터링 하려면? 네트워크 설정 … 스토리지 설정

    … 보안그룹 구성 … 접속설정, 방화벽 설정 … Key 페어 생성 … 접속 후 클러스터 관리SW, MPI 설정…
  11. 여러 GPU 서버를 클러스터링 하려면? 네트워크 설정 … 스토리지 설정

    … 보안그룹 구성 … 접속설정, 방화벽 설정 … Key 페어 생성 … 접속 후 클러스터 관리SW, MPI 설정…
  12. 여러 GPU 서버를 클러스터링 하려면? 컨테이너 기반 신속 배포 시스템

    GPU 서버 생성 IDE 앱 실행 접속 후 작업 1분 이내 클라우드 환경에서 가장 빠르게 원격서버에 접속할 수 있는 혁신적인 서비스, AI Train
  13. • 효율적인 GPU 자원 관리 메커니즘 • GPU 할당 및

    회수 자동화: 유휴 자원 최소화로 비용 절감 • 동적 자원 할당: 워크로드에 따른 탄력적인 GPU 배분 • 컨테이너 기반 가상화: GPU 자원의 안전하고 효율적인 공유 • 실시간 모니터링 및 성능 최적화 • 통합 대시보드를 통한 가시성 확보: 실시간 자원 사용량 파악 • 병목 구간 식별 및 해소: 끊김 없는 서비스 제공 • 오토 스케일링과 로드 밸런싱: 트래픽 변화에 유연한 대응 • 성능 지표 수집과 분석: 데이터 기반의 최적화 의사결정 효율적인 GPU 자원 관리 메커니즘
  14. • AI Train: 엄청난 규모를 초고속으로 처리 • 수천 개

    GPU를 활용한 초거대 AI 모델 학습 지원 • 고대역폭, 저지연 네트워크 기반 분산 학습 가속 • 페타 바이트급 데이터 처리를 위한 스토리지 인프라 • 다양한 AI 학습 프레임워크 및 최신 AI 가속 기술 지원 • AI SERV: 수많은 AI 모델들을 최적화하여 서빙 • 사전 학습된 AI 모델을 위한 추론 API 서버 운영 및 관리 • GPU 분할 가상화와 결합 • 사전 모델 적재 기반 Time-to-first-token 대폭 감소 • 서로 다른 워크로드 타입의 모델 동시적재 및 GPU상 수행으로 비용절감 • 배포 자동화 및 무중단 모델 업데이트 • 사용량에 따른 자동 스케일링으로 비용 효율화 고속열차와 지하철 - kt cloud의 AI 서비스
  15. kt cloud의 AI 서비스 고성능 GPU 인프라와 확장성 NVIDIA H100

    with InfiniBand NVIDIA A100 with InfiniBand NVIDIA V100 NVIDIA A100 with GPU Slicing AMD MI250 Rebellions ATOM NEW ’24.4Q kt cloud AI Computing AI Train AI SERV H100 자원 전용 스토리지 고성능 Storage
  16. kt cloud의 AI 서비스 “GPU, 사용한 만큼만 과금합니다!” GPU 연산개시

    GPU 연산종료 GPU 연산개시 GPU 연산종료 GPU 연산개시 GPU 연산종료 시간 요금 서버삭제 타사 ‘GPU 사용시간’만 과금 ‘GPU 사용시간’만 과금 ‘GPU 사용시간’만 과금 CPU+MEM CPU+MEM +GPU GPU 실 사용시간에 대해서만 요금 부과 GPU 연산이 끝나면 정책에 따라 자동 자원회수 (수동 서버 생성 및 삭제 반복 불필요) 서버생성
  17. 실 제공 사례 : 고객사 A 학습용 GPU 제공 (on

    AI Train) kt cloud IDC 내 고객사 상면 (코로케이션) GPU Farm AI Train HCX InfiniBand Network InfiniBand Switch Storage InfiniBand Network InfiniBand Switch NAS ※ HCX(Hyper Connectivity eXchange) : 데이터센터-CSP간 연결하는 전용회선 서비스 고 객 니 즈 학습/추론용 ▪ 규모: OO노드 (H100 GPU OOO장) ▪ 전용노드 할당 및 고객사 기존 Legacy 장비 연결로 인프라 확장성 제공 HCX, 전용회선 통한 연결성 제공 AI Train 플랫폼 활용한 자원관리 기능 확보
  18. kt cloud AI platform 은 … 데이터 관리 NAS AI

    전용 고성능 Storage Object Storage AI 모델 구축 Model Repository AI 모델 학습/튜닝 AI Train AI 모델 배포 AI SERV AI 모델 관리 AI Train pipeline Backend.AI AI 서비스 End-to-End 완전관리형 플랫폼 KT fontactive Session Data & Folder Model Serving Backend.AI FastTrack ’25.3Q
  19. • PoC 지원합니다. 회사 Management에 말씀 드리세요! • 새로운 기능에

    대한 Closed Beta 서비스 고민하고 있습니다! •AI 시대는 함께 하는 kt cloud 은 기술력/서비스 ‘최고’는 아니지만, ‘고객 편의 최고’를 지향합니다! kt cloud AI platform 은 …