SERV (NVIDIA) 상품 출시 ’23.10월 기존 서빙용 GPU 대비 가성비 개선 AI SERV NPU 출시 *AI SERV 내 인프라(NPU)추가 (’24.7월) ’24.5월 & 7월 ’22.6월 HAC 유료 서비스 출시 국내최초 ’24.4Q AI연구-응용 서비스 E2E 자동화 지원 토탈 솔루션 AI Ops 상품 출시 범용성 지원 및 기존 HAC 서비스 장점 승계 AI TRAIN 상품 출시 (’24.5월)
• 도전과제 : 거대한 하이퍼스케일러인 kt cloud에 어떤 가치를 더할 수 있을까? • kt cloud & lablup 의 지향점 통합 솔루션의 구조와 작동 확장성과 유연성 확보 다양한 규모의 AI 프로젝트 수용 사용자 친화적인 인터페이스 개발자들의 원활한 플랫폼 사용유도 자원 최적화 및 성능 우선 구현 한정된 연산 자원을 가장 효율적으로 배치/운영
전용 스토리지 / Openstack Manila NAS Security Backend.AI Manager kt cloud IaaS Client Service Public Cloud Console Baremetal Server VM Server Backend.AI GUI Backend.AI Session 컨테이너 수준 GPU 가상화 Monitoring Control Plane 통합 IDE
: 10kW 이상 (벤더 권장) B200 GPU 8장 서버 1대 : 13kW 이상 (벤더 권장) ※ 일반 스위치, Cnode용 서버: 2kW 이하 데이터센터 랙당 전력 : (과거) 5kW 내외 (최근) 10kW “문제는 전력이야” 하나의 데이터센터에 모든 GPU 자원을 넣기 어려움 여러 클라우드 Zone(리전)에 분산된 GPU 서버의 통합 관리 필요!
회수 자동화: 유휴 자원 최소화로 비용 절감 • 동적 자원 할당: 워크로드에 따른 탄력적인 GPU 배분 • 컨테이너 기반 가상화: GPU 자원의 안전하고 효율적인 공유 • 실시간 모니터링 및 성능 최적화 • 통합 대시보드를 통한 가시성 확보: 실시간 자원 사용량 파악 • 병목 구간 식별 및 해소: 끊김 없는 서비스 제공 • 오토 스케일링과 로드 밸런싱: 트래픽 변화에 유연한 대응 • 성능 지표 수집과 분석: 데이터 기반의 최적화 의사결정 효율적인 GPU 자원 관리 메커니즘
GPU를 활용한 초거대 AI 모델 학습 지원 • 고대역폭, 저지연 네트워크 기반 분산 학습 가속 • 페타 바이트급 데이터 처리를 위한 스토리지 인프라 • 다양한 AI 학습 프레임워크 및 최신 AI 가속 기술 지원 • AI SERV: 수많은 AI 모델들을 최적화하여 서빙 • 사전 학습된 AI 모델을 위한 추론 API 서버 운영 및 관리 • GPU 분할 가상화와 결합 • 사전 모델 적재 기반 Time-to-first-token 대폭 감소 • 서로 다른 워크로드 타입의 모델 동시적재 및 GPU상 수행으로 비용절감 • 배포 자동화 및 무중단 모델 업데이트 • 사용량에 따른 자동 스케일링으로 비용 효율화 고속열차와 지하철 - kt cloud의 AI 서비스
with InfiniBand NVIDIA A100 with InfiniBand NVIDIA V100 NVIDIA A100 with GPU Slicing AMD MI250 Rebellions ATOM NEW ’24.4Q kt cloud AI Computing AI Train AI SERV H100 자원 전용 스토리지 고성능 Storage
AI Train) kt cloud IDC 내 고객사 상면 (코로케이션) GPU Farm AI Train HCX InfiniBand Network InfiniBand Switch Storage InfiniBand Network InfiniBand Switch NAS ※ HCX(Hyper Connectivity eXchange) : 데이터센터-CSP간 연결하는 전용회선 서비스 고 객 니 즈 학습/추론용 ▪ 규모: OO노드 (H100 GPU OOO장) ▪ 전용노드 할당 및 고객사 기존 Legacy 장비 연결로 인프라 확장성 제공 HCX, 전용회선 통한 연결성 제공 AI Train 플랫폼 활용한 자원관리 기능 확보
전용 고성능 Storage Object Storage AI 모델 구축 Model Repository AI 모델 학습/튜닝 AI Train AI 모델 배포 AI SERV AI 모델 관리 AI Train pipeline Backend.AI AI 서비스 End-to-End 완전관리형 플랫폼 KT fontactive Session Data & Folder Model Serving Backend.AI FastTrack ’25.3Q