NHN Cloud

NHN Cloud HPC 구축의 모든 것

다룰 내용 • HPC 시스템 완전 정복: 하드웨어 딥다이브 •
HPC 활용법: 나에게 맞는 워크로드 찾기 밸런스 게임 • NHN Cloud: VM, HPC 고민 말고 바로 시작!

HPC 시스템 완전 정복: 하드웨어 딥다이브

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server
… … … Management Server … Home Storage (NFS, Object) Shared Storage (RDMA) Scratch Storage HPC 아키텍처

PCIE Type SXM Types PCIE Type (성능 90%) SXM Type
(HPC에 적합) HPC Server

DPU (Data Processing Unit) Foundation NIC SmartNIC DPU (Data Processing
Unit) ETH0 VM1 VM2 OVS vport vport Host/Hypervisor VM1 VM2 OVS Host/Hypervisor Data Path eSwitch SR-IOV VF SR-IOV VF VM1 VM2 ConnectX-6 ConnectX-6 eSwitch OVS Flow #1 Flow #2 Arm Flow #3 Host/Hypervisor Flow #4 SR-IOV VF SR-IOV VF +암호화/복호화 +DPDK 라이브러리 활용 GPU 연산성능 20~30% 향 상 HPC Server

CPU HPC Server AMD Intel

HPC Server CPU0 PCIe Switch PCIe Switch NIC NIC NIC
NIC GPU GPU GPU GPU x16 x16 x16 x16 x16 x16 x16 x16 x16 x16 x16 x16 NVSwitch • CPU NVSwitch : 32레인 • NVSwitch PCIe 장치 : 48~80레인

Memory HPC Server • Memory Size • GPU VRAM 대비
1.5배~2배 • Memory 주요 사용 목적 • 메모리 덤프 • 옵티마이저 상태 • Checkpointing / Fault tolerance • 데이터 prefetch + double buffering

MGMT Out-of-Band Compute IB Storage IB HPC Server UFM Server
Home Storage (NFS, Object) Shared Storage (RDMA) … … … Management Server … HPC 아키텍처

Shared Storage Shared Storage (RDMA) 병렬 파일 시스템 스토리지 (I/O
처리 서버 클러스터 구성, 확장성, 일정한 성능) Storage System RDMA 기능 지원 스토리지 (IBM Spectrum Scale, DDN, VAST, WEKA 등) *RDMA (Remote Data Memory Access)

RDMA (Remote Direct Memory Access) GPUDirect Storage Shared Storage

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server
… … … Management Server … Home Storage (NFS, Object) Shared Storage (RDMA) Scratch Storage HPC 아키텍처

Switch MGMT Out-of-Band Compute IB Storage IB InfiniBand Switch (RDMA)
Ethernet Switch (RoCE) *RoCE (RDMA over Converged Ethernet) EDR HDR NDR 100G 200G 400G RDMA 패킷 처리!

Switch 구분 Infiniband Switch (IB) Ethernet Switch *Network RDMA (Remote
Direct Memory Access) RoCE (RDMA over Converged Ethernet) *Layer MAC 기반 통신 IP 기반 통신 Type NDR · HDR · EDR 400G · 200G · 100G *Latency 100~150nsec 300~1000nsec Ports 20 · 40 Ports 20 · 40 · 80 Ports PSU · FAN 전력 · 가용성 · 핫스왑 *RDMA Tuning Config 없음 RoCE 패킷 지원 RoCE를 위한 Tuning Config 유/무 *관리 측면 UFM Server (모니터링) Subnet Manager (혼잡도 추적 기능, 자동 Path) 추가 모니터링 구축 필요 혼잡도 추적, 자동 Path 기능은 추가 프로토콜 필 요 Switch

Switch DAC Cable (Direct Attach Copper Cable) AOC Cable (Active
Optical Cable) MPO Cable (Multiple Push On) Cable Cable Transceiver (HDR/EDR) (200G/100G) 고정 고정 분리 비용

Switch 서버 수 스위치 수 (40포트) 케이블 수 Leaf Spine
Core Total Leaf Spine Core Total 10 8 2 10 80 80 160 20 8 4 12 160 160 320 40 16 10 26 320 320 640 80 32 20 52 640 640 1280 100 40 20 60 800 800 1600 120 48 80 24 152 960 960 960 2880 140 56 80 28 164 1120 1120 1120 3360 Core Spine … … Core Spine … … … … Leaf Node … … Leaf Node … MGMT UFM UFM 20 cables 20 cables 14 cables 14 cables 40 cables 56대 80대 28대 Leaf Node … Compute Fabric Topology 20대 140대 Non-Blocking : 다른 주체의 작업에 관련없이 자신의 작업을 하 는 것 Fabric Network : 직물처럼 촘촘하게 연결하여 대역폭을 보장

Switch 서버 수 스토리지 포트 수 스위치 수 (40포트) 케이블
수 Leaf Spine Total To-Node To-Storage Spine Total 10 4 2 1 3 20 4 16 40 20 8 2 1 3 40 8 32 80 40 16 4 2 6 80 16 64 160 80 32 8 4 12 160 32 96 288 100 40 10 4 14 200 40 160 400 120 48 12 6 18 240 48 192 480 140 56 14 8 22 280 224 56 560 Spine … … Leaf Node … MGMT UFM Storage Spine … Leaf Node … UFM Leaf Node Storage Fabric Topology 20대 140대 …

HPC 활용법: 나에게 맞는 워크로드 찾기 밸런스 게임

다양한 워크로드 베어메탈 가상머신 컨테이너

다양한 워크로드 구분 베어메탈 (Bare Metal) VM (Virtual Machine) 컨테이너
(Container) 성능 ① 오버헤드 최소, 네이티브 성능 100% ② GPU·Infiniband 최적 성능 ① 하이퍼바이저 오버헤드로 5~15% 성능 손실 ② GPU/네트워크 Passthrough 설정 복잡 ① 오버헤드 매우 낮음(거의 네이티브) ② GPU·고속 네트워크 성능 손실 거의 없음 유연성 ① 단일 워크로드에 최적 ② 멀티테넌시, 자원 격리 부족 ① OS 단위 완전 격리 ② 서로 다른 OS 동시 운영 가능 ① 애플리케이션 단위 격리 ② OS 공유 구조로 경량·빠른 배포 관리 편의성 ① 직접 설치·관리 필요 ② 환경 재현성 낮음 ① VM 이미지 기반 관리 용이 ② KVM·VMware 등 관리 툴 풍부 ① 컨테이너 이미지로 환경 재현 쉬움 ② K8s·Slurm+Singularity 등 오케스트레이션 가능 확장성 ① 확장 시 물리 서버 추가 필요 ② 자원 분할 불가 ① 자원 가상화로 분할·할당 용이 ② 멀티테넌시 지원 ① 초고속 배포·스케일링 가능 ② 마이크로서비스 구조와 궁합 좋음 보안/격리 ① 물리적으로 가장 안전 ② 멀티유저 환경에서 취약 ① 커널 레벨까지 분리, 강한 격리 ① VM보다 격리 약함(커널 공유) ② 보안 설정 강화 필요 운영 비용 ① 서버 활용도 낮음 ② HW 확장 비용 큼 ① 활용도 향상 ② 자원 통합 가능 ① 서버 활용 극대화 ② 오버헤드 최소 반납/재생성 (자원 회수) ① 재설치·초기화 수 시간 소요 ② 자동화 어려움 ① VM 삭제·생성 수 분~수십 분 ② 이미지 기반이라 일정 수준 빠름 ① 컨테이너 생성·삭제 수 초~수십 초 ② 반납·재생성 최적, 멀티유저 환경에 가장 유리 HPC 적합성 ① 대규모 HPC 클러스터 표준 방식 ② 고성능·저지연 요구에 최적 ① 성능 손실로 HPC에 비효율 ② 연구보다는 클라우드 서비스형에 적합 ① Singularity·Apptainer로 HPC에서 널리 사용 ② 성능·재현성·빠른 자원 회수 모두 확보

컨테이너 별로 볼륨 할당은요? SSD, HDD 스토리지 2개 연동은요? 계정
관리는요? 회사, 그룹별 테넌트는요? 그룹별 GPU 자원 분배는요? Flavor는요? 미터링은요? 서빙은 어떻게 하죠? 모니터링은요? 컨테이너 이미지 업로드는요? 커밋은요? 스케줄링은요?

backend.ai

NHN Cloud : VM, HPC 고민 말고! 바로 시작!

NHN Cloud

NHN Cloud 광주AI국가데이터센터 공랭식 H100 1,000장, A100 1,000장 (FP64 :
88.5 Pflops) 과학기술정보통신부 - GPU 확보 사업 수랭식 B200 7,656장 (FP4:137,808 Pflops, FP64 : 306.3 Pflops) 아르곤 국립 연구소, HPE 크레이 (참고용 사진) 사진 : 광주AI국가데이터센터 (실사진)

NHN Cloud careers.nhn.com 어서와~ 서버 다운은 처음이지? 서버가 내려가도 넌
커피를 마실 수 있을 거야. 왜냐면 우리가 옆에 있으니까 오류도 일단 앉혀 놓고 이야기하는 여유로운 당신을 찾습니다.

결론 • 하드웨어 딥다이브 • HPC Server (서버 스펙 –
CPU, Memory, GPU, NIC) • Storage (GDSIO, rdma, 병렬 스토리지, NVMe) • Switch (Infiniband vs Ethernet, Non-Blocking) • 나에게 맞는 워크로드 찾기 • 물리서버 vs VM vs 컨테이너 • 스케줄러 선정 • VM, HPC 고민 말고! NHN Cloud와 함께 바로 시작! • GPU Instance, HPC 소개 • GPU 서비스 문의 : https://www.nhncloud.com/kr/support • NHN Cloud 채용 : careers.nhn.com

NHN Cloud - HPC 구축의 모든 것

NHN Cloud - HPC 구축의 모든 것

Lablup Inc.

More Decks by Lablup Inc.

Featured

Transcript

NHN Cloud HPC 구축의 모든 것

다룰 내용 • HPC 시스템 완전 정복: 하드웨어 딥다이브 •

HPC 시스템 완전 정복: 하드웨어 딥다이브

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server

PCIE Type SXM Types PCIE Type (성능 90%) SXM Type

DPU (Data Processing Unit) Foundation NIC SmartNIC DPU (Data Processing

CPU HPC Server AMD Intel

HPC Server CPU0 PCIe Switch PCIe Switch NIC NIC NIC

Memory HPC Server • Memory Size • GPU VRAM 대비

MGMT Out-of-Band Compute IB Storage IB HPC Server UFM Server

Shared Storage Shared Storage (RDMA) 병렬 파일 시스템 스토리지 (I/O

RDMA (Remote Direct Memory Access) GPUDirect Storage Shared Storage

MGMT Out-of-Band Compute Fabric Storage Fabric HPC Server UFM Server

Switch MGMT Out-of-Band Compute IB Storage IB InfiniBand Switch (RDMA)

Switch 구분 Infiniband Switch (IB) Ethernet Switch *Network RDMA (Remote

Switch DAC Cable (Direct Attach Copper Cable) AOC Cable (Active

Switch 서버 수 스위치 수 (40포트) 케이블 수 Leaf Spine

Switch 서버 수 스토리지 포트 수 스위치 수 (40포트) 케이블

HPC 활용법: 나에게 맞는 워크로드 찾기 밸런스 게임

다양한 워크로드 베어메탈 가상머신 컨테이너

다양한 워크로드 구분 베어메탈 (Bare Metal) VM (Virtual Machine) 컨테이너

컨테이너 별로 볼륨 할당은요? SSD, HDD 스토리지 2개 연동은요? 계정

backend.ai

backend.ai

backend.ai

NHN Cloud : VM, HPC 고민 말고! 바로 시작!

NHN Cloud

NHN Cloud 광주AI국가데이터센터 공랭식 H100 1,000장, A100 1,000장 (FP64 :

NHN Cloud careers.nhn.com 어서와~ 서버 다운은 처음이지? 서버가 내려가도 넌

결론 • 하드웨어 딥다이브 • HPC Server (서버 스펙 –