Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Backend.AI 와 AI 칩의 하모니: AI 하드웨어의 모든 음색을 한 무대에!

Backend.AI 와 AI 칩의 하모니: AI 하드웨어의 모든 음색을 한 무대에!

Lablup Inc.

November 27, 2024
Tweet

More Decks by Lablup Inc.

Other Decks in Technology

Transcript

  1. 발표자 소개  SWE 4년차  오픈소스 활동 – Maintainer

    ✓ lablup/backend.ai ✓ kyujin-cho/pixel-volte-patch – Contribution ✓ vllm-project/vllm ✓ pantsbuild/pants  Github @kyujin-cho
  2. Deep Learning Era  DNN: 딥 뉴럴 네트워크 (Deep NeuralNet)

    의 약자 – AI 구현을 컴퓨터 머신러닝 분야에서 접근하는 방법 중 최근 10년 동안 가장 활발히 발전 중인 방법 – AI 분야의 핵심 알고리즘으로 급부상  다양한 분야에서 뛰어난 성능 달성 – 2012년 ImageNet 이후, 많은 분야에서 인간을 능가하는 성능 달성  딥러닝의 성공으로 인해 컴퓨팅 자원에 대한 수요 증가
  3. GPU and NPU  GPU: 그래픽 프로세싱 유닛 – 딥

    러닝 계산을 가속하는 장치로 사용되고 있음 ✓ NVIDIA의 데이터 센터 GPU들도 NPU임 (화면 출력을 위한 부분이 전혀 없음)  NPU: 뉴럴 프로세싱 유닛 – 딥 러닝 계산을 가속하기 위해 특화된 기기 – 행렬 연산 및 특정 작업을 병렬처리를 통해 가속하는 것에 특화됨 – NPU말고도 다양한 명칭들이 사용됨 ✓ 용어 국산화로 인해 AI 반도체라는 표현을 많이 씀 – FPGA 로 특화 서킷을 만들거나, 파운드리에서 칩을 찍는 두 경우 모두 NPU라는 표현 사용
  4. AI Accelerators: What is it?  AI accelerators 또는 “NPU"

    – FPGA로 특화 서킷을 만들거나, 정식으로 칩을 굽는 두 가지 모두 존재 – Zero-skipping, 모델 압축 및 경량화 도입 추세 – 다양한 철학으로 설계되어 있음 / 구현 난도 문제로 대부분 서빙 (인퍼런스)용  세대 구분: 개발이 언제 시작되었느냐에 따라 칩의 방향성이 결정됨  1세대 AI 가속기 (2017~) – 단순 행렬 연산 가속기에 가까움 / 5x5 ~ 15x15 크기의 행렬 연산 처리 – 단독 사용을 고려하지 않은 일반 커널 계산 가속용 – NPU (화웨이, 2018), EdgeTPU (Google, 2017), Qualcomm AI Accelerator (Qualcomm, 2018), ANE/Neural Engine (Apple, 2020)  2세대 AI 가속기 (2019~) – 행렬 연산 가속 ops 구현 중심 / 주로 CNN 등 구현 이미지 처리에 특화하여 인코더/디코더를 내장한 칩들 다수 존재 ✓ 예) OpenCV의 기능 구현 – 연산 명령을 받아 특정 태스크에 대해 단독으로 명령 수행 가능 – 2024년 초 시장에서 볼 수 있는 대부분의 AI 가속기가 이 카테고리에 해당 – 국내: Furiosa Warboy, Sapeon X220,X330, DeepX, Mobilint 등 ✓ Warboy, ATOM, X330 등은 2세대와 3세대 사이에 걸쳐 있음
  5. AI Accelerators: What is it?  3세대 AI 가속기 (2021~)

    – 트랜스포머 아키텍처용 ops 구현 및 fusion ops 구현 ✓ 언어모델의 본격적 가속을 위한 기능 지원 ✓ 고대역 메모리 사용 / 초고속 네트워크 기반 칩-투-칩 연동 / SRAM, HBM, GDDR – 훈련용 칩: TPUv3~5p (2020~), GraphCore IPU (2022~), SambaNova SN20/30 (2022~), Cerabras (2022~) 등 – 추론용 칩: TPU v3~5e (2019~), GroqChip (2022), HyperAccel (2023), Furiosa RNGD (2024), Rebellions ATOM, ATOM+ (2024) 등  4세대 AI 가속기 – 다양한 AI 워크로드에 맞춰 매우 특화된 구조 – 모든 목표를 다 잡을 수 없음 ✓ 인퍼런스 속도, 지연율, 스케일 난도, 전성비… 이 중 두 가지 정도를 목표로 함 – 멀티모달 시장 예측, 분산 모델 요구 등에 따라 다양한 아이디어들에 기반한 테스트 칩들이 나오고 있음 ✓ 예: PIM (Processor-In-Memory) 기반 엣지 AI 가속, CXL 기반 통신으로 CPU-RAM-AI칩간 구분 없는 스케일 지원 등…
  6. NPU: From IoT to hyperscale clusters  NPU Everywhere –

    다양한 규모의 AI 응용 프로그램에 사용됨  다양한 AI 작업에 대한 확장성과 효율성 제공 – IoT 기기: NPU는 저전력으로 기기 내부에서 AI 추론을 가능하게 함 – 데이터 센터: 복잡한 모델을 훈련하기 위해 대규모 클러스터로 배포됨
  7. AI Accelerators: Complex landscape  AI 가속기 시장: 다양하고 빠르게

    진화하고 있음  여러 벤더가 다양한 유형의 AI 가속기를 제공 – 훈련용 칩: TPUv3~5p (2020~), GraphCore IPU (2022~), SambaNova SN20/30 (2022~), Cerabras (2022~) 등 – 추론용 칩: TPU v3~5e (2019~), GroqChip (2022), HyperAccel (2023), Furiosa RNGD (2024), Rebellions ATOM, ATOM+ (2024) 등  적합한 가속기 선택: 특정 요구 사항과 사용 사례에 따라 달라짐  다양한 가속기의 통합과 관리가 어려워짐
  8. Challenges of AI Accelerators  프로그래밍 가능성: 칩 구조 및

    최적화 필요 여부에 따라 특수한 프로그래밍 모델을 요구함  이식성: AI 모델을 다양한 가속기 아키텍처에 맞게 조정할 필요가 증가함  확장성: 대규모 배포에서 AI 가속기의 효율적인 활용에 영향  통합: 기존 인프라와 AI 가속기의 원활한 통합
  9. AI Accelerators: Different Technical Decisions  데이터 정밀도: AI 가속기

    양자화를 위한 다양한 데이터 유형 (FP32, FP16, FP8, FP4, INT8, INT4…)  메모리 계층 구조: 온칩 메모리, HBM, GDDR6 등 – SRAM: Groq, Cerebras, Sambanova 및 TPU (온칩 메모리) – HBM: NVIDIA Datacenter GPU, AMD Instinct GPU, Intel Gaudi, Sambanova(차세대), Furiosa RNGD 등 – GDDR: 대부분의 컨슈머 GPU, Tenstorrent 및 다양한 NPU들  상호 연결: PCIe, NVLink, UALink, 기타 사용자 정의 상호 연결 등..  프로그래밍 모델 – CUDA, OpenCL, ROCm/HIP, Metal, … – TensorFlow, PyTorch 등
  10. Backend.AI as AI Accelerator Optimizer / Scaler  Backend.AI: 다양한

    가속기에서 AI 작업을 최적화하고 확장하기 위한 플랫폼 – 다양한 가속기 관리의 복잡성 추상화 – 다중 테넌트 환경에서 AI 가속기의 효율적인 활용을 가능하게 함 – AI 작업 배포 및 관리를 위한 통합 인터페이스 제공
  11. NPU Orchestration: What we solves  Backend.AI: 복잡한 AI 배포

    환경에서 NPU의 오케스트레이션 단순화 – NPU 간의 리소스 할당, 스케줄링 및 부하 분산 처리 – NPU 활용 최적화 및 리소스 단편화 최소화함 – NPU 클러스터에 대한 모니터링 및 관리 기능 – 모니터링 메트릭에 따른 전력 기반 분산 및 자원 수거, 자원 효율화 수행
  12. AI Accelerator support  AI 가속기 지원 아키텍처 개요 –

    다양한 가속기를 통합된 인터페이스로 관리하기 위한 구조 – 새로운 AI/HPC 가속기 지원 속도 가속화  추상화 계층 기반 지원 ASIC (Backend.AI 20.09 / Enterprise R2 이상)  Backend.AI 의 AI 가속기 지원 방식의 장점 – 미래 확장에 대응한 가속기 지원 구조 – 성능 향상 – 가속기 종류에 영향 받지 않는 일원화된 사용 환경: 칩 벤더에 상관없이 동일한 메트릭 접근 ASIC 종류 지원 버전 NVIDIA GPU CUDA 8.0 (Maxwell) 이상 (1.1~) AMD GPU Vega 이상 (19.09~), ROCm 3~5 (22.03), 6.0~ (24.03~) Google TPU v2 (19.03~), v3 (21.09~), v4 (22.09~) Graphcore IPU v2 (23.09~) Rebellions ATOM (23.09~), ATOM+ (24.03~) Furiosa Warboy (23.03~), RNGD (24.09~) Intel Gaudi 2, Gaudi 3 (24.09~)
  13. Integration: NVIDIA GH200 / GB200  “PALI PALI” Reference platform

     GH200 Optimized Backend.AI Model Player* – An on-premises model player optimized for the GH200 processor  GH200 / GB200 – Unified Memory (480+96GB, 480+144GB) – (Armv9-based) Grace CPU + (Hopper-based) GPU integration  Backend.AI Model Player GH200 – Armv8/v9 ready (2021), NGC/NIM integrated – Provides efficient and high-performance model inference capabilities – Cost-effectiveness + Flexible for various fields / cases
  14. Integration: Intel Gaudi 2/3  Gaudi – 인텔의 AI 전용

    가속기 / Habana 인수 및 통합 – Gaudi 2: HBM2E 96GB / Gaudi 3: HBM2E 128GB 메모리 탑재 – RoCE를 통한 칩 간 통신 지원  통합 상세 – NVIDIA와 유사한 이름의 유사한 기능 제공 ✓ nvidia-smi -> hl-smi, NVML->HLML, NCCL -> HCCL, ..  성능 달성 및 최적화 – Gaudi 2: A100보다 40% 열위, V100보다 50% 우위의 추론 성능 (Llama 3 8B 기준)  지원 기능 – Gaudi 용 Hugging Face 모델 통합 Intel Gaudi 2 Intel Gaudi 3 메모리 사이즈 HBM2E 96GB HBM2E 128GB 연산 속도 (BF16) 400TFLOPS 1600TFLOPS TDP 600W
  15. Integration: Rebellions ATOM+  ATOM+ – 리벨리온의 AI 가속기 –

    GDDR6 16GB 메모리 탑재 – 멀티 NPU 추론 기능 지원  통합 상세 – ATOM의 확장 버전, LLM 연산 최적화 – PCIe Gen 4 -> PCIe Gen 5 대역폭 업그레이드  성능 달성 및 최적화 – 멀티 NPU 연산 최적화를 위한 NUMA-aware 가속기 스케줄링 지원  지원 기능 – Triton Inference Server의 ATOM Backend 지원 – vLLM 기반 OpenAI API 호환 추론 기능 지원 ATOM+ 메모리 사이즈 GDDR6 16GB 연산 속도 (FP16) 32FLOPS 연산 속도 (INT8) 128TOPS TDP 60~130W
  16. Integration: Furiosa RNGD  칩 소개 – 퓨리오사의 AI 가속기

    – HBM3 48GB 메모리 탑재, BF16 연산 지원  통합 상세 – 멀티 NPU 추론 기능 지원  성능 달성 및 최적화 – 검증 진행 중  지원 기능 – 가속기의 하드웨어 온도 및 클럭 모니터링 RNGD 메모리 사이즈 HBM3 48GB 연산 속도 (BF16) 256FLOPS 연산 속도 (INT8) 512TOPS TDP 150W
  17. Conclusion  AI 가속기: 딥러닝의 발전에 핵심적인 역할 담당 중

     AI 가속기의 복잡한 생태계가 야기하는 통합과 관리의 어려움  Backend.AI의 해결책 – AI 가속기에 대한 최적화 및 확장 도구 제공 – AI 가속기 추상화 및 플러그인 구조를 통한 멀티칩 대상 자원 최적화 수행  Backend.AI + AI 가속기 – NPU 및 기타 가속기의 효율적인 활용과 오케스트레이션