Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[Keynote] Composable AI, Composable Software

Avatar for Lablup Inc. Lablup Inc. PRO
November 03, 2025
0

[Keynote] Composable AI, Composable Software

Keynote_Lablup Conf 2025_김준기

Avatar for Lablup Inc.

Lablup Inc. PRO

November 03, 2025
Tweet

Transcript

  1. 컴퓨팅의 역사 • 주판, 찰스 배비지의 해석 기계 • 에니악,

    진공관, 천공기계 • 폰 노이만 아키텍처 • 트랜지스터와 전자 컴퓨터 • GUI (WIMP: window, icon, menu, pointer) • 메인프레임, 데스크탑, 모바일/스마트폰 • 인터넷, 클라우드, 빅데이터 • Transformers, LLM, Agentic AI • AGI, ASI...? Google's 2017 Paper: "Attention is All You Need"
  2. 컴퓨팅 인터페이스의 변화 • 검색 사용 패턴의 변화 – 정보

    찾기 – 질문하기 – 대화하기 • 상호작용 매체의 변화 – 키보드 – 마우스 – 손가락 – 자연 언어 https://pewrsr.ch/4lIqbsM
  3. 컴퓨터에게 일 시키기 • LLM + MCP (Model Context Protocol)

    – 프로그래밍을 하지 않고도 컴퓨터에게 내가 원하는 일 시키기 – 손을 사용하지 않고도 말로만 컴퓨터에게 내가 원하는 일 시키기 드디어 실현된 입코딩의 시대... • 인간의 지적 노동을 어디까지 대체할 수 있을까? – ChatGPT, GenSpark, ... – Claude Code, Gemini CLI, ... – Midjourney, Nano Banana, ... Generated using ChatGPT
  4. Composable Computing • 컴퓨터를 사용하기 위한 패러다임 – 쓰면 쓸수록

    더 잘 쓸 수 있게 되는 도구 vs. 아무것도 몰라도 쉽게 사용할 수 있는 도구 – CLI vs. GUI / Vim vs. IDE – UNIX shell 철학 : 특정 단위 작업을 전문적으로 잘 하는 작은 도구들을 조합하기 • AI: 전문가와 대중의 컴퓨팅 패러다임을 연결하는 새로운 고리 – 한 줄의 문장으로 end to end 앱 개발 – 자신의 전문 능력 강화 augmentation – 현실의 AI 사용 패턴은 그 중간 어디쯤... Generated using ChatGPT
  5. Composable Software Composable AI • 소프트웨어 개발자에게 composition이란? – 프로그래밍

    언어가 제공하는 다양한 추상화 기법의 활용 – 다른 사람이 만든 코드와 모듈을 적재적소에 재사용하기 • AI 시대의 컴퓨터 사용자에게 composition이란? – 워크로드 유형 별로 가장 적합한 AI agent를 찾아서 조합 – AI agent가 AI agent를 지휘하게 함으로써 규모 키우기 Generated using ChatGPT
  6. Agentic AI: 개발자 관점 • 1백만 토큰 AI 모델의 상용화·대중화

    – 현재 우리가 AI 코딩할 때 느끼는 한계는 주로 context window 제약에서 유래 – sub-agent 등으로 일부 극복 • 공학적·경제적 관점에서 장기적으로 봤을 때 scaling law를 이길 수 있는 것이 있는가? • Agent와 Agent를 오케스트레이션 A2A • 이를 뒷받침하기 위한 인프라 문제 ... 1x 그냥 하던데로 하는 사람들 10x 9x supported by ChatGPT Shadow AI 100x 단순히 shadow AI 를 사용하는게 아니라 harness 를 동원해서 co mpute multiplier 를 창조하는 사람 Claude Code 역시 단순 프롬팅 에서 sub agent 부터 다중실행까지 가능한한 모든 leverage 를 만드는 사람들이 생겨나고 있음 이 사람들은 지금 현재 혼자 일하는게 가장 빠름... 왜냐? 인간 AI 커뮤니케이션 cost 가 인간 인간, 특히 AI 를 사용하는 인간 AI 를 사용하는 인간 사이의 커뮤니케이션 비용보다 압도적으로 낮기 때문.. 묶어놓으면 오히려 느려지는 신기한 상황. ... by Chester Roh https://www.facebook.com/chester.roh/posts/pfbid0iEnjmDVRb1W3 cJzxbENQvDTHJ3Rq2NqFM7onESpniGbjsdeyL2Mnpoc8bCA3jXuFl
  7. Agentic AI: 개발자 관점 • GitHub Spec Kit https://github.com/github/spec kit

    – AI agent로 대규모 프로젝트하는 방법 – 정답은 없고 지속적인 방법론 개선·튜닝 필요 • all smi https://github.com/inureyes/all smi – 순수 바이브코딩으로 작성한, Rust 코딩 경험 없는 신정규님 작품 – 모니터링 지원 가속기 : NVIDIA GPU, NVIDIA Jetson platform, Apple Silicon GPU, Tenstorrent, Rebellions, Furiosa
  8. AI Factory • AI Token을 새로운 시대의 연산량 단위로 선언

    – (실제로는 입력/출력/사고 등으로 토큰 종류 구분) • 데이터센터는 곧 AI Token을 생성해내는 공장이다! – 제조업이 되는 순간 수요에 따라 수익이 증가 • AI Agent들을 돌려주는 지능 인프라 • 단위 면적, 단위 에너지 당 가장 많은 토큰을 뽑아내려면 뭘 해야 하는가?
  9. 래블업이 할 일! • AI Infrastructure가 직면하는 다양한 도전들 –

    물리적 인프라 : 에너지 밀도, 환경, 지속가능성 – Throughput-oriented computing ✓ 최대 성능은 하드웨어가 결정 ✓ 최대 효율은 소프트웨어가 결정 – 표준화된 단일 하드웨어 아키텍처 → 용도별로 특화된 이종 하드웨어 아키텍처 ✓ POSIX API 바깥에서 벌어지는 일들! – AI를 개발·배포·사용하는 과정의 모든 기술적 장애 요소 제거 ✓ 주로 소프트웨어 관점에서 AI Ready Datacenters Meetup @ Plug and Play Tech Center, Sunnyvale 2025-09-11
  10. AI 데이터센터의 인프라 기술 병목 상호 연결 병목 Interconnect Bottleneck

    내부 지연으로 인한 전체 시스템 속도 저하 냉각 인프라 Cooling Infrastructure 냉각이 부족한 경우 성능 저하 발생 활용 효율성 Utilization Efficiency AI 리소스 이용에 따르는 활용 부족과 자원 불균형 가시성/텔레메트리 Observability / Telemetry 적절한 시스템 모니터링 및 진단의 중요성 스케줄러 확장성 Scheduler Scalability 복잡한 작업 부하에 필요한 확장 가능한 스케줄링 데이터/모델 보안 Data / Model Security 진화하는 보안 위협과 점점 복잡해지는 시스템
  11. 국가 독자 AI 파운데이션 모델 프로젝트 • 초기 프로젝트 코드명

    : "World-Best LLM" – 현금 과제비 지원 대신 LLM 훈련을 위한 GPU 자원 제공 – 공개시점 기준 세계 최고수준 LLM의 95 이상 성능 달성 목표 • 프로젝트 진행방식 – 5개 컨소시엄 선정하여 6개월마다 평가하여 하위 1개팀 탈락, 최종 2개팀 선발 후 1년 추가 지원 – 8월 중순 킥오프하여 현재 활발히 개발 진행 중 • 래블업 – 업스테이지 컨소시엄에 참여하여 분산 딥러닝 훈련 플랫폼으로 Backend.AI 제공 – 과제 진행에 따라 GPU 가상화 기술 고도화 및 LLM 평가·검증 과정에서 추가적인 R D 협력 예정
  12. 워크로드 및 환경 구성 • 훈련 모델 : MoE 기반의

    100B 크기 LLM • 자원 할당 : 60노드 (480 GPUs) + 3개의 예비·테스트용 노드 – 노드 별 사양 : 120코어 CPU, 2 TiB RAM, NVIDIA B200 8장, 400G IB 8포트, 스토리지용 200G RoCE • 주요 프레임워크 및 라이브러리 버전 – PyTorch 2.9 nightly TorchTitan 0.2.0 in dev – CUDA 13.0, NCCL 2.28.3 • 워크로드 특이사항 – 하나의 거대한 작업이 대부분의 시간 동안 대부분의 연산 자원 독차지 – 하드웨어·소프트웨어 장애가 발생하더라도 main training job은 계속 유지되어야 함 Workload & Infra Manager SKT GPU cluster Training Jobs Datacenter
  13. 현실 : B200 500장을 돌리면 무슨 일이...? • 무언가는 항상

    고장나고 있는 상태 – 매일 NFS mount 떨어지는 문제 – 매주 GPU 관련 오류 ECC, Unknown, ... – 매주 NCCL 및 NVLink 관련 오류 대략 하루 전기요금 추정 300만원...
  14. 수평 확장 : Backend.AI가 해결사! • Batching 기반 스케줄러 –

    수십 수백 노드에서 수백 수천 개의 컨테이너로 구성된 단일 작업 스케줄링 최적화 • 연산 세션 자동 재시작 / 스케줄링 자동 재시도 – Grafana Alert, DCGM 등과 연동 – 각종 리소스 프로비저닝 작업의 멱등성 강화 • NUMA 스케줄러 고도화 – Passthrough 가상머신의 특이한 CPU hyperthreading layout 구조 대응
  15. 수직 통합 : 전역적 접근 필요 • 데이터 적재부터 GPU

    가속까지 스택 전반 작동에 대한 배경지식 필요 – 특정 이슈의 구체적인 원인 파악을 위해 전체 스택을 다 훑어야 하는 경우 비일비재 – 모델 코드 / 연산 라이브러리 및 딥러닝 프레임워크 / 오케스트레이션 플랫폼·스케줄러 / 호스트 운영체제, 하드웨어 및 드라이버 / 네트워크 및 스토리지 • Blackwell 환경에서의 MXFP8 처리 성능·안정성 이슈 – 오픈소스 라이브러리 및 드라이버 대응 시차 문제 – 훈련이 진행되는 동안에도 최신 버전의 드라이버와 라이브러리 적용 필요 • RoCE 및 Infiniband 최적화 – 네트워크 스위치의 MTU mismatch 이슈 – 수많은 NCCL 옵션 조합 켜거나 꺼야만 동작하는 경우부터 직간접적인 성능 차이까지...
  16. Composable AI: 기술적 관점 • AI 인프라 기술과 AI 서비스

    – 슈퍼컴퓨팅, 빅데이터, GPU 가속, 클라우드 컴퓨팅 등 기존 모든 전산 분야 총망라 및 집대성 • 수평 확장을 위한 시스템 디자인 원리 : Batching, Parallelization, Pipelining – 실질적 문제 해결 : 모델 응용 영역부터 시스템 레벨까지 통합적·유기적 협업 필요 – PyTorch로 모델 개발도 잘 하면서 mmap 최적화 이슈도 볼 수 있는 사람? • 차세대 기술 이슈 – Disaggregated Serving: 비용절감을 위한 연산 단계별 성능 특성 레버리지 극대화 – Confidential Computing: MCP Agent VM을 위한 개인정보 보호 및 보안
  17. Composable AI: 서비스 관점 • 날로 복잡해지는 AI 인프라 기술

    – 다양한 구조와 크기의 모델, 훈련과 추론의 조합 RL – 차세대 기술 이슈 disaggregated serving, confidential computing 통합 – 하드웨어와 강하게 결합 고객사에 배포하고 기술지원하려면? • Backend.AI로 뒷받침하는 Scale & Composability – 엔터프라이즈 배포 환경을 지원하는 Backend.AI 코어 플랫폼 기반 – 폐쇄망·클라우드 동시 지원 MLOps 개인화·도구화된 생성형 AI 서비스 – Backend.AI의 강점인 가속 기술 수직 통합 및 최적화 활용
  18. MLOps AIOps Infastructure Application Containerized End-user Applications Composable AI Stack

    by Lablup Datacenter (on-premises / clouds) Power Cooling Location Backbone Network GPU / Accelerators Interconnect Network High-speed Storage Compute Nodes as "AI Infra OS" Reservoir PALI & AI:DOL Talkativot Finetun.ing Continuum Computing API & Libs Sokovan Engine Monitoring Policy & Admin K8s Slurm MLFlow / KubeFlow CUDA + NCCL GDS FastTrack 3 Model Router NVIDIA NIM / Google AI Studio Custom UI & Mgmt. Powered by Backend.AI Powered by Lablup
  19. Backend.AI • 2015년부터 개발된 AI Infra OS – 컨테이너 기반의

    재현 가능한 계산 환경 – Docker 위에 커스텀 샌드박싱을 결합하여 HPC/AI 워크로드 최적화 – 다양한 하드웨어 가속 기술과의 긴밀한 통합 xPUs, RDMA, Storage, NUMA • Sokovan 오케스트레이터 – 자체 개발 작업 스케줄러 – 멀티 테넌트 및 멀티 노드 작업 지원 – NCCL 통합, GPUDirect Storage 지원
  20. Composable AI Stack by Lablup • 다중 사용자 환경에서 다중

    에이전트를 손쉽게 구동하기 위한 서비스 계층 AI:DOL (Beta) Deployable Omnimedia Lab AI 네이티브 시대를 위한 플랫폼 Backend.AI Continuum 중단 없는 AI 서비스를 위한 인텔리전트 페일오버 시스템 • 챗봇/에이전트 개발, 음성 스트리밍, 이미지 생성, AI 코딩 등 오픈모델 기반 GenAI 경험 제공 • 고객 시스템과 클라우드 AI의 통합 • 여러 대의 PALI 탑재 어플라이언스 연결 확장 • AI 워크로드에 최적화된 아키텍처 • 높은 성능 낮은 레이턴시를 동시에 달성 Finetun.ing Backend.AI Cloud 위에서 프롬프트로 손쉽게 모델을 파인튜닝 • 별도 데이터가 필요 없는 간단한 파인튜닝 • LLM을 활용하여 LLM을 파인튜닝하는 방법 지원
  21. Composable AI Stack by Lablup • 다중 사용자 환경에서 다중

    에이전트를 손쉽게 구동하기 위한 서비스 계층 PALI 추론(Inference) 준비는 우리가, 고객의 AI 비즈니스를 더욱 쉽게 PALI2 확장 가능한 PALI 전용 하드웨어 어플라이언스 • 고객의 니즈에 맞춘 추론 환경 제공 • 모델 스토어에서 손쉽게 불러오는 공개 모델 • NVIDIA NIM 추론 마이크로서비스 지원 • 여러 대의 PALI 탑재 어플라이언스 연결 확장 • AI 워크로드에 최적화된 아키텍처 • 높은 성능 낮은 레이턴시를 동시에 달성 PALANG 대규모 언어모델(LLM)을 위한 특화기능의 집합체 • 노코드 파인튜닝과 챗봇 UI를 통합하여 고객의 LLM 서비스 시작점을 제공 FastTrack 3 기업의 AI/머신러닝 운영을 돕는 엔드투엔드 MLOps 플랫폼 • 대규모 모델 훈련을 위한 자동화된 멀티노드 구축 • 간편하게 배치 작업 파이프라인 구축 • 재사용성이 높은 파이프라인 템플릿 제공 Rebellion ATOM+ / ATOM Max AMD Instinct MI250 / MI300 FuriosaAI Warboy / RNGD NVIDIA (Arm64) GH200 / GB200 Intel Gaudi Gaudi 2/3 NVIDIA (x86-64) A6000 / L40 Model Store Per architecture / chip PALI Performant AI Launcher for Inference PALI Performant AI Launcher for I nference Model Store Per architecture / chip FastTrack 2 MLOps Helmsman Conversional Backend.AI m anagement UX Talkativot Chatbot UI for Language models LLMs Model weights H200 / B200 x86-64 based node Intel Gaudi Gaudi 2/3 integration P A L A N G S U I T E