온디바이스 AI 및 로컬 AI의 도전 과제 / Challenges of On-Device AI and Local AI

AI Enterprise AI Cloud AI Open Source AI MLOps 온디바이스
AI 및 로컬 AI의 도전 과제 신정규 래블업 주식회사 모두의 연구소 모두팝 / 2024년 5월 28일

• Lablup Inc. : Make AI Accessible – 오픈소스 머신러닝
클러스터 플랫폼: Backend.AI 개발 – https://www.backend.ai • Google Developer Expert – ML / DL GDE – Google Cloud Champion Innovator – Google for Startup Accelerator Mentor • 오픈소스 – 텍스트큐브 개발자 / 모더레이터 (20년!) • 물리학 / 뇌과학 – 통계물리학 박사 (복잡계 시스템 및 계산뇌과학 분야) – (전) 한양대학교 ERICA 겸임교수 (소프트웨어학부) 안녕하세요! 2

• 초거대 AI와 로컬 AI • 온 디바이스 AI •
질문과 과제 • 생각들 오늘의 주제 3

초거대 AI와 로컬 AI 4

• 2023년 말, 2024년 초 • AI PC, AI Desktop
• 2024 CES – Microsoft 의 Copilot Key 추가 – 21세기 들어 최초의 키보드 키 추가 발표 ✓ (90년대 초엔 윈도키나 메뉴키가 키보드에 없었음) • (여기서) 두 장 들고 와서 시작해봅시다 잠시 연초로 돌아가 보면 8

• 멀티모달 모델의 대두 – AI (를 포함한 IT)의 발전
방향 ✓ 기술이 성숙해서 ✓ 사용자가 비용을 지불하는 방향으로 향함 – 성숙 기술 ✓ Vision, Image GenAI, LLM ✓ LLM+Vision 멀티모달 영역의 발전 ✓ Reasoning 기반의 BI 도출 ✓ 코파일럿: 전문가 시스템의 사용 난도 감소 – 예 ✓ Microsoft Office Copilot / Google Duet AI ✓ Unity AI (Muse & Sentis), Unreal AI (Unreal Engine) ✓ Midjourney v6, SDXL-Turbo (2023. 12) 2024: 전망 (1) • AI generated by AI – Teacher – Student 모델 (Google, 2017)과 유사 – 1단계: AI가 생성한 데이터 기반으로 AI 훈련 ✓ ShareGPT (2023. 6) 등 ✓ 이미 다양한 사례가 보고됨 ✓ OpenAI의 ByteDance 계정 블럭 (2023. 12. 16) – 2단계: AI 기반의 AI모델 최적화 및 경량화 ✓ AI 자동 빌드 파이프라인 (AiZip, 2023. 12) • AI 디자인 자동화: AI 구조 설계 및 MLOps 전체에 AI 적용 ✓ AutoML / MLops on Vertex AI (Google, 2023) • Duet AI 적용을 통한 AI 개발 과정 자동화 • Gemini 적용 [1] https://www.theverge.com/2023/12/15/24003542/openai-suspends-bytedances-account-after-it-used-gpt-to-train-its-own-ai-model 9

• 더 발전된 형태의 온디바이스 AI – IoT-레벨의 온디바이스 AI보다
훨씬 발전된 형태 – 오픈 AI 모델들로 부스트됨 – 데스크탑 AI ✓ 데스크탑/PC: 적당한 크기의 모델들을 실행할 수 있는 충분한 계산 자원을 갖게 될 것 ✓ CPU: 머신러닝 특화 인스트럭션 셋 추가 • VNNI instruction in AVX (2022~) • Apple M1/M2/M3/M4 (2020~) ✓ 데스크탑 GPU/NPU: 머신러닝 연산에 전용되는 데스크탑 호환 하드웨어들의 등장 • Intel Core Ultra / Meteor lake (2023년 12월) • AMD Ryzen AI (2024년 1월) • Apple M 시리즈: 데스크탑에 통합 메모리 아키텍처를 기반으로 한 CPU/GPU 보급 • (Intel, AMD, NVIDIA: 데이터센터용 APU. E.g. Xeon max, AMD MI series and NVIDIA GH200) – 스마트폰 AI ✓ 성능 제약으로 인해 발전된 기능을 제공하기에는 무리가 있음 ✓ Tensor G3 on Pixel 8 (Google, 2023) • 클라우드로의 워크로드 위임을 통한 성능 확보 2024: 전망 (2) 오늘은 이 이야기를 해 볼까 합니다. 10

• 독점적 기반 모델 (Foundation models) – 소수의 거대 기업이
사전 훈련 언어 모델Pretrained Large Language Models을 독점적으로 개발하고 – 해당 모델을 거대한 클라우드 자원 위에서 운영하여 – 다양하고 복잡한 작업들을 처리 • ChatGPT의 예 – 어떻게 계산해도 원가를 맞출 수가 없음 ✓ 모든 회사가 ChatGPT의 가격 테이블에 자사의 서비스 가격 테이블을 (손해를 보며) 맞춤 – 규모의 경제로 더 싸게 맞출 수 있을까? ✓ 모델 자체의 성능 향상 ✓ 가격 주도 시장인가, 성능 주도 시장인가? 2023년 초까지의 전망 11

• 독점적 파운데이션 모델 사업의 변화 – 성능: 그거 ChatGPT보다
잘 돼요? ✓ 미뤄지는 공개 시점 – 비용과 연계하여 더욱 연기중 ✓ 경쟁 우위 유지 • 전체 사용자 대상으로 GPT-4o 를 무료 제공 시작 (2024년 5월 13일) – 비용: 너무 비싸요 ✓ 늦어지는 상용화 – 가능성: 이거 정말 잘 될 것 같은데? ✓ 이해 당사자들 간의 미묘한 관계의 끊임없는 재설정 • 파운데이션 모델도 오픈소스로? – 다양한 오픈소스 파운데이션 모델들이 있었으나, 기존에는 크기 및 성능 면에서 두각을 드러내지 못했음 – 2023년 봄부터 ✓ 기업: 우리도 할 수 있다는 걸 보여주자 ✓ 국가: 이런 기술을 특정 기업에 의존하면 공정 경쟁이 안된다 + 종속이 일어날 것. 그런 상황을 막자 2023년 봄 이후 12

• 공통점 – 의도치 않게 변화의 문을 활짝 열어버림 Llama
와 베를린 장벽 13

AI+딥 러닝: 오픈소스 문화 기반의 발전 • 이유 – GitHub
이후에 활성화된 컴퓨팅 기반 연구+서비스 분야 – 타 분야는 오픈소스화 과정을 거쳤지만 딥 러닝은 그런 과정이 필요하지 않았음 • 실질적인 이유 – 너무 빠른 변화 속도: 6주, 90일, 6개월, 2년 – 규모가 유도하는 성능 향상 – 노하우에 가까운 개발 과정 ✓ 코드를 공개해도 못 만들 걸? 14

• 허깅페이스의 2023년 – 약 30,000여개의 언어 모델이 등장 –
지금 이 순간에도 나오고 있음 – 2024년엔 카운트를 굳이 안 합니다. • 20, 400, 30000 – 20여개의 사전 훈련 모델 – 400여개의 응용 모델 – 30000여개의 파인 튜닝 모델 • 그 결과 – 응용 모델 개발에 2주일 1주일 – 파인 튜닝은 하루: 의지의 문제 라마 이후 [1] https://github.com/Mooler0410/LLMsPracticalGuide 15

• 허깅페이스의 2023년 – 약 30,000여개의 언어 모델이 등장 –
지금 이 순간에도 나오고 있음 – 2024년엔 카운트를 굳이 안 합니다. • 20, 400, 30000 – 20여개의 사전 훈련 모델 – 400여개의 응용 모델 – 30000여개의 파인 튜닝 모델 • 그 결과 – 응용 모델 개발에 2주일 1주일 – 파인 튜닝은 하루: 의지의 문제 라마 이후 16

• Llama 3 (2024년 5월) – 메타의 Llama 개선 모델
– 사실상 상업적 용도 무제한 허용 ✓ (사실상일 뿐 무제한은 아님) – 퍼블릭 클라우드 회사들과의 협약 및 서비스 제공 – 18개월 전의 최고 성능에 해당하는 모델이 주어짐 • Falcon 2 (2024년 5월) – 아부다비의 자금력으로 만든 거대 언어 모델 – 11B 모델 (일반, 멀티모달) – 제약이 거의 없는 거대 언어 모델 (TII License) – 180B, 40B, 7.5B, 1.3B 크기 제공 예정 • Mixtral 8x22B (2024년 4월) – Mistral 22B 기반 MoE 모델 사전 훈련 오픈 언어 모델 • Mistral (2023년 11월) – 10B 미만의 크기 중 가장 다양한 용도로 동작 ✓ 다른 모델의 교정 모델로 사용할 수 있음 ✓ “Model distillation” – 완전 오픈 모델 (MIT 호환) – 작은 크기를 이용한 응용 케이스 ✓ Mixtral 8x7B: 실질적으로 적용가능한 크기의 MoE (Mixture of Experts), 12B만큼의 메모리로 동작 – Mistral Pro/Large 공개 (2024년 2월) ✓ 더 큰 모델, GPT-4 필적 성능 • Gemma (2024년 2월) – Google 의 공개 모델 ✓ Gemini와 동일 기술 사용 – Llama2 대비 제약이 굉장히 적은 라이선스 ✓ Gemma License: 사실상 제약 없음 – 상대적으로 작은 모델: 2B, 7B 모델 – 멀티모달 버전 공개: PaliGamma (2024년 5월) – Gemma 2: 27B 크기로 공개 예정 (2024년 6월?) 17

• Gemini (2023년 12월) – 3가지 크기: Nano, Pro, Ultra
✓ Android 14에 Nano 내장 – 긴 입력 토큰 길이: 100만 토큰 (Gemini 1.5 Pro) – 이게 길면 ✓ 앞에서 설명한 ‘글’이 아주 길게 유지되는 것이고 ✓ 기억을 아주 많이 하는 언어 모델이 됨 • Claude v3 (2024년 3월) – Anthropic의 개선된 언어모델 – 3가지 크기: Haiku, Sonnet, Opus – 긴 입력 토큰 길이: 25만 토큰… 클라우드 기반 거대 언어 모델 서비스 • GPT-4o (2024년 5월) – GPT-4 언어모델군의 최신 버전 – 엔드 투 엔드 멀티 모달 모델 – 더 설명이 필요한지? • 비교: Perplexity – 주의: 자체 모델을 소유한 개발사가 아님 – 모델 + 검색엔진 + RAG 기반의 서비스 – GPT-4 turbo 또는 Claude 3 Sonnet 사용 18

그런데 오늘 주제는 로컬 AI, 온 디바이스 AI 아니었어요? …사실
로컬 AI나 온 디바이스 AI 가 요새 나온 이야기가 아니랍니다. 최근에도 한 번 망했었어요; 19

온 디바이스 AI 20

• AI 모델을 클라우드가 아닌 기기 자체에서 실행하는 것 •
장점 – 낮은 지연 시간: 인터넷 연결 없이 즉각적으로 데이터 처리 – 개인정보 보호: 민감 데이터를 로컬 처리, 사용자 프라이버시 강화 – 대역폭 절약: 인터넷 연결 데이터 사용량 감소 – 신뢰성: 연결 의존성이 없는 AI • 사례 – 음성 비서: 실시간 음성 인식 및 응답 (예: Apple Siri, Google Assistant 등) – 이미지 처리: 실시간 사진 보정 및 객체 인식 (예: 카메라 앱) – 건강 모니터링: 웨어러블 기기에서의 지속적인 모니터링 및 데이터 분석 (예: 피트니스 트래커) – 스마트 홈 디바이스: 빠른 응답 및 프라이버시 보호를 위한 로컬 홈 자동화 시스템 제어 • 관련 기술 – 엣지 컴퓨팅, 신경망 처리 장치(NPU), 모델 양자화 등 On-device AI 21

• iTerm2 – macOS에서 가장 많이 사용되는 터미널 에뮬레이터 •
사건 – iTerm AI 기능 추가 (2024년 5월) ✓ OpenAI 키를 직접 설정하고 프롬프트 창을 열어서 질의를 하면 그에 맞는 터미널 명령을 알려주는 기능 • 예: input.mp4에서 음성 출력만 추출해서 mp3파일로 바꾸는 방법을 알려줘 ✓ 1년 반 동안 테스트 상태에 있던 기능인데 이번 베타 버전에 정식 적용 – 커뮤니티의 반발 ✓ (해당 기능을 켜고 OpenAI 키를 입력하지 않으면 동작하지 않는데도) 외부로 쿼리를 보내는 기능이 있는 것 자체가 싫다! – iTerm AI 기능 철회 ✓ 플러그인으로 처리하고 기능을 제거함 (2024년 5월 26일) • 교훈 – 프라이버시에 엄청나게 민감한 사용자 층 및 분야가 존재함 개인정보와 AI 사례: iTerm2 이야기 22

• 구글의 시도들 – Android Things + NNAPI (Google, 2017)
✓ 온디바이스 AI 로 워크로드 분산 및 로컬 처리 ✓ 연합학습 개념 도입 (2018~) – MLKit (Google, 2017) ✓ 클라우드 오프로딩을 중심으로 한 모바일용 머신러닝 툴킷 ✓ 2020년 프로젝트 리부트 및 완전 온 디바이스로 전환 – EdgeTPU / Coral (Google, 2018~) ✓ USB 및 개발보드 형태 • Huawei NPU (2017~) – 양산 온 디바이스 AI 칩: 개당 3달러의 가격 • Core ML (Apple, 2017~) – 애플 기기의 NPU를 사용한 가속 • 그러나 – 다들 잘 모르죠 – 2020년 스케일 전쟁 시작 이후 다 묻힘 2017년: 온디바이스 AI 의 전성 시대와 겨울 23

• GPT-3 (OpenAI, 2020) – 창발 현상의 발견: 모델이 커지면
뭔가가 더 나온다. – 가르치지 않은 태스크를 처리하는 능력 • LaMDA (Google, 2021) – 인 컨텍스트 러닝 기반 페르소나를 줄 수 있는 모델 • Pathways (Google, 2022) – 크기를 키워가면서 어떤 크기에서 어떤 현상이 창발되는지 추적 • ChatGPT (OpenAI, 2022) – RLHF 기반의 튜닝을 통한 일반 언어 모델의 가능성 서비스 • GPT-4 (OpenAI, 2023) – µ-parameterization의 최초의 거대 언어 모델 훈련 적용 • Claude Sonnet (Anthropic, 2023) – 모델 기능 모듈 발화 과정을 대규모로 첫 추적 (2024) 스케일 전쟁 24

스케일 전쟁: 5년간 만 배 [1] “Computing Power and the
Governance of Artificial Intelligence”, Hadfield et al., 2024 25

• 국가 단위의 초대규모 행렬 연산 자원 확보 경쟁 –
미국 ✓ Xeon Max 전량을 Argonne로 보냄. Cerebras C2 및 Groq 의 초기 물량 구매 (2022년) – 영국 ✓ ExaScale 프로젝트 (2023년 5월~), NVIDIA로 결정 (2023년 11월) – EU ✓ MareNostrum 5 런칭 (2023년 12월), Top500 8위 달성 – 일본 ✓ SB Institutions 런칭 (2023년 8월): “일본인에 의한,일본인을 위한,일본에서 만든” 언어 모델 ✓ Fugaku 를 언어 모델용으로 전용 / Tsubame 4.0 (2024년 4월) ✓ 일본 정부의 1500억엔 인프라 투자 (2024년 4월) – 중국 ✓ 대중 수출 규제를 피하기 위하여 중고가 GPU를 전세계에서 전부 싹쓸이 중 (2023년 11월) ✓ 게이밍 GPU를 AI용도로 리팩토링하는 회사들의 등장 격전지: GPU 하이퍼스케일러 시장 / 국가 [1] https://www.cnbc.com/2023/07/07/why-japan-is-lagging-behind-in-generative-ai-and-creation-of-llms.html [2] https://www.softbank.jp/en/corp/news/press/sbkk/2023/20230804_02/ 26

• 빅테크들의 경쟁 – Microsoft 의 H100 입도선매 (20만대, 2023년
전체 기간) – Meta: 2024년 말까지 H100 35만대! (2024년 3월) – Microsoft: 2024년까지 180만대, 2030년 말까지 50조원 투자! (2024년 5월) – Google: 그게 얼마든 AI 하이퍼컴퓨터에 마이크로소프트보다는 더 많이 투자! (2024년 5월) ✓ 자체 AI 인프라스트럭처를 (슈퍼컴퓨터보다 좋은 거라는 의미로) AI 하이퍼컴퓨터라고 부름 (2023년 4월~) • NVIDIA의 엄청난 성장 – 2024년 1분기: 25’1Q YoY 262% 성장 ✓ (NVIDIA는 회계연도가 1년 앞서 갑니다) – WSJ: 이것이 ”4차 산업 혁명” 의 실체가 아니냐? 격전지: GPU 하이퍼스케일러 시장 / 기업 [1] https://redmondmag.com/Articles/2024/05/13/Microsoft-Next-Big-AI-Investment-France.aspx [2] https://news.microsoft.com/en-au/features/microsoft-announces-a5-billion-investment-in-computing-capacity-and-capability-to-help-australia-seize-the-ai-era/ [3] https://nvidianews.nvidia.com/news/nvidia-announces-financial-results-for-first-quarter-fiscal-2025 [4] https://www.wsj.com/finance/stocks/ai-is-driving-the-next-industrial-revolution-wall-street-is-cashing-in-8cc1b28f 27

• 국가간 알력 – GPU를 전략 자원으로 취급 ✓ 화웨이의
사우디 클라우드 리전 계획 발표 후 • 미국의 대 사우디 GPU 수출규제 시작 (2023년 8월 31일) ✓ 미국의 대중국 GPU 수출 규제 시작 (2023년 10월 17일) • A100, A800, H100, H800, L40, L40S, RTX 4090 까지 • 고스펙~중스펙에 이르는 AI에 활용 가능한 거의 모든 GPU의 수출 제한 ✓ 중국의 대응 • CUDA 호환 기반 GPU 스타트업 (Denglin Technology) 지원 (2023년 7월) • 화웨이의 Ascend 910B GPU: NVIDIA A100목표 개발, H20 성능 달성 (2024년 3월) • Arm China의 Zhouyi NPU 개발 지원 (2024년 3월) ✓ NVIDIA의 대응 • 중국 전용 GPU인 4090D 발표 (2023년 12월 14일) – 현재도 잘 팔리고 있습니다. • 화웨이에 대항하여 가격 할인 압력 대응 준비 시사 • 초법적 지원 – 이스라엘 정부의 인텔 반도체 공장 설립 정부 보조금 지원 ($3.2B, 4.1조원, 2023년 12월) – 일본 정부의 AI 인프라스트럭처 지원 (1500억엔, 2024년 5월) 격전지: GPU 하드웨어 시장 / 상황 [1] https://www.tomshardware.com/news/us-bans-sales-of-nvidias-h100-a100-gpus-to-middle-east [2] https://www.cnbc.com/2023/10/17/us-bans-export-of-more-ai-chips-including-nvidia-h800-to-china.html [3] https://blogs.nvidia.com/blog/2023/10/17/tensorrt-llm-windows-stable-diffusion-rtx/ [4] https://videocardz.com/newz/nvidia-geforce-rtx-4090d-reportedly-has-no-oc-support-and-lower-tdp-of-425w [5] https://www.scmp.com/tech/tech-war/article/3253943/tech-war-huaweis-ai-chip-capabilities-under-intense-scrutiny-after-market-leader-nvidia-taps-it [6] https://www.tomshardware.com/news/chinese-gpu-developer-gets-government-funds [7] https://www.youtube.com/watch?v=Rbnb2rqUSBU [8] https://www.techpowerup.com/321033/arm-china-develops-npu-accelerator-for-ai-targeting-domestic-cpus 28

• 아젠다 세팅 – NVIDIA의 아젠다에서 벗어나는 토픽이 필요 •
현실적인 문제 (및 해결) – 수요가 공급을 아득히 넘어서는 상황 – 로컬 AI 운영의 기술적 허들이 오픈소스로 어찌저찌 해결되는 중 • 2023년에 깨달은 것 – 사람들이 AI에 바라는 것들의 대부분은 별로 안 복잡하다! • 로컬에서만 할 수 있는 일들 – 프라이버시 기반 초 개인화 AI 그런데 왜 다시 로컬 AI? 29

• Llama.cpp (Georgi Gerganov, 2023) – Whisper.cpp 로 유명 ✓
OpenAI Whisper를 CPU로 돌리는 도구 – 맥에서 Llama를 돌릴 수 없을까? ✓ Whisper.cpp 를 원용해서 Llama를 CPU로 돌려보자! ✓ 어 되네? – 이후 수많은 구현체의 밑바탕이 됨 ✓ 오프라인에서 LLM이 돈다? Llama.cpp 기반입니다. • Ollama (2023) 및 다양한 구현체 – Llama.cpp 를 엔진으로 사용한 로컬 AI 서빙 솔루션들의 대거 등장 – Ollama: 배포의 혁신 ✓ 단일 바이너리에 모든 구현체 (서버+클라이언트)를 다 집어넣음 – NVIDIA: Chat with RTX 공개 (2024년 3월) • 문젯점 – 기반이 되는 Llama.cpp 의 구현 상태: 돌아만 가면 되…나? ✓ MAME emulator 같은 구조 – 굉장히 적은 외부로부터의 실질적 기술 기여 Llama.cpp / ollama 30

• 역사 – 2023년 10월 AI PC 컨셉 공개 –
2024년 1월 코파일럿 키보드 버튼 및 AI PC 공식화 – 2024년 3월 스펙 고정 – 2024년 5월 첫 공식 인증 PC 공개 (Microsoft) ✓ 퀄컴 스냅드래곤 엘리트 기반의 6종 PC • 기능 – 로컬 코파일럿 기능 수행 – NPU, CPU 및 GPU를 워크로드에 따라 섞어 제공 • 요구사항 – 45 TOPS 이상의 NPU – 16GB (또는 32GB) 이상의 메모리 • 왜? – 브랜드 전략 하위에 모든 AI 서비스를 구분되지 않게 묶음 – 양두구육 전략 Microsoft AI PC 31

• 브라우저+AI – Vivaldi Browser 를 필두로 다양한 브라우저들이 로컬
AI를 도입 – 낮은 구현 난도: 모두 Ollama wrapper – 적절한 도입 유인 동기: 프라이버시를 지켜주는 AI 도입 • 구글 크롬 브라우저의 도입 – Gemini Nano 내장: Google I/O 2024 공개 (2024년 5월) – 워크로드 종류에 따라 하이브리드 AI 구성 제공 • WebGPU + WebAssembly – 브라우저 레벨에서의 가속기 가상화 – LLM뿐 아니라 일반 AI 등도 브라우저에서 쉽게 돌릴 수 있도록 함 • 문젯점 – 아직 리눅스에선 WebGPU가 안됨 Chrome built-in LLM API [1] https://developer.chrome.com/docs/ai/built-in [2] https://developer.chrome.com/docs/ai 32

• AI Edge SDK for Gemini Nano – Gemini Nano를
안드로이드에 내장 – 개발자들이 SDK를 이용하여 로컬 AI의 기능을 불러 사용하거나, 직접 쿼리할 수 있게 함 – 구글, 삼성 등 • 문제: NPU 벤더들의 미비한 지원 – 미비하거나 부재한 안드로이드 NNAPI 가속 – 퀄컴의 NPU SDK (Neural Processing SDK, AI Engine Direct SDK): 별도 운영 및 개발 중 – 화웨이 HiAI DDK: Kirin 칩을 사용하는 경우에 한해 자체 스펙으로 제공중 – 삼성 NPU SDK (ONE): 멀티플랫폼 대상 자체 SDK 지원 Android 14 33

• 기다려 볼까요? • 2주 남았음 – M4, ACDC, …
• 추측들 – 게이트웨이 홀더의 파워 – LLM을 비용을 지불하고 넣을까? 아니면 – 비용을 받고 넣어줄까? iOS 18 34

질문과 과제 35

• TOPS (Trillion Operations Per Second) – AI 하드웨어의 연산
능력을 측정하는 데 흔히 사용되는 지표 – 1초 동안 100% 활용률로 AI 가속기가 처리할 수 있는 연산 수 – 비교: NVIDIA 4090: 191 TFLOPs, 1321 TOPS (TensorCore) • 마이크로소프트 AI PC 인증 – 40 TOPS 를 기준으로 시작 – 이후 45 TOPS로 상향 ✓ 40 TOPS에 맞춰 준비하던 개발사들: 로드맵 변경 • Intel (Meteor Lake, 10 TOPS -> Lunar Lake, 45+ TOPS) • AMD (Hawk Point, 16 TOPS -> Strix Point, 48 TOPS)… ✓ 공식 AI PC 공개: 전부 다 Qualcomm Snapdragon • 45 TOPS는 충분한가? – NVIDIA: 100~1300 TOPS가 필요합니다! – Apple: 17 TOPS (Apple A16, 2023), 38 TOPS (Apple M4, 2024) AI PC의 기준: 45 TOPS? [1] https://www.qualcomm.com/news/onq/2024/04/a-guide-to-ai-tops-and-npu-performance-metrics [2] https://www.embedded.com/tops-vs-real-world-performance-benchmarking-performance-for-ai-accelerators/ 36

• TOPS의 한계 – AI 가속기의 대략적인 연산 능력은 보여주지만,
처리 가능한 연산의 복잡성은 반영하지 못함 – AI 가속기가 전체 하드웨어 장치에서 갖는 중요성을 정확히 포착하기 어려움 – 에너지 효율성, 메모리 대역폭, 소프트웨어 최적화, 특정 AI 워크로드 등의 요소를 고려하지 않음 • 그런데 왜 기준으로 사용할까? – 트랜스포머 아키텍처 가속 및 다양한 요소들의 수렴화: 특정 AI 워크로드가 요구하는 OPS 수가 비슷해짐 – 많은 요소들이 고정된 상황에서는 유효한 기준일 수 있음 – 개인용 컴퓨터 ✓ 메모리 종류, CPU 인스트럭션, 스토리지 속도 들이 적정 수준 내에서 평준화 – 그리고 복잡하면 사람들이 몰라요; TOPS를 기준으로 삼는 이유 [1] https://www.embedded.com/tops-vs-real-world-performance-benchmarking-performance-for-ai-accelerators/ 37

• 하드웨어 설계 • 모델 경량화 및 압축 • 모델
인퍼런스 소프트웨어 • 온 디바이스 / 로컬 AI 추론 워크로드 – 로컬 이미지 분석 및 처리 – 로컬 이미지 / 영상 편집 – 로컬 LLM ✓ (로컬 정보 분석 및 처리 등 다른 것들이 많았는데 전부 수렴중…) – 로컬 멀티모달 모델 로컬 AI의 기술적인 포인트 38

로컬 LLM의 현재 병목: 메모리 • NPU + 메모리 –
CPU 내장 NPU: 전용 메모리를 갖고 있지 않음 – 운영체제 메모리에서 떼어 할당해야 함 • 용량 – 4비트 / 8비트 양자화: 1B당 0.6GB (4비트)~1GB (8비트) • 대역폭 – 5600MHz DDR5 듀얼채널의 경우: 5600MHz x 8bytes x 2 x 2 = 179.2 GB/s – Apple M4의 대역폭: 120GB/s, M2 Ultra: 800GB/s – NVIDIA H100 SXM5의 경우: 3TB/s • 실질적 서비스 가능 LLM – 데스크탑: 2B 파라미터 이하 – 스마트폰: 1B 파라미터 정도의 소형 언어 모델 39

로컬 AI 하드웨어 최적화 : UMA • 통합 메모리 아키텍처
(Unified Memory Architecture) – CPU, GPU가 동일한 메모리에 접근하여 연산 수행 – 역사와 전통의 아키텍처이나 계속 패배해왔음 ✓ AMD 불도저 아키텍처와 주가 3달러 시대: FP연산을 GPU에 맡길려고 했는데 그만 망했어요… ✓ 카베리 APU의 HSA (Heterogeneous System Architecture) – 데스크탑: 콘솔 게임기용으로 살아남아 명맥 유지 – 모바일에서 본격적으로 사용됨 ✓ 안 그래도 자원 모자라는데… • 당시의 문젯점 – 대역폭 경쟁: CPU와 GPU가 서로 메모리 대역폭을 차지하려고 함 – 칩 생산 난도: 발열 관리의 어려움 – 라이브러리 호환성 문제 등등… 40

로컬 AI 하드웨어 최적화 : UMA • 모바일에서 데스크탑으로 –
Apple M1: UMA 구조를 도로 데스크탑으로 가져옴 ✓ 대역폭이 문제면 대역폭을 엄청나게 키우면 되고 ✓ 발열이 문제면 열 덜 나는 CPU 아키텍처를 쓰면 되고 ✓ HSA 프로그래밍이 어려우면 컴파일러가 해 주면 되지 – Apple M2 Ultra / M4 ✓ 192GB의 통합 메모리 풀, 800GB/s 이상의 대역폭 ✓ CPU, GPU, ANE (애플의 NPU) 까지 전부 동일한 메모리에 접근 • 자세히 보면 다른 NPU 접근들 – Intel Meteor Lake NPU ✓ Movidius 기반의 NPU를 CPU 내부에 내장 – AMD Hawk Point NPU ✓ XDNA 아키텍처 기반 구현: ONNX 인퍼런스를 기본으로 지원 • Radeon Instinct와 아키텍처 공유 [1] https://www.anandtech.com/show/18878/intel-discloses-new-details-on-meteor-lake-vpu-block-lays-out-vision-for-client-ai [2] https://www.techpowerup.com/316436/amd-ryzen-8040-series-hawk-point-mobile-processors-announced-with-a-faster-npu 41

• 정밀도 손실 – 트랜스포머 구조에서 일괄적으로 수치 정밀도를 조정하면
오차 누적의 문 제가 생김 • 하드웨어 지원 부재 – 양자화한 모델을 하드웨어가 가속하지 않으면 메모리상 잇점은 있어도 성 능상 잇점이 없음 – 예: Apple M3/M4, NVIDIA H100/B100 • 모델 훈련 과정 대응 – 양자화시 성능 하락을 막기 위해 아예 낮은 정밀도로 훈련하는 방법 (Google AQT, 2023) • 모델 호환성 개선 – 모델 양자화가 사용하는 프레임워크나 라이브러리 의존성이 있음 – 돌려보면 정확도가 다른 경우들 • 수치 표현력 하락 대응 – 가중치를 성기게 처리하는 것이라 입력 데이터가 복잡하거나 정밀할 수 있는 멀티모달 대응 해상력이 떨어짐 로컬 AI 상의 모델 양자화 과제 42

• Llama.cpp (는 설명했으니 생략) • vLLM (2023. 6) –
메모리 절약을 위한 PagedAttention 알고리즘을 구현한 오픈소스 / Llama 지원과 때맞춰 탄력 – ROCm 지원 시작 (2023. 12) • TensorRT-LLM (NVIDIA, 2023. 10) – 거대언어모델의 고속 인퍼런스에 촛점을 두고 TensorRT를 최적화한 구현체 – Triton Inference Server 와 결합한 자동 양자화 (INT4, INT8 weight 및 FP16 activation과 통합) – 간단하고 빠른 인퍼런스 인터페이스 제공 • 운영체제 벤더들의 인퍼런스 가속 제공 예정 – Microsoft Windows 11 – Google Android / Google Chrome Browser – Apple CoreML 로컬 인퍼런스 소프트웨어 43

• PC 외장 장치 NPU 시장의 재탄생 – 2017년 반짝
했던 시장 ✓ Movidius compute stick, EdgeTPU 등… – CPU의 라이프사이클보다 훨씬 빠른 AI 도입 요구사항 증가 ✓ 아니 AI 기능 더 활용할려고 CPU를 바꿔야 돼요? – GPU의 어마어마한 가격 – CPU 내장 NPU의 지속적 발전과 맞물려 IP 시장이 열릴 수 있음 – 2024년~2026년 사이 외장형 NPU 시장의 재활성화 가능성 예측해보기 • Arm 기반 CPU의 춘추전국시대 – MS-Qualcomm 의 Windows-Arm 독점 종료 예정 (2024) – Google, Microsoft, NVIDIA 모두 Arm 기반 CPU를 발표한 상황 ✓ 서버용으로 마케팅 중 ✓ NVIDIA: 컨슈머 시장 상대로 Arm 을 가장 많이 팔아본 회사 중 한 곳 – 부가가치 창출 포인트: NPU 44

Thank you! [email protected] https://www.facebook.com/lablupInc Lablup Inc. https://www.lablup.com Backend.AI https://www.backend.ai Backend.AI
GitHub https://github.com/lablup/backend.ai Backend.AI Cloud https://cloud.backend.ai 45

온디바이스 AI 및 로컬 AI의 도전 과제 / Challenges of On-Devi...

온디바이스 AI 및 로컬 AI의 도전 과제 / Challenges of On-Device AI and Local AI

More Decks by Jeongkyu Shin

Other Decks in Technology

Featured

Transcript