한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성

Slide 1

Slide 1 text

신정규 래블업 주식회사 LangCon 2024 / 2024년 3월 2일 한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성

Slide 2

Slide 2 text

• Lablup Inc. : Make AI Accessible – 오픈소스 머신러닝 클러스터 플랫폼: Backend.AI 개발 – https://www.backend.ai • 오픈소스 개발자 – Google Developer Experts (2017~) ✓ ML / Deep Learning (Context retrieval, 2017~) ✓ MLOps Working Group (2019~2020) – Google Cloud Champion Innovator (2019~) – Google Startup Accelerator Mentor (기술분야) – Principal Researcher, KOSSLab. (2015~2019) – 텍스트큐브 오픈소스 프로젝트 메인테이너 (21주년!) • 물리학 / 뇌과학 – 포스텍 통계물리학 박사 (복잡계 시스템 및 계산뇌과학 분야) – (전) 한양대학교 ERICA 겸임교수 (소프트웨어학부) – 한국통신학회 이사 (지능형SW 분야) ”공적인" 자기소개

Slide 3

Slide 3 text

• 여행 – 구글 트립이 최애앱이었는데 없어졌어요 T_T • 애독자 / 애청자 – > 15,000권, > 2,000 영화 – 클래식부터 세계음악까지 • 게이머 – 평이 안좋은 게임에 끌림; – MMORPG/WOW는 안했습니다. – Dreamcast – Xbox 360 – Xbox… • 아빠 – 아름답고 현명한 배우자와 두 귀여운 어린이들 ”개인적인" 자기소개

Slide 4

Slide 4 text

• 오픈소스 거대 언어 모델의 중요성 • 한국어 특화 오픈소스 거대 언어 모델의 가능성 • 오픈소스의 중요성 • 한국어 오픈소스 언어 모델 연구의 현황과 방향성 • 한국어 오픈소스 거대 언어 모델의 가능성 탐구 오늘의 주제 (였던 것들)

Slide 5

Slide 5 text

2024 LangCon / Mar. 2, 2024 한국어 오픈소스 거대 언어 모델의 가능성: 새로운 시대의 언어 이해와 생성 기브 미 쪼꼬렛: 한국어 오픈소스 LLM 주세요

Slide 6

Slide 6 text

• 굳이? • 스케일 전쟁 • 반란군 또는 딸깍발이 • 기브 미 쪼꼬렛 • 발렌타인 데이는 올 것인가 오늘의 주제

Slide 7

Slide 7 text

시작 전에 먼저: (이번 컨퍼런스 주제가 생성모델 튜닝인데도 불구하고) 파인튜닝 모델 이야기는 안 할 예정입니다. (너무 너무 너무 많음…그 계보만 따로 주제로 할 수도 있을 겁니다.)

Slide 8

Slide 8 text

No content

Slide 9

Slide 9 text

No content

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

No content

Slide 12

Slide 12 text

No content

Slide 13

Slide 13 text

저는 글로벌 서비스 분야의 선두 기업에서 차량 관련 전략적 파트너십을 관리하는 역할을 맡았습니다.

Slide 14

Slide 14 text

No content

Slide 15

Slide 15 text

No content

Slide 16

Slide 16 text

• 라마도 대충 한국어 잘 알아듣고 • 미스트랄도 대충 잘 동작하고 • 젬마도 대충 잘 되는데 • 왜 굳이 한국어 오픈소스 모델을? 왜?

Slide 17

Slide 17 text

넘기 힘든 사차원의 어떤 벽 이래서 적어도 만드는 과정에 참여를 해야 함….

Slide 18

Slide 18 text

No content

Slide 19

Slide 19 text

스케일 전쟁

Slide 20

Slide 20 text

계산 능력 + 지능 + 통찰 클라우드 빅데이터 = 딥러닝?

Slide 21

Slide 21 text

• 파운데이션 모델 – 라벨링되지 않은 대규모 데이터를 자기지도 방식으로 학습한 거대 AI 모델 – 광범위한 데이터 대상으로 대규모 사전학습 수행 – 다양한 용도의 임무에 맞추어 파인튜닝 또는 in-context 러닝 후 바로 사용 • 왜 이렇게 큰 모델을? – 엄청나게 큰 임무 ✓ 논리 구조에 따라 맥락 이해 / 그 과정이 인간과 충분히 상호작용 하에 이루어져야 함 – 창발 현상 ✓ 말만 가르쳤는데 갑자기 요약도 하고 번역도 하고 작문도 함 ✓ (작년 발표 봐 주세요. 오늘 주제가 아니라서…) • 문제 – 파운데이션 모델 훈련에는 막대한 자원이 들어감 사전 훈련 모델 / 파운데이션 모델 Foundation Model

Slide 22

Slide 22 text

• 서비스 모델 = 파운데이션 모델 + 미세 조정 (파인 튜닝) – 모든 모델을 처음부터 훈련하면 비용이 너무 많이 들어감 • 미세 조정 (Fine-tuning) – 언어 처리에 대해 특화한 파운데이션 모델은 목적성이 없음 ✓ 언어의 구조에 기반하여 훈련한 모델 – 특화한 지식 및 답변 세트에 맞춰 미세 조정 – 실제 데이터 등은 외부 검색 엔진 및 데이터베이스를 참조하도록 중간에 코드를 넣는 방식 • 예: Pathways (Google) – Pathways: 파운데이션 모델 구조 – PaLM: Pathways 구조 기반 언어 모델 – Med-PaLM: 의학 지식에 특화한 파인튜닝 모델 – Sec-PaLM: 보안 분야에 특화한 파인튜닝 모델 – Minerva: 수학 계산에 특화한 파인튜닝 모델 파인 튜닝

Slide 23

Slide 23 text

얼마나 막대한가? : 5년간 만 배 [1] “Computing Power and the Governance of Artificial Intelligence”, Hadfield et al., 2024

Slide 24

Slide 24 text

No content

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

No content

Slide 27

Slide 27 text

No content

Slide 28

Slide 28 text

• GPU: 그래픽 프로세싱 유닛..이나, 여기서는 딥 러닝 계산을 가속하는 장치로 생각하면 됨 • 딥 러닝: 딥 뉴럴 네트워크Deep NeuralNet 의 약자 – AI 구현을 컴퓨터 머신러닝 분야에서 접근하는 방법 중 최근 10년 동안 가장 활발히 발전 중인 방법 • NVIDIA A100: 2021년 발표한 NVIDIA의 딥러닝 훈련용 GPU – ..였는데 2023년 초에는 최고의 서비스용 GPU로 홍보 중[1] 대당 1500만원, 현재는 1000만원 • NVIDIA H100: 2022년 하반기 발표한 NVIDIA의 훈련용 GPU – 발매 당시엔 대당 4000만원, 현재는 대당 5000만원 (인데 중요하지 않음) – (어차피 못사요) • 얘네는 게임용 쥐포스랑 무엇이 다른가? – DMA 수 – 메모리 종류 – SXM 모델 유무 등 – 몰라도 됩니다. 맨날 나오는 용어 설명

Slide 29

Slide 29 text

• GPU – 일반 AI 워크로드의 표준 구동 장비 / NVIDIA 가 과점 중 – 특징 ✓ 다수의 연산 자원이 계층적 구조로 구성 = 상대적으로 예측이 쉬운 전력 소모 특성 ✓ 주의: 워크로드가 칩 내부에서 어떤 파이프라인을 타고 있는지에 따라 영향 받음 • 예: CUDA: SM, 미디어인코더/디코더, TensorCore등 • 몰라도 되는 것들 – (하드웨어에 붙어서 일을 하다 보면) 기본으로 알아야 되는 것들이 있음 – 소프트웨어 입장에서는 몰라도 되는데 알아두면 머릿속에서 워크로드 설계할 때 도움이 됨 AI 연산 자원

Slide 30

Slide 30 text

AI 연산 자원: 용어 설명 CUDA 설명 AMD HIP 설명 grid 블록 모음 grid Work-group의 집합 block 스트리밍 멀티프로세서(SM)에서 실행되는 스레드 그룹을 포함하는 단위 work-group 컴퓨트 유닛(CU)에 의해 수행되는 커널 에이전트의 실행 인스턴스 warp 최대 32개의 레인으로 구성된 thread 그룹. 가장 세분화된 실행 엔티티. wavefront 최대 64개의 레인으로 구성된 work-item 그룹. 크기는 레인 수로 정의됨. lane thread로 구성된 warp의 구성요소. lane wavefront의 요소. 가장 세분화된 실행 엔티티. thread 쓰레드 thread / work-item 쓰레드 CHAPTER 2. HSAIL Programming Model This chapter describes the HSAIL programming model. 2.1 Overview of grids, work-groups, and work-items The figure below shows a graphical view of the concepts that affect an HSAIL implementation. Figure 2–1 A grid and its work-groups and work-items Programmers, compilers, and tools identify a portion of an application that is executed many times, but independently on different data. They can structure that code into a kernel that will be executed by many different work-items. 24 | HSA Programmer's Reference Manual, Version 1.2 HSA Programmer's Reference Manual 1.2, HSA foundation (2018) *HSA: Heterogeneous System Architecture Foundation

Slide 31

Slide 31 text

• AI accelerators 또는 “NPU" – FPGA 로 특화 서킷을 만들거나, 정식으로 칩을 굽는 두 가지 모두 존재 – Zero-skipping, 모델 압축 및 경량화 도입 추세 – 다양한 철학으로 설계되어 있음 / 구현 난도 문제로 대부분 서빙 (인퍼런스)용 • 세대 구분: 개발이 언제 시작되었느냐에 따라 칩의 방향성이 결정 • 1세대 AI 가속기 (2017~) – 단순 행렬 연산 가속기에 가까움 / 5x5 ~ 15x15 크기의 행렬 연산 처리 – 단독 사용을 고려하지 않은 일반 커널 계산 가속용 – NPU (화웨이, 2018), EdgeTPU (Google, 2017), Qualcomm AI Accelerator (Qualcomm, 2018), ANE/Neural Engine (Apple, 2020) • 2세대 AI 가속기 (2019~) – 행렬 연산 가속 ops 구현 중심 / 주로 CNN 등 구현 이미지 처리에 특화하여 인코더/디코더를 내장한 칩들 다수 존재 ✓ 예) OpenCV의 기능 구현 – 연산 명령을 받아 특정 태스크에 대해 단독으로 명령 수행 가능 – 2024년 초 시장에서 볼 수 있는 대부분의 AI 가속기가 이 카테고리에 해당 – 국내: Furiosa Warboy, Sapeon X220,X330, DeepX, Mobilint 등 ✓ Warboy, ATOM, X330 등은 2세대와 3세대 사이에 걸쳐 있음 AI 연산 자원

Slide 32

Slide 32 text

• 3세대 AI 가속기 (2021~) – 트랜스포머 아키텍처용 ops 구현 및 fusion ops 구현 ✓ 언어모델의 본격적 가속을 위한 기능 지원 ✓ 고대역 메모리 사용 / 초고속 네트워크 기반 칩-투-칩 연동 ✓ 요샌 일주일에 회사가 하나씩 나옵니다… – 훈련용 칩: TPUv3~5p (2020~), GraphCore IPU (2022~), SambaNova SN20/30 (2022~), Cerabras (2022~) 등 – 인퍼런스용 칩: TPU v3~5e (2019~), GroqChip (2022), HyperAccel (2023), Furiosa Renegade (2024), Rebellions Rebel (2025), Sapeon X440 (2025) 등 • 4세대 AI 가속기 – 다양한 AI 워크로드에 맞춰 엄청나게 특화한 구조 – 모든 목표를 다 잡을 수 없음 ✓ 인퍼런스 속도, 지연율, 스케일 난도, 전성비… 이 중 두 가지 정도를 목표로 함 – 멀티모달 시장 예측, 분산 모델 요구 등에 따라 다양한 아이디어들에 기반한 테스트 칩들이 나오고 있음 ✓ 예: PIM (Processor-In-Memory) 기반 엣지 AI 가속, CXL 기반 통신으로 CPU-RAM-AI칩간 구분 없는 스케일 지원 등… ✓ 개인적인 의견: 몇가지 사례에 대해 수요가 크게 예상되는데 구현은 어떻게 할 지 잘 모르겠네요. AI 연산 자원

Slide 33

Slide 33 text

• 랙 – 다들 아시죠? • 랙 당 GPU 장착 – 4kW 랙 구성의 경우 H100 GPU 3대 (4대) – 8kW 랙 구성의 경우 H100 GPU 6대 (8대) – = 6U~8U 차지 – 그럼 나머지 공간은? • 예: NVIDIA A100 / H100 – ChatGPT 서빙에 드는 자원을 기준으로 봅시다. AI 연산 자원의 전력 소모

Slide 34

Slide 34 text

800GB A100/H100 GPU 10장 TPUv4 Pod 0.6% GPT-3 인퍼런스 모델 Llama2 70B 인퍼런스 2개 서빙 Mixtral 8x7B 모델 GPT-4 / ChatGPT 인퍼런스 모델 용량 (추정) 320GB A100/H100 GPU 4장 8.9TB A100/H100 GPU 112장 Cerebras 1장 TPUv4 Pod 7% PaLM 모델 훈련시 최소 요구 용량 (추정) (작년꺼에서 가져온) AI 연산 자원의 규모

Slide 35

Slide 35 text

• NVIDIA A100 / H100 – ChatGPT 서빙에 드는 자원은 앞과 같은데 – 훈련에 소비되는 GPU 댓수? ✓ 예: Llama2: NVIDIA A100 4096대 • NVIDIA DGX / HGX의 경우 – DGX-2 (NVIDIA V100x16) : 12kW – DGX-A100 (NVIDIA A100x8) : 7kW – DGX-H100 (NVIDIA H100x8) : 10.2kW • 계산해보면 – A100 기준 Llama2 모델 하나 훈련에 3584kW = 3.6 메가와트 = 1660가구*의 전력 소비량 AI 연산 자원의 전력 소모 *1MW: 461가구가 소비하는 전력요구 (kepco.co.kr)

Slide 36

Slide 36 text

• NVIDIA 슈퍼컴퓨팅 표준 시스템 구성 (SuperPOD / H100) 규모로 보면 NVIDIA SuperPod, NVIDIA (2023)

Slide 37

Slide 37 text

• IDC 전력 상황 – 일반 WAS용 IDC: 랙당 4kW~6kW – “고밀도” 구역 (High-capacity Zone): 랙당 8~12kW – IDC당 평균 11.98MW, 70% 전력이 수도권에서 사용중 ✓ 수도권엔 더이상 지을 수도 없게 금지. (2024년 2월 27일) • 근미래 – 100MW~300MW 수준의 IDC 건립 예정 (네이버, LGU+, KT, SK…) • 다양한 대안들 – 저전력 GPU / NPU들 ✓ NVIDIA T4, L4, A6000... / ATOM, Warboy, Sapeon, EdgeTPU… ✓ WAS와 딥러닝 서버의 중간 어디쯤 – 뭐 방법이 없나? 다들 고민 중. 집이 없어요 *147개의 데이터센터, 총 1762MW. (2022년 12월 기준)

Slide 38

Slide 38 text

• 워크로드 특성에 따라 포팅 또는 GPU로 배치 변경이 더 유리함 – 일반적인 가속 워크로드의 경우 GPGPU가 훨씬 전력 효율적임 – GPU가 엄청난 전력을 쓰더라도, AI 워크로드의 경우 CPU 대비 10~100배 정도 전력대 성능비 달성 • 하드웨어 기반의 에너지 효율 극대화 – DPU, SmartNIC 등 전력 소비 모니터링을 통해 동작을 조정하는 다양한 하드웨어 도입 • 그리고… – 우리같이 삽질로 해결해보려는 경우들도 있습니다. – 초고성능 달성을 위한 기술들이 에너지 효율성에 기여하게 된… 그럼에도 불구하고

Slide 39

Slide 39 text

• 환상의 물건 GPU – 테슬라의 A100 10,000대 주문 (2022년 하반기), 이후 GPU 100,000대 기반 자율주행 데이터센터 목표 공개 – 마이크로소프트 / OpenAI의 H100 10,000대 주문 (1월) – 트위터의 H100 10,000대 주문 (4월) – 구글의 A100/H100 26,000대 사용 A3 슈퍼컴퓨터 구축 (5월) – 바이트댄스의 A800/H800 100,000대 주문 (6월) / $1B 규모 – 알리바바의 H800 몇 만 대 규모 주문 (6월) / $4B 규모 – 바이트댄스 및 알리바바의 주문 후 ✓ 미국의 대중국 H800 GPU 수출 규제 시작 (6월) ✓ (이미 주문한 양에는 영향을 주지 않을 줄 알았으나…) • 우리도 GPU 주세요 – 없어요. 돌아가세요~ 격전지: GPU 하드웨어 시장 / 상황 https://www.hpcwire.com/2023/02/20/google-and-microsoft-set-up-ai-hardware-battle-with-next-generation-search/ https://cloud.google.com/blog/products/compute/introducing-a3-supercomputers-with-nvidia-h100-gpus?hl=en https://www.cnbc.com/2023/07/28/microsoft-annual-report-highlights-importance-of-gpus.html https://www.ajunews.com/view/20230727113146316

Slide 40

Slide 40 text

• 국가간 알력 – GPU를 전략 자원으로 취급 ✓ 화웨이의 사우디 클라우드 리전 계획 발표 후 • 미국의 대 사우디 GPU 수출규제 시작 (2023년 8월 31일) ✓ 미국의 대중국 GPU 수출 규제 시작 (2023년 10월 17일) • A100, A800, H100, H800, L40, L40S, RTX 4090 까지 • 고스펙~중스펙에 이르는 AI에 활용 가능한 거의 모든 GPU의 수출 제한 ✓ NVIDIA의 대응 • 중국 전용 GPU인 4090D (2023년 12월 14일), RTX6000 컷칩으로 RTX 5880 공개 (2024년 1월 9일) – 물량 공세 ✓ Microsoft 의 H100 입도선매 (20만대, 2023년 전체 기간) ✓ Meta의 2024년 AI 클러스터 규모 공개 (30만대, 2024년 말 타겟) – 초법적 지원 ✓ 이스라엘 정부의 인텔 반도체 공장 설립 정부 보조금 지원 ($3.2B, 4.1조원, 2023년 12월 26일) • 공급을 아득히 넘어서는 수요에 대한 대응들 – NVIDIA: 데스크탑 수준의 GPU+Windows에서 인퍼런스를 지원하겠다고 발표 (2023년 10월 17일) – Chat With RTX 공개 (2024년 2월 10일) 격전지: GPU 하드웨어 시장 / 상황 https://www.tomshardware.com/news/us-bans-sales-of-nvidias-h100-a100-gpus-to-middle-east https://www.cnbc.com/2023/10/17/us-bans-export-of-more-ai-chips-including-nvidia-h800-to-china.html https://blogs.nvidia.com/blog/2023/10/17/tensorrt-llm-windows-stable-diffusion-rtx/ https://videocardz.com/newz/nvidia-geforce-rtx-4090d-reportedly-has-no-oc-support-and-lower-tdp-of-425w

Slide 41

Slide 41 text

• 국가 단위의 초대규모 행렬 연산 자원 확보 경쟁 • 미국 – Xeon Max 전량을 Argonne로 보냄. (Argonne AI Test farm) – Cerebras C2 및 Groq 의 초기 물량 구매 (2022년 여름) • 영국 – ExaScale 프로젝트 (2023년 5월~), NVIDIA로 결정 (2023년 11월) • EU – MareNostum 5 런칭 (2023년 12월), Top500 8위 달성 • 일본 – SB Institutions 런칭 (2023년 8월): “일본인에 의한, 일본인을 위한, 일본에서 만든” 언어 모델 – Fugaku 를 언어 모델용으로 전용 / Tsubame 4.0 준비중 (2024년 4월) • 중국 – 대중 수출 규제를 피하기 위하여 중고가 GPU를 전세계에서 전부 싹쓸이 중 (2023년 11월) – 게이밍 GPU를 AI용도로 리팩토링하는 회사들의 등장 격전지: GPU 하이퍼스케일러 시장 / 상황 https://www.cnbc.com/2023/07/07/why-japan-is-lagging-behind-in-generative-ai- and-creation-of-llms.html https://www.softbank.jp/en/corp/news/press/sbkk/2023/20230804_02/

Slide 42

Slide 42 text

• GPU 회사들의 경쟁 – NVIDIA: HBM3 / 3e 기반으로 램 증가 및 아키텍처 교체 ✓ H100 (2022), H200 (2024) ✓ B100 (2024), X100 (2025) – AMD: 소프트웨어 스택 보강 및 TCO로 접근 ✓ MI250X (2023), MI300A (2024) ✓ MI300X (2023): 192GB HBM3 – Intel: 화이팅 ㅠ_ㅠ ✓ Gaudi 2 (2023), Gaudi 3 (2024) ✓ GPU Max (2023) • 하이브리드 APU – NVIDIA GH200 (2024), GX200 (2025) – AMD MI300A (2024) 격전지: GPU 하드웨어 시장 / 상황 https://www.reuters.com/technology/microsoft-developing-its-own-ai-chip-information-2023-04-18/ https://www.hpcwire.com/2021/06/22/ahead-of-dojo-tesla-reveals-its-massive-precursor-supercomputer/

Slide 43

Slide 43 text

• 클라우드 및 AI 업체들의 접근 – Amazon Inferentia2 (2022) ✓ NeuronCore v1 기반 칩렛 구성 – Microsoft Azure Maia 100, Cobalt 100 (2024) ✓ Athena Project 공개, 2024년 타겟 공개 예정 발표 (2023년 11월) ✓ 인텔 팹에서 생산 계약 (2024년 2월 22일) – Meta MTIA (gen2) ✓ 2021년 초기 모델 공개, 2023년 5월 2세대 개요 공개 – Tesla Dojo (2023) ✓ 6월에 첫 테이프 아웃 ✓ Google TPU와 유사한 구조 (Toroidal architecture) 격전지: GPU 하드웨어 시장 / 상황 https://www.reuters.com/technology/microsoft-developing-its-own-ai-chip-information-2023-04-18/ https://www.hpcwire.com/2021/06/22/ahead-of-dojo-tesla-reveals-its-massive-precursor-supercomputer/

Slide 44

Slide 44 text

• 훈련용 AI 가속기 – 일반 ops 구현의 높은 난도 ✓ 어차피 트랜스포머만 잘 되면 되는거 아니냐? ✓ 그런데 트랜스포머가 많은 ops를 요구해요… – 지원 모델을 늘려가는 방식의 접근으로 우회 ✓ 인퍼런스 칩 만드는 방법론으로 트레이닝 칩을 만들자! ✓ 주요 AI 모델 대중화가 되었다는 판단 • 인퍼런스용 AI 가속기 – 저전력, 저지연, 저발열 – PCI-E, USB-C 및 GPIO 인터페이스 – FPGA 방식의 IP 회사들 대거 등장 (Bittware 등) – FP16 / BF16 / INT8 기반 격전지: AI 워크로드 가속 / NPU

Slide 45

Slide 45 text

• 훈련용 AI 가속기 – TPU v5p, v5e (Google) – Gaudi2, Gaudi 3, GPU Max (Intel) – IPU / BOW (board on wafer) (GraphCore) – Cerebras WSE (Cerebras) – SN30/40L (SambaNova) – Loihi2/ Nahuku/ Kapoho Point (Intel) (2022) • 인퍼런스용 AI 가속기 / NPU – TPU v5e (Google) – BrainWave, Maia, Cobalt (Microsoft) – Alveo (AMD, Xilinx) / FPGA – GroqChip / GroqCard (Groq) (인퍼런스로 전향) • 국내 하드웨어 : 모두 AI 인퍼런스용 가속기 – Sapeon x220 (2020), x330 (2023) – FuriosaAI Warboy (2021), Renegade (2024) – Rebellions ATOM (2022) – Mobilint, DeepX 등 격전지: AI 워크로드 가속 / NPU

Slide 46

Slide 46 text

• AQT (Accurate Quantized Training) – Pareto-Optimal Quantized ResNet Is Mostly 4-bit (Arxiv:2105.03536, 2021) – 트랜스포머 아키텍처가 INT8에서 성능이 떨어진다면 – 아예 훈련부터 서빙까지 전부 INT8로 하면 어떨까? – 정확도 하락은? – 훈련 스텝을 늘려 해결 – 소프트웨어: AQT (Google, 2023) ✓ JAX 기반 구현체 – 하드웨어: TPU v5i / v5p (Google, 2023) 격전지: AI 워크로드 가속 / NPU

Slide 47

Slide 47 text

• 훈련 솔루션 – Megatron-Deepspeed (Microsoft, 2022. 12) ✓ NVIDIA Megatron과 Microsoft DeepSpeed를 통합하여 거대 딥 러닝 모델 훈련에 최적화 – ZenDNN (AMD, 2023. 9) ✓ cuDNN에 맞선 AMD의 솔루션 ✓ ROCm 기반으로 전체 ML스택 지원 – OpenXLA (Google, 2023. 6) ✓ 하드웨어 자동 최적화 / 고수준 퓨전 및 GSPMD 샤딩 지원 • 서빙 솔루션 – vLLM (2023. 6) ✓ 메모리 절약을 위한 PagedAttention 알고리즘을 구현한 오픈소스 / Llama 지원과 때맞춰 탄력 ✓ ROCm 지원 시작 (2023. 12) – TensorRT-LLM (NVIDIA, 2023. 10) ✓ 거대언어모델의 고속 인퍼런스에 촛점을 두고 TensorRT를 최적화한 구현체 ✓ TritonIS 와 결합한 자동 양자화 (INT4, INT8 weight 및 FP16 activation과 통합) ✓ 간단하고 빠른 인퍼런스 인터페이스 제공 격전지: 공개 소프트웨어 시장 https://github.com/microsoft/Megatron-DeepSpeed https://arxiv.org/abs/2105.04663 https://github.com/vllm-project/vllm https://github.com/NVIDIA/TensorRT-LLM

Slide 48

Slide 48 text

The Rebels

Slide 49

Slide 49 text

No content

Slide 50

Slide 50 text

AI+딥 러닝: 오픈소스 문화 기반 분야 • 이유 – GitHub 이후에 활성화된 컴퓨팅 기반 연구+서비스 분야 – 타 분야는 오픈소스화 과정을 거쳤지만 딥 러닝은 그런 과정이 필요하지 않았음 • 실질적인 이유 – 너무 빠른 변화 속도: 6주, 90일, 6개월, 2년 – 규모가 유도하는 성능 향상 – 노하우에 가까운 개발 과정 ✓ 코드를 공개해도 못 만들 걸?

Slide 51

Slide 51 text

• 공통점 – 의도치 않게 변화의 문을 활짝 열어버림 Llama 와 베를린 장벽

Slide 52

Slide 52 text

• 허깅페이스의 여름 – 약 10,000여개의 언어 모델이 등장 – 지금 이 순간에도 나오고 있음 – 2023년 9월 기준 약 15,000개… – 2024년엔 카운트를 굳이 안 합니다. • 10, 100, 10000, 100000 – 10여개의 유명 사전 훈련 모델 – 100여개의 사전 훈련 모델 – 1000여개의 응용 모델 – 100000여개의 파인 튜닝 모델 • 그 결과 – 응용 모델 개발에 2주일 – 파인 튜닝은 하루: 의지의 문제 2023년 여름

Slide 53

Slide 53 text

Slide 54

Slide 54 text

• 독점적 파운데이션 모델 사업의 변화 – 성능: 그거 ChatGPT보다 잘 돼요? ✓ 미뤄지는 공개 시점 – 비용과 연계하여 더욱 연기중 ✓ 경쟁 우위 유지: 유료 사용자의 경우 GPT-4를 기본 모델로 제공 시작 (2023년 8월 7일) – 비용: 너무 비싸요 ✓ 늦어지는 상용화 – 가능성: 이거 정말 잘 될 것 같은데? ✓ 이해 당사자들 간의 미묘한 관계 재설정 등 • 파운데이션 모델도 오픈소스로? – 다양한 오픈소스 파운데이션 모델들이 있었으나, 기존에는 크기 및 성능 면에서 두각을 드러내지 못했음 – 2023년 봄 ✓ 기업: 우리도 할 수 있다는 걸 보여주자 ✓ 국가: 이런 기술을 특정 기업에 의존하면 공정 경쟁이 안된다 + 종속이 일어날 것. 그런 상황을 막자 2023년 3월 이후

Slide 55

Slide 55 text

• 국가 단위의 기반 언어 모델 공개 – 자원과 조직: 힘을 주겠다! – 연산자원 ✓ 영국 (ExaScale Supercomputer, 2023년 7월), 일본 (SB Instutution, 2023년 8월 7일), EU (스페인, Mistral on MareNostum 5, 2023년 12월) – 모델 ✓ 아부다비 (Falcon, 2023년 6월), 인도 (Bahshini with Corover.ai, 2023년 12월 12일) • 오픈소스 파운데이션 모델 – 기업: Meta Llama2, Cerebras-GPT, StableLM, Mosaic MPT, Mistral, Gemma 등 – 커뮤니티: EleutherAI Pythia, Polyglot, BLOOM, GPT-J, RedPajama, OpenHathi 등 – 국가: Falcon • 파운데이션 모델이 모두에게 주어진 시대가 왔음 – 한국어는 아직… 오픈 거대 언어 모델: 파운데이션 모델 공개의 시대

Slide 56

Slide 56 text

상업적으로 사용 가능한 공개 언어 모델들 License Data Architecture Weights Size Checkpoints Language Meta Llama2 Llama license Open Open Open 7, 13, 70 Yes English / Multilingual EleutherAI Pythia Apache 2.0 Open Open Open 7, 12 Yes English EleutherAI Polyglot GPL-2.0 Open Open Open Yes English / Multilingual GPT-J MIT Open Open Open 6 Yes English Databricks Dolly 2 Apache 2.0 Open Open Open 7, 12 Yes English Cerebras-GPT Apache 2.0 Open Open Open 7, 13 Yes English / Multilingual StableLM CC BY-SA-4.0 Open Open Open 3, 7, (15, 30, 65, 175) Yes English Mosaic MPT Apache 2.0 Open Open Open 7, 30 Yes English Falcon Apache 2.0 Open Open Open 7, 40, 180 Yes English / Arabic Mistral Apache 2.0 Open Open Open 7 Yes Multilingual Gemma Gemma license Closed Open Open 2, 7 Yes Multilingual

Slide 57

Slide 57 text

• 왜 아직…? • 그러니까 대체 오픈 모델의 정의가 무엇이요? – 데이터 + 코드 + 훈련 과정 공개 + 사용권 – 어디까지 공개해야 오픈소스 모델인가? – OpenSource AI는 아직 정의 중 (OSI, 2023년~2024년) • 오픈소스 모델 라이선스 – MIT – Apache 2 • 허용적이나 모델 사용 용도를 제한하는 라이선스 – CreativeML Open RAIL-M • 한국어 오픈소스 모델 – 은 사실 폴리글랏 제외하면 없음 – 대부분 Creative Commons (주로 NC-SA) 를 걸고 공개되어 있음 ✓ Non-commercial, Share-alike -> 이걸로 상업적으로 쓰지 마시오 오픈 모델 라이선스

Slide 58

Slide 58 text

• 국가, 사기업등의 개발 – 국가적 필요: 여긴 태생이 멀티링구얼… – 사기업: 10억이 넘는 시장. 말이 필요한지? • Krutrim (Krutrim Si Designs, 2023. 12) – 2023년 12월 15일 – 인도권역의 대부분 언어를 커버하는 최초의 LLM – 멀티모달 모델 / Pro 버전의 경우 2T 토큰으로 훈련 • OpenHathi (Sarvam AI) – Llama2-7B 구조를 가져와서 힌두어로 훈련 인도 사례 • BraratGPT (Corover.ai, 2023. 12) – 12개 인도어 지원 – 국가 주도 개발 오픈소스화: MeiTY 산하 Bhashini (National Language Translation Mission) • Project Vaani (Vaani and Google, 2023) – 인도 디지털화의 포용성을 강화하기 위한 프로젝트 – 다양한 지역어 (773곳) / 인도어의 음성 데이터 수집 및 오픈소스화를 목표로 함 https://www.business-standard.com/companies/news/ola-s-bhavish-unveils-krutrim-the-multi-lingual-ai-for-1-4-bn-indians-123121500874_1.html https://economictimes.indiatimes.com/tech/technology/corover-ai-officially-launches-bharatgpt-in-partnership-with-google-cloud/articleshow/105912061.cms https://vaani.iisc.ac.in

Slide 59

Slide 59 text

• Falcon LLM (2023년 6월) – 아부다비의 자금력으로 만든 거대 언어 모델 – 제약이 없는 거대 언어 모델 (MIT) – Falcon 180B: 공개 언어 모델중 가장 거대 ✓ 비교: GPT 3.5: 175B • Llama 2 (2023년 7월) – 메타의 Llama 개선 모델 – 사실상 상업적 용도 무제한 허용 ✓ (사실상일 뿐 무제한은 아님) ✓ 34B 모델 제외 공개 – 퍼블릭 클라우드 회사들과의 협약 및 서비스 제공 – Llama 3 훈련 중 ✓ 2024년 2월 공개 ✓ 1주년에 맞춰 공개하지 않을까요? 사전 훈련 오픈 언어 모델 • Mistral (2023년 10월) – 10B 미만의 크기 중 가장 다양한 용도로 동작 ✓ 다른 모델의 교정 모델로 사용할 수 있음 ✓ “Model distillation” – 완전 오픈 모델 (MIT 호환) – 작은 크기를 이용한 응용 케이스 ✓ Mixtral 8x7B: 실질적으로 적용가능한 크기의 MoE (Mixture of Experts) – Mistral Pro 공개 (2024년 2월) ✓ 더 큰 모델, GPT-4 필적 성능 • Gemma (2024년 2월) – Google 의 공개 모델 ✓ Gemini와 동일 기술 사용 – Llama2 대비 제약이 굉장히 적은 라이선스 ✓ Gemma License: 사실상 제약 없음 – 상대적으로 작은 모델: 3B, 7B 모델

Slide 60

Slide 60 text

• 그러니까 – 문제는 비용 – 그러니까 돈이 없다는 이야기 – 모델이 크려면 돈이 있어야 하는데 • 그 필요한 돈이 굉장히 큼 – “요새 기준으로” 작은 모델이면 한 백…억? – 큰 돈을 들였으면 적어도 손해를 안 보고 싶은데 – 돈을 낼 수 있는 곳들은 직접적으로 손해를 볼 수 있는 회사들입니다. • 돈도 크고 훈련 데이터 이슈도 있죠 – 데이터가 곧 돈인 세상에서 – 훈련에 사용된 데이터의 라이선스 이슈나 수집 이슈도 있을 수 있고요 한국어 오픈 모델 개발의 어려움 돈 이 허들임 사실… 마 우리가 돈이 없지 가오가 없냐…

Slide 61

Slide 61 text

Slide 62

Slide 62 text

오픈소스인데 왜 돈인가?

Slide 63

Slide 63 text

• 환전하는 다양한 시나리오가 존재 • 스타트업 – 모델을 완전 공개하고 이를 바탕으로 펀딩 유치 가능 ✓ 예: Cerebras, Stability.ai, Mistral • 빅테크 – 클라우드 비지니스를 하는 경우 ✓ 적절한 크기로 내놓고 클라우드로 유도 ✓ Google, ByteDance 등 – 클라우드 비지니스를 하지 않는 경우 ✓ 클라우드와 제휴하여 수익 분배 (Meta) • 국가 – 돈이 많은 나라 – 또는 경제적으로 LLM이 자연 창발하기 어려운 경우 오픈 LLM이 이미 있는 국가들은 그럼 어떻게 만든?

Slide 64

Slide 64 text

• 파운데이션 모델을 환전하는 시나리오가 없음 • 스타트업 – B2B 특화 모델 개발 – 클라우드와 제휴하여 수익 분배 (오픈 모델일 경우 쉽지 않음) • 빅테크 – 클라우드 비지니스를 하는 경우: 전용 모델로 바로 서비스 – 클라우드 비지니스를 하지 않는 경우: 자체 보유 모델로 이용 • 대한민국 – LLM을 전폭적으로 밀어주기엔 돈이 없음 – 비용을 대거나 과제로 진행한다고 해도 기간이 너무 김 (1 년 단위) ✓ 1개월 단위로 움직이는 분야: 개발 되는 싯점에선 별 필요가 없을 수 있음 그럼 우리는? 모델 주세요. 공짜 맞죠?

Slide 65

Slide 65 text

• 오픈소스 LLM들 – Falcon, Mistral, Mosaic, Yi 등의 공개로 파운데이션 모델을 손에 쥠 – Llama 2 로 클라우드 업체들과 동일한 경쟁선상에 섬 – 다양한 다국어 파운데이션 모델들 훈련 및 공개 중 – 저렴해지는 파인 튜닝 과정 • 국내의 파운데이션 모델 시도 – LG, KT, SK, 네이버, 롯데정보통신, 카카오 등 – 11B~250B 사이의 파운데이션 모델 개발 및 테스트 중 – 아직 파운데이션 모델 구현체를 외부 공개한 곳이 없어서 성능 비교 및 판단이 어려움 오픈소스 파운데이션 모델로 인한 경쟁 구도 변화

Slide 66

Slide 66 text

• 소규모 파운데이션 모델 가중치 공개 – 2B~13B 사이의 모델 가중치 공개 – KT, 롯데정보통신, 카카오 등 – ETRI등의 실험 공개 모델 가중치: 받으려고 가서 약관 동의하며 읽어보면 사실상 비공개 모델임 – 파인튜닝 고도화 사례: SOLAR (업스테이지, 2023) ✓ Llama2 7B 모델 구조에 레이어 머지로 크기 증강 및 Mistral 결합 • 주로 대기업 또는 계열사의 모델 – 사업적 목표가 있으므로 적정 성능 모델만 공개 ✓ (사실 Llama 가 Meta도 원치 않게 얻어 걸린 케이스…) 국내 소규모 파운데이션 모델 공개 가중치들 https://arxiv.org/abs/2310.07704v1

Slide 67

Slide 67 text

한국어 오픈 LLM 만들기: 기브 미 쪼꼬렛

Slide 68

Slide 68 text

• BERT부터 Polyglot까지 – 90M 에서 12800M (12.8B)까지 – 약 142배의 크기 증가 • 비공개 LLM – ExaONE, HyperClova 등 – 1.3B ~ 300B – 특이사례: Mi:dm (KT, 2023)의 경우 ✓ 위와 다르게 스몰 모델 가중치를 공개함 한국어 오픈 LLM 역사 모델 개발 학습 데이터 토크나이저 Vocab Params KorBERT ETRI 뉴스,백과사전 23GB Morphology, WordPiece 30,349 30797 110M KoBERT SKT 위키피디아 50M SentencePiece 8.002 92M HanBERT 투블럭AI 일반,특허문서 70GB Moran 54,000 128M KoreALBERT 삼성 SDS 위키피디아 책줄거리요약등 43GB SentencePiece 32,000 12M 18M KLUE-BERT KLUE project 모두의말뭉치 CC-100-kor 나무위키 등 63GB Morpheme-based subword 32,000 111M KRBERT 서울대 위키피디아 뉴스 WordPiece 16,424 (Char) 12,367 (subchar) 99M(ch) 96M(sb) DistillKoBERT 박장원 위키피디아 나무위키 뉴스 등 SentencePiece 30,522 27.8M KoBERT 이준범 네이버 뉴스의 댓글/대댓글 WordPiece 30,000 109M KoELECTRA 이준범 네이버뉴스의 댓글/대댓글 WordPiece 3,000 124M KoBigBird 박장원 위키피디아 뉴스 모두의말뭉치 Common Crawl WordPirce 23,500 113.8M KoGPT2 SKT 위키피디아 네이버영화리뷰 한국어CommonCrawl 152M Character BPE 51,200 125M KoGPTTrinity SKT ko-DATA dataset 1.2B 51,200 1.1B KoGPT kakaobrain 200B 64,512 6B KoBART SKT 위키피디아 0.27B Charater BPE 30,000 124M KE-T5 KETI 한국어,영어데이터 30GB SentencePiece 64,000 247M L3M 래블업 위키피디아 모두의말뭉치 뉴스 등 SentencePiece 54,000 300M~1B ET5 ETRI 위키피디아등 136B SentencePiece 45,100 60M Polyglot-ko ElutherAI 오픈 데이터 등 (863GB) Unicode Text Segmentation 30,003 3.8B~12.8B

Slide 69

Slide 69 text

소프트웨어 구성 요소들 말뭉치 일반 언어 말뭉치 지식베이스 목적 지향적 말뭉치 믹서 토크나이저 영어 한국어 형태소/의미론적 분석기 런타임 분산처리 실행기 실험 및 훈련 모니터링 시스템

Slide 70

Slide 70 text

• 말뭉치 Corpus – 텍스트 데이터 – 형식 ✓ 일반 텍스트 데이터 ✓ 질문 / 답변 텍스트 데이터 ✓ 비논리적 텍스트 데이터 (훈련용) • 일반 텍스트 데이터 – 태깅 없는 데이터를 어떻게 훈련에 쓰나요? ✓ 문장 데이터의 구조만으로도 훈련이 됨 – 언어 모델의 훈련 ✓ “문장”이 어떻게 만들어지는지 이해하는 것 ✓ “문맥”에 맞거나 안 맞는 표현 / 형식 / 단어에 대해 학습하는 것 말뭉치

Slide 71

Slide 71 text

• 공개 학습 말뭉치 데이터 – “The Pile” – 위키백과 – 한국 뉴스 데이터 – 나무위키 데이터 – 영화 리뷰 데이터 – 모두의 말뭉치 – 청와대 국민청원 데이터 – KcBert 데이터 – 한국 블로그 데이터 – CC-100-Kor – 혐오 발언 데이터 – AIHub 태스크 데이터 – 한국어 사전 데이터 – 등등… 한국어 오픈 LLM: 훈련용 공개 데이터 • 문제 – 말뭉치 데이터의 부족 ✓ 다 긁어 모아봐도 (The Pile 빼면) 1TB가 안 됨 ✓ 비공개 데이터를 추가해야 1TB를 넘길 수 있음 – 데이터 전처리 부족 ✓ 전처리가 제대로 된 공개 데이터가 없음 ✓ 전처리의 예 • 문법상 오류 제거 • 익명화 적용 • 포맷 오류 교정 ✓ 수동으로 전처리를 해야 함 • 그런데 이걸 백 명이면 백 명이 다 하고 있음 ✓ 전처리된 데이터를 재배포하는 경우가 없음 • 라이선스 문제일 때도 있고 • 그냥 열심히 한 것이 아쉬워서 못할 때도 있음

Slide 72

Slide 72 text

• 문장을 원하는 단위로 쪼개는 전처리 도구 • 토큰: 텍스트를 벡터화한 단위 – 의미론적 단위로 쪼갠 후 인덱스에 대응 – 자주 보는 토큰: 형태소 • 한국어의 특징 – 교착어: 여러 형태소가 하나의 어절을 구성함 – 어순: 라틴어 계열의 언어와 동사-목적어의 어순이 반대임 – 조사: 문장 구성 요소간의 관계가 조사를 통해 정의됨 – 어미 변화의 역동성: 동사 및 형용사의 어미가 다양하게 변주됨. 시제, 상태, 존댓말 등 한국어 오픈 LLM: 토크나이저

Slide 73

Slide 73 text

• 1세대: 형태소 기반의 토크나이저 – Khaiii, Komoran, Mecab, kkma 등 형태소 분석기들 – Java로 작성된 구현체가 많음 • 서브워드 토크나이저 – 글자 단위로 쪼개는게 아니라 더 낮은 단계에서 쪼개는 방식 • Unicode Text Segmentation – 유니코드 텍스트를 시퀀스 레벨에서 쪼개는 방식 – 주의: 한국어의 경우 문제가 있음 ✓ 캐릭터 셋 안에 완성형과 조합형이 전부 들어 있음 ✓ (특히 오래된) 소스 데이터의 특징에 따라, 동일한 단어가 다른 유니코드 시퀀스로 표현되는 경우들이 다수 존재 ✓ 미리 한가지 방식을 쓰도록 변환해야 함 한국어 오픈 LLM: 토크나이저 • 2세대: 형태소 분석 없는 통계 기반의 토크나이저 – De Facto: SentencePiece ✓ 통계 기반의 BPE 나 Unigram LMT중 골라 쓸 수 있는 토크나이저 (Google) ✓ 둘다 서브워드 토크나이징이라 한국어에서 잘 동작함 • 고민되면 BPE를 씁시다. – tiktoken ✓ OpenAI의 토크나이저 ✓ Byte level BPE 사용 • Unicode 시퀀스를 기준으로 통계적 토크나이징 적용 – tokenizers ✓ Hugging Face의 토크나이저

Slide 74

Slide 74 text

• 보통 여기서 답이 없음 – 충분히 빠른 (A100 이상의) GPU들 – GPU-GPU 초고속 네트워크로 상호 연결된 환경 – 몇 백 대 필요 • 그럼 polyglot-ko 등의 큰 모델은? – 돈 많은 외국 형님 – Google, stability.ai, … – 한국 형님은 아직 없… 한국어 오픈 LLM: 연산 자원

Slide 75

Slide 75 text

발렌타인 데이는 올 것인가

Slide 76

Slide 76 text

No content

Slide 77

Slide 77 text

• “우리가 Llama 1 65B를 만들겠다!” – 모든게 준비된 상태에서 final training 을 하는 경우 – Llama1: NVIDIA A100 x 2048장 x 21일 – 클라우드 요금 (AWS 기준) ✓ p4d.24xlarge: A100x8, 96CPU • 월간 $32,679.71 = 4369만원 (2024년 3월 1일 기준) • 21일이면 3276만원 ✓ 256개의 p4d.24xlarge 인스턴스 사용 ✓ = 83억 8656만원 • 엄머나… – 스토리지 등등 이것저것 하면 대략 100억원 – 메타가 공개한 비용은 대략 300억원 정도 ✓ 인건비, 자원 운영비, 연구용 자원비 등등… – 그런데 어떻게 보면 또 할 만 하다? ✓ 클라우드 업프론트 기준이기도 하니 싸질 수 있고 ✓ GPU가 모자라면 더 오래 돌리면 되기도 하고 ✓ 그럼 Llama 2 70B는? 그럼 일단 비용을 계산해보자

Slide 78

Slide 78 text

• 단순 계산해보기 – Llama 1/2 훈련 시간 비: 1.02:1.72 – = 141억 4204만원 – 이래저래 생각하면 대략 200억원 • 물론 – 이상적인 경우에 이렇다는 것임 – 실제로는 ✓ 인프라스트럭처 플랫폼 및 엔지니어 ✓ 충분한 데이터 ✓ 랜덤신의 가호 – 가 모두 갖춰져야 가능함 Llama2를 훈련하는데 드는 비용 [1] https://medium.com/codenlp/the-training-time-of-the-foundation-models-from-scratch-59bbce90cc87

Slide 79

Slide 79 text

딥 러닝: 오픈소스에서 피어난 분야 • 기술 발전 – 웹 분야만큼 빠른 변화 – Theano, TensorFlow, PyTorch… • 문화 – “Talk is cheap. Show me the code” • 리더십 – “Attention is all you need”

Slide 80

Slide 80 text

오픈소스 언어 모델을 위해 • 오픈소스 – 다수의 기여자가 혁신을 만드는 과정의 체계화 • AI: 자본에 치우친 역학 구조를 벗어나기 – 연산 자원 비용을 낮춰 자본 의존도를 줄이기 – 다수의 연산 자원을 집적하기 – 복잡한 딥 러닝 기술 스택을 단순화하기 – 등등… • 숙제 – 자본 제약 없는 동일한 AI 접근성을 어떻게 보장할 것인가? – 노력해야 하는 일인가 기다리면 되는 일인가?

Slide 81

Slide 81 text

• 굳이? • 스케일 전쟁 • 반란군 또는 딸깍발이 • 기브 미 쪼꼬렛 • 발렌타인 데이는 올 것인가 요약

Slide 82

Slide 82 text

• MWC 2024 – 작년에 갔을 때는 조용했는데 올해는 사방팔방 AI 이야기 – 소버린 AI가 지배한 현장의 담론 ✓ 정말 필요해서 담론을 형성하고 있는 것일까 ✓ 아니면 그렇게라도 헤게모니를 잡아야 해서 그런것일까 • 확실한 미래 – AGI와 sLLM의 간극 – 저렴해지는 연산 자원 – 알고리즘과 우리 이해의 발전 • 자본의 역학과 오픈소스 모델의 중요성 – 위험성과 가능성 – 미래같지 않은 미래 마치며

Slide 83

Slide 83 text

벌써 발표 끝이야…

Slide 84

Slide 84 text

Thank you! [email protected] https://www.facebook.com/lablupInc Lablup Inc. https://www.lablup.com Backend.AI https://www.backend.ai Backend.AI GitHub https://github.com/lablup/backend.ai Backend.AI Cloud https://cloud.backend.ai