Slide 68
Slide 68 text
• BERT부터 Polyglot까지
– 90M 에서 12800M (12.8B)까지
– 약 142배의 크기 증가
• 비공개 LLM
– ExaONE, HyperClova 등
– 1.3B ~ 300B
– 특이사례: Mi:dm (KT, 2023)의 경우
✓ 위와 다르게 스몰 모델 가중치를 공개함
한국어 오픈 LLM 역사
모델 개발 학습 데이터 토크나이저 Vocab Params
KorBERT ETRI 뉴스,백과사전 23GB
Morphology,
WordPiece
30,349
30797
110M
KoBERT SKT 위키피디아
50M
SentencePiece 8.002 92M
HanBERT 투블럭AI 일반,특허문서
70GB
Moran 54,000 128M
KoreALBERT 삼성 SDS
위키피디아
책줄거리요약등
43GB
SentencePiece 32,000
12M
18M
KLUE-BERT KLUE project
모두의말뭉치
CC-100-kor
나무위키 등
63GB
Morpheme-based
subword
32,000 111M
KRBERT 서울대 위키피디아
뉴스
WordPiece
16,424 (Char)
12,367 (subchar)
99M(ch)
96M(sb)
DistillKoBERT 박장원
위키피디아
나무위키
뉴스 등
SentencePiece 30,522 27.8M
KoBERT 이준범 네이버 뉴스의 댓글/대댓글 WordPiece 30,000 109M
KoELECTRA 이준범 네이버뉴스의 댓글/대댓글 WordPiece 3,000 124M
KoBigBird 박장원
위키피디아
뉴스
모두의말뭉치
Common Crawl
WordPirce 23,500 113.8M
KoGPT2 SKT
위키피디아
네이버영화리뷰
한국어CommonCrawl
152M
Character BPE 51,200 125M
KoGPTTrinity SKT ko-DATA dataset
1.2B
51,200 1.1B
KoGPT kakaobrain 200B 64,512 6B
KoBART SKT 위키피디아 0.27B Charater BPE 30,000 124M
KE-T5 KETI 한국어,영어데이터
30GB
SentencePiece 64,000 247M
L3M 래블업
위키피디아
모두의말뭉치
뉴스 등
SentencePiece 54,000 300M~1B
ET5 ETRI 위키피디아등
136B
SentencePiece 45,100 60M
Polyglot-ko ElutherAI 오픈 데이터 등
(863GB)
Unicode Text
Segmentation
30,003 3.8B~12.8B