Slide 4
Slide 4 text
TOKENIZATION
Tokens
Text
Token IDs
Tokens
▪ einzelne Zeichen, Wörter oder
Teile von Wörtern
▪ je nach verwendeter
Tokenisierung und Sprache
▪ 100 Tokens ~= 75 Wörter
▪ Byte Pair Encoding Algorithmus
Token ID
▪ Eindeutige ID eines Token
▪ werden im Vokabular
gespeichert
▪ Liste, die alle Tokens
enthält, die das Modell
kennt
▪ GPT-3: ca. 50k Tokens
Limits
▪ Einschränkung für Input
und Output Tokens
▪ GPT-3: 4096 Tokens
▪ GPT-4: 8096 Tokens
Parameter
▪ Gewichte & Schwellenwerte
▪ GPT-1: 117 Millionen
▪ GPT-2: 1,5 Milliarden
▪ GPT-3: 175 Milliarden
▪ GPT-4: 170 Billionen