Slide 3
Slide 3 text
TOKENS & EMBEDDINGS
Tokens
Text
Token IDs
Tokens
einzelne Zeichen, Wörter oder
Teile von Wörtern
je nach verwendeter
Tokenisierung und Sprache
100 Tokens ~= 75 Wörter
Byte Pair Encoding Algorithmus
Token ID
Eindeutige ID eines Token
werden im Vokabular
gespeichert – Liste aller
Tokens, die das Modell
kennt
GPT-3: ca. 50k Tokens
Limits
Einschränkung für Input
und Output Tokens
GPT-3: 4096 Tokens
GPT-4: 8096 Tokens/32K
Parameter
Gewichte & Schwellenwerte
GPT-1: 117 Millionen
GPT-2: 1,5 Milliarden
GPT-3: 175 Milliarden
GPT-4: 170 Billionen
Embeddings
Vektoren: Liste von 200+
Dimensionen
Fließkommazahlen mit
denen das Modell rechnet