Zeichen, Wörter oder Teile von Wörtern je nach verwendeter Tokenisierung und Sprache 100 Tokens ~= 75 Wörter Byte Pair Encoding Algorithmus Token ID Eindeutige ID eines Token werden im Vokabular gespeichert – Liste aller Tokens, die das Modell kennt GPT-3: ca. 50k Tokens Limits Einschränkung für Input und Output Tokens GPT-3: 4096 Tokens GPT-4: 8096 Tokens/32K Parameter Gewichte & Schwellenwerte GPT-1: 117 Millionen GPT-2: 1,5 Milliarden GPT-3: 175 Milliarden GPT-4: 170 Billionen Embeddings Vektoren: Liste von 200+ Dimensionen Fließkommazahlen mit denen das Modell rechnet