Was ist Tokenisierung?
Tokenisierung ist der Prozess der Umwandlung von Rohtext in eine Sequenz von Tokens – die Grundeinheiten, die LLMs verarbeiten. Tokens können Wörter, Teilwörter oder sogar einzelne Zeichen sein, abhängig vom Tokenizer.
Warum Tokenisierung wichtig ist
Das Verständnis der Tokenisierung ist entscheidend, da sie direkt die Kontextgrenzen, Kosten und das Modellverhalten beeinflusst. Derselbe Text kann je nach Modell sehr unterschiedliche Token-Anzahlen haben.
Wie es funktioniert
Die meisten modernen LLMs verwenden Subword-Tokenisierungsalgorithmen wie BPE (Byte Pair Encoding) oder SentencePiece. Diese Algorithmen lernen häufige Zeichenfolgen aus Trainingsdaten.
Byte Pair Encoding (BPE)
BPE fügt iterativ die häufigsten Zeichenpaare zu einzelnen Tokens zusammen. Häufige Wörter werden zu einzelnen Tokens, während seltene Wörter in Teilwörter aufgeteilt werden.
Token-Typen
Ganze Wörter
Häufige Wörter wie "the", "and", "is" sind oft einzelne Tokens.
Teilwörter
Weniger häufige Wörter werden aufgeteilt: "unhappiness" → "un" + "happiness".
Spezielle Tokens
Markierungen wie <|endoftext|> oder [CLS] zur Modellsteürung.
Interaktive Demo
Tippe Text ein, um zu sehen, wie er tokenisiert wird
Text zum Tokenisieren eingeben
Der schnelle braune Fuchs springt über den faulen Hund.
Tokens
Zeichen
Tokens pro Zeichen
Token-Aufschlüsselung
Häufige Tokens sind einzelne Teile
Häufige Tokens sind einzelne Teile
Seltene Wörter werden in Teilwörter aufgeteilt
Kostenauswirkungen
API-Preise basieren typischerweise auf Tokens. Effiziente Prompts verwenden weniger Tokens.
Wichtige Erkenntnisse
- 1Tokens sind die atomaren Einheiten, die LLMs verarbeiten – nicht Zeichen oder Wörter
- 2Verschiedene Modelle haben verschiedene Tokenizer und Vokabulare
- 3Nicht-englischer Text und Code verwenden oft mehr Tokens als Englisch
- 4Die Token-Anzahl beeinflusst direkt die Kosten und die Nutzung des Kontextfensters