Tokenisierung | Learn AI

Was ist Tokenisierung?

Tokenisierung ist der Prozess der Umwandlung von Rohtext in eine Sequenz von Tokens – die Grundeinheiten, die LLMs verarbeiten. Tokens können Wörter, Teilwörter oder sogar einzelne Zeichen sein, abhängig vom Tokenizer.

Warum Tokenisierung wichtig ist

Das Verständnis der Tokenisierung ist entscheidend, da sie direkt die Kontextgrenzen, Kosten und das Modellverhalten beeinflusst. Derselbe Text kann je nach Modell sehr unterschiedliche Token-Anzahlen haben.

Wie es funktioniert

Die meisten modernen LLMs verwenden Subword-Tokenisierungsalgorithmen wie BPE (Byte Pair Encoding) oder SentencePiece. Diese Algorithmen lernen häufige Zeichenfolgen aus Trainingsdaten.

Byte Pair Encoding (BPE)

BPE fügt iterativ die häufigsten Zeichenpaare zu einzelnen Tokens zusammen. Häufige Wörter werden zu einzelnen Tokens, während seltene Wörter in Teilwörter aufgeteilt werden.

Token-Typen

Ganze Wörter

Häufige Wörter wie "the", "and", "is" sind oft einzelne Tokens.

Teilwörter

Weniger häufige Wörter werden aufgeteilt: "unhappiness" → "un" + "happiness".

Spezielle Tokens

Markierungen wie <|endoftext|> oder [CLS] zur Modellsteürung.

🔤

Interaktive Demo

Tippe Text ein, um zu sehen, wie er tokenisiert wird

Text zum Tokenisieren eingeben

Der schnelle braune Fuchs springt über den faulen Hund.

o200k_baseGPT-4o / GPT-4.1 tokenizer

Tokens

Zeichen

Tokens pro Zeichen

Token-Aufschlüsselung

Häufige Tokens sind einzelne Teile

·space↵newline→tab·wordleading space

Häufige Tokens sind einzelne Teile

Seltene Wörter werden in Teilwörter aufgeteilt

Kostenauswirkungen

API-Preise basieren typischerweise auf Tokens. Effiziente Prompts verwenden weniger Tokens.

Wichtige Erkenntnisse

1Tokens sind die atomaren Einheiten, die LLMs verarbeiten – nicht Zeichen oder Wörter
2Verschiedene Modelle haben verschiedene Tokenizer und Vokabulare
3Nicht-englischer Text und Code verwenden oft mehr Tokens als Englisch
4Die Token-Anzahl beeinflusst direkt die Kosten und die Nutzung des Kontextfensters