LLM-Training

Wie LLMs trainiert werden

Große Sprachmodelle durchlaufen mehrere Trainingsphasen, jede mit unterschiedlichen Zielen und Techniken. Das Verständnis dieser Pipeline ist entscheidend für das Verständnis der Modellfähigkeiten und -einschränkungen.

Der Trainingsprozess formt grundlegend, was LLMs können und was nicht. Verschiedene Trainingsansätze produzieren Modelle mit unterschiedlichen Stärken, Schwächen und Verhaltensweisen.

Interaktive Trainingspipeline

Erkunden Sie die vollständige LLM-Trainingspipeline von der Datensammlung bis zur Bereitstellung. Klicken Sie auf eine beliebige Stufe, um detaillierte Informationen über Datenanforderungen, Rechenkosten und Zeitpläne zu erhalten.

Modern LLM Training Pipeline

Click any stage to see details · Total pipeline: 3-12 months, $5M-$300M+

Real-World Examples

Llama 3 (70B):15 trillion tokens, 24K GPUs (max 16K concurrent), ~$20M pre-training cost

GPT-4:Rumored $100M+ total training cost (pre-training + alignment + infrastructure)

Open-source models:Often skip expensive RLHF, use DPO or synthetic data for alignment (10-100x cheaper)

Vollständige Trainingspipeline (8 Stufen)

Modernes LLM-Training umfasst 8 Hauptstufen, jede mit unterschiedlichen Zielen, Datenanforderungen und Rechenkosten. Das Verständnis dieser Pipeline ist entscheidend, um die Komplexität und Kosten des Trainings von Frontier-Modellen zu erfassen.

Datensammlung & Kuration

Sammeln massiver Textkorpora aus vielfältigen Quellen einschließlich Web-Crawls, Büchern, Code-Repositories und wissenschaftlichen Papers.

Datenbereinigung & Deduplizierung

Duplikate entfernen, minderwertige Inhalte filtern, Sprachen erkennen, PII entfernen und Formatierung normalisieren.

Tokenisierung

Bereinigten Text in numerische Token-Sequenzen mit BPE, SentencePiece oder Unigram-Tokenizern konvertieren.

Pre-training

Das Basismodell auf Billionen von Tokens mit Next-Token-Prediction-Ziel trainieren. Dies ist die teürste und rechenintensivste Stufe.

Supervised Fine-Tuning (SFT)

Das Basismodell auf kuratierten Anweisung-Antwort-Paaren feintunen, um ihm beizubringen, Anweisungen zu befolgen und hilfreich zu antworten.

RLHF / Präferenz-Tuning

Modellausgaben mit menschlichen Präferenzen durch Reinforcement Learning (PPO) oder Direct Preference Optimization (DPO) alignieren.

Sicherheit & Evaluation

Red-Team das Modell, führe adversarielle Tests durch, wende Constitutional AI-Prinzipien an und benchmarke auf Standard-Evaluations-Suites.

Bereitstellungsoptimierung

Das Modell für Produktions-Deployment durch Quantisierung, Destillation und Inferenz-Infrastruktur-Setup optimieren.

DPO vs RLHF: Ein tiefgreifender Vergleich

Direct Preference Optimization (DPO) und Reinforcement Learning from Human Feedback (RLHF) sind die zwei dominanten Ansätze zur Alignierung von LLMs mit menschlichen Präferenzen. Das Verständnis ihrer Unterschiede ist entscheidend für die Wahl der richtigen Technik.

RLHF: Der traditionelle Ansatz

RLHF verwendet ein separates Reward-Modell, das auf menschlichen Präferenzen trainiert wird, und optimiert dann das LLM mit Reinforcement Learning (typischerweise PPO), um diese Belohnung zu maximieren.

1. Schritt 1: Präferenzen sammeln

2. Schritt 2: Reward-Modell trainieren

3. Schritt 3: RL-Optimierung

DPO: Die vereinfachte Alternative

DPO überspringt das Reward-Modell vollständig und optimiert das LLM direkt auf Präferenzdaten durch eine clevere mathematische Umformulierung.

1. Schritt 1: Präferenzen sammeln

2. Schritt 2: Direkte Optimierung

3. Schritt 3: Kein RL erforderlich

GRPO: Group Relative Policy Optimization

GRPO ist eine von DeepSeek entwickelte Alignment-Technik, die relative Rankings innerhalb von Antwortgruppen verwendet und dabei die Notwendigkeit eines separaten Reward-Modells eliminiert, während die Trainingsstabilität erhalten bleibt.

1. Antwortgruppe generieren

2. Innerhalb der Gruppe ranken

3. Relatives Gradienten-Update

Direkter Vergleich

Aspekt	RLHF	DPO
Komplexität	Hoch: erfordert Reward-Modell + RL-Training	Niedrig: einstufiges Supervised Learning
Reward-Modell	Erforderlich (separates neuronales Netzwerk)	Nicht benötigt (implizit in der Verlustfunktion)
Trainingsstabilität	Kann instabil sein, erfordert sorgfältiges Tuning	Generell stabiler und vorhersagbarer
Verwendet von	GPT-4, Claude, frühe Llama-Modelle	Llama 3, Zephyr, viele Open-Source-Modelle

Wichtige Erkenntnisse

1LLM-Training hat distinkte Stufen: Pretraining → SFT → RLHF → spezialisiertes Alignment
2Das RL-Paradigma (z.B. DeepSeek R1-Zero) zeigt, dass Denken aus reinem RL ohne menschliche Demonstrationen entstehen kann
3RLHF aligniert Modelle mit menschlichen Präferenzen; reines RL optimiert für verifizierbare Ergebnisse
4Moderne Modelle kombinieren oft mehrere Techniken: SFT für Anweisungsbefolgung, RLHF für Präferenzen, RL für Denken
5Das Verständnis der Trainingspipeline hilft, Modellverhalten und -einschränkungen zu verstehen
6Das Feld entwickelt sich schnell – neue Paradigmen wie reines RL verändern, wie wir über Training denken

Wie LLMs trainiert werden

Interaktive Trainingspipeline

Modern LLM Training Pipeline

Data Collection

Data Cleaning & Deduplication

Tokenization

Pre-training

Supervised Fine-Tuning

RLHF / Preference Tuning

Safety & Evaluation

Deployment Optimization

Real-World Examples

Vollständige Trainingspipeline (8 Stufen)

Datensammlung & Kuration

Datenbereinigung & Deduplizierung

Tokenisierung

Pre-training

Supervised Fine-Tuning (SFT)

RLHF / Präferenz-Tuning

Sicherheit & Evaluation

Bereitstellungsoptimierung

DPO vs RLHF: Ein tiefgreifender Vergleich

RLHF: Der traditionelle Ansatz

DPO: Die vereinfachte Alternative

GRPO: Group Relative Policy Optimization

Direkter Vergleich

Wichtige Erkenntnisse