Wie LLMs trainiert werden
Große Sprachmodelle durchlaufen mehrere Trainingsphasen, jede mit unterschiedlichen Zielen und Techniken. Das Verständnis dieser Pipeline ist entscheidend für das Verständnis der Modellfähigkeiten und -einschränkungen.
Der Trainingsprozess formt grundlegend, was LLMs können und was nicht. Verschiedene Trainingsansätze produzieren Modelle mit unterschiedlichen Stärken, Schwächen und Verhaltensweisen.
Interaktive Trainingspipeline
Erkunden Sie die vollständige LLM-Trainingspipeline von der Datensammlung bis zur Bereitstellung. Klicken Sie auf eine beliebige Stufe, um detaillierte Informationen über Datenanforderungen, Rechenkosten und Zeitpläne zu erhalten.
Modern LLM Training Pipeline
Click any stage to see details · Total pipeline: 3-12 months, $5M-$300M+
Real-World Examples
Vollständige Trainingspipeline (8 Stufen)
Modernes LLM-Training umfasst 8 Hauptstufen, jede mit unterschiedlichen Zielen, Datenanforderungen und Rechenkosten. Das Verständnis dieser Pipeline ist entscheidend, um die Komplexität und Kosten des Trainings von Frontier-Modellen zu erfassen.
Datensammlung & Kuration
Sammeln massiver Textkorpora aus vielfältigen Quellen einschließlich Web-Crawls, Büchern, Code-Repositories und wissenschaftlichen Papers.
Datenbereinigung & Deduplizierung
Duplikate entfernen, minderwertige Inhalte filtern, Sprachen erkennen, PII entfernen und Formatierung normalisieren.
Tokenisierung
Bereinigten Text in numerische Token-Sequenzen mit BPE, SentencePiece oder Unigram-Tokenizern konvertieren.
Pre-training
Das Basismodell auf Billionen von Tokens mit Next-Token-Prediction-Ziel trainieren. Dies ist die teürste und rechenintensivste Stufe.
Supervised Fine-Tuning (SFT)
Das Basismodell auf kuratierten Anweisung-Antwort-Paaren feintunen, um ihm beizubringen, Anweisungen zu befolgen und hilfreich zu antworten.
RLHF / Präferenz-Tuning
Modellausgaben mit menschlichen Präferenzen durch Reinforcement Learning (PPO) oder Direct Preference Optimization (DPO) alignieren.
Sicherheit & Evaluation
Red-Team das Modell, führe adversarielle Tests durch, wende Constitutional AI-Prinzipien an und benchmarke auf Standard-Evaluations-Suites.
Bereitstellungsoptimierung
Das Modell für Produktions-Deployment durch Quantisierung, Destillation und Inferenz-Infrastruktur-Setup optimieren.
DPO vs RLHF: Ein tiefgreifender Vergleich
Direct Preference Optimization (DPO) und Reinforcement Learning from Human Feedback (RLHF) sind die zwei dominanten Ansätze zur Alignierung von LLMs mit menschlichen Präferenzen. Das Verständnis ihrer Unterschiede ist entscheidend für die Wahl der richtigen Technik.
RLHF: Der traditionelle Ansatz
RLHF verwendet ein separates Reward-Modell, das auf menschlichen Präferenzen trainiert wird, und optimiert dann das LLM mit Reinforcement Learning (typischerweise PPO), um diese Belohnung zu maximieren.
1. Schritt 1: Präferenzen sammeln
2. Schritt 2: Reward-Modell trainieren
3. Schritt 3: RL-Optimierung
DPO: Die vereinfachte Alternative
DPO überspringt das Reward-Modell vollständig und optimiert das LLM direkt auf Präferenzdaten durch eine clevere mathematische Umformulierung.
1. Schritt 1: Präferenzen sammeln
2. Schritt 2: Direkte Optimierung
3. Schritt 3: Kein RL erforderlich
GRPO: Group Relative Policy Optimization
GRPO ist eine von DeepSeek entwickelte Alignment-Technik, die relative Rankings innerhalb von Antwortgruppen verwendet und dabei die Notwendigkeit eines separaten Reward-Modells eliminiert, während die Trainingsstabilität erhalten bleibt.
1. Antwortgruppe generieren
2. Innerhalb der Gruppe ranken
3. Relatives Gradienten-Update
Direkter Vergleich
| Aspekt | RLHF | DPO |
|---|---|---|
| Komplexität | Hoch: erfordert Reward-Modell + RL-Training | Niedrig: einstufiges Supervised Learning |
| Reward-Modell | Erforderlich (separates neuronales Netzwerk) | Nicht benötigt (implizit in der Verlustfunktion) |
| Trainingsstabilität | Kann instabil sein, erfordert sorgfältiges Tuning | Generell stabiler und vorhersagbarer |
| Verwendet von | GPT-4, Claude, frühe Llama-Modelle | Llama 3, Zephyr, viele Open-Source-Modelle |
Wichtige Erkenntnisse
- 1LLM-Training hat distinkte Stufen: Pretraining → SFT → RLHF → spezialisiertes Alignment
- 2Das RL-Paradigma (z.B. DeepSeek R1-Zero) zeigt, dass Denken aus reinem RL ohne menschliche Demonstrationen entstehen kann
- 3RLHF aligniert Modelle mit menschlichen Präferenzen; reines RL optimiert für verifizierbare Ergebnisse
- 4Moderne Modelle kombinieren oft mehrere Techniken: SFT für Anweisungsbefolgung, RLHF für Präferenzen, RL für Denken
- 5Das Verständnis der Trainingspipeline hilft, Modellverhalten und -einschränkungen zu verstehen
- 6Das Feld entwickelt sich schnell – neue Paradigmen wie reines RL verändern, wie wir über Training denken