LLM-Training

Intermediate

Wie große Sprachmodelle trainiert werden: von Pretraining bis RLHF.

Zuletzt aktualisiert: 29. Jan. 2026

Wie LLMs trainiert werden

Große Sprachmodelle durchlaufen mehrere Trainingsphasen, jede mit unterschiedlichen Zielen und Techniken. Das Verständnis dieser Pipeline ist entscheidend für das Verständnis der Modellfähigkeiten und -einschränkungen.

Der Trainingsprozess formt grundlegend, was LLMs können und was nicht. Verschiedene Trainingsansätze produzieren Modelle mit unterschiedlichen Stärken, Schwächen und Verhaltensweisen.

Interaktive Trainingspipeline

Erkunden Sie die vollständige LLM-Trainingspipeline von der Datensammlung bis zur Bereitstellung. Klicken Sie auf eine beliebige Stufe, um detaillierte Informationen über Datenanforderungen, Rechenkosten und Zeitpläne zu erhalten.

Modern LLM Training Pipeline

Click any stage to see details · Total pipeline: 3-12 months, $5M-$300M+

Real-World Examples

Llama 3 (70B):15 trillion tokens, 24K GPUs (max 16K concurrent), ~$20M pre-training cost
GPT-4:Rumored $100M+ total training cost (pre-training + alignment + infrastructure)
Open-source models:Often skip expensive RLHF, use DPO or synthetic data for alignment (10-100x cheaper)

Vollständige Trainingspipeline (8 Stufen)

Modernes LLM-Training umfasst 8 Hauptstufen, jede mit unterschiedlichen Zielen, Datenanforderungen und Rechenkosten. Das Verständnis dieser Pipeline ist entscheidend, um die Komplexität und Kosten des Trainings von Frontier-Modellen zu erfassen.

1

Datensammlung & Kuration

Sammeln massiver Textkorpora aus vielfältigen Quellen einschließlich Web-Crawls, Büchern, Code-Repositories und wissenschaftlichen Papers.

2

Datenbereinigung & Deduplizierung

Duplikate entfernen, minderwertige Inhalte filtern, Sprachen erkennen, PII entfernen und Formatierung normalisieren.

3

Tokenisierung

Bereinigten Text in numerische Token-Sequenzen mit BPE, SentencePiece oder Unigram-Tokenizern konvertieren.

4

Pre-training

Das Basismodell auf Billionen von Tokens mit Next-Token-Prediction-Ziel trainieren. Dies ist die teürste und rechenintensivste Stufe.

5

Supervised Fine-Tuning (SFT)

Das Basismodell auf kuratierten Anweisung-Antwort-Paaren feintunen, um ihm beizubringen, Anweisungen zu befolgen und hilfreich zu antworten.

6

RLHF / Präferenz-Tuning

Modellausgaben mit menschlichen Präferenzen durch Reinforcement Learning (PPO) oder Direct Preference Optimization (DPO) alignieren.

7

Sicherheit & Evaluation

Red-Team das Modell, führe adversarielle Tests durch, wende Constitutional AI-Prinzipien an und benchmarke auf Standard-Evaluations-Suites.

8

Bereitstellungsoptimierung

Das Modell für Produktions-Deployment durch Quantisierung, Destillation und Inferenz-Infrastruktur-Setup optimieren.

DPO vs RLHF: Ein tiefgreifender Vergleich

Direct Preference Optimization (DPO) und Reinforcement Learning from Human Feedback (RLHF) sind die zwei dominanten Ansätze zur Alignierung von LLMs mit menschlichen Präferenzen. Das Verständnis ihrer Unterschiede ist entscheidend für die Wahl der richtigen Technik.

RLHF: Der traditionelle Ansatz

RLHF verwendet ein separates Reward-Modell, das auf menschlichen Präferenzen trainiert wird, und optimiert dann das LLM mit Reinforcement Learning (typischerweise PPO), um diese Belohnung zu maximieren.

1. Schritt 1: Präferenzen sammeln

2. Schritt 2: Reward-Modell trainieren

3. Schritt 3: RL-Optimierung

DPO: Die vereinfachte Alternative

DPO überspringt das Reward-Modell vollständig und optimiert das LLM direkt auf Präferenzdaten durch eine clevere mathematische Umformulierung.

1. Schritt 1: Präferenzen sammeln

2. Schritt 2: Direkte Optimierung

3. Schritt 3: Kein RL erforderlich

GRPO: Group Relative Policy Optimization

GRPO ist eine von DeepSeek entwickelte Alignment-Technik, die relative Rankings innerhalb von Antwortgruppen verwendet und dabei die Notwendigkeit eines separaten Reward-Modells eliminiert, während die Trainingsstabilität erhalten bleibt.

1. Antwortgruppe generieren

2. Innerhalb der Gruppe ranken

3. Relatives Gradienten-Update

Direkter Vergleich

AspektRLHFDPO
KomplexitätHoch: erfordert Reward-Modell + RL-TrainingNiedrig: einstufiges Supervised Learning
Reward-ModellErforderlich (separates neuronales Netzwerk)Nicht benötigt (implizit in der Verlustfunktion)
TrainingsstabilitätKann instabil sein, erfordert sorgfältiges TuningGenerell stabiler und vorhersagbarer
Verwendet vonGPT-4, Claude, frühe Llama-ModelleLlama 3, Zephyr, viele Open-Source-Modelle

Wichtige Erkenntnisse

  • 1LLM-Training hat distinkte Stufen: Pretraining → SFT → RLHF → spezialisiertes Alignment
  • 2Das RL-Paradigma (z.B. DeepSeek R1-Zero) zeigt, dass Denken aus reinem RL ohne menschliche Demonstrationen entstehen kann
  • 3RLHF aligniert Modelle mit menschlichen Präferenzen; reines RL optimiert für verifizierbare Ergebnisse
  • 4Moderne Modelle kombinieren oft mehrere Techniken: SFT für Anweisungsbefolgung, RLHF für Präferenzen, RL für Denken
  • 5Das Verständnis der Trainingspipeline hilft, Modellverhalten und -einschränkungen zu verstehen
  • 6Das Feld entwickelt sich schnell – neue Paradigmen wie reines RL verändern, wie wir über Training denken