Transformer-Architektur

Intermediate

Die grundlegende Architektur hinter GPT, BERT und allen modernen grossen Sprachmodellen.

Zuletzt aktualisiert: 9. Feb. 2026

Was ist der Transformer?

Der Transformer ist eine neuronale Netzwerkarchitektur, die 2017 im bahnbrechenden Paper "Attention is All You Need" von Vaswani et al. vorgestellt wurde. Er ersetzte rekurrente und konvolutionale Ansätze durch einen rein aufmerksamkeitsbasierten Mechanismus, der massive Parallelisierung beim Training ermöglicht und weitreichende Abhängigkeiten weit effektiver erfasst. Nahezu jedes moderne grosse Sprachmodell -- GPT, BERT, LLaMA, Claude -- basiert auf dem Transformer.

“Attention is all you need.”

-- Vaswani et al., "Attention Is All You Need" (2017, Google Brain)

LLM-Visualisierung von Brendan Bycroft

Die beste interaktive 3D-Visualisierung von Transformer-Interna. Erkunde Schritt für Schritt, Parameter für Parameter, wie GPT-artige Modelle Tokens durch Embedding-, Attention- und Feed-Forward-Schichten verarbeiten. Sehr empfehlenswert.

3D InteractiveBy Brendan Bycroftbbycroft.net/llm

Transformer-Schichtstapel

Ein Transformer besteht aus einem Stapel identischer Schichten. Klicke durch jede Komponente, um ihre Rolle und den Datenfluss zu verstehen.

Schicht-für-Schicht-Explorer

Klicke auf jede Schicht, um ihre Rolle zu sehen

Schichten 3-6 wiederholen sich N-mal

Eingabe-Embedding

Wandelt jedes Eingabe-Token (eine ganzzahlige ID) in einen dichten Vektor der Dimension d_model um. Diese gelernte Nachschlagetabelle ist die Vokabulardarstellung des Modells.

The
cat
sat

Jede Token-ID wird auf einen gelernten dichten Vektor abgebildet

Architekturvarianten

Der ursprüngliche Transformer verwendet Encoder und Decoder. Moderne Modelle nutzen oft nur eines. Vergleiche die drei Hauptvarianten.

Encoder-Decoder-Varianten

Umschalten zum Vergleichen

Encoder
Self-Attention
Add & Norm
FFN
Add & Norm
Cross-Attention
Decoder
Masked Self-Attn
Cross-Attention
Add & Norm
FFN
Add & Norm

Beispielmodelle:

T5BARTmBART

Die ursprüngliche Architektur. Der Encoder verarbeitet die Eingabe bidirektional, der Decoder generiert Token für Token mit Cross-Attention. Verwendet für Übersetzung und Zusammenfassung.

Token-Datenfluss

Folge einem einzelnen Token durch die gesamte Transformer-Pipeline, von Rohtext bis zur Ausgabewahrscheinlichkeit. Beobachte, wie sich die Tensorform bei jedem Schritt ändert.

Schritt-für-Schritt-Datenfluss

Abspielen oder durch die Pipeline scrubben

1
Tokenisieren
Rohtext wird mittels BPE in Token-IDs aufgeteilt. Jedes Token wird einer Ganzzahl zugeordnet.
[batch, seq_len]
2
Einbetten
[batch, seq_len, d_model]
3
Position hinzufügen
[batch, seq_len, d_model]
4
Attention berechnen
[batch, heads, seq_len, seq_len]
5
Attention-Ausgabe
[batch, seq_len, d_model]
6
Feed-Forward
[batch, seq_len, d_ff]
7
FFN-Ausgabe
[batch, seq_len, d_model]
8
Ausgabe-Logits
[batch, seq_len, vocab_size]
TokenisierenAusgabe-Logits

Schlüsselkonzepte

Residualverbindungen

Skip-Connections, die den Input jeder Teilschicht direkt zu deren Output addieren. Sie lösen das Vanishing-Gradient-Problem und ermöglichen das Training sehr tiefer Netzwerke.

Layer-Normalisierung

Normalisiert Aktivierungen über die Feature-Dimension zur Stabilisierung des Trainings. Pre-Norm (vor der Teilschicht normalisieren) ist in modernen Architekturen gängiger geworden.

Positionale Kodierung

Da Attention keine inhärente Ordnungsvorstellung hat, muss Position explizit injiziert werden. Das Original-Paper verwendete sinusförmige Funktionen; moderne Modelle nutzen gelernte oder relative Positionskodierungen wie RoPE.

Warum es wichtig ist

Die Transformer-Architektur ist wohl die wirkungsvollste Innovation in der KI des letzten Jahrzehnts. Sie hat die Skalierungsgesetze freigeschaltet, die moderne LLMs möglich machen.

  • 1Der Transformer ersetzte RNNs und LSTMs durch vollständige Parallelisierung beim Training und reduzierte Trainingszeiten von Wochen auf Tage
  • 2Sein Attention-Mechanismus erfasst weitreichende Abhängigkeiten, mit denen sequentielle Modelle kämpften
  • 3Die Architektur skaliert bemerkenswert gut -- von 100M-Parameter-BERT bis 1,8T-Parameter-GPT-4 verbessert sich die Leistung vorhersagbar mit der Größe
  • 4Jedes grosse LLM heute (GPT, Claude, Gemini, LLaMA, Mistral) basiert auf dem Transformer und macht ihn zum Fundament moderner KI