Transformer-Architektur

Was ist der Transformer?

Der Transformer ist eine neuronale Netzwerkarchitektur, die 2017 im bahnbrechenden Paper "Attention is All You Need" von Vaswani et al. vorgestellt wurde. Er ersetzte rekurrente und konvolutionale Ansätze durch einen rein aufmerksamkeitsbasierten Mechanismus, der massive Parallelisierung beim Training ermöglicht und weitreichende Abhängigkeiten weit effektiver erfasst. Nahezu jedes moderne grosse Sprachmodell -- GPT, BERT, LLaMA, Claude -- basiert auf dem Transformer.

“Attention is all you need.”

-- Vaswani et al., "Attention Is All You Need" (2017, Google Brain)

Transformer-Schichtstapel

Ein Transformer besteht aus einem Stapel identischer Schichten. Klicke durch jede Komponente, um ihre Rolle und den Datenfluss zu verstehen.

Schicht-für-Schicht-Explorer

Klicke auf jede Schicht, um ihre Rolle zu sehen

Schichten 3-6 wiederholen sich N-mal

Eingabe-Embedding

Wandelt jedes Eingabe-Token (eine ganzzahlige ID) in einen dichten Vektor der Dimension d_model um. Diese gelernte Nachschlagetabelle ist die Vokabulardarstellung des Modells.

The

cat

sat

Jede Token-ID wird auf einen gelernten dichten Vektor abgebildet

Architekturvarianten

Der ursprüngliche Transformer verwendet Encoder und Decoder. Moderne Modelle nutzen oft nur eines. Vergleiche die drei Hauptvarianten.

Encoder-Decoder-Varianten

Umschalten zum Vergleichen

Encoder

Self-Attention

Add & Norm

FFN

Add & Norm

Cross-Attention

Decoder

Masked Self-Attn

Cross-Attention

Add & Norm

FFN

Add & Norm

Beispielmodelle:

T5BARTmBART

Die ursprüngliche Architektur. Der Encoder verarbeitet die Eingabe bidirektional, der Decoder generiert Token für Token mit Cross-Attention. Verwendet für Übersetzung und Zusammenfassung.

Token-Datenfluss

Folge einem einzelnen Token durch die gesamte Transformer-Pipeline, von Rohtext bis zur Ausgabewahrscheinlichkeit. Beobachte, wie sich die Tensorform bei jedem Schritt ändert.

Schritt-für-Schritt-Datenfluss

Abspielen oder durch die Pipeline scrubben

Tokenisieren

Rohtext wird mittels BPE in Token-IDs aufgeteilt. Jedes Token wird einer Ganzzahl zugeordnet.

[batch, seq_len]

Einbetten

[batch, seq_len, d_model]

Position hinzufügen

[batch, seq_len, d_model]

Attention berechnen

[batch, heads, seq_len, seq_len]

Attention-Ausgabe

[batch, seq_len, d_model]

Feed-Forward

[batch, seq_len, d_ff]

FFN-Ausgabe

[batch, seq_len, d_model]

Ausgabe-Logits

[batch, seq_len, vocab_size]

TokenisierenAusgabe-Logits

Schlüsselkonzepte

Residualverbindungen

Skip-Connections, die den Input jeder Teilschicht direkt zu deren Output addieren. Sie lösen das Vanishing-Gradient-Problem und ermöglichen das Training sehr tiefer Netzwerke.

Layer-Normalisierung

Normalisiert Aktivierungen über die Feature-Dimension zur Stabilisierung des Trainings. Pre-Norm (vor der Teilschicht normalisieren) ist in modernen Architekturen gängiger geworden.

Positionale Kodierung

Da Attention keine inhärente Ordnungsvorstellung hat, muss Position explizit injiziert werden. Das Original-Paper verwendete sinusförmige Funktionen; moderne Modelle nutzen gelernte oder relative Positionskodierungen wie RoPE.

Warum es wichtig ist

Die Transformer-Architektur ist wohl die wirkungsvollste Innovation in der KI des letzten Jahrzehnts. Sie hat die Skalierungsgesetze freigeschaltet, die moderne LLMs möglich machen.

1Der Transformer ersetzte RNNs und LSTMs durch vollständige Parallelisierung beim Training und reduzierte Trainingszeiten von Wochen auf Tage
2Sein Attention-Mechanismus erfasst weitreichende Abhängigkeiten, mit denen sequentielle Modelle kämpften
3Die Architektur skaliert bemerkenswert gut -- von 100M-Parameter-BERT bis 1,8T-Parameter-GPT-4 verbessert sich die Leistung vorhersagbar mit der Größe
4Jedes grosse LLM heute (GPT, Claude, Gemini, LLaMA, Mistral) basiert auf dem Transformer und macht ihn zum Fundament moderner KI

Was ist der Transformer?

LLM-Visualisierung von Brendan Bycroft

Transformer-Schichtstapel

Schicht-für-Schicht-Explorer

Eingabe-Embedding

Architekturvarianten

Encoder-Decoder-Varianten

Token-Datenfluss

Schritt-für-Schritt-Datenfluss

Schlüsselkonzepte

Residualverbindungen

Layer-Normalisierung

Positionale Kodierung

Warum es wichtig ist