Was ist der Transformer?
Der Transformer ist eine neuronale Netzwerkarchitektur, die 2017 im bahnbrechenden Paper "Attention is All You Need" von Vaswani et al. vorgestellt wurde. Er ersetzte rekurrente und konvolutionale Ansätze durch einen rein aufmerksamkeitsbasierten Mechanismus, der massive Parallelisierung beim Training ermöglicht und weitreichende Abhängigkeiten weit effektiver erfasst. Nahezu jedes moderne grosse Sprachmodell -- GPT, BERT, LLaMA, Claude -- basiert auf dem Transformer.
“Attention is all you need.”
-- Vaswani et al., "Attention Is All You Need" (2017, Google Brain)
LLM-Visualisierung von Brendan Bycroft
Die beste interaktive 3D-Visualisierung von Transformer-Interna. Erkunde Schritt für Schritt, Parameter für Parameter, wie GPT-artige Modelle Tokens durch Embedding-, Attention- und Feed-Forward-Schichten verarbeiten. Sehr empfehlenswert.
Transformer-Schichtstapel
Ein Transformer besteht aus einem Stapel identischer Schichten. Klicke durch jede Komponente, um ihre Rolle und den Datenfluss zu verstehen.
Schicht-für-Schicht-Explorer
Klicke auf jede Schicht, um ihre Rolle zu sehen
Eingabe-Embedding
Wandelt jedes Eingabe-Token (eine ganzzahlige ID) in einen dichten Vektor der Dimension d_model um. Diese gelernte Nachschlagetabelle ist die Vokabulardarstellung des Modells.
Jede Token-ID wird auf einen gelernten dichten Vektor abgebildet
Architekturvarianten
Der ursprüngliche Transformer verwendet Encoder und Decoder. Moderne Modelle nutzen oft nur eines. Vergleiche die drei Hauptvarianten.
Encoder-Decoder-Varianten
Umschalten zum Vergleichen
Beispielmodelle:
Die ursprüngliche Architektur. Der Encoder verarbeitet die Eingabe bidirektional, der Decoder generiert Token für Token mit Cross-Attention. Verwendet für Übersetzung und Zusammenfassung.
Token-Datenfluss
Folge einem einzelnen Token durch die gesamte Transformer-Pipeline, von Rohtext bis zur Ausgabewahrscheinlichkeit. Beobachte, wie sich die Tensorform bei jedem Schritt ändert.
Schritt-für-Schritt-Datenfluss
Abspielen oder durch die Pipeline scrubben
Schlüsselkonzepte
Residualverbindungen
Skip-Connections, die den Input jeder Teilschicht direkt zu deren Output addieren. Sie lösen das Vanishing-Gradient-Problem und ermöglichen das Training sehr tiefer Netzwerke.
Layer-Normalisierung
Normalisiert Aktivierungen über die Feature-Dimension zur Stabilisierung des Trainings. Pre-Norm (vor der Teilschicht normalisieren) ist in modernen Architekturen gängiger geworden.
Positionale Kodierung
Da Attention keine inhärente Ordnungsvorstellung hat, muss Position explizit injiziert werden. Das Original-Paper verwendete sinusförmige Funktionen; moderne Modelle nutzen gelernte oder relative Positionskodierungen wie RoPE.
Warum es wichtig ist
Die Transformer-Architektur ist wohl die wirkungsvollste Innovation in der KI des letzten Jahrzehnts. Sie hat die Skalierungsgesetze freigeschaltet, die moderne LLMs möglich machen.
- 1Der Transformer ersetzte RNNs und LSTMs durch vollständige Parallelisierung beim Training und reduzierte Trainingszeiten von Wochen auf Tage
- 2Sein Attention-Mechanismus erfasst weitreichende Abhängigkeiten, mit denen sequentielle Modelle kämpften
- 3Die Architektur skaliert bemerkenswert gut -- von 100M-Parameter-BERT bis 1,8T-Parameter-GPT-4 verbessert sich die Leistung vorhersagbar mit der Größe
- 4Jedes grosse LLM heute (GPT, Claude, Gemini, LLaMA, Mistral) basiert auf dem Transformer und macht ihn zum Fundament moderner KI