Mixture of Experts

Was ist Mixture of Experts?

Mixture of Experts (MoE) ist eine neuronale Netzwerkarchitektur, die Berechnungen auf spezialisierte Teilnetzwerke namens "Experten" aufteilt. Für jede Eingabe wird nur eine Teilmenge der Experten aktiviert, was massive Modellkapazität bei handhabbaren Rechenkosten ermöglicht.

"Genau wie das Gehirn je nach Aufgabe bestimmte Regionen aktiviert, aktivieren MoE-Modelle nur die relevanten Experten für jedes Token."

— Dieser biomimetische Ansatz ermöglicht Modelle mit Billionen von Parametern, während bei der Inferenz nur ein Bruchteil verwendet wird.

Wie MoE funktioniert

Eingabe kommt an

Jedes Token (oder Gruppe von Tokens) wird durch die Transformer-Schichten verarbeitet, bis es die MoE-Schicht erreicht, die das traditionelle dichte Feed-Forward-Netzwerk (FFN) ersetzt.

Router wählt Experten

Ein Gating-Netzwerk (Router) untersucht die Eingabe und bestimmt, welche Experten sie verarbeiten sollen. Typischerweise werden nur die top-K Experten (z.B. top-2 oder top-8) mit den höchsten Werten ausgewählt.

Experten verarbeiten & kombinieren

Die ausgewählten Experten verarbeiten die Eingabe parallel. Ihre Ausgaben werden mit den Router-Scores gewichtet und kombiniert, um das Endergebnis zu erzeugen.

MoE Generierungs-Visualizer

8 Experten, top-2 Routing (wie Mixtral)

Alle Experten müssen im VRAM geladen sein

Obwohl nur 2 Experten pro Token aktiviert werden, müssen alle 8 Experten im GPU-Speicher geladen bleiben. Deshalb haben MoE-Modelle trotz effizienter Berechnung hohe Speicheranforderungen.

Generierter Text

The capital of France is

VRAM-Nutzung46.7B geladen / ~12.9B aktiv

100% SpeicherbedarfInaktive Experten können nicht ausgelagert werden

Trainingskomplexität: Lastverteilung

Experten haben keine festen Spezialisierungen – was jeder Experte lernt, entsteht organisch während des Trainings. Das schafft eine große Herausforderung:

•Ohne sorgfältige Balancierung könnte der Router immer dieselben wenigen Experten wählen, sodass andere als "tote Experten" zurückbleiben, die sich nie verbessern
•Hilfsverlustfunktionen bestrafen ungleiche Expertennutzung und zwingen den Router, Tokens gleichmäßiger über alle Experten zu verteilen
•Selbst mit Balancierung bleibt die Experten-Spezialisierung unscharf – derselbe Experte kann Mathematik, bestimmte Sprachen UND spezifische Syntax-Muster verarbeiten

Wichtige Erkenntnis: Speicher vs. Rechen-Kompromiss

Ein 46,7B Parameter MoE-Modell wie Mixtral 8x7B benötigt VRAM für alle 46,7B Parameter, nutzt aber nur ~12,9B Parameter pro Token. Man zahlt den Speicherpreis im Voraus, erhält aber effiziente Inferenz.

🎯

Der Router (Gating-Netzwerk)

Das Gehirn des MoE-Systems

Der Router ist ein kleines neuronales Netzwerk, das lernt, Tokens zu geeigneten Experten zu leiten. Er gibt eine Wahrscheinlichkeitsverteilung über alle Experten aus und bestimmt, welche aktiviert werden.

Top-K Routing

Nur die K Experten mit den höchsten Scores werden aktiviert. Übliche Werte sind top-2 (Mixtral) oder top-8 (DeepSeek, Qwen). Dies stellt sicher, dass die Rechenkosten unabhängig von der Gesamtzahl der Experten konstant bleiben.

Lastverteilung

Das Training beinhaltet Hilfsverluste, um "Expertenkollaps" zu verhindern, bei dem alle Tokens zu den gleichen wenigen Experten geleitet werden. Dies stellt sicher, dass alle Experten genutzt werden und unterschiedliche Spezialisierungen entwickeln.

Expertenspezialisierung

Domänenexperten

Einige Experten spezialisieren sich natürlich auf Domänen wie Code, Mathematik oder bestimmte Sprachen. Dies entsteht aus dem Training, nicht aus explizitem Design.

Musterexperten

Experten können sich auf linguistische Muster wie formelles Schreiben, Konversationston oder technische Terminologie spezialisieren.

Aufgabenexperten

Einige Experten werden besser bei bestimmten Aufgaben wie Zusammenfassung, Übersetzung oder Schlussfolgerung – obwohl die Grenzen oft fließend sind.

Expertenspezialisierung entsteht organisch während des Trainings. Forscher arbeiten noch daran, vollständig zu verstehen, was jeder Experte lernt.

MoE im großen Maßstab: Reale Modelle

Modell	Gesamtparameter	Aktiv pro Token	Experten (Routing)
Mixtral 8x7B	46.7B	12.9B	8 (top-2)
DeepSeek-V3	671B	37B	256 (top-8)
Qwen3-235B	235B	22B	128 (top-8)
Kimi K2	1T	32B	Large pool

Beachte, wie die aktiven Parameter 5-20x kleiner sind als die Gesamtparameter – das ist der Effizienzvorteil von MoE.

Warum MoE wichtig ist

Massive Kapazität, effiziente Inferenz

MoE-Modelle können Billionen von Parametern haben, aktivieren aber nur einen Bruchteil pro Token. Dies ermöglicht viel größere Modellkapazität ohne proportional steigende Inferenzkosten.

Schnelleres Training

Recheneffizienteres Pretraining, da jeder Parameter nur von einer Teilmenge der Tokens aktualisiert wird. Die gleiche Leistung kann mit weniger Gesamt-Rechenaufwand erreicht werden.

Spezialisierte Verarbeitung

Verschiedene Experten können sich auf verschiedene Inhaltstypen spezialisieren – Code, Mathematik, Sprachen – was bessere Leistung über diverse Aufgaben bietet.

Skalierbare Architektur

Mehr Experten hinzuzufügen erhöht die Kapazität ohne die Inferenzkosten zu ändern (solange top-K gleich bleibt). Dies ermöglicht kontinuierliche Skalierung.

Herausforderungen von MoE

Hohe Speicheranforderungen

Alle Expertenparameter müssen in den Speicher geladen werden, obwohl nur eine Teilmenge pro Token verwendet wird. Ein 671B-Parameter-Modell benötigt 671B Parameter im VRAM.

Trainingsinstabilität

Die Lastverteilung zwischen Experten ist knifflig. Ohne sorgfältiges Tuning werden einige Experten möglicherweise nie verwendet ("tote Experten") oder alle Tokens werden zu den gleichen wenigen Experten geleitet.

Kommunikationsoverhead

Bei verteiltem Training/Inferenz führt das Routing von Tokens zu Experten auf verschiedenen GPUs zu Netzwerk-Kommunikationsoverhead.

Dichte vs. Spärliche Modelle

Dichtes Modell

•Alle Parameter aktiv für jedes Token
•Einfacheres Training und Deployment
•Speicher = Rechenkosten (beide skalieren zusammen)

Spärliches MoE-Modell

•Nur top-K Experten aktiv pro Token
•Höhere Gesamtkapazität bei gleichem Rechenaufwand
•Speicher >> Rechenkosten (entkoppelt)

Wichtige Erkenntnisse

1MoE ermöglicht massive Modellkapazität mit handhabbaren Inferenzkosten, indem nur eine Teilmenge der Experten pro Token aktiviert wird
2Fast alle führenden Frontier-Modelle (DeepSeek, Qwen, Mixtral, Llama 4) nutzen jetzt MoE-Architekturen
3Das Router/Gating-Netzwerk lernt, Tokens zu spezialisierten Experten zu leiten – Spezialisierung entsteht aus dem Training
4Der Hauptkompromiss: hohe Speicheranforderungen (alle Experten geladen) vs. effiziente Berechnung (wenige Experten aktiv)