Destillation | Learn AI

Was ist Wissensdestillation?

Wissensdestillation ist eine Modellkomprimierungstechnik, bei der ein kleineres „Schüler“-Modell trainiert wird, das Verhalten eines größeren, leistungsfähigeren „Lehrer“-Modells nachzubilden. Anstatt den Schüler von Grund auf mit Rohdaten zu trainieren, lernt er aus den Ausgabe-Wahrscheinlichkeitsverteilungen des Lehrers – und erfasst nicht nur, was der Lehrer vorhersagt, sondern wie sicher er über alle möglichen Vorhersagen hinweg ist.

„Stell dir einen Meisterkoch vor, der einem Lehrling beibringt – nicht nur die Rezepte, sondern all die subtilen Intuitionen: warum dieses Gewürz fast passt, warum diese Technik nah dran, aber nicht ganz richtig ist.“

Destillation überträgt diese nuancierten Einschätzungen, indem die vollständige Wahrscheinlichkeitsverteilung geteilt wird, nicht nur die endgültige Antwort.

Das Lehrer-Schüler-Paradigma

Destillation folgt einem einfachen zweistufigen Prozess: Zürst wird ein großes, leistungsfähiges Lehrer-Modell trainiert, dann werden seine Ausgaben verwendet, um einen kleineren, effizienten Schüler zu trainieren.

🎓

Lehrer-Modell

Ein großes, hochkapazitäres Modell (z.B. GPT-4, Claude Opus), trainiert auf massiven Datensätzen. Es hat reichhaltige Repräsentationen und nuancierte Entscheidungsgrenzen gelernt. Seine Rolle ist es, weiche Wahrscheinlichkeitsverteilungen zu erzeugen, die sein Wissen kodieren.

📖

Schüler-Modell

Ein kleineres, effizienteres Modell, das für den Einsatz konzipiert ist. Es lernt, indem es die Wahrscheinlichkeitsverteilungen des Lehrers abgleicht, anstatt nur die Ground-Truth-Labels. Dies ermöglicht es, das „dunkle Wissen“ des Lehrers zu erfassen – die Beziehungen zwischen Klassen, die harte Labels verwerfen.

Lehrer-Modell

→

↓

Weiche Wahrscheinlichkeitsverteilung

→

↓

Schüler-Modell lernt

Die Kernidee: Verteilungen, nicht Tokens

💡

Warum Verteilungen Destillation so effektiv machen

Der fundamentale Grund, warum Destillation so gut funktioniert, ist, dass wir auf vollständige Wahrscheinlichkeitsverteilungen trainieren, nicht auf einzelne Tokens oder harte Labels. Wenn ein Lehrer-Modell „Die Hauptstadt von Frankreich ist ___“ verarbeitet, gibt es nicht einfach „Paris“ aus – es erzeugt eine Wahrscheinlichkeitsverteilung über sein gesamtes Vokabular.

Diese Verteilung enthält reichhaltige Informationen: „Paris“ erhält 92%, aber „Lyon“ erhält 3%, „Marseille“ erhält 1,5% und „Berlin“ erhält 0,8%. Diese „falschen“ Antworten kodieren das Verständnis des Lehrers für Geografie, Ähnlichkeit zwischen Städten und konzeptülle Beziehungen. Ein hartes Label von nur „Paris“ wirft all dieses Wissen weg.

Harte Labels (Traditionelles Training)

„Paris“ = 1,0, alles andere = 0,0

Binär: entweder richtig oder falsch. Keine Nuancen. Das Modell lernt nichts über die Beziehungen zwischen Ausgaben.

Weiche Labels (Destillation)

„Paris“ = 0,92, „Lyon“ = 0,03, „Marseille“ = 0,015, „Berlin“ = 0,008, ...

Reichhaltiges Signal: Jede Wahrscheinlichkeit kodiert eine Beziehung. Der Schüler lernt, dass Lyon Paris ähnlicher ist als Berlin.

Temperatur & Verteilungsglättung

Sehen Sie, wie Temperatur das Wissen des Lehrers für den Schüler umformt

Lehrer

↓

T=3

↓

Schüler

Harte Verteilung

T=1

Paris

76.2%

Lyon

18.8%

Mars.

3.4%

Berlin

1.0%

Rom

0.6%

Bei T=1 überwältigt der dominante Token die anderen. Wenig Information im Schwanz.

Weiche Verteilung

T=3

Paris

41.4%

Lyon

25.9%

Mars.

14.7%

Berlin

9.9%

Rom

8.1%

Höhere Temperatur enthüllt Beziehungen zwischen Tokens, die harte Labels verbergen.

Schüler-Verteilung

Paris

41.4%

Lyon

25.9%

Mars.

14.7%

Berlin

9.9%

Rom

8.1%

Der Schüler versucht, die weiche Verteilung des Lehrers abzugleichen. Passen Sie seine Temperatur an, um den Effekt zu sehen.

Destillationstemperatur: T = 3

T=1 (scharf)T=10 (glatt)

Schüler-Temperatur: T = 3

T=1 (scharf)T=10 (glatt)

KL-Divergenz

0.000

Ausgezeichnete Übereinstimmung

Lehrer-Entropie

2.06

bits

Schüler-Entropie

2.06

bits

Mittlere Temperatur: Die Verteilung ist geglättet und enthüllt bedeutungsvolle Beziehungen zwischen Tokens. Dies ist der optimale Bereich für Destillation.

Die Verteilung des Schülers stimmt gut mit der weichen Verteilung des Lehrers überein – ideal für den Wissenstransfer.

Warum Destillation funktioniert

Destillation ist bemerkenswert effektiv, weil weiche Labels ein viel reichhaltigeres Trainingssignal liefern als harte Labels:

Reichhaltigeres Gradientensignal

Jedes Trainingsbeispiel liefert Informationen über alle Ausgabeklassen gleichzeitig, nicht nur über die korrekte. Das bedeutet, dass jedes Beispiel dem Schüler effektiv Tausende von Beziehungen gleichzeitig beibringt.

Übertragung von dunklem Wissen

Die „Fehler“ des Lehrers sind informativ. Wenn der Lehrer 3% Wahrscheinlichkeit für „Lyon“ bei einer Frage über Frankreichs Hauptstadt zuweist, sagt er dem Schüler, dass Lyon für Frankreich relevant ist – Wissen, das harte Labels komplett verwerfen.

Bessere Generalisierung

Schüler, die über Destillation trainiert werden, generalisieren oft besser als Modelle, die nur auf harten Labels trainiert wurden, selbst wenn der Schüler viel weniger Parameter hat. Die weichen Labels wirken als leistungsstarker Regularisierer.

Stichprobeneffizienz

Da jedes Trainingsbeispiel mehr Information trägt (eine vollständige Verteilung vs. ein einzelnes Label), benötigt der Schüler weniger Beispiele, um effektiv zu lernen. Dies reduziert Trainingszeit und Datenanforderungen.

Die Destillationsverlustfunktion

Das Trainingsziel kombiniert zwei Verlustfunktionen: die Standard-Kreuzentropie mit Ground-Truth-Labels und die KL-Divergenz zwischen Lehrer- und Schülerverteilungen:

L = (1 - α) · CE(y, p_student) + α · T² · KL(p_teacher^T || p_student^T)

CEKreuzentropie mit Ground Truth: stellt sicher, dass der Schüler weiterhin aus echten Labels lernt
KLKL-Divergenz: misst, wie unterschiedlich die Verteilung des Schülers von der des Lehrers ist. Der Schüler wird für Abweichungen von den weichen Wahrscheinlichkeiten des Lehrers bestraft.
TTemperatur: steürt, wie weich/glatt die Verteilungen sind. Höhere T enthüllt mehr Beziehungen zwischen Klassen.
αAlpha: balanciert die beiden Verlustterme. Typische Werte liegen zwischen 0,1 und 0,9, wobei höhere Werte mehr Gewicht auf die Übereinstimmung mit dem Lehrer legen.

Der T²-Faktor kompensiert den Skalierungseffekt der Temperatur auf Gradienten und stellt sicher, dass Destillationsverlust und Kreuzentropieverlust unabhängig von der Temperaturwahl ausgewogen bleiben.

Arten der Destillation

Verschiedene Ansätze, je nachdem welches Wissen vom Lehrer zum Schüler übertragen wird:

Antwortbasiert

Der Schüler ahmt die endgültige Ausgabeverteilung des Lehrers nach. Dies ist die ursprüngliche und häufigste Form, eingeführt von Hinton et al. (2015). Einfach zu implementieren und effektiv für Klassifikation und Sprachmodellierung.

Merkmalsbasiert

Der Schüler lernt, Zwischendarstellungen (versteckte Zustände) des Lehrers abzugleichen, nicht nur die Ausgabe. Erfasst tieferes strukturelles Wissen. Verwendet in Modellen wie DistilBERT und TinyBERT.

Beziehungsbasiert

Überträgt die Beziehungen zwischen verschiedenen Beispielen oder Schichten, anstatt einzelne Ausgaben. Bewahrt, wie der Lehrer seine internen Repräsentationen strukturiert und wie er verschiedene Eingaben zueinander in Beziehung setzt.

Online-Destillation

Lehrer und Schüler trainieren gleichzeitig und lernen voneinander. Kein vortrainierter Lehrer erforderlich. Nützlich, wenn man es sich nicht leisten kann, zürst ein massives Lehrer-Modell zu trainieren.

Praxisbeispiele

Destillation wird umfangreich in produktiven KI-Systemen eingesetzt:

DistilBERT (Hugging Face)

Eine destillierte Version von BERT, die 60% kleiner, 60% schneller ist und 97% von BERTs Sprachverständnis behält. Trainiert mit einer Kombination aus antwort- und merkmalsbasierter Destillation. Eines der am weitesten verbreiteten destillierten Modelle.

OpenAI GPT-4 zu GPT-4o-mini

GPT-4o-mini wird weithin als destilliert aus größeren GPT-4-Klasse-Modellen angesehen. Es bietet deutlich geringere Latenz und Kosten bei wettbewerbsfähiger Leistung bei den meisten Aufgaben. Dieses Muster – ein großes Frontier-Modell destilliert in eine kleinere, schnellere Variante – ist zur Standardpraxis geworden.

DeepSeek R1 Destillation

DeepSeek veröffentlichte destillierte Versionen ihres R1-Reasoning-Modells in Qwen- und Llama-Basismodelle. Diese destillierten Varianten bringen fortgeschrittene Reasoning-Fähigkeiten in viel kleinere, besser einsetzbare Modelle und zeigen, dass selbst komplexes Chain-of-Thought-Reasoning effektiv destilliert werden kann.

Wichtige Erkenntnisse

1Wissensdestillation trainiert kleinere Modelle, größere nachzubilden, indem sie aus vollständigen Wahrscheinlichkeitsverteilungen lernen, nicht nur aus endgültigen Antworten
2Die entscheidende Erkenntnis ist, dass wir auf Verteilungen trainieren, nicht auf einzelne Tokens – weiche Labels kodieren reichhaltiges relationales Wissen („dunkles Wissen“), das harte Labels komplett verwerfen
3Temperaturglättung enthüllt Beziehungen zwischen Klassen, die in der Verteilung des Lehrers verborgen sind, und macht Destillation weitaus effektiver als einfaches Label-Matching
4Destillierte Modelle können 95-99% der Lehrerleistung bei einem Bruchteil der Größe beibehalten und machen Frontier-KI-Fähigkeiten für den realen Einsatz zugänglich
5Destillation ist zur Standardpraxis in der Industrie geworden – die meisten kleinen, schnellen Modelle, die man täglich nutzt (GPT-4o-mini, DistilBERT, Gemini Flash), sind wahrscheinlich von größeren Lehrern destilliert