Was ist Fine-Tuning?
Du hast ein vortrainiertes Sprachmodell mit Milliarden von Parametern, das viel über die Welt weiß. Aber du möchtest, dass es bei einer bestimmten Aufgabe herausragend ist — juristische Schriftsätze schreiben, in Rust programmieren oder im Stil deiner Marke sprechen. Fine-Tuning passt das Modell an, indem das Training mit deinen spezialisierten Daten fortgesetzt wird.
"Das Problem: Volles Fine-Tuning bedeutet, ALLE Parameter zu aktualisieren."
Bei einem 70B-Parameter-Modell bedeutet das, 70 Milliarden Gewichte zu speichern und zu aktualisieren. Du brauchst eine vollständige Kopie des Modells im Speicher, plus Optimizer-Zustände (2-3x die Modellgröße). Das sind Hunderte Gigabyte VRAM — teür, langsam und für die meisten Teams unpraktisch.
Die LoRA-Erkenntnis
LoRA (Low-Rank Adaptation) basiert auf einer Schlüsselbeobachtung: Wenn man ein Modell feinabstimmt, sind die Gewichtsaktualisierungen tendenziell niedrigrangig. Statt eine riesige d×d-Gewichtsmatrix W direkt zu aktualisieren, zerlegt man das Update als ΔW = A × B, wobei A d×r und B r×d ist, mit r viel kleiner als d.
LoRA-Matrixzerlegung
Passe den Rang r an, um zu sehen, wie LoRA ein großes Gewichtsupdate in zwei kleine Matrizen zerlegt.
Warum LoRA einfach zu trainieren ist
Indem nur die kleinen A- und B-Matrizen trainiert werden, während das Basismodell eingefroren bleibt, reduziert LoRA den Bedarf an Speicher, Rechenleistung und Speicherplatz dramatisch.
VRAM- & Speichervergleich
Wähle eine Modellgröße, um den GPU-VRAM-Bedarf für volles Fine-Tuning vs. LoRA zu vergleichen.
Höherer Rang → mehr trainierbare Parameter → mehr VRAM und größere Adapter-Dateien
~3,338× kleiner — du kannst Hunderte Adapter für verschiedene Aufgaben speichern!
Weniger Speicher
Nur die kleinen A- und B-Matrizen benötigen Gradienten und Optimizer-Zustände.
Schnelleres Training
Viel weniger Parameter zum Aktualisieren bedeutet schnellere Iterationen.
Hot-Swappable
Ein Basismodell behalten, winzige Adapter zur Inferenzzeit für verschiedene Aufgaben tauschen.
Kein katastrophales Vergessen
Da die Basismodell-Gewichte vollständig eingefroren bleiben, kann LoRA das bestehende Wissen des Modells nicht zerstören. Der Adapter fügt nur zum vorhandenen Wissen hinzu — er nimmt nie etwas weg. Das ist ein enormer Vorteil gegenüber vollem Fine-Tuning, bei dem aggressives Training dazu führen kann, dass das Modell seine allgemeinen Fähigkeiten vergisst.
Anwendungsfälle
LoRA-Adapter werden überall eingesetzt, um Foundation-Modelle zu spezialisieren:
Aufgabenspezifische Anpassung
Adapter für Programmierung, medizinische Diagnose, juristische Analyse oder Kundensupport trainieren. Jede Domäne erhält ihren eigenen kleinen Adapter.
Stil- & Tonanpassung
Eine bestimmte Markenstimme treffen, zwischen formell und lässig wechseln oder den Schreibstil anpassen, ohne das gesamte Modell neu zu trainieren.
Sprachanpassung
Leistung in unterrepräsentierten Sprachen verbessern, indem ein LoRA mit sprachspezifischen Daten trainiert wird.
Instruktionsbefolgung
Ein Basismodell besser Anweisungen befolgen lassen, indem ein Adapter mit Instruktions-Antwort-Paaren trainiert wird.
Wann man LoRA NICHT verwenden sollte
LoRA ist mächtig, aber nicht für jeden Einsatz das richtige Werkzeug:
Prompt Engineering reicht aus
Wenn du das gewünschte Verhalten mit einem guten System-Prompt oder Few-Shot-Beispielen erreichst, brauchst du keinen Adapter. Es ist günstiger, schneller und einfacher zu iterieren.
Du brauchst breites neues Wissen
LoRA ist super für Stil und Verhalten, aber schlecht darin, große Mengen an Faktenwissen zu injizieren. Nutze stattdessen RAG (Retrieval) für wissensintensive Aufgaben.
Dein Datensatz ist winzig oder verrauscht
Mit weniger als ~100 qualitativ hochwertigen Beispielen wird LoRA überfitten oder kaum etwas lernen. Saubere, kuratierte Daten sind essenziell.
Du brauchst Echtzeit-Anpassung
LoRA erfordert einen Trainingsschritt. Wenn sich dein Modell on-the-fly an neue Informationen anpassen soll, nutze In-Context Learning oder RAG.
Warum LoRA nicht für Pre-Training verwendet wird
LoRA ist fantastisch für Anpassung, aber grundsätzlich limitiert für das Erlernen von komplett neuem Wissen. Hier ist warum:
Rang vs. Approximationsqualität
Sieh, wie steigender Rang aufgabenspezifische Anpassung verbessert, aber bei allgemeinem Wissen scheitert.
Anpassung an eine spezifische Domäne — sättigt schnell bei moderatem Rang
Grundlegend neues Wissen lernen — braucht vollrangige Updates
Wie gut die niedrigrangige Approximation beliebige Gewichtsupdates erfasst
✅ Sweet Spot Ränge 8-64 bieten typischerweise das beste Verhältnis: exzellente Aufgabenanpassung mit minimalen Parametern. Die meisten Praktiker verwenden r=8 oder r=16.
Low-Rank-Beschränkung
LoRA beschränkt Updates auf einen niedrigrangigen Unterraum. Fine-Tuning-Änderungen sind empirisch niedrigrangig (kleine Anpassungen), aber Pre-Training muss fundamentale Repräsentationen lernen, die vollrangig sind.
Begrenzte Ausdrucksfähigkeit
Ein Rang-8-Update einer 4096×4096-Matrix kann nur einen winzigen Bruchteil möglicher Änderungen erfassen. Pre-Training braucht die volle Ausdrucksfähigkeit unbeschränkter Gewichtsupdates.
Abnehmender Grenznutzen
Mit zunehmendem Rang zur Erfassung komplexerer Änderungen nähert man sich den Kosten des vollen Fine-Tunings — ab diesem Punkt bietet LoRA keinen Vorteil mehr.
LoRA-Varianten & Evolution
Das ursprüngliche LoRA-Paper hat eine Familie von Verbesserungen hervorgebracht. Klicke auf jede Karte für mehr Details.
QLoRA
▼Quantisiertes Basismodell + LoRA-Adapter = Fine-Tuning auf Consumer-GPUs.
DoRA (Weight-Decomposed LoRA)
▼Trennt Gewichtsmagnitude von Richtung für bessere Trainingsdynamik.
LoRA+
▼Unterschiedliche Lernraten für A- und B-Matrizen = schnellere Konvergenz.
Wichtige Erkenntnisse
- 1LoRA zerlegt Gewichtsupdates in zwei kleine Matrizen (A×B) und reduziert trainierbare Parameter um 99%+, bei gleichbleibender Qualität
- 2Das Basismodell bleibt eingefroren — kein katastrophales Vergessen, und winzige Adapter können zur Inferenzzeit für verschiedene Aufgaben getauscht werden
- 3LoRA funktioniert, weil Fine-Tuning-Änderungen empirisch niedrigrangig sind: Man braucht keine vollrangigen Updates für Aufgabenanpassung
- 4QLoRA erweitert dies durch Quantisierung des Basismodells und ermöglicht Fine-Tuning von 70B+-Modellen auf Consumer-Hardware
- 5LoRA ist nicht geeignet für Pre-Training — das Erlernen fundamentalen Wissens erfordert vollrangige, unbeschränkte Gewichtsupdates