Fine-Tuning & LoRA

Was ist Fine-Tuning?

Du hast ein vortrainiertes Sprachmodell mit Milliarden von Parametern, das viel über die Welt weiß. Aber du möchtest, dass es bei einer bestimmten Aufgabe herausragend ist — juristische Schriftsätze schreiben, in Rust programmieren oder im Stil deiner Marke sprechen. Fine-Tuning passt das Modell an, indem das Training mit deinen spezialisierten Daten fortgesetzt wird.

"Das Problem: Volles Fine-Tuning bedeutet, ALLE Parameter zu aktualisieren."

Bei einem 70B-Parameter-Modell bedeutet das, 70 Milliarden Gewichte zu speichern und zu aktualisieren. Du brauchst eine vollständige Kopie des Modells im Speicher, plus Optimizer-Zustände (2-3x die Modellgröße). Das sind Hunderte Gigabyte VRAM — teür, langsam und für die meisten Teams unpraktisch.

Die LoRA-Erkenntnis

LoRA (Low-Rank Adaptation) basiert auf einer Schlüsselbeobachtung: Wenn man ein Modell feinabstimmt, sind die Gewichtsaktualisierungen tendenziell niedrigrangig. Statt eine riesige d×d-Gewichtsmatrix W direkt zu aktualisieren, zerlegt man das Update als ΔW = A × B, wobei A d×r und B r×d ist, mit r viel kleiner als d.

LoRA-Matrixzerlegung

Passe den Rang r an, um zu sehen, wie LoRA ein großes Gewichtsupdate in zwei kleine Matrizen zerlegt.

Rang: r = 8(512×512 Matrix)

r=1r=64

ΔW

512×512262,144 Param.

512×8

8×512

Volle Parameter

262,144

d² = 512²

LoRA-Parameter

8,192

2 × d × r = 2 × 512 × 8

Parameter-Einsparung

96.9%

Nur 3.1% des Originals

params_full = d² = 512² = 262,144

params_LoRA = 2 × d × r = 2 × 512 × 8 = 8,192

Warum LoRA einfach zu trainieren ist

Indem nur die kleinen A- und B-Matrizen trainiert werden, während das Basismodell eingefroren bleibt, reduziert LoRA den Bedarf an Speicher, Rechenleistung und Speicherplatz dramatisch.

VRAM- & Speichervergleich

Wähle eine Modellgröße, um den GPU-VRAM-Bedarf für volles Fine-Tuning vs. LoRA zu vergleichen.

Rang: r = 8

r=4r=128

Höherer Rang → mehr trainierbare Parameter → mehr VRAM und größere Adapter-Dateien

Volles Fine-Tuning

28 GB

Benötigter GPU-VRAM

LoRA Fine-Tuning

6.2 GB

Benötigter GPU-VRAM

Speicher: Volles Modell vs. LoRA-Adapter

Vollständige Modellkopie28 GB

LoRA-Adapter0.0084 GB

~3,338× kleiner — du kannst Hunderte Adapter für verschiedene Aufgaben speichern!

💾

Weniger Speicher

Nur die kleinen A- und B-Matrizen benötigen Gradienten und Optimizer-Zustände.

⚡

Schnelleres Training

Viel weniger Parameter zum Aktualisieren bedeutet schnellere Iterationen.

🔀

Hot-Swappable

Ein Basismodell behalten, winzige Adapter zur Inferenzzeit für verschiedene Aufgaben tauschen.

🧊

Kein katastrophales Vergessen

Da die Basismodell-Gewichte vollständig eingefroren bleiben, kann LoRA das bestehende Wissen des Modells nicht zerstören. Der Adapter fügt nur zum vorhandenen Wissen hinzu — er nimmt nie etwas weg. Das ist ein enormer Vorteil gegenüber vollem Fine-Tuning, bei dem aggressives Training dazu führen kann, dass das Modell seine allgemeinen Fähigkeiten vergisst.

Anwendungsfälle

LoRA-Adapter werden überall eingesetzt, um Foundation-Modelle zu spezialisieren:

💻

Aufgabenspezifische Anpassung

Adapter für Programmierung, medizinische Diagnose, juristische Analyse oder Kundensupport trainieren. Jede Domäne erhält ihren eigenen kleinen Adapter.

🎭

Stil- & Tonanpassung

Eine bestimmte Markenstimme treffen, zwischen formell und lässig wechseln oder den Schreibstil anpassen, ohne das gesamte Modell neu zu trainieren.

🌍

Sprachanpassung

Leistung in unterrepräsentierten Sprachen verbessern, indem ein LoRA mit sprachspezifischen Daten trainiert wird.

📋

Instruktionsbefolgung

Ein Basismodell besser Anweisungen befolgen lassen, indem ein Adapter mit Instruktions-Antwort-Paaren trainiert wird.

Wann man LoRA NICHT verwenden sollte

LoRA ist mächtig, aber nicht für jeden Einsatz das richtige Werkzeug:

💬

Prompt Engineering reicht aus

Wenn du das gewünschte Verhalten mit einem guten System-Prompt oder Few-Shot-Beispielen erreichst, brauchst du keinen Adapter. Es ist günstiger, schneller und einfacher zu iterieren.

📚

Du brauchst breites neues Wissen

LoRA ist super für Stil und Verhalten, aber schlecht darin, große Mengen an Faktenwissen zu injizieren. Nutze stattdessen RAG (Retrieval) für wissensintensive Aufgaben.

🗑️

Dein Datensatz ist winzig oder verrauscht

Mit weniger als ~100 qualitativ hochwertigen Beispielen wird LoRA überfitten oder kaum etwas lernen. Saubere, kuratierte Daten sind essenziell.

⏱️

Du brauchst Echtzeit-Anpassung

LoRA erfordert einen Trainingsschritt. Wenn sich dein Modell on-the-fly an neue Informationen anpassen soll, nutze In-Context Learning oder RAG.

Warum LoRA nicht für Pre-Training verwendet wird

LoRA ist fantastisch für Anpassung, aber grundsätzlich limitiert für das Erlernen von komplett neuem Wissen. Hier ist warum:

Rang vs. Approximationsqualität

Sieh, wie steigender Rang aufgabenspezifische Anpassung verbessert, aber bei allgemeinem Wissen scheitert.

Rang: r = 8

r=1r=512

Aufgabenspezifische Qualität95%

Anpassung an eine spezifische Domäne — sättigt schnell bei moderatem Rang

Allgemeines Wissenslernen25%

Grundlegend neues Wissen lernen — braucht vollrangige Updates

Matrix-Rekonstruktionsqualität63%

Wie gut die niedrigrangige Approximation beliebige Gewichtsupdates erfasst

✅ Sweet Spot Ränge 8-64 bieten typischerweise das beste Verhältnis: exzellente Aufgabenanpassung mit minimalen Parametern. Die meisten Praktiker verwenden r=8 oder r=16.

Low-Rank-Beschränkung

LoRA beschränkt Updates auf einen niedrigrangigen Unterraum. Fine-Tuning-Änderungen sind empirisch niedrigrangig (kleine Anpassungen), aber Pre-Training muss fundamentale Repräsentationen lernen, die vollrangig sind.

Begrenzte Ausdrucksfähigkeit

Ein Rang-8-Update einer 4096×4096-Matrix kann nur einen winzigen Bruchteil möglicher Änderungen erfassen. Pre-Training braucht die volle Ausdrucksfähigkeit unbeschränkter Gewichtsupdates.

Abnehmender Grenznutzen

Mit zunehmendem Rang zur Erfassung komplexerer Änderungen nähert man sich den Kosten des vollen Fine-Tunings — ab diesem Punkt bietet LoRA keinen Vorteil mehr.

LoRA-Varianten & Evolution

Das ursprüngliche LoRA-Paper hat eine Familie von Verbesserungen hervorgebracht. Klicke auf jede Karte für mehr Details.

📦

QLoRA

▼

Quantisiertes Basismodell + LoRA-Adapter = Fine-Tuning auf Consumer-GPUs.

🔬

DoRA (Weight-Decomposed LoRA)

▼

Trennt Gewichtsmagnitude von Richtung für bessere Trainingsdynamik.

⚡

LoRA+

▼

Unterschiedliche Lernraten für A- und B-Matrizen = schnellere Konvergenz.

Wichtige Erkenntnisse

1LoRA zerlegt Gewichtsupdates in zwei kleine Matrizen (A×B) und reduziert trainierbare Parameter um 99%+, bei gleichbleibender Qualität
2Das Basismodell bleibt eingefroren — kein katastrophales Vergessen, und winzige Adapter können zur Inferenzzeit für verschiedene Aufgaben getauscht werden
3LoRA funktioniert, weil Fine-Tuning-Änderungen empirisch niedrigrangig sind: Man braucht keine vollrangigen Updates für Aufgabenanpassung
4QLoRA erweitert dies durch Quantisierung des Basismodells und ermöglicht Fine-Tuning von 70B+-Modellen auf Consumer-Hardware
5LoRA ist nicht geeignet für Pre-Training — das Erlernen fundamentalen Wissens erfordert vollrangige, unbeschränkte Gewichtsupdates