Was ist Quantisierung?
Quantization ist der Prozess der Reduzierung der numerischen Präzision von Modellgewichten von 32-Bit-Gleitkomma (FP32) auf niedrigere Bit-Darstellungen wie FP16, INT8 oder INT4. Dies reduziert den Speicherbedarf dramatisch und beschleunigt die Inferenz.
"Wie das Komprimieren eines hochauflösenden Fotos für dein Handy – du verlierst etwas Detail, aber das Bild bleibt erkennbar und nützlich."
— Die wichtigste Erkenntnis ist, dass neuronale Netzwerke überraschend robust gegenüber Präzisionsverlust sind. Die meisten Gewichte können mit weit weniger Bits gespeichert werden, ohne katastrophale Qualitätsverschlechterung.
Warum Quantisieren?
Quantisierung ermöglicht es, große Modelle auf Consumer-Hardware auszuführen und reduziert die Inferenzkosten in der Produktion.
Speicherreduktion
Ein 70B-Parameter-Modell bei FP16 benötigt ~140GB VRAM. Bei INT4 passt es in ~35GB – ausführbar auf High-End-Consumer-GPUs.
Schnellere Inferenz
Arithmetik mit niedrigerer Präzision ist schneller. INT8-Operationen sind 2-4x schneller als FP32 auf moderner Hardware.
Niedrigere Kosten
Kleinere Modelle bedeuten weniger GPUs, niedrigere Cloud-Kosten und Machbarkeit für Edge-Deployment.
Demokratisierung
Ermöglicht Forschern und Hobbyisten, Frontier-Klasse-Modelle lokal ohne Enterprise-Hardware auszuführen.
Quantisierungs-Visualizer
Sieh, wie Präzision Modellgröße und Qualität beeinflusst
Stark komprimiert (4 Bit). Sweet Spot für Consumer-Hardware. Die meisten Nutzer bemerken keinen Qualitätsunterschied.
Quantisierungsstufen erklärt
Jede Präzisionsstufe repräsentiert einen unterschiedlichen Kompromiss zwischen Modellgröße und Ausgabequalität.
| Level | Bits | Größe | Genauigkeit | Anwendungsfall |
|---|---|---|---|---|
| FP32 (Voll) | 32 | 100% | 100% | Training, Referenz-Inferenz |
| FP16 (Halb) | 16 | 50% | ~99% | Standard-Inferenz |
| INT8 | 8 | 25% | ~97% | Produktions-Deployment |
| INT4 | 4 | 12.5% | ~90-95% | Consumer-GPUs, Edge |
| INT2 | 2 | 6.25% | ~70-80% | Extreme Edge-Fälle |
Empfehlung: Q4 ist der Sweet Spot
Für die meisten Nutzer, die große Modelle (70B+ Parameter) lokal ausführen:
- •Q4 (INT4) bietet ein exzellentes Qualitäts-zu-Speicher-Verhältnis
- •Die meisten Nutzer können Q4-Ausgabe in Blindtests nicht von FP16 unterscheiden
- •Ermöglicht die Ausführung von 70B-Modellen auf 24GB Consumer-GPUs
- •Empfohlene Formate: Q4_K_M oder Q4_K_S für GGUF-Modelle
Für kritische Anwendungen, die maximale Genauigkeit erfordern, verwende FP16 oder INT8. Für gelegentliche Nutzung und Experimente ist Q4 ideal.
VRAM-Rechner →
Sieh genau, wie viel VRAM verschiedene Quantisierungsstufen für jede Modellgröße brauchen — probiere den interaktiven Rechner aus.
Quantisierungstechniken
Verschiedene Methoden zur Konvertierung von Modellen auf niedrigere Präzision.
PTQ (Post-Training-Quantisierung)
Quantisierung auf ein bereits trainiertes Modell anwenden. Schnell und einfach, aber möglicherweise etwas höherer Genauigkeitsverlust. Funktioniert durch Kalibrierung der Quantisierungsparameter auf einem kleinen Datensatz.
QAT (Quantization-Aware Training)
Quantisierung in den Trainingsprozess einbeziehen. Das Modell lernt, robust gegenüber Präzisionsverlust zu sein, was bessere Genauigkeit ergibt, aber vollständiges Neutraining erfordert.
GPTQ
One-Shot-Quantisierungsmethode für LLMs. Nutzt Informationen zweiter Ordnung, um den Quantisierungsfehler Schicht für Schicht zu minimieren. Beliebt für Geschwindigkeit und Qualität.
AWQ (Activation-aware Weight Quantization)
Identifiziert und bewahrt "wichtige" Gewichte, die am meisten für die Genauigkeit zählen. Erreicht bessere Qualität als naive Quantisierung durch Schutz wichtiger Parameter.
GGUF-Format
Dateiformat, das von llama.cpp für quantisierte Modelle verwendet wird. Unterstützt verschiedene Quantisierungsstufen (Q2-Q8) und ist der Standard für lokales LLM-Deployment.
GGUF K-Quant-Methoden
Verständnis der Namenskonvention für GGUF-quantisierte Modelle.
| Methode | Qualität | Größe | Anwendungsfall |
|---|---|---|---|
| Q2_K | Schlecht | Kleinste | Nur extreme Kompression |
| Q3_K_S | Niedrig | Sehr klein | Speicherbeschränkte Systeme |
| Q3_K_M | Niedrig-Mittel | Klein | Budget-Hardware |
| Q3_K_L | Mittel | Moderat | Bessere Q3-Qualität |
| Q4_K_S | Gut | Klein | Empfohlene Balance |
| Q4_K_M | Sehr gut | Moderat | Beste Gesamtwahl |
| Q5_K_S | Exzellent | Größer | Qualitätsorientiert |
| Q5_K_M | Exzellent | Größer | Nahe FP16-Qualität |
| Q6_K | Nahezu perfekt | Groß | Minimaler Verlust |
| Q8_0 | Exzellent | Groß | Referenzqualität |
K-Quant-Benennung erklärt
- KK = "K-quant" — verwendet wichtigkeitsbasierte Quantisierung, die die Präzision pro Schicht variiert
- SS (Small) = Aggressivere Quantisierung bei Attention-Schichten, kleinere Dateien
- MM (Medium) = Ausgewogene Quantisierung über alle Schichten, bestes Qualitäts-/Größenverhältnis
- LL (Large) = Weniger Quantisierung bei wichtigen Schichten, bessere Qualität
Wichtige Erkenntnis: K-Quants sind "gemischte Präzision" – sie quantisieren verschiedene Schichten unterschiedlich basierend auf ihrer Wichtigkeit für die Modellqualität. Attention-Schichten verwenden typischerweise höhere Präzision als Feed-Forward-Schichten.
Praxisauswirkungen
Konkrete Beispiele, was Quantisierung ermöglicht.
Llama 3.1 70B bei verschiedenen Quants
Ein 70B-Parameter-Modell benötigt ~140GB bei FP16. Mit Quantisierung:
- Q8:Q8: ~70GB — Passt auf 2x A100 40GB oder 1x H100
- Q4_K_M:Q4_K_M: ~40GB — Passt auf 2x RTX 4090 oder 1x A100 80GB
- Q3_K_M:Q3_K_M: ~30GB — Passt auf einzelne RTX 4090 (24GB + etwas Offload)
Qualitätsvergleich
In Blindtests beim Vergleich von Q4_K_M mit FP16-Ausgaben:
- •85% der Nutzer konnten nicht identifizieren, welche quantisiert war
- •Perplexitätsanstieg von nur 0,1-0,5 Punkten auf gängigen Benchmarks
- •Code-Completion und Reasoning-Aufgaben zeigen minimale Verschlechterung
Kosteneinsparungen
Ausführen eines 70B-Modells für Inferenz:
Wichtige Erkenntnisse
- 1Quantisierung reduziert den Modellspeicher um das 2-16-fache mit überraschend geringem Genauigkeitsverlust
- 2Q4 (INT4) ist der Sweet Spot für die meisten lokalen LLM-Anwendungsfälle – exzellente Qualität bei 1/8 des Speichers
- 3K-Quant-Methoden (Q4_K_M, Q5_K_S) sind "gemischte Präzision" und übertreffen gleichmäßige Quantisierung
- 4GPTQ und AWQ sind die führenden Techniken für LLM-Quantisierung, mit GGUF als Standardformat
- 5Quantisierung demokratisiert KI, indem sie Frontier-Modelle auf Consumer-Hardware ermöglicht
- 6Für kritische Anwendungen höhere Präzision (INT8/FP16) bevorzugen; für Experimente ist Q4 ideal