Quantisierung | Learn AI

Was ist Quantisierung?

Quantization ist der Prozess der Reduzierung der numerischen Präzision von Modellgewichten von 32-Bit-Gleitkomma (FP32) auf niedrigere Bit-Darstellungen wie FP16, INT8 oder INT4. Dies reduziert den Speicherbedarf dramatisch und beschleunigt die Inferenz.

"Wie das Komprimieren eines hochauflösenden Fotos für dein Handy – du verlierst etwas Detail, aber das Bild bleibt erkennbar und nützlich."

— Die wichtigste Erkenntnis ist, dass neuronale Netzwerke überraschend robust gegenüber Präzisionsverlust sind. Die meisten Gewichte können mit weit weniger Bits gespeichert werden, ohne katastrophale Qualitätsverschlechterung.

Warum Quantisieren?

Quantisierung ermöglicht es, große Modelle auf Consumer-Hardware auszuführen und reduziert die Inferenzkosten in der Produktion.

Speicherreduktion

Ein 70B-Parameter-Modell bei FP16 benötigt ~140GB VRAM. Bei INT4 passt es in ~35GB – ausführbar auf High-End-Consumer-GPUs.

Schnellere Inferenz

Arithmetik mit niedrigerer Präzision ist schneller. INT8-Operationen sind 2-4x schneller als FP32 auf moderner Hardware.

Niedrigere Kosten

Kleinere Modelle bedeuten weniger GPUs, niedrigere Cloud-Kosten und Machbarkeit für Edge-Deployment.

Demokratisierung

Ermöglicht Forschern und Hobbyisten, Frontier-Klasse-Modelle lokal ohne Enterprise-Hardware auszuführen.

Quantisierungs-Visualizer

Sieh, wie Präzision Modellgröße und Qualität beeinflusst

Präzisionsstufe

FP32FP16INT8INT4INT2

Modellgröße

12.5%vom Original

Erhaltene Genauigkeit

92%erhalten

~Perplexitätsanstieg

+0.30

Gewichtsverteilung

At INT4: Weights quantized to 16 diskrete Stufen

Erklärung

Stark komprimiert (4 Bit). Sweet Spot für Consumer-Hardware. Die meisten Nutzer bemerken keinen Qualitätsunterschied.

4 bits per weight

Quantisierungsstufen erklärt

Jede Präzisionsstufe repräsentiert einen unterschiedlichen Kompromiss zwischen Modellgröße und Ausgabequalität.

Level	Bits	Größe	Genauigkeit	Anwendungsfall
FP32 (Voll)	32	100%	100%	Training, Referenz-Inferenz
FP16 (Halb)	16	50%	~99%	Standard-Inferenz
INT8	8	25%	~97%	Produktions-Deployment
INT4	4	12.5%	~90-95%	Consumer-GPUs, Edge
INT2	2	6.25%	~70-80%	Extreme Edge-Fälle

💡

Empfehlung: Q4 ist der Sweet Spot

Für die meisten Nutzer, die große Modelle (70B+ Parameter) lokal ausführen:

•Q4 (INT4) bietet ein exzellentes Qualitäts-zu-Speicher-Verhältnis
•Die meisten Nutzer können Q4-Ausgabe in Blindtests nicht von FP16 unterscheiden
•Ermöglicht die Ausführung von 70B-Modellen auf 24GB Consumer-GPUs
•Empfohlene Formate: Q4_K_M oder Q4_K_S für GGUF-Modelle

Für kritische Anwendungen, die maximale Genauigkeit erfordern, verwende FP16 oder INT8. Für gelegentliche Nutzung und Experimente ist Q4 ideal.

🧮

VRAM-Rechner →

Sieh genau, wie viel VRAM verschiedene Quantisierungsstufen für jede Modellgröße brauchen — probiere den interaktiven Rechner aus.

Quantisierungstechniken

Verschiedene Methoden zur Konvertierung von Modellen auf niedrigere Präzision.

PTQ (Post-Training-Quantisierung)

Quantisierung auf ein bereits trainiertes Modell anwenden. Schnell und einfach, aber möglicherweise etwas höherer Genauigkeitsverlust. Funktioniert durch Kalibrierung der Quantisierungsparameter auf einem kleinen Datensatz.

QAT (Quantization-Aware Training)

Quantisierung in den Trainingsprozess einbeziehen. Das Modell lernt, robust gegenüber Präzisionsverlust zu sein, was bessere Genauigkeit ergibt, aber vollständiges Neutraining erfordert.

GPTQ

One-Shot-Quantisierungsmethode für LLMs. Nutzt Informationen zweiter Ordnung, um den Quantisierungsfehler Schicht für Schicht zu minimieren. Beliebt für Geschwindigkeit und Qualität.

AWQ (Activation-aware Weight Quantization)

Identifiziert und bewahrt "wichtige" Gewichte, die am meisten für die Genauigkeit zählen. Erreicht bessere Qualität als naive Quantisierung durch Schutz wichtiger Parameter.

GGUF-Format

Dateiformat, das von llama.cpp für quantisierte Modelle verwendet wird. Unterstützt verschiedene Quantisierungsstufen (Q2-Q8) und ist der Standard für lokales LLM-Deployment.

GGUF K-Quant-Methoden

Verständnis der Namenskonvention für GGUF-quantisierte Modelle.

Methode	Qualität	Größe	Anwendungsfall
Q2_K	Schlecht	Kleinste	Nur extreme Kompression
Q3_K_S	Niedrig	Sehr klein	Speicherbeschränkte Systeme
Q3_K_M	Niedrig-Mittel	Klein	Budget-Hardware
Q3_K_L	Mittel	Moderat	Bessere Q3-Qualität
Q4_K_S	Gut	Klein	Empfohlene Balance
Q4_K_M	Sehr gut	Moderat	Beste Gesamtwahl
Q5_K_S	Exzellent	Größer	Qualitätsorientiert
Q5_K_M	Exzellent	Größer	Nahe FP16-Qualität
Q6_K	Nahezu perfekt	Groß	Minimaler Verlust
Q8_0	Exzellent	Groß	Referenzqualität

K-Quant-Benennung erklärt

KK = "K-quant" — verwendet wichtigkeitsbasierte Quantisierung, die die Präzision pro Schicht variiert
SS (Small) = Aggressivere Quantisierung bei Attention-Schichten, kleinere Dateien
MM (Medium) = Ausgewogene Quantisierung über alle Schichten, bestes Qualitäts-/Größenverhältnis
LL (Large) = Weniger Quantisierung bei wichtigen Schichten, bessere Qualität

Wichtige Erkenntnis: K-Quants sind "gemischte Präzision" – sie quantisieren verschiedene Schichten unterschiedlich basierend auf ihrer Wichtigkeit für die Modellqualität. Attention-Schichten verwenden typischerweise höhere Präzision als Feed-Forward-Schichten.

Praxisauswirkungen

Konkrete Beispiele, was Quantisierung ermöglicht.

Llama 3.1 70B bei verschiedenen Quants

Ein 70B-Parameter-Modell benötigt ~140GB bei FP16. Mit Quantisierung:

Q8:Q8: ~70GB — Passt auf 2x A100 40GB oder 1x H100
Q4_K_M:Q4_K_M: ~40GB — Passt auf 2x RTX 4090 oder 1x A100 80GB
Q3_K_M:Q3_K_M: ~30GB — Passt auf einzelne RTX 4090 (24GB + etwas Offload)

Qualitätsvergleich

In Blindtests beim Vergleich von Q4_K_M mit FP16-Ausgaben:

•85% der Nutzer konnten nicht identifizieren, welche quantisiert war
•Perplexitätsanstieg von nur 0,1-0,5 Punkten auf gängigen Benchmarks
•Code-Completion und Reasoning-Aufgaben zeigen minimale Verschlechterung

Kosteneinsparungen

Ausführen eines 70B-Modells für Inferenz:

FP16

FP16: ~4-8€/Stunde in der Cloud (2x A100)

Q4: ~1-2€/Stunde (einzelne A100 oder High-End Consumer-GPU)

Local

Lokal: Einmalige Kosten einer Consumer-GPU vs. laufende Cloud-Gebühren

Wichtige Erkenntnisse

1Quantisierung reduziert den Modellspeicher um das 2-16-fache mit überraschend geringem Genauigkeitsverlust
2Q4 (INT4) ist der Sweet Spot für die meisten lokalen LLM-Anwendungsfälle – exzellente Qualität bei 1/8 des Speichers
3K-Quant-Methoden (Q4_K_M, Q5_K_S) sind "gemischte Präzision" und übertreffen gleichmäßige Quantisierung
4GPTQ und AWQ sind die führenden Techniken für LLM-Quantisierung, mit GGUF als Standardformat
5Quantisierung demokratisiert KI, indem sie Frontier-Modelle auf Consumer-Hardware ermöglicht
6Für kritische Anwendungen höhere Präzision (INT8/FP16) bevorzugen; für Experimente ist Q4 ideal