Quantisierung

Expert

Wie die Reduzierung numerischer Präzision es ermöglicht, große Modelle auf Consumer-Hardware mit minimalem Qualitätsverlust auszuführen.

Zuletzt aktualisiert: 31. Jan. 2026

Was ist Quantisierung?

Quantization ist der Prozess der Reduzierung der numerischen Präzision von Modellgewichten von 32-Bit-Gleitkomma (FP32) auf niedrigere Bit-Darstellungen wie FP16, INT8 oder INT4. Dies reduziert den Speicherbedarf dramatisch und beschleunigt die Inferenz.

"Wie das Komprimieren eines hochauflösenden Fotos für dein Handy – du verlierst etwas Detail, aber das Bild bleibt erkennbar und nützlich."

— Die wichtigste Erkenntnis ist, dass neuronale Netzwerke überraschend robust gegenüber Präzisionsverlust sind. Die meisten Gewichte können mit weit weniger Bits gespeichert werden, ohne katastrophale Qualitätsverschlechterung.

Warum Quantisieren?

Quantisierung ermöglicht es, große Modelle auf Consumer-Hardware auszuführen und reduziert die Inferenzkosten in der Produktion.

1

Speicherreduktion

Ein 70B-Parameter-Modell bei FP16 benötigt ~140GB VRAM. Bei INT4 passt es in ~35GB – ausführbar auf High-End-Consumer-GPUs.

2

Schnellere Inferenz

Arithmetik mit niedrigerer Präzision ist schneller. INT8-Operationen sind 2-4x schneller als FP32 auf moderner Hardware.

3

Niedrigere Kosten

Kleinere Modelle bedeuten weniger GPUs, niedrigere Cloud-Kosten und Machbarkeit für Edge-Deployment.

4

Demokratisierung

Ermöglicht Forschern und Hobbyisten, Frontier-Klasse-Modelle lokal ohne Enterprise-Hardware auszuführen.

Quantisierungs-Visualizer

Sieh, wie Präzision Modellgröße und Qualität beeinflusst

Präzisionsstufe
FP32FP16INT8INT4INT2
Modellgröße
12.5%vom Original
Erhaltene Genauigkeit
92%erhalten
~Perplexitätsanstieg
+0.30
Gewichtsverteilung
-1.00+1.0
At INT4: Weights quantized to 16 diskrete Stufen
Erklärung

Stark komprimiert (4 Bit). Sweet Spot für Consumer-Hardware. Die meisten Nutzer bemerken keinen Qualitätsunterschied.

4 bits per weight

Quantisierungsstufen erklärt

Jede Präzisionsstufe repräsentiert einen unterschiedlichen Kompromiss zwischen Modellgröße und Ausgabequalität.

LevelBitsGrößeGenauigkeitAnwendungsfall
FP32 (Voll)32100%100%Training, Referenz-Inferenz
FP16 (Halb)1650%~99%Standard-Inferenz
INT8825%~97%Produktions-Deployment
INT4412.5%~90-95%Consumer-GPUs, Edge
INT226.25%~70-80%Extreme Edge-Fälle
💡

Empfehlung: Q4 ist der Sweet Spot

Für die meisten Nutzer, die große Modelle (70B+ Parameter) lokal ausführen:

  • Q4 (INT4) bietet ein exzellentes Qualitäts-zu-Speicher-Verhältnis
  • Die meisten Nutzer können Q4-Ausgabe in Blindtests nicht von FP16 unterscheiden
  • Ermöglicht die Ausführung von 70B-Modellen auf 24GB Consumer-GPUs
  • Empfohlene Formate: Q4_K_M oder Q4_K_S für GGUF-Modelle

Für kritische Anwendungen, die maximale Genauigkeit erfordern, verwende FP16 oder INT8. Für gelegentliche Nutzung und Experimente ist Q4 ideal.

🧮

VRAM-Rechner

Sieh genau, wie viel VRAM verschiedene Quantisierungsstufen für jede Modellgröße brauchen — probiere den interaktiven Rechner aus.

Quantisierungstechniken

Verschiedene Methoden zur Konvertierung von Modellen auf niedrigere Präzision.

PTQ (Post-Training-Quantisierung)

Quantisierung auf ein bereits trainiertes Modell anwenden. Schnell und einfach, aber möglicherweise etwas höherer Genauigkeitsverlust. Funktioniert durch Kalibrierung der Quantisierungsparameter auf einem kleinen Datensatz.

QAT (Quantization-Aware Training)

Quantisierung in den Trainingsprozess einbeziehen. Das Modell lernt, robust gegenüber Präzisionsverlust zu sein, was bessere Genauigkeit ergibt, aber vollständiges Neutraining erfordert.

GPTQ

One-Shot-Quantisierungsmethode für LLMs. Nutzt Informationen zweiter Ordnung, um den Quantisierungsfehler Schicht für Schicht zu minimieren. Beliebt für Geschwindigkeit und Qualität.

AWQ (Activation-aware Weight Quantization)

Identifiziert und bewahrt "wichtige" Gewichte, die am meisten für die Genauigkeit zählen. Erreicht bessere Qualität als naive Quantisierung durch Schutz wichtiger Parameter.

GGUF-Format

Dateiformat, das von llama.cpp für quantisierte Modelle verwendet wird. Unterstützt verschiedene Quantisierungsstufen (Q2-Q8) und ist der Standard für lokales LLM-Deployment.

GGUF K-Quant-Methoden

Verständnis der Namenskonvention für GGUF-quantisierte Modelle.

MethodeQualitätGrößeAnwendungsfall
Q2_KSchlechtKleinsteNur extreme Kompression
Q3_K_SNiedrigSehr kleinSpeicherbeschränkte Systeme
Q3_K_MNiedrig-MittelKleinBudget-Hardware
Q3_K_LMittelModeratBessere Q3-Qualität
Q4_K_SGutKleinEmpfohlene Balance
Q4_K_MSehr gutModeratBeste Gesamtwahl
Q5_K_SExzellentGrößerQualitätsorientiert
Q5_K_MExzellentGrößerNahe FP16-Qualität
Q6_KNahezu perfektGroßMinimaler Verlust
Q8_0ExzellentGroßReferenzqualität

K-Quant-Benennung erklärt

  • KK = "K-quant" — verwendet wichtigkeitsbasierte Quantisierung, die die Präzision pro Schicht variiert
  • SS (Small) = Aggressivere Quantisierung bei Attention-Schichten, kleinere Dateien
  • MM (Medium) = Ausgewogene Quantisierung über alle Schichten, bestes Qualitäts-/Größenverhältnis
  • LL (Large) = Weniger Quantisierung bei wichtigen Schichten, bessere Qualität

Wichtige Erkenntnis: K-Quants sind "gemischte Präzision" – sie quantisieren verschiedene Schichten unterschiedlich basierend auf ihrer Wichtigkeit für die Modellqualität. Attention-Schichten verwenden typischerweise höhere Präzision als Feed-Forward-Schichten.

Praxisauswirkungen

Konkrete Beispiele, was Quantisierung ermöglicht.

Llama 3.1 70B bei verschiedenen Quants

Ein 70B-Parameter-Modell benötigt ~140GB bei FP16. Mit Quantisierung:

  • Q8:Q8: ~70GB — Passt auf 2x A100 40GB oder 1x H100
  • Q4_K_M:Q4_K_M: ~40GB — Passt auf 2x RTX 4090 oder 1x A100 80GB
  • Q3_K_M:Q3_K_M: ~30GB — Passt auf einzelne RTX 4090 (24GB + etwas Offload)

Qualitätsvergleich

In Blindtests beim Vergleich von Q4_K_M mit FP16-Ausgaben:

  • 85% der Nutzer konnten nicht identifizieren, welche quantisiert war
  • Perplexitätsanstieg von nur 0,1-0,5 Punkten auf gängigen Benchmarks
  • Code-Completion und Reasoning-Aufgaben zeigen minimale Verschlechterung

Kosteneinsparungen

Ausführen eines 70B-Modells für Inferenz:

FP16
FP16: ~4-8€/Stunde in der Cloud (2x A100)
Q4
Q4: ~1-2€/Stunde (einzelne A100 oder High-End Consumer-GPU)
Local
Lokal: Einmalige Kosten einer Consumer-GPU vs. laufende Cloud-Gebühren

Wichtige Erkenntnisse

  • 1Quantisierung reduziert den Modellspeicher um das 2-16-fache mit überraschend geringem Genauigkeitsverlust
  • 2Q4 (INT4) ist der Sweet Spot für die meisten lokalen LLM-Anwendungsfälle – exzellente Qualität bei 1/8 des Speichers
  • 3K-Quant-Methoden (Q4_K_M, Q5_K_S) sind "gemischte Präzision" und übertreffen gleichmäßige Quantisierung
  • 4GPTQ und AWQ sind die führenden Techniken für LLM-Quantisierung, mit GGUF als Standardformat
  • 5Quantisierung demokratisiert KI, indem sie Frontier-Modelle auf Consumer-Hardware ermöglicht
  • 6Für kritische Anwendungen höhere Präzision (INT8/FP16) bevorzugen; für Experimente ist Q4 ideal