VRAM-Rechner

Beginner

VRAM-Bedarf und Inferenzgeschwindigkeit für lokale LLMs abschätzen.

Zuletzt aktualisiert: 27. Feb. 2026

Schnelle Modell-Vorlagen

Klicke auf ein Modell, um die Parameter automatisch auszufüllen. Passe Quantisierung und Kontextlänge unten an.

VRAM-Schätzer

Milliarden
Mixture-of-Experts-Modell
Geschätzter VRAM-Bedarf
9.0 GB
Modellgewichte: 4.2 GB
KV-Cache: 4.29 GB
Laufzeit-Overhead: 0.50 GB
GPU-Kompatibilität
8 GB
Passt nicht
12 GB
Passt
16 GB
Passt
24 GB
Passt
32 GB
Passt
48 GB
Passt
80 GB
Passt
96 GB
Passt
128 GB
Passt

Geschwindigkeitsschätzer

NVIDIA Consumer
NVIDIA Pro
Apple Silicon
AMD APU
Datacenter
Geschätzte Generierungsgeschwindigkeit
Schnell
~131 tok/s

1008 GB/s × 0.55 ÷ 4.2 GB = ~131 tok/s

<5 tok/s
Langsam
5–15
Nutzbar
15–30
Gut
>30
Schnell

Die Offloading-Geschwindigkeitsklippe

Wenn ein Modell nicht in den VRAM passt, können Layer in den CPU-RAM oder sogar auf die Festplatte ausgelagert werden. Aber der Geschwindigkeitsverlust ist brutal:

GPU VRAM
1,008 GB/s~131 tok/s
CPU RAM (DDR5)
70 GB/s~9 tok/s
CPU RAM (DDR4)
40 GB/s~5 tok/s
NVMe SSD
6 GB/s~47 tok/min
SATA SSD
500 MB/s~4 tok/min
100% GPU0% CPU
~130.6 tok/s

Geschätzt mit Offloading: 131 tok/s (100% VRAM)

⚠️ Selbst 10% der Layer in den CPU-RAM auszulagern kann die Geschwindigkeit um 50%+ reduzieren. Der Flaschenhals ist immer das langsamste Glied in der Kette.

Smartes Offloading für MoE-Modelle

Mixture-of-Experts-Modelle sind einzigartig geeignet für Offloading, weil nur ein Bruchteil der Experten pro Token aktiviert wird. So holst du das Maximum raus:

🎯

Den Hot Path im VRAM behalten

Attention-Layer, das Router/Gate-Netzwerk und Shared Layers werden für jeden Token benötigt. Die müssen im VRAM bleiben. In llama.cpp nutze --ngl um zu steuern wie viele Layer auf der GPU liegen.

💤

Inaktive Experten in CPU-RAM auslagern

Die meisten MoE-Modelle aktivieren 2-4 von 64+ Experten. Die inaktiven können im CPU-RAM liegen — sie werden während der Inferenz sowieso nicht gelesen.

Expert-Prefetching nutzen

Fortgeschrittene Runtimes (wie llama.cpp mit --override-kv) können vorhersagen, welche Experten der nächste Token braucht, und sie von CPU→GPU vorladen, während der aktuelle Token verarbeitet wird.

🧮

Beispiel: Qwen3.5-35B-A3B bei Q4

Gesamtgröße: ~18 GB. Aber nur ~3B Parameter sind pro Token aktiv. Mit smartem Offloading läuft das auf einer 12GB-GPU: Attention + aktive Experten im VRAM (~6 GB), Rest im RAM. Geschwindigkeit: fast gleich wie komplett im VRAM, weil inaktive Experten nicht gelesen werden.

💡 Kernaussage

Bei MoE-Modellen bestimmt VRAM, welche Modelle du STARTEN kannst. Bei Dense-Modellen bestimmt VRAM, wie SCHNELL sie laufen. Ein 35B MoE-Modell mit 3B aktiven Parametern auf einer 12GB-GPU kann schneller sein als ein 14B Dense-Modell auf der gleichen GPU.

Wie die Formeln funktionieren

VRAM-Formel

VRAM ≈ (params × bits_per_param / 8) + KV_cache + 0.5 GB

Jeder Parameter wird mit der durch Quantisierung bestimmten Bitanzahl gespeichert. FP16 nutzt 16 Bit (2 Byte) pro Parameter, Q4_K_M etwa 4,8 Bit. Durch 8 teilen, um Bits in Bytes umzurechnen.

KV-Cache-Formel

KV_cache ≈ 2 × n_layers × d_model × ctx_len × 2 bytes

Bei der Generierung speichert jede Schicht einen Key- und Value-Vektor für jeden Token im Kontext. Bei längeren Kontexten kann der KV-Cache mehrere GB verbrauchen — deshalb kostet 32K Kontext deutlich mehr VRAM als 4K.

Geschwindigkeitsformel (Roofline-Modell)

tok/s ≈ memory_bandwidth / model_size_in_ram

LLM-Inferenz ist speicherbandbreitengebunden: Jeder Token erfordert das Lesen des gesamten Modells aus dem VRAM. Geschwindigkeit ≈ wie schnell die Modellgewichte gestreamt werden können. Bei MoE-Modellen werden nur aktive Parameter pro Token gelesen.

Wichtige Einschränkungen

  • 1Dies sind Schätzungen. Der tatsächliche VRAM-Verbrauch hängt von der Inferenz-Engine (llama.cpp, vLLM, Ollama), Batch-Größe und Implementierungsdetails ab.
  • 2Flash Attention und Paged KV-Cache können den Speicherverbrauch in der Praxis deutlich reduzieren.
  • 3CPU-Offloading ermöglicht größere Modelle als der GPU-VRAM zulässt, allerdings auf Kosten deutlich langsamerer Geschwindigkeit.
  • 4Die tatsächliche Geschwindigkeit hängt von der Rechenauslastung ab, nicht nur von der Bandbreite. Batched Inference, Speculative Decoding und Flash Attention ändern das Bild.
  • 5K-Quant-Größen (Q4_K_M, Q5_K_M, etc.) variieren leicht je nach Modellarchitektur. Die Bits-pro-Parameter-Werte hier sind typische Durchschnittswerte.

Quantisierung

Erfahre, wie Quantisierung die Modellgröße bei minimalem Qualitätsverlust reduziert.

Lokale Modellinferenz

Vollständiger Leitfaden zum Ausführen von Modellen auf eigener Hardware.