Lokale Modellinferenz

Beginner

Führe grosse Sprachmodelle auf deiner eigenen Hardware aus -- keine Cloud, keine API-Keys, keine Limits.

Zuletzt aktualisiert: 9. Feb. 2026

Warum lokal ausführen?

Modelle auf dem eigenen Rechner zu betreiben bietet Möglichkeiten, die Cloud-APIs nicht bieten können.

Volle Privatsphäre

Deine Daten verlassen nie deinen Rechner. Kein Logging, kein Zugriff Dritter, keine Compliance-Sorgen.

Keine API-Kosten

Nach der einmaligen Hardware-Investition ist jeder Token kostenlos. Führe so viele Anfragen aus wie du willst.

Offline-Zugang

Funktioniert ohne Internet. Nutze KI im Flugzeug, in sicheren Umgebungen oder überall ohne Verbindung.

Volle Anpassung

Wähle jedes Modell, jede Quantisierung, alle Parameter. Optimiere für deinen spezifischen Anwendungsfall.

Tiefes Lernen

Nichts lehrt dich besser, wie LLMs funktionieren, als direkt mit ihnen zu experimentieren.

Totale Kontrolle

Keine Rate-Limits, keine Filter die du nicht gewählt hast, keine überraschenden API-Änderungen.

Hardware-Anforderungen

Wähle eine Modellgröße und Quantisierungsstufe um zu sehen, wie viel VRAM du brauchst und welche GPUs das schaffen.

Benötigter VRAM
4 GB
Geschätzte Geschwindigkeit
~55 tok/s
Ungefähr, variiert je nach GPU und Konfiguration
GPU-Kompatibilität
RTX 3060 (12GB)
RTX 3090 (24GB)
RTX 4070 Ti Super (16GB)
RTX 4090 (24GB)
RTX 5070 Ti (16GB)
RTX 5080 (16GB)
RTX 5090 (32GB)
RTX 6000 Pro (96GB)
RTX PRO 6000 (96GB)
M3 Pro (18GB) (18GB)
M3 Max (36GB) (36GB)
M4 Pro (24GB) (24GB)
M4 Max (64GB) (64GB)
M4 Max (128GB) (128GB)

Der MoE-Vorteil für lokale Inferenz

Mixture-of-Experts-Modelle (MoE) leiten jeden Token nur durch eine Teilmenge von "Experten"-Schichten. Der Hauptvorteil ist Geschwindigkeit: weniger aktive Parameter bedeuten schnellere Generierung. Aber alle Parameter bleiben im VRAM — MoE spart keinen Speicher.

Schnellere Generierung

Pro Token rechnet nur eine Teilmenge der Experten. Mixtral 8x7B aktiviert 12,9B seiner 46,7B Parameter — und generiert Tokens ~3x schneller als ein vergleichbar intelligentes dichtes 70B-Modell.

Intelligenz großer Modelle

Alle 46,7B Parameter speichern Wissen über alle Experten. Die Reasoning-Qualität liegt weit über dem, was ein dichtes 13B-Modell erreichen könnte.

VRAM basiert auf Gesamtparametern

Alle Experten-Gewichte müssen in den Speicher geladen werden. Mixtral 8x7B bei Q4 braucht ~26 GB VRAM — ähnlich einem dichten 30B-Modell, nicht 13B. MoE spart Rechenzeit, nicht Speicher.

Intelligenz
Mixtral 8x7B
75/100
Llama 3.1 70B
85/100
Mistral 7B
45/100
Geschwindigkeit (Tokens/s, RTX 4090)
Mixtral 8x7B
~35 tok/s
Llama 3.1 70B
~10 tok/s
Mistral 7B
~100 tok/s
VRAM-Verbrauch (Q4)
Mixtral 8x7B
26 GB
Llama 3.1 70B
40 GB
Mistral 7B
5 GB
Mixtral 8x7B
Gesamt: 46.7B
Aktiv: 12.9B
VRAM (Q4): 26 GB
✨ Geschwindigkeitsvorteil
Llama 3.1 70B
Gesamt: 70B
Aktiv: 70B
VRAM (Q4): 40 GB
Mistral 7B
Gesamt: 7.2B
Aktiv: 7.2B
VRAM (Q4): 5 GB

Die Erkenntnis: Mixtral 8x7B aktiviert nur 12,9B seiner 46,7B Parameter pro Token — das liefert 70B-Klasse-Intelligenz bei 3,5-facher Geschwindigkeit. Aber es braucht trotzdem ~26 GB VRAM, weil alle Experten-Gewichte geladen werden müssen. MoE tauscht VRAM gegen Geschwindigkeit, nicht umgekehrt.

MoE ist ein fundamentaler Architekturwandel, kein bloßer Optimierungstrick. Zu verstehen, wie Expert-Routing funktioniert, hilft dir das richtige Modell für deine Hardware zu wählen.

Tiefer Einblick in Mixture of Experts

Beliebte Tools

Das lokale Inferenz-Ökosystem ist schnell gereift. Hier sind die wichtigsten Tools, von anfängerfreundlich bis produktionsreif.

Ollama

Ease
Perf
Features
GPU
Formats

llama.cpp

Ease
Perf
Features
GPU
Formats

LM Studio

Ease
Perf
Features
GPU
Formats

vLLM

Ease
Perf
Features
GPU
Formats

text-generation-webui

Ease
Perf
Features
GPU
Formats

Der Quantisierungs-Kompromiss

Quantisierung ist die Schlüsseltechnologie, die lokale Inferenz praktikabel macht. Durch Reduzierung der Präzision der Modellgewichte passen viel größere Modelle in begrenzten VRAM.

Ein 70B-Parameter-Modell bei FP16 braucht 140 GB Speicher -- weit jenseits jeder Consumer-GPU. Bei Q4-Quantisierung passt es in 40 GB, was es auf High-End-Consumer-Hardware mit nur geringem Qualitätsverlust ausführbar macht.

Tiefer Einblick in Quantisierung
🧮

VRAM-Rechner

Nicht sicher, ob ein Modell auf deine GPU passt? Berechne VRAM-Bedarf und geschätzte Geschwindigkeit für jedes Modell und jede Quantisierungsstufe.

Erste Schritte

Folge diesen fünf Schritten um von null zum ersten lokalen Modell zu kommen.

1

Tool wählen

Starte mit Ollama oder LM Studio -- sie erledigen alles für dich. Wechsle zu llama.cpp oder vLLM wenn du mehr Kontrolle brauchst.

2

VRAM prüfen

Führe nvidia-smi (NVIDIA) oder den Aktivitätsmonitor (Mac) aus. Das bestimmt welche Modelle du ausführen kannst.

3

Modellgröße wählen

Starte mit 7B-Modellen. Sie sind schnell, leistungsfähig und passen auf die meisten GPUs. Wechsle zu 13B oder 70B wenn du mehr brauchst.

4

Quantisierungsstufe wählen

Q4 ist der Sweet Spot für die meisten: gute Qualität bei vernünftigem VRAM-Verbrauch. Nimm Q8 bei genug Speicher, Q2 wenn es knapp ist.

5

Ausführen

Lade das Modell herunter und starte den Chat. Mit Ollama: ollama pull llama3.2, dann ollama run llama3.2. Das wars.

Schnellstart-Demo

So sieht es aus, Ollama zu installieren und dein erstes Modell auszuführen -- drei Befehle und du chattest.

terminal
$ |

Tipps und Tricks

  • 1Kontextlänge beeinflusst VRAM-Verbrauch direkt. Ein 7B-Modell mit 128K Kontext braucht deutlich mehr Speicher als mit 4K. Starte klein und erhöhe nach Bedarf.
  • 2GPU-Offloading teilt ein Modell zwischen GPU und CPU auf. GPU-Geschwindigkeit für passende Layer, CPU für den Rest. Langsamer als volle GPU, aber größere Modelle möglich.
  • 3Reine CPU-Inferenz funktioniert, ist aber 5-10x langsamer als GPU. Gut zum Testen, weniger für interaktive Nutzung. Apple Silicon ist die Ausnahme -- Unified Memory macht CPU-Inferenz schnell.
  • 4Für 8 GB VRAM: 7B Q4. Für 12 GB: 7B Q8 oder 13B Q4. Für 24 GB: 13B Q8 oder 70B Q4. Für 32 GB+: 70B Q4-Q8 komfortabel.
  • 5Llama 3.2, Mistral, Phi-3 und Qwen 2.5 sind hervorragend für lokale Inferenz. Jedes glänzt bei anderen Aufgaben -- experimentiere um das Beste für dich zu finden.
  • 6Betreibe Modelle als API-Server (Ollama und LM Studio unterstützen das) um lokale Modelle in eigene Anwendungen, Skripte und Workflows zu integrieren.