Lokale Modellinferenz

Warum lokal ausführen?

Modelle auf dem eigenen Rechner zu betreiben bietet Möglichkeiten, die Cloud-APIs nicht bieten können.

Volle Privatsphäre

Deine Daten verlassen nie deinen Rechner. Kein Logging, kein Zugriff Dritter, keine Compliance-Sorgen.

Keine API-Kosten

Nach der einmaligen Hardware-Investition ist jeder Token kostenlos. Führe so viele Anfragen aus wie du willst.

Offline-Zugang

Funktioniert ohne Internet. Nutze KI im Flugzeug, in sicheren Umgebungen oder überall ohne Verbindung.

Volle Anpassung

Wähle jedes Modell, jede Quantisierung, alle Parameter. Optimiere für deinen spezifischen Anwendungsfall.

Tiefes Lernen

Nichts lehrt dich besser, wie LLMs funktionieren, als direkt mit ihnen zu experimentieren.

Totale Kontrolle

Keine Rate-Limits, keine Filter die du nicht gewählt hast, keine überraschenden API-Änderungen.

Hardware-Anforderungen

Wähle eine Modellgröße und Quantisierungsstufe um zu sehen, wie viel VRAM du brauchst und welche GPUs das schaffen.

Modellgröße

Quantisierung

Benötigter VRAM

4 GB

Geschätzte Geschwindigkeit

~55 tok/s

Ungefähr, variiert je nach GPU und Konfiguration

GPU-Kompatibilität

RTX 3060 (12GB)

RTX 3090 (24GB)

RTX 4070 Ti Super (16GB)

RTX 4090 (24GB)

RTX 5070 Ti (16GB)

RTX 5080 (16GB)

RTX 5090 (32GB)

RTX 6000 Pro (96GB)

RTX PRO 6000 (96GB)

M3 Pro (18GB) (18GB)

M3 Max (36GB) (36GB)

M4 Pro (24GB) (24GB)

M4 Max (64GB) (64GB)

M4 Max (128GB) (128GB)

Der MoE-Vorteil für lokale Inferenz

Mixture-of-Experts-Modelle (MoE) leiten jeden Token nur durch eine Teilmenge von "Experten"-Schichten. Der Hauptvorteil ist Geschwindigkeit: weniger aktive Parameter bedeuten schnellere Generierung. Aber alle Parameter bleiben im VRAM — MoE spart keinen Speicher.

Schnellere Generierung

Pro Token rechnet nur eine Teilmenge der Experten. Mixtral 8x7B aktiviert 12,9B seiner 46,7B Parameter — und generiert Tokens ~3x schneller als ein vergleichbar intelligentes dichtes 70B-Modell.

Intelligenz großer Modelle

Alle 46,7B Parameter speichern Wissen über alle Experten. Die Reasoning-Qualität liegt weit über dem, was ein dichtes 13B-Modell erreichen könnte.

VRAM basiert auf Gesamtparametern

Alle Experten-Gewichte müssen in den Speicher geladen werden. Mixtral 8x7B bei Q4 braucht ~26 GB VRAM — ähnlich einem dichten 30B-Modell, nicht 13B. MoE spart Rechenzeit, nicht Speicher.

Intelligenz

Mixtral 8x7B

75/100

Llama 3.1 70B

85/100

Mistral 7B

45/100

Geschwindigkeit (Tokens/s, RTX 4090)

Mixtral 8x7B

~35 tok/s

Llama 3.1 70B

~10 tok/s

Mistral 7B

~100 tok/s

VRAM-Verbrauch (Q4)

Mixtral 8x7B

26 GB

Llama 3.1 70B

40 GB

Mistral 7B

5 GB

Mixtral 8x7B

Gesamt: 46.7B

Aktiv: 12.9B

VRAM (Q4): 26 GB

✨ Geschwindigkeitsvorteil

Llama 3.1 70B

Gesamt: 70B

Aktiv: 70B

VRAM (Q4): 40 GB

Mistral 7B

Gesamt: 7.2B

Aktiv: 7.2B

VRAM (Q4): 5 GB

Quantisierung ist die Schlüsseltechnologie, die lokale Inferenz praktikabel macht. Durch Reduzierung der Präzision der Modellgewichte passen viel größere Modelle in begrenzten VRAM.

Ein 70B-Parameter-Modell bei FP16 braucht 140 GB Speicher -- weit jenseits jeder Consumer-GPU. Bei Q4-Quantisierung passt es in 40 GB, was es auf High-End-Consumer-Hardware mit nur geringem Qualitätsverlust ausführbar macht.

Tiefer Einblick in Quantisierung →

🧮

VRAM-Rechner →

Nicht sicher, ob ein Modell auf deine GPU passt? Berechne VRAM-Bedarf und geschätzte Geschwindigkeit für jedes Modell und jede Quantisierungsstufe.

Erste Schritte

Folge diesen fünf Schritten um von null zum ersten lokalen Modell zu kommen.

Tool wählen

Starte mit Ollama oder LM Studio -- sie erledigen alles für dich. Wechsle zu llama.cpp oder vLLM wenn du mehr Kontrolle brauchst.

VRAM prüfen

Führe nvidia-smi (NVIDIA) oder den Aktivitätsmonitor (Mac) aus. Das bestimmt welche Modelle du ausführen kannst.

Modellgröße wählen

Starte mit 7B-Modellen. Sie sind schnell, leistungsfähig und passen auf die meisten GPUs. Wechsle zu 13B oder 70B wenn du mehr brauchst.

Quantisierungsstufe wählen

Q4 ist der Sweet Spot für die meisten: gute Qualität bei vernünftigem VRAM-Verbrauch. Nimm Q8 bei genug Speicher, Q2 wenn es knapp ist.

Ausführen

Lade das Modell herunter und starte den Chat. Mit Ollama: ollama pull llama3.2, dann ollama run llama3.2. Das wars.

Schnellstart-Demo

So sieht es aus, Ollama zu installieren und dein erstes Modell auszuführen -- drei Befehle und du chattest.

terminal

$ |

Tipps und Tricks

1Kontextlänge beeinflusst VRAM-Verbrauch direkt. Ein 7B-Modell mit 128K Kontext braucht deutlich mehr Speicher als mit 4K. Starte klein und erhöhe nach Bedarf.
2GPU-Offloading teilt ein Modell zwischen GPU und CPU auf. GPU-Geschwindigkeit für passende Layer, CPU für den Rest. Langsamer als volle GPU, aber größere Modelle möglich.
3Reine CPU-Inferenz funktioniert, ist aber 5-10x langsamer als GPU. Gut zum Testen, weniger für interaktive Nutzung. Apple Silicon ist die Ausnahme -- Unified Memory macht CPU-Inferenz schnell.
4Für 8 GB VRAM: 7B Q4. Für 12 GB: 7B Q8 oder 13B Q4. Für 24 GB: 13B Q8 oder 70B Q4. Für 32 GB+: 70B Q4-Q8 komfortabel.
5Llama 3.2, Mistral, Phi-3 und Qwen 2.5 sind hervorragend für lokale Inferenz. Jedes glänzt bei anderen Aufgaben -- experimentiere um das Beste für dich zu finden.
6Betreibe Modelle als API-Server (Ollama und LM Studio unterstützen das) um lokale Modelle in eigene Anwendungen, Skripte und Workflows zu integrieren.