Warum lokal ausführen?
Modelle auf dem eigenen Rechner zu betreiben bietet Möglichkeiten, die Cloud-APIs nicht bieten können.
Volle Privatsphäre
Deine Daten verlassen nie deinen Rechner. Kein Logging, kein Zugriff Dritter, keine Compliance-Sorgen.
Keine API-Kosten
Nach der einmaligen Hardware-Investition ist jeder Token kostenlos. Führe so viele Anfragen aus wie du willst.
Offline-Zugang
Funktioniert ohne Internet. Nutze KI im Flugzeug, in sicheren Umgebungen oder überall ohne Verbindung.
Volle Anpassung
Wähle jedes Modell, jede Quantisierung, alle Parameter. Optimiere für deinen spezifischen Anwendungsfall.
Tiefes Lernen
Nichts lehrt dich besser, wie LLMs funktionieren, als direkt mit ihnen zu experimentieren.
Totale Kontrolle
Keine Rate-Limits, keine Filter die du nicht gewählt hast, keine überraschenden API-Änderungen.
Hardware-Anforderungen
Wähle eine Modellgröße und Quantisierungsstufe um zu sehen, wie viel VRAM du brauchst und welche GPUs das schaffen.
Der MoE-Vorteil für lokale Inferenz
Mixture-of-Experts-Modelle (MoE) leiten jeden Token nur durch eine Teilmenge von "Experten"-Schichten. Der Hauptvorteil ist Geschwindigkeit: weniger aktive Parameter bedeuten schnellere Generierung. Aber alle Parameter bleiben im VRAM — MoE spart keinen Speicher.
Schnellere Generierung
Pro Token rechnet nur eine Teilmenge der Experten. Mixtral 8x7B aktiviert 12,9B seiner 46,7B Parameter — und generiert Tokens ~3x schneller als ein vergleichbar intelligentes dichtes 70B-Modell.
Intelligenz großer Modelle
Alle 46,7B Parameter speichern Wissen über alle Experten. Die Reasoning-Qualität liegt weit über dem, was ein dichtes 13B-Modell erreichen könnte.
VRAM basiert auf Gesamtparametern
Alle Experten-Gewichte müssen in den Speicher geladen werden. Mixtral 8x7B bei Q4 braucht ~26 GB VRAM — ähnlich einem dichten 30B-Modell, nicht 13B. MoE spart Rechenzeit, nicht Speicher.
Die Erkenntnis: Mixtral 8x7B aktiviert nur 12,9B seiner 46,7B Parameter pro Token — das liefert 70B-Klasse-Intelligenz bei 3,5-facher Geschwindigkeit. Aber es braucht trotzdem ~26 GB VRAM, weil alle Experten-Gewichte geladen werden müssen. MoE tauscht VRAM gegen Geschwindigkeit, nicht umgekehrt.
MoE ist ein fundamentaler Architekturwandel, kein bloßer Optimierungstrick. Zu verstehen, wie Expert-Routing funktioniert, hilft dir das richtige Modell für deine Hardware zu wählen.
Tiefer Einblick in Mixture of Experts →Beliebte Tools
Das lokale Inferenz-Ökosystem ist schnell gereift. Hier sind die wichtigsten Tools, von anfängerfreundlich bis produktionsreif.
Ollama
llama.cpp
LM Studio
vLLM
text-generation-webui
Der Quantisierungs-Kompromiss
Quantisierung ist die Schlüsseltechnologie, die lokale Inferenz praktikabel macht. Durch Reduzierung der Präzision der Modellgewichte passen viel größere Modelle in begrenzten VRAM.
Ein 70B-Parameter-Modell bei FP16 braucht 140 GB Speicher -- weit jenseits jeder Consumer-GPU. Bei Q4-Quantisierung passt es in 40 GB, was es auf High-End-Consumer-Hardware mit nur geringem Qualitätsverlust ausführbar macht.
Tiefer Einblick in Quantisierung →VRAM-Rechner →
Nicht sicher, ob ein Modell auf deine GPU passt? Berechne VRAM-Bedarf und geschätzte Geschwindigkeit für jedes Modell und jede Quantisierungsstufe.
Erste Schritte
Folge diesen fünf Schritten um von null zum ersten lokalen Modell zu kommen.
Tool wählen
Starte mit Ollama oder LM Studio -- sie erledigen alles für dich. Wechsle zu llama.cpp oder vLLM wenn du mehr Kontrolle brauchst.
VRAM prüfen
Führe nvidia-smi (NVIDIA) oder den Aktivitätsmonitor (Mac) aus. Das bestimmt welche Modelle du ausführen kannst.
Modellgröße wählen
Starte mit 7B-Modellen. Sie sind schnell, leistungsfähig und passen auf die meisten GPUs. Wechsle zu 13B oder 70B wenn du mehr brauchst.
Quantisierungsstufe wählen
Q4 ist der Sweet Spot für die meisten: gute Qualität bei vernünftigem VRAM-Verbrauch. Nimm Q8 bei genug Speicher, Q2 wenn es knapp ist.
Ausführen
Lade das Modell herunter und starte den Chat. Mit Ollama: ollama pull llama3.2, dann ollama run llama3.2. Das wars.
Schnellstart-Demo
So sieht es aus, Ollama zu installieren und dein erstes Modell auszuführen -- drei Befehle und du chattest.
Tipps und Tricks
- 1Kontextlänge beeinflusst VRAM-Verbrauch direkt. Ein 7B-Modell mit 128K Kontext braucht deutlich mehr Speicher als mit 4K. Starte klein und erhöhe nach Bedarf.
- 2GPU-Offloading teilt ein Modell zwischen GPU und CPU auf. GPU-Geschwindigkeit für passende Layer, CPU für den Rest. Langsamer als volle GPU, aber größere Modelle möglich.
- 3Reine CPU-Inferenz funktioniert, ist aber 5-10x langsamer als GPU. Gut zum Testen, weniger für interaktive Nutzung. Apple Silicon ist die Ausnahme -- Unified Memory macht CPU-Inferenz schnell.
- 4Für 8 GB VRAM: 7B Q4. Für 12 GB: 7B Q8 oder 13B Q4. Für 24 GB: 13B Q8 oder 70B Q4. Für 32 GB+: 70B Q4-Q8 komfortabel.
- 5Llama 3.2, Mistral, Phi-3 und Qwen 2.5 sind hervorragend für lokale Inferenz. Jedes glänzt bei anderen Aufgaben -- experimentiere um das Beste für dich zu finden.
- 6Betreibe Modelle als API-Server (Ollama und LM Studio unterstützen das) um lokale Modelle in eigene Anwendungen, Skripte und Workflows zu integrieren.