5 Themen

LLM Inference

Verstehe, wie große Sprachmodelle effizient Text generieren — von KV-Caching über Batching-Strategien bis zur Serving-Infrastruktur.

Hilf mit, das hier zu verbessern

Dieser Guide ist Open Source. Hast du eine Idee für ein neues Thema? Einen Fehler gefunden? Eine Erklärung verbessern? Jeder Beitrag hilft.

Thema vorschlagen Fehler melden Auf GitHub markieren

KV-CacheBerechnete Keys und Values speichern, um Arbeit zu sparen9. Feb. 2026

E

Prompt CachingKV-Caches über API-Anfragen hinweg wiederverwenden, um Kosten und Latenz zu sparen19. Feb. 2026

I

Batching & DurchsatzMehrere Anfragen gleichzeitig für höheren Durchsatz verarbeiten9. Feb. 2026

I

Lokale ModellinferenzLLMs auf eigener Hardware ausführen -- Privatsphäre, Geschwindigkeit, keine API-Kosten9. Feb. 2026

B

VRAM-RechnerVRAM-Bedarf und Inferenzgeschwindigkeit für lokale LLMs abschätzen27. Feb. 2026

Zurück zu allen Themen