5 Themen
LLM Inference
Verstehe, wie große Sprachmodelle effizient Text generieren — von KV-Caching über Batching-Strategien bis zur Serving-Infrastruktur.
Hilf mit, das hier zu verbessern
Dieser Guide ist Open Source. Hast du eine Idee für ein neues Thema? Einen Fehler gefunden? Eine Erklärung verbessern? Jeder Beitrag hilft.
01
KV-CacheBerechnete Keys und Values speichern, um Arbeit zu sparen9. Feb. 2026
E02
Prompt CachingKV-Caches über API-Anfragen hinweg wiederverwenden, um Kosten und Latenz zu sparen19. Feb. 2026
I03
Batching & DurchsatzMehrere Anfragen gleichzeitig für höheren Durchsatz verarbeiten9. Feb. 2026
I04
Lokale ModellinferenzLLMs auf eigener Hardware ausführen -- Privatsphäre, Geschwindigkeit, keine API-Kosten9. Feb. 2026
B05
VRAM-RechnerVRAM-Bedarf und Inferenzgeschwindigkeit für lokale LLMs abschätzen27. Feb. 2026
B