Lerne KI

Interaktiver Leitfaden

Themen
Hands-On
KI-Agenten
Große Sprachmodelle
Diffusionsmodelle
LLM-Inferenz
ML-Grundlagen
Prompting
KI-Sicherheit
KI-Industrie
Ein Projekt vonLMF
GitHub·Updates
Künstliche IntelligenzLLM Inference
5 Themen

LLM Inference

Verstehe, wie große Sprachmodelle effizient Text generieren — von KV-Caching über Batching-Strategien bis zur Serving-Infrastruktur.

Hilf mit, das hier zu verbessern

Dieser Guide ist Open Source. Hast du eine Idee für ein neues Thema? Einen Fehler gefunden? Eine Erklärung verbessern? Jeder Beitrag hilft.

Thema vorschlagenFehler meldenAuf GitHub markieren
01
KV-CacheBerechnete Keys und Values speichern, um Arbeit zu sparen9. Feb. 2026
E
02
Prompt CachingKV-Caches über API-Anfragen hinweg wiederverwenden, um Kosten und Latenz zu sparen19. Feb. 2026
I
03
Batching & DurchsatzMehrere Anfragen gleichzeitig für höheren Durchsatz verarbeiten9. Feb. 2026
I
04
Lokale ModellinferenzLLMs auf eigener Hardware ausführen -- Privatsphäre, Geschwindigkeit, keine API-Kosten9. Feb. 2026
B
05
VRAM-RechnerVRAM-Bedarf und Inferenzgeschwindigkeit für lokale LLMs abschätzen27. Feb. 2026
B
Zurück zu allen Themen