Diese Tier-Liste basiert auf persönlicher Erfahrung und Tests in den Bereichen Coding, Reasoning, kreatives Schreiben und allgemeiner Chat. Deine Ergebnisse können abweichen — jeder Anwendungsfall ist anders.
Hinweis
Diese Liste enthält nur Modelle, die ich für relevant halte — nicht jedes Modell da draußen. Die unteren Tiers (D, F) sind meine Wall of Shame. Rankings sind subjektiv und basieren auf persönlicher Erfahrung. Modellqualität ändert sich schnell.
GPT-5.3-Codex
Intelligent, logisch und effizient. Das beste Coding-Modell auf dem Markt.
GPT-5.4
1M Kontext, 33% weniger Halluzinationen als 5.2, Tool Search System. Bestes Modell für komplexe professionelle Aufgaben.
Claude Opus 4.6
Teür, aber es lohnt sich. Unübertroffenes UI/UX-Designgefühl und kreatives Instruktionsverständnis.
Claude Sonnet 4.6
Schlau mit bemerkenswert niedriger Halluzinationsrate. Zuverlässiges Alltagsmodell.
Gemini 3 Flash
Unglaublich preiseffizient mit exzellentem Bild- und Videoverständnis. Schnell und schlau.
Kimi K2.5
1T MoE → 32B active
Großartiges visuelles Verständnis und Swarm-Fähigkeiten. Starker multimodaler Kandidat.
Qwen 3.5 35B-A3B
35B MoE → 3B active
MoE mit nur 3B aktiven Parametern — extrem schnelle Inferenz bei Intelligenz weit über den Rechenkosten. Self-Hosting auf 24GB GPUs möglich.
Qwen 3.5 27B
27B dense
Dichtes Modell das weit über seiner Gewichtsklasse spielt. Benchmarks auf dem Niveau von DeepSeek 3.2 bei einem Bruchteil der Größe.
DeepSeek 3.2
685B MoE → 37B active
Super günstig und schlau, aber langsam. Tolles Preis-Leistungs-Verhältnis für nicht zeitkritische Aufgaben.
MiniMax M2.5
230B MoE → 10B active
Herausragendes Preis-Leistungs-Verhältnis. Fast self-hostbar — eines der besten Modelle fürs Budget.
GLM 5
744B MoE → 40B active
Gute Agent-Fähigkeiten mit niedrigen Halluzinationsraten. Solider Allrounder.
Grok 4.20
Starkes suchgestütztes Modell. Am besten für Echtzeit-Webrecherche.
Gemini 3.1 Flash Lite
Sehr schnell, aber deutlich teurer als Flash Lite 2.5. Immer noch gut, aber der Preisanstieg ist schwer zu rechtfertigen.
Gemini 3.1 Pro
Benchmaxxed-Enttäuschung. Toppt Leaderboards, versagt aber in echten Agent-Workflows. Google, wie nur?
Llama Maverick
400B MoE → 17B active
Metas offenes Modell enttäuscht weiterhin. Überall gibt es bessere Alternativen.
Amazon Nova
Was auch immer Amazon hier macht — es funktioniert nicht. Finger weg.