Logges Lieblingsmodelle

Haftungsausschluss

Diese Seite ist unverblümt voreingenommen. Ich nutze beide Modelle täglich, bezahle beide aus eigener Tasche und habe starke Meinungen. Modell-Releases entwickeln sich schnell, das hier wird sich ändern. Nebenwirkungen des Lesens können API-Key-Generierung und Geldbeutel-Angst umfassen.

Zuletzt aktualisiert: 5. Februar 2026

Zwei Modelle, eine Obsession

Am 5. Februar 2026 haben Anthropic und OpenAI ihre neuesten Flaggschiffe innerhalb weniger Stunden veröffentlicht. Ich nutze beide seitdem ununterbrochen. Hier ist der ehrliche Erfahrungsbericht von jemandem, der tatsächlich Code damit ausliefert.

Die zwei Champions

Verschiedene Philosophien, beide exzellent. Hier ist, was jedes Modell mitbringt.

Claude Opus 4.6

Anthropic

Der Tiefdenker, der wie ein Senior Engineer programmiert

Model IDclaude-opus-4-6

Released5. Februar 2026

Context200K Standard / 1M Beta

Output128K Tokens

Opus 4.6 ist Anthropics leistungsfähigstes Modell aller Zeiten. Es verdoppelte das Ausgabelimit auf 128K, führte ein 1M-Token-Kontextfenster in der Beta ein und brachte zwei exklusive Features: Adaptive Thinking (passt die Reasoning-Tiefe automatisch an) und Context Compaction (fasst alten Kontext automatisch zusammen für endlose Konversationen). Die Coding-Verbesserungen sind massiv — Terminal-Bench stieg von 59,8% auf 65,4%, OSWorld von 66,3% auf 72,7%, und ARC AGI 2 hat sich von 37,6% auf 68,8% fast verdoppelt.

Adaptive Thinking

Passt die Reasoning-Tiefe dynamisch an die Aufgabenkomplexität an. Vier Intensitätsstufen: niedrig, mittel, hoch und maximal. Es entscheidet selbst, wann tieferes Nachdenken hilft.

Agent Teams

Ermöglicht Multi-Agent-Coding in Claude Code — ein Agent fürs Frontend, einer für die API, ein dritter für die Migration — alle koordinieren sich autonom.

1M Token Kontext

Erstes Opus-Modell mit einem Millionen-Token-Fenster. Füttere es mit einer ganzen Codebase und es kann über alles hinweg denken.

128K Output

Verdoppelt von 64K. Es kann ganze Dateien, vollständige Test-Suiten und mehrseitige Dokumente in einer einzigen Antwort generieren.

Quelle: Anthropic Opus-Seite

GPT-5.3-Codex

OpenAI

Der schnelle Pragmatiker, der sich selbst mitgebaut hat

Model IDgpt-5.3-codex

Released5. Februar 2026

Context~400K Tokens

Output~128K Tokens

GPT-5.3-Codex ist OpenAIs erstes "selbstentwickelndes" Modell — frühe Versionen wurden verwendet um den eigenen Trainingslauf zu debuggen. Es vereint Frontier-Coding-Leistung (von GPT-5.2-Codex) mit professionellem Reasoning (von GPT-5.2) in einem einzigen Modell. Es ist 25% schneller als sein Vorgänger, braucht die Hälfte der Tokens für gleichwertige Aufgaben und dominiert Terminal-Bench 2 absolut mit 77,3%.

Interactive Steering

Du kannst während der Arbeit mit ihm interagieren — Fragen stellen, Ansätze besprechen und in Echtzeit lenken. Es gibt regelmäßige Fortschrittsupdates.

Selbstentwickelnd

Erstes Modell, das maßgeblich an seiner eigenen Entwicklung beteiligt war. Intern zum Debugging des Trainings, zur Verwaltung des Deployments und zur Optimierung der Evaluierung eingesetzt.

Token-effizient

Erreicht Ergebnisse mit weniger als der Hälfte der Tokens seiner Vorgänger. Dein Kontext-Budget reicht weiter.

Persönlichkeitsmodi

Wähle zwischen "Pragmatic" (knapp, auf den Punkt) und "Friendly" (gesprächig). Kein Leistungsunterschied — rein stilistisch.

Quelle: OpenAI GPT-5.3-Codex Launch

Der Benchmark-Showdown

Zahlen lügen nicht, aber sie erzählen auch nicht die ganze Geschichte. So stehen sie bei den Benchmarks da, die fürs Coden wirklich zählen.

Benchmark	Opus 4.6	Codex 5.3	Note
SWE-bench	80,8%	56,8%	Verified vs Pro (verschiedene Testsets — nicht direkt vergleichbar)
Terminal-Bench 2	65,4%	77,3%	Codex dominiert echte Terminal-Workflows
OSWorld	72,7%	64,7%	Opus führt bei Desktop-Automatisierung
GPQA Diamond	91,3%	—	Wissenschaftliches Reasoning auf Doktoranden-Niveau
ARC AGI 2	68,8%	—	Neuartige Problemlösung (fast 2x vs Opus 4.5)
Humanity's Last Exam	40,0%	—	Der schwerste Test in der KI — ohne Tools
Cybersecurity CTF	—	77,6%	Capture-the-Flag Sicherheits-Challenges

Strich bedeutet, dass der Benchmark vom Anbieter nicht veröffentlicht wurde. SWE-bench Verified und SWE-bench Pro nutzen verschiedene Testsets, daher ist ein direkter Vergleich nicht aussagekräftig.

Wann ich welches tatsächlich nutze

Theorie ist nett. Hier ist mein tatsächlicher Workflow, nachdem ich beide seit Launch täglich nutze.

Ich greife zu Opus 4.6 wenn...

Mein Tool: Claude Code (CLI)

Opus 4.6 lebt in meinem Terminal via Claude Code. Agent Teams, Multi-Datei-Edits, tiefes Reasoning — alles von der Kommandozeile. Diese gesamte Seite wurde damit gebaut.

Ich tiefes architektonisches Reasoning über eine große Codebase brauche — das 1M Kontextfenster ist unübertroffen
Ich komplexe Multi-Datei-Features schreibe, bei denen das Modell viel State halten muss
Code Review und Refactoring — Adaptive Thinking macht es wirklich sorgfältig
Agent Teams für ambitionierte mehrteilige Projekte
Alles, was von erweitertem Denken und sorgfältigem schrittweisem Reasoning profitiert

Ich greife zu GPT-5.3-Codex wenn...

Mein Tool: Codex (App + CLI)

GPT-5.3-Codex treibt die Codex-App und CLI an. Interactive Steering mid-task, Persönlichkeitsmodi und blitzschnelle Geschwindigkeit machen es perfekt für schnelle Iteration.

Schnelle Iteration bei Terminal-lastigen Workflows — es ist blitzschnell und die Terminal-Bench-Scores zeigen warum
Interaktives Pair Programming, bei dem ich mid-task lenken will
Aufgaben mit hohem Volumen, bei denen Token-Effizienz kostenmäßig zählt
Die Codex CLI für schnelles Scripting und Einmal-Aufgaben
Alles, wo ich Speed über Tiefe will — es ist 25% schneller und man spürt es

Die Geldbeutel-Situation

Reden wir über den Elefanten im Raum.

Opus 4.6

$5 Input / $25 Output pro Million Tokens. Gleicher Preis wie Opus 4.5, aber mit massiv verbesserten Fähigkeiten. Batch API mit 50% Rabatt. Immer noch Premium-Territorium — eine intensive Coding-Session kann $5-15 kosten.

GPT-5.3-Codex

API-Preise stehen noch nicht fest, aber die GPT-5-Codex-Familie liegt bei ~$1,25 Input / $10 Output. Das ist grob 2,5x günstiger als Opus bei Input und 2,5x günstiger bei Output. Plus es braucht weniger Tokens für gleichwertige Aufgaben.

Ehrliche Einschätzung: Wenn du kostenbewusst bist, gewinnt Codex klar. Wenn du maximale Reasoning-Tiefe brauchst und bereit bist dafür zu zahlen, ist Opus jeden Cent wert. Ich nutze beide, weil verschiedene Aufgaben verschiedene Wirtschaftlichkeit haben.

Was sie gemeinsam haben

Trotz rivalisierender Labs sind diese Modelle bei einigen wichtigen Eigenschaften konvergiert.

Agentische Exzellenz

Beide Modelle sind für Agents gebaut — Tool-Nutzung, mehrstufige Planung und autonome Aufgabenerledigung sind erstklassige Fähigkeiten.

Computer Use

Beide können GUIs bedienen, Formulare ausfüllen, Apps navigieren. OSWorld-Scores von 72,7% (Opus) und 64,7% (Codex) zeigen echte Desktop-Kompetenz.

Erweiterter Output

~128K Token Ausgabelimits bei beiden. Ganze Codebases, vollständige Dokumentation, Multi-Datei-Änderungen in einer einzigen Antwort generieren.

Am gleichen Tag veröffentlicht

5. Februar 2026. Beide Labs haben ihre Flaggschiffe innerhalb von Stunden veröffentlicht. Die KI-Coding-Kriege sind real, und wir Entwickler sind die Gewinner.

Das ehrliche Urteil

Ich habe nicht mehr ein Lieblingsmodell — ich habe zwei. Opus 4.6 ist das Modell, dem ich bei tiefer, sorgfältiger Arbeit vertraü. Es denkt bevor es handelt, entdeckt Dinge die ich übersehe und meistert massive Codebases mit Eleganz. GPT-5.3-Codex ist das Modell, zu dem ich greife wenn ich Speed und Pragmatismus brauche. Es ist schnell, effizient und das Interactive Steering fühlt sich wie echtes Pair Programming an. Zusammen decken sie jedes Coding-Szenario ab, das mir begegnet. Die Tatsache, dass sie am gleichen Tag gelauncht wurden, fühlt sich symbolisch an — die Frontier ist nicht mehr ein Modell, es ist ein Toolkit. Wähle das richtige Tool für die Aufgabe. Oder nutze, wie ich, beide und genieße die beste Ära KI-gestützter Entwicklung, die wir je erlebt haben.

Schnellübersicht

	Claude Opus 4.6	GPT-5.3-Codex
Hersteller	Anthropic	OpenAI
Kontext	200K Standard / 1M Beta	~400K Tokens
Max Output	128K Tokens	~128K Tokens
Preise (pro MTok)	$5 / $25 pro Million Tokens	~$1,25 / $10 pro Million Tokens (erwartet)
Am besten für	Tiefes Reasoning, Code Review, Agent Teams	Schnelle Iteration, Terminal-Aufgaben, Kosteneffizienz
Plattformen	Claude.ai, API, AWS Bedrock, Vertex AI, Azure Foundry	ChatGPT, Codex App, CLI, IDE Extension (API bald verfügbar)