Agentische Vision

Expert

Wie KI-Modelle passives Betrachten von Bildern durch Code-Ausführung und iteratives Reasoning in aktive visuelle Untersuchung verwandeln.

Zuletzt aktualisiert: 29. Jan. 2026

Was ist Agentische Vision?

Agentische Vision verwandelt Bildverständnis von einem statischen, einmaligen Prozess in eine aktive Untersuchung. Anstatt einfach zu beschreiben, was es sieht, formuliert das Modell Pläne zum Heranzoomen, Inspizieren, Manipulieren und schrittweisen Analysieren von Bildern—und begründet Antworten mit visuellen Beweisen, die durch Code-Ausführung gesammelt werden.

Agentische Vision in Aktion

Beobachte, wie das Modell ein Dokument zoomt, dreht und scannt

Dokumentansicht

INVOICE #2024-0847DUEITEMQTYRATETOTALSN-4827-XKS/N

Agent-Protokoll

agent-vision.log
Klicke "Demo starten", um agentische Vision in Aktion zu sehen

Die Denken-Handeln-Beobachten-Schleife

Im Kern der agentischen Vision steht ein rigoroser iterativer Prozess, der widerspiegelt, wie Menschen komplexe visuelle Informationen untersuchen.

1

Denken

Das Modell analysiert die Anfrage des Nutzers und das ursprüngliche Bild und formuliert dann einen mehrstufigen Plan, wie die benötigten Informationen extrahiert werden können.

2

Handeln

Das Modell generiert und führt Python-Code aus, um das Bild zu manipulieren oder zu analysieren—Interessenbereiche zuschneiden, Berechnungen durchführen, Objekte zählen oder Anmerkungen zeichnen.

3

Beobachten

Das transformierte Bild wird dem Kontextfenster des Modells hinzugefügt, sodass es die Ergebnisse inspizieren kann, bevor es über die nächste Aktion entscheidet oder eine endgültige Antwort liefert.

Kernfähigkeiten

Agentische Vision ermöglicht mehrere leistungsstarke Fähigkeiten, die passive Bildmodelle nicht erreichen können.

Zoomen & Inspizieren

Das Modell erkennt, wenn Details zu klein zum Lesen sind (wie eine entfernte Anzeige oder Seriennummer) und schreibt Code, um den Bereich zuzuschneiden und in höherer Auflösung erneut zu untersuchen.

Visuelle Mathematik

Führe mehrstufige Berechnungen mit Code durch—Summen von Positionen auf einer Quittung, Winkelmessung in einem Diagramm oder Diagramme aus extrahierten Daten generieren.

Bildannotation

Zeichne Pfeile, Begrenzungsrahmen oder andere Anmerkungen direkt auf Bilder, um räumliche Fragen wie "Wohin soll dieses Element?" zu beantworten.

Iterative Verfeinerung

Wenn der erste Ansatz keine klaren Ergebnisse liefert, kann das Modell alternative Strategien ausprobieren—verschiedene Zuschnittbereiche, Bildverbesserung oder mehrere Zählmethoden.

Funktionsweise

Wenn du einem agentischen Bildmodell eine Frage zu einem Bild stellst, schaut es nicht einfach und antwortet. Es überlegt, welche Operationen helfen würden, die Frage zu beantworten, führt Code aus, um diese Operationen durchzuführen, und nutzt die Ergebnisse für seine Antwort.

1

Anfrage erhalten

Nutzer stellt eine Frage zu einem Bild, die detaillierte Analyse erfordert.

2

Operationen planen

Modell bestimmt, welche visuellen Operationen (Zuschneiden, Zoomen, Annotieren) helfen würden, die Frage zu beantworten.

3

Code ausführen

Python-Code wird generiert und ausgeführt, um das Bild wie geplant zu manipulieren.

4

Ergebnisse analysieren

Das modifizierte Bild wird dem Modell zur Inspektion zurückgegeben.

5

Iterieren oder Antworten

Modell führt entweder weitere Operationen durch oder liefert die endgültige Antwort mit Belegen.

Beispiel: Lesen einer entfernten Seriennummer

Stell dir vor, du fragst "Was ist die Seriennummer auf dem Gerät in der Ecke des Fotos?"

1
Modell identifiziert, dass sich das Gerät in der unteren rechten Ecke befindet
2
Generiert Code, um diesen Bereich zuzuschneiden und 4x zu vergrößern
3
Inspiziert das gezoomte Bild und identifiziert den Seriennummerntext
4
Gibt die Seriennummer mit Konfidenz zurück und notiert den verwendeten Zuschnitt

Modelle mit Agentischer Vision

Mehrere Spitzenmodelle unterstützen jetzt agentische Bildverarbeitungsfähigkeiten.

Google Gemini 3 Flash

Erstes großes Modell, das "Agentic Vision" als benanntes Feature einführt und visuelles Reasoning mit Code-Ausführung kombiniert. Zeigt 5-10% Qualitätsverbesserung bei Bild-Benchmarks, wenn Code-Ausführung aktiviert ist.

NVIDIA Cosmos Reason

Ein 7B-Parameter-Reasoning-VLM für physische KI-Anwendungen. Kann reale Umgebungen unter Verwendung von Vorwissen und Physikverständnis verstehen und darin agieren.

OpenAI Computer-Using Agent

Kombiniert große Reasoning-Modelle mit verstärkungslernbasierter UI-Interaktion und ermöglicht pixelgenaüs Zeigen auf Objekte und UI-Elemente.

Praxisanwendungen

Agentische Vision wird bereits in Produktionssystemen eingesetzt.

Dokumentenverarbeitung

Automatisches Heranzoomen an Tabellen, Diagramme und Kleingedrucktes, um genaü Daten aus komplexen Dokumenten zu extrahieren.

Qualitätsprüfung

Erkennung von Defekten durch systematische Inspektion verschiedener Bereiche von Produktbildern in hoher Auflösung.

Räumliches Reasoning

Beantworte "Wohin soll das?"-Fragen durch Annotieren von Bildern mit Pfeilen und Platzierungshinweisen.

Quittungsanalyse

Extrahiere Positionen, berechne Summen und verifiziere Mathematik durch Kombination von OCR mit codebasierter Berechnung.

Passive vs Agentische Vision

Verständnis des grundlegenden Unterschieds im Ansatz.

Passive Vision

Einzelner Durchlauf durch das Modell. Was du siehst, ist was du bekommst. Begrenzt durch anfängliche Bildauflösung und Modell-Aufmerksamkeit.

Agentische Vision

Iterative Untersuchungsschleife. Kann zoomen, zuschneiden, verbessern und erneut untersuchen. Begründet Antworten mit ausgeführtem Code und visuellen Belegen.

Kernerkenntnisse

  • 1Agentische Vision behandelt Bildverständnis als aktive Untersuchung, nicht als passive Wahrnehmung
  • 2Die Denken-Handeln-Beobachten-Schleife ermöglicht Modellen, Bilder iterativ zu zoomen, zuzuschneiden und zu analysieren
  • 3Code-Ausführung bietet überprüfbares, fundiertes visuelles Reasoning
  • 4Aktivierung agentischer Fähigkeiten zeigt 5-10% Verbesserung bei Bild-Benchmarks
  • 5Dieses Paradigma überbrückt die Lücke zwischen menschlicher und KI-Untersuchung visueller Informationen