Evaluierung

Expert

Systematische Messung und Verbesserung der KI-Agenten-Leistung.

Zuletzt aktualisiert: 29. Jan. 2026

Warum Agenten evaluieren?

Agenten-Evaluierung ist entscheidend für das Verständnis der Leistung, das Erkennen von Regressionen und die Verbesserung der Zuverlässigkeit. Ohne Messung fliegst du blind.

Wichtige Metriken

Wichtige Metriken für Agentensysteme.

Aufgaben-Erfolgsrate

Prozentsatz der korrekt abgeschlossenen Aufgaben.

Effizienz

Unternommene Schritte, verwendete Tokens, verstrichene Zeit pro Aufgabe.

Genauigkeit

Korrektheit der Agenten-Ausgaben und -Entscheidungen.

Zuverlässigkeit

Konsistenz über wiederholte Durchläufe derselben Aufgabe.

Evaluierungsansätze

Verschiedene Wege zur Evaluierung der Agentenleistung.

Unit-Tests

Einzelne Tools und Komponenten isoliert testen.

Integrationstests

Die vollständige Agentenschleife mit Mock-Umgebungen testen.

Benchmarks

Standard-Aufgabensammlungen zum Vergleich von Agenten.

Menschliche Bewertung

Expertenüberprüfung für nuancierte Qualitätsbewertung.

Gängige LLM-Benchmarks

Standard-Benchmarks zur Bewertung und zum Vergleich von Sprachmodell-Fähigkeiten über verschiedene Aufgaben.

MMLU

Massive Multitask Language Understanding - 57 Fächer von MINT bis Geisteswissenschaften. Testet breites Wissen.

HellaSwag

Alltagsverständnis über alltägliche Situationen. Testet Verständnis der physischen Welt.

HumanEval

Code-Generierungs-Benchmark mit 164 Programmieraufgaben. Testet Programmierfähigkeit.

GSM8K

Mathematische Textaufgaben auf Grundschulniveau. Testet mehrstufiges mathematisches Denken.

ARC

AI2 Reasoning Challenge - Wissenschaftsfragen, die Denken jenseits von Mustererkennung erfordern.

MATH

Mathematikaufgaben auf Wettbewerbsniveau. Testet fortgeschrittenes mathematisches Denken.

Benchmark-Vorbehalte

  • Benchmarks können manipuliert werden - Modelle könnten auf Testdaten trainiert sein
  • Hohe Punktzahlen garantieren keine reale Leistung
  • Viele Benchmarks sind gesättigt - Top-Modelle punkten ähnlich
  • Benchmarks übersehen oft wichtige Fähigkeiten wie Anweisungsbefolgung

LLM-als-Richter

Verwendung von Sprachmodellen zur Bewertung anderer Modellausgaben - ein skalierbarer aber unvollkommener Ansatz.

Wie es funktioniert

Ein leistungsfähiges LLM (der "Richter") wird aufgefordert, Ausgaben eines anderen Modells zu bewerten. Der Richter bewertet Antworten nach Kriterien wie Hilfsbereitschaft, Genauigkeit und Sicherheit.

Vorteile

Skalierbar

Kann Tausende von Ausgaben schnell ohne menschliche Annotatoren bewerten.

Konsistent

Gleiche Kriterien werden einheitlich angewendet (anders als bei menschlicher Ermüdung/Variation).

Kosteneffektiv

Viel günstiger als die Einstellung menschlicher Bewerter im großen Maßstab.

Flexibel

Bewertungskriterien lassen sich einfach durch Ändern des Prompts anpassen.

Probleme & Verzerrungen

Selbstpräferenz-Verzerrung

Modelle bevorzugen tendenziell Ausgaben, die dem ähneln, was sie selbst generieren würden.

Positions-Verzerrung

Richter bevorzugen möglicherweise die erste oder letzte Option unabhängig von der Qualität.

Ausführlichkeits-Verzerrung

Längere Antworten werden oft höher bewertet, selbst wenn sie weniger genau sind.

Stil über Substanz

Gut formatierte falsche Antworten können schlecht formatierte richtige schlagen.

Fähigkeitsobergrenze

Der Richter kann Ausgaben jenseits seines eigenen Fähigkeitsniveaus nicht zuverlässig bewerten.

Best Practices für LLM-Richter

  • Verwende das leistungsfähigste verfügbare Modell als Richter
  • Randomisiere die Optionsreihenfolge um Positionsverzerrung zu mindern
  • Fordere Begründung vor Bewertungen an (Chain-of-Thought)
  • Validiere gegen menschliche Urteile bei einer Teilmenge
  • Verwende mehrere Richter und aggregiere die Bewertungen

CLASSIC-Framework

Ein umfassendes Enterprise-Evaluierungsframework für KI-Agenten mit sieben kritischen Dimensionen.

C - Kosten

Gesamtbetriebskosten einschließlich API-Aufrufe, Rechenleistung, Infrastruktur und Wartung. Verfolge Kosten pro Aufgabe und pro erfolgreichem Ergebnis.

L - Latenz

Zeit bis zum ersten Token, End-to-End-Antwortzeit und Aufgabenabschlusszeit. Kritisch für Benutzererfahrung und Echtzeitanwendungen.

A - Genauigkeit

Korrektheit der Ausgaben gemessen an der Grundwahrheit. Umfasst faktische Genauigkeit, logische Konsistenz und aufgabenspezifische Präzision.

S - Stabilität

Konsistenz der Ausgaben bei identischen Eingaben. Niedrige Varianz zeigt zuverlässiges Verhalten; hohe Varianz deutet auf unvorhersehbare Leistung hin.

S - Sicherheit

Widerstandsfähigkeit gegen Prompt-Injection, Jailbreaks und Datenlecks. Umfasst Eingabevalidierung, Ausgabefilterung und Zugriffskontrolle.

I - Interpretierbarkeit

Fähigkeit, Entscheidungen und Begründungen zu erklären. Unterstützt Debugging, Compliance-Audits und Benutzervertraün durch transparenten Betrieb.

C - Compliance

Einhaltung regulatorischer Anforderungen (DSGVO, HIPAA, SOC2), Branchenstandards und organisatorischer Richtlinien.

Enterprise-Evaluierung sollte alle sieben Dimensionen verfolgen. Optimiere für deine spezifischen Anwendungsfallprioritäten.

Agentenspezifische Benchmarks

Moderne Benchmarks, die speziell zur Bewertung von KI-Agenten bei komplexen, mehrstufigen Aufgaben in realistischen Umgebungen entwickelt wurden.

AgentBench

Bewertet LLMs als Agenten in 8 Umgebungen: OS, Datenbank, Wissensgraph, Web-Browsing und mehr. Testet realen Tool-Einsatz.

GAIA

General AI Assistants Benchmark mit 466 Fragen, die mehrstufiges Reasoning, Web-Browsing und Tool-Nutzung erfordern. Menschlich verifizierte Antworten.

Berkeley Function-Calling Leaderboard

Testet Funktionsaufruf-Genauigkeit bei einfachen, parallelen und verschachtelten Aufrufen. Enthält reale API-Szenarien und Grenzfälle.

SWE-bench

Echte GitHub-Issues aus beliebten Python-Repos. Agenten müssen Kontext verstehen, Code schreiben und bestehende Tests bestehen.

WebArena

Testet Agenten bei realistischen Web-Aufgaben über E-Commerce, Foren und Content-Management-Sites mit komplexen mehrseitigen Workflows.

TAU-bench

Tool-Agent-User Benchmark, der Agenten bei echten Kundenservice-Szenarien mit Tools, Richtlinien und Benutzerinteraktionen testet.

Interaktive Evaluierung

Dynamische Evaluierungsansätze, die das Agentenverhalten in sich ändernden Umgebungen und unter adversen Bedingungen testen.

Jenseits statischer Benchmarks

Statische Benchmarks haben feste Fragen und Antworten. Interaktive Evaluierung testet, wie Agenten sich an dynamische Umgebungen anpassen, unerwartete Situationen bewältigen und die Leistung unter sich ändernden Bedingungen aufrechterhalten.

Umgebungsperturbation

Ändere die Umgebung während der Aufgabenausführung – modifiziere Dateien, ändere API-Antworten, führe Fehler ein – um Agentenrobustheit und Wiederherstellung zu testen.

Adverse Benutzersimulation

Simuliere Benutzer, die mehrdeutige Anweisungen geben, ihre Meinung ändern oder versuchen, den Agenten zu manipulieren. Testet reale Widerstandsfähigkeit.

Multi-Turn-Konsistenz

Bewerte Kohärenz über lange Konversationen mit Kontextwechseln. Prüfe, ob der Agent genaün Zustand beibehält und Anweisungen über die Zeit befolgt.

Curriculare Schwierigkeit

Beginne mit einfachen Aufgaben und steigere progressiv die Komplexität. Identifiziert Fähigkeitsgrenzen und gradülle Abbaumuster.

Interaktive Evaluierung sagt reale Leistung besser voraus als statische Benchmarks allein.

Best Practices

Richtlinien für effektive Agenten-Evaluierung.

  • Teste Randfälle und Fehlermodi, nicht nur Happy Paths.
  • Verfolge Kosten neben Qualitätsmetriken.
  • Verwende versionierte Evaluierungen, um Regressionen zu erkennen.
  • Schließe adversarielle Tests für Sicherheit ein.

Wichtige Erkenntnisse

  • 1Evaluierung ist essentiell – ungemessene Systeme können nicht verbessert werden
  • 2Kombiniere automatisierte Tests mit menschlicher Bewertung
  • 3Verfolge mehrere Metriken: Erfolg, Effizienz, Kosten
  • 4Integriere Evaluierung in deinen Entwicklungsworkflow
  • 5LLM-als-Richter ist nützlich, hat aber erhebliche Verzerrungen zu berücksichtigen
  • 6Verwende das CLASSIC-Framework für umfassende Enterprise-Evaluierung
  • 7Agentenspezifische Benchmarks wie AgentBench und GAIA testen reale Fähigkeiten