Warum Agenten evaluieren?
Agenten-Evaluierung ist entscheidend für das Verständnis der Leistung, das Erkennen von Regressionen und die Verbesserung der Zuverlässigkeit. Ohne Messung fliegst du blind.
Wichtige Metriken
Wichtige Metriken für Agentensysteme.
Aufgaben-Erfolgsrate
Prozentsatz der korrekt abgeschlossenen Aufgaben.
Effizienz
Unternommene Schritte, verwendete Tokens, verstrichene Zeit pro Aufgabe.
Genauigkeit
Korrektheit der Agenten-Ausgaben und -Entscheidungen.
Zuverlässigkeit
Konsistenz über wiederholte Durchläufe derselben Aufgabe.
Evaluierungsansätze
Verschiedene Wege zur Evaluierung der Agentenleistung.
Unit-Tests
Einzelne Tools und Komponenten isoliert testen.
Integrationstests
Die vollständige Agentenschleife mit Mock-Umgebungen testen.
Benchmarks
Standard-Aufgabensammlungen zum Vergleich von Agenten.
Menschliche Bewertung
Expertenüberprüfung für nuancierte Qualitätsbewertung.
Gängige LLM-Benchmarks
Standard-Benchmarks zur Bewertung und zum Vergleich von Sprachmodell-Fähigkeiten über verschiedene Aufgaben.
MMLU
Massive Multitask Language Understanding - 57 Fächer von MINT bis Geisteswissenschaften. Testet breites Wissen.
HellaSwag
Alltagsverständnis über alltägliche Situationen. Testet Verständnis der physischen Welt.
HumanEval
Code-Generierungs-Benchmark mit 164 Programmieraufgaben. Testet Programmierfähigkeit.
GSM8K
Mathematische Textaufgaben auf Grundschulniveau. Testet mehrstufiges mathematisches Denken.
ARC
AI2 Reasoning Challenge - Wissenschaftsfragen, die Denken jenseits von Mustererkennung erfordern.
MATH
Mathematikaufgaben auf Wettbewerbsniveau. Testet fortgeschrittenes mathematisches Denken.
Benchmark-Vorbehalte
- ⚠Benchmarks können manipuliert werden - Modelle könnten auf Testdaten trainiert sein
- ⚠Hohe Punktzahlen garantieren keine reale Leistung
- ⚠Viele Benchmarks sind gesättigt - Top-Modelle punkten ähnlich
- ⚠Benchmarks übersehen oft wichtige Fähigkeiten wie Anweisungsbefolgung
LLM-als-Richter
Verwendung von Sprachmodellen zur Bewertung anderer Modellausgaben - ein skalierbarer aber unvollkommener Ansatz.
Wie es funktioniert
Ein leistungsfähiges LLM (der "Richter") wird aufgefordert, Ausgaben eines anderen Modells zu bewerten. Der Richter bewertet Antworten nach Kriterien wie Hilfsbereitschaft, Genauigkeit und Sicherheit.
Vorteile
Skalierbar
Kann Tausende von Ausgaben schnell ohne menschliche Annotatoren bewerten.
Konsistent
Gleiche Kriterien werden einheitlich angewendet (anders als bei menschlicher Ermüdung/Variation).
Kosteneffektiv
Viel günstiger als die Einstellung menschlicher Bewerter im großen Maßstab.
Flexibel
Bewertungskriterien lassen sich einfach durch Ändern des Prompts anpassen.
Probleme & Verzerrungen
Selbstpräferenz-Verzerrung
Modelle bevorzugen tendenziell Ausgaben, die dem ähneln, was sie selbst generieren würden.
Positions-Verzerrung
Richter bevorzugen möglicherweise die erste oder letzte Option unabhängig von der Qualität.
Ausführlichkeits-Verzerrung
Längere Antworten werden oft höher bewertet, selbst wenn sie weniger genau sind.
Stil über Substanz
Gut formatierte falsche Antworten können schlecht formatierte richtige schlagen.
Fähigkeitsobergrenze
Der Richter kann Ausgaben jenseits seines eigenen Fähigkeitsniveaus nicht zuverlässig bewerten.
Best Practices für LLM-Richter
- →Verwende das leistungsfähigste verfügbare Modell als Richter
- →Randomisiere die Optionsreihenfolge um Positionsverzerrung zu mindern
- →Fordere Begründung vor Bewertungen an (Chain-of-Thought)
- →Validiere gegen menschliche Urteile bei einer Teilmenge
- →Verwende mehrere Richter und aggregiere die Bewertungen
CLASSIC-Framework
Ein umfassendes Enterprise-Evaluierungsframework für KI-Agenten mit sieben kritischen Dimensionen.
C - Kosten
Gesamtbetriebskosten einschließlich API-Aufrufe, Rechenleistung, Infrastruktur und Wartung. Verfolge Kosten pro Aufgabe und pro erfolgreichem Ergebnis.
L - Latenz
Zeit bis zum ersten Token, End-to-End-Antwortzeit und Aufgabenabschlusszeit. Kritisch für Benutzererfahrung und Echtzeitanwendungen.
A - Genauigkeit
Korrektheit der Ausgaben gemessen an der Grundwahrheit. Umfasst faktische Genauigkeit, logische Konsistenz und aufgabenspezifische Präzision.
S - Stabilität
Konsistenz der Ausgaben bei identischen Eingaben. Niedrige Varianz zeigt zuverlässiges Verhalten; hohe Varianz deutet auf unvorhersehbare Leistung hin.
S - Sicherheit
Widerstandsfähigkeit gegen Prompt-Injection, Jailbreaks und Datenlecks. Umfasst Eingabevalidierung, Ausgabefilterung und Zugriffskontrolle.
I - Interpretierbarkeit
Fähigkeit, Entscheidungen und Begründungen zu erklären. Unterstützt Debugging, Compliance-Audits und Benutzervertraün durch transparenten Betrieb.
C - Compliance
Einhaltung regulatorischer Anforderungen (DSGVO, HIPAA, SOC2), Branchenstandards und organisatorischer Richtlinien.
Enterprise-Evaluierung sollte alle sieben Dimensionen verfolgen. Optimiere für deine spezifischen Anwendungsfallprioritäten.
Agentenspezifische Benchmarks
Moderne Benchmarks, die speziell zur Bewertung von KI-Agenten bei komplexen, mehrstufigen Aufgaben in realistischen Umgebungen entwickelt wurden.
AgentBench
Bewertet LLMs als Agenten in 8 Umgebungen: OS, Datenbank, Wissensgraph, Web-Browsing und mehr. Testet realen Tool-Einsatz.
GAIA
General AI Assistants Benchmark mit 466 Fragen, die mehrstufiges Reasoning, Web-Browsing und Tool-Nutzung erfordern. Menschlich verifizierte Antworten.
Berkeley Function-Calling Leaderboard
Testet Funktionsaufruf-Genauigkeit bei einfachen, parallelen und verschachtelten Aufrufen. Enthält reale API-Szenarien und Grenzfälle.
SWE-bench
Echte GitHub-Issues aus beliebten Python-Repos. Agenten müssen Kontext verstehen, Code schreiben und bestehende Tests bestehen.
WebArena
Testet Agenten bei realistischen Web-Aufgaben über E-Commerce, Foren und Content-Management-Sites mit komplexen mehrseitigen Workflows.
TAU-bench
Tool-Agent-User Benchmark, der Agenten bei echten Kundenservice-Szenarien mit Tools, Richtlinien und Benutzerinteraktionen testet.
Interaktive Evaluierung
Dynamische Evaluierungsansätze, die das Agentenverhalten in sich ändernden Umgebungen und unter adversen Bedingungen testen.
Jenseits statischer Benchmarks
Statische Benchmarks haben feste Fragen und Antworten. Interaktive Evaluierung testet, wie Agenten sich an dynamische Umgebungen anpassen, unerwartete Situationen bewältigen und die Leistung unter sich ändernden Bedingungen aufrechterhalten.
Umgebungsperturbation
Ändere die Umgebung während der Aufgabenausführung – modifiziere Dateien, ändere API-Antworten, führe Fehler ein – um Agentenrobustheit und Wiederherstellung zu testen.
Adverse Benutzersimulation
Simuliere Benutzer, die mehrdeutige Anweisungen geben, ihre Meinung ändern oder versuchen, den Agenten zu manipulieren. Testet reale Widerstandsfähigkeit.
Multi-Turn-Konsistenz
Bewerte Kohärenz über lange Konversationen mit Kontextwechseln. Prüfe, ob der Agent genaün Zustand beibehält und Anweisungen über die Zeit befolgt.
Curriculare Schwierigkeit
Beginne mit einfachen Aufgaben und steigere progressiv die Komplexität. Identifiziert Fähigkeitsgrenzen und gradülle Abbaumuster.
Interaktive Evaluierung sagt reale Leistung besser voraus als statische Benchmarks allein.
Best Practices
Richtlinien für effektive Agenten-Evaluierung.
- ✓Teste Randfälle und Fehlermodi, nicht nur Happy Paths.
- ✓Verfolge Kosten neben Qualitätsmetriken.
- ✓Verwende versionierte Evaluierungen, um Regressionen zu erkennen.
- ✓Schließe adversarielle Tests für Sicherheit ein.
Wichtige Erkenntnisse
- 1Evaluierung ist essentiell – ungemessene Systeme können nicht verbessert werden
- 2Kombiniere automatisierte Tests mit menschlicher Bewertung
- 3Verfolge mehrere Metriken: Erfolg, Effizienz, Kosten
- 4Integriere Evaluierung in deinen Entwicklungsworkflow
- 5LLM-als-Richter ist nützlich, hat aber erhebliche Verzerrungen zu berücksichtigen
- 6Verwende das CLASSIC-Framework für umfassende Enterprise-Evaluierung
- 7Agentenspezifische Benchmarks wie AgentBench und GAIA testen reale Fähigkeiten