Sie haben einen KI-Agenten in Betrieb genommen. Er läuft, er antwortet, die Vendor-Demo war überzeugend. Aber sechs Monate später stellt jemand im Management-Meeting die naheliegende Frage: „Bringt das Ding wirklich etwas?”
Die meisten Teams können das nicht sauber beantworten. Nicht weil der Agent versagt hätte — er mag durchaus gut performen — sondern weil niemand vorab festgelegt hat, was „funktionieren” konkret bedeutet. Die richtigen KI-Agenten KPIs vor (oder unmittelbar nach) dem Go-live zu definieren ist der Unterschied zwischen einem nützlichen System und einer teuren Demo, die man sich zu abzuschalten schämt.
Dieser Artikel behandelt die Metriken, die für KI-Agenten im Produktivbetrieb wirklich zählen — jene, die zeigen, ob der Agent seinen Platz verdient, wo er versagt, und wann Handlungsbedarf besteht.
Warum „Er hat die Frage beantwortet” kein KPI ist
Beim Launch eines Agenten ist der Reflex, Zufriedenheitswerte oder Response-Accuracy auf hohem Niveau zu verfolgen. Das ist nicht sinnlos, gibt Ihnen aber keine operative Steuerung. Ein Agent kann flüssig antworten und trotzdem jede fünfte Anfrage an einen Menschen weiterleiten, Ihre LLM-Kosten in die Höhe treiben oder still und leise bei einer ganzen Kategorie von Edge Cases versagen, die Ihre Test-Suite nie abgedeckt hat.
Operative Performance-Messung von KI-Agenten erfordert Metriken, die direkt auf Geschäftsergebnisse einzahlen: eingesparte Zeit, Kosten pro Outcome und die Rate, mit der der Agent Aufgaben ohne menschliches Eingreifen abschliesst.
Das folgende Framework gruppiert KPIs in drei Ebenen: Task-Abschluss, Eskalation und Fehler und Economics.
Ebene 1: Task-Abschluss — erledigt der Agent die Arbeit wirklich?
Containment Rate
Die Containment Rate ist der Prozentsatz eingehender Anfragen, die der Agent von Anfang bis Ende ohne menschlichen Eingriff löst. Bei einem Kundensupport-Agenten bedeutet das: Der Kunde hat eine Antwort erhalten und die Unterhaltung abgeschlossen. Bei einem Document-Processing-Agenten: Das Dokument wurde klassifiziert, extrahiert und weitergeleitet, ohne dass ein menschlicher Prüfer es angefasst hat.
Warum es die Kernmetrik ist: Jeder Containment-Punkt ist eine Einheit freigegebener Menschenzeit. Ein Support-Agent, der 400 Tickets pro Woche bei 60 % Containment bearbeitet, schliesst 240 davon ohne menschliche Beteiligung ab. Bei 80 % sind es 320.
Es gibt keine universell „gute” Rate — sie hängt vom Task ab. Ein eng gefasster FAQ-Agent sollte 70–85 % oder mehr erreichen. Ein Document-Intake-Agent mit variablen Formaten kann bereits bei 50–60 % gut aufgestellt sein. Legen Sie die Baseline in der ersten Woche fest und verfolgen Sie den Trend.
Task Completion Rate vs. Deflection Rate
Diese beiden Begriffe werden häufig verwechselt. Die Deflection Rate misst lediglich, wie oft der Agent einen menschlichen Touchpoint vermeidet — sie bestätigt nicht, dass die Anfrage gelöst wurde. Ein Nutzer, der nach einer nicht hilfreichen Antwort abbricht, erhöht Ihre Deflection Rate, ohne Wert zu schaffen.
Die Task Completion Rate verfolgt, ob das eigentliche Ziel des Nutzers erreicht wurde: die Buchung wurde abgeschlossen, die Rückerstattung verarbeitet, die Information gefunden und bestätigt. Kombinieren Sie beide Metriken, um zu erkennen, ob Sie wirklich deflektieren — oder einfach den Nutzer allein lassen.
Ebene 2: Eskalation und Fehler — wo bricht der Agent ein?
Eskalationsrate (und Eskalationskategorien)
Die Eskalationsrate ist das Gegenstück zur Containment Rate: der Anteil der Anfragen, die beim Menschen landen. Allein die Zahl zu verfolgen reicht nicht. Sie müssen wissen, warum Eskalationen stattfinden.
Die meisten Agent-Plattformen legen Eskalations-Trigger in den Logs offen. Häufige Kategorien:
- Intent nicht erkannt — der Agent hat die Anfrage nicht verstanden
- Confidence unter Schwellenwert — verstanden, aber nicht sicher genug zum Handeln
- Policy-Grenze — erfordert by design menschliche Genehmigung
- Nutzerwunsch — der Nutzer hat ausdrücklich nach einem Menschen verlangt
Die ersten beiden sind handlungsrelevant. Wenn 30 % Ihrer Eskalationen auf „Intent nicht erkannt” entfallen, haben Sie ein Prompt-Design-Problem. Wenn die Mehrheit policy-bedingt ist, sind Ihre Schwellenwerte möglicherweise zu konservativ kalibriert.
Halluzinations- und Fehlerrate
Bei Agenten, die Informationen abrufen und ausgeben — Knowledge-Base-Abfragen, Dokumentenzusammenfassungen, FAQ-Antworten — ist die Nachverfolgung der faktischen Genauigkeit wichtiger, als die meisten Teams realisieren. Manuelle Stichproben bei einer Auswahl von Antworten liefern zusammen mit Nutzerfeedback ein praktisches Signal.
Automatisierte Evals — LLM-as-Judge-Scoring gegen ein Ground-Truth-Set — sind systematischer. Der Artikel KI-Agenten testen: Wie Evals zuverlässige Automatisierung sicherstellen zeigt, wie Sie das einrichten, ohne dass es zum Forschungsprojekt wird.
Time-to-Resolution
Für Workflows mit einem definierten Endzustand — ein gelöstes Ticket, ein eingereichtes Formular, ein bestätigter Termin — ist die Time-to-Resolution eine saubere Metrik. Vergleichen Sie agentenseitig bearbeitete mit menschlich bearbeiteten Lösungszeiten. Die Differenz ist die Effizienzgeschichte, die Sie intern erzählen.
Ein ehrlicher Hinweis: Manche Aufgaben sollten zu Menschen gelangen und dort länger dauern. Time-to-Resolution sollte pro Task-Kategorie gemessen werden, nicht über alles gemittelt.
Ebene 3: Economics — was kostet Sie jedes Outcome?
Hier verbinden sich die KI-Agenten-Metriken mit dem Business Case. Die drei wichtigsten Metriken:
Kosten pro abgeschlossenem Task
Nehmen Sie Ihre gesamten Betriebskosten für den Agenten in einem Zeitraum — LLM-API-Aufrufe, Infrastruktur, etwaige Plattformgebühren, plus einen fairen Anteil an Engineering-Wartungszeit — und dividieren Sie durch die Anzahl abgeschlossener Tasks. Vergleichen Sie das mit den Vollkosten eines Menschen für dieselbe Aufgabe.
Illustratives Szenario: Ein mittelgrosser E-Commerce-Betrieb verarbeitet 3.000 Rückgabeanfragen pro Monat. Jede beansprucht rund 8 Minuten Menschenzeit bei einem blended Arbeitgeberkostenansatz von etwa CHF 0,65–0,85/Minute (Schweizer Medianlöhne für kundenseitiges Personal plus Arbeitgebersozialabgaben von rund 19 %, gemäss LSE-Daten des BFS), also rund CHF 5–7 pro Anfrage. Wenn der Agent 70 % davon bei Gesamtbetriebskosten von CHF 900/Monat übernimmt, sinken die Kosten pro agentenbearbeitetem Task deutlich unter CHF 1. Das ist illustratives Rechenwerk — Ihre tatsächlichen Zahlen hängen von LLM-Nutzung, Arbeitskosten und Wartungsaufwand ab — aber das ist die Struktur der Kalkulation.
LLM-Token-Kosten pro Task
Wenn Ihr Agent skaliert, werden LLM-API-Kosten zu einer relevanten Variable. Verfolgen Sie die pro Task verbrauchten Tokens, aufgeschlüsselt nach Modell. Lange, unfokussierte System-Prompts und Retrieval-Pipelines, die zu viel Kontext zurückliefern, treiben diese Zahl unnötig in die Höhe — Monitoring zeigt Ineffizienzen, bevor sie sich aufschaukeln.
Umgeleitete Menschenzeit
Was tun die Menschen jetzt, da der Agent die Routinelast übernimmt? Wenn die Eskalationen, die Ihr Team erreichen, genuine Complex- oder High-Value-Aufgaben sind, macht der Agent seinen Job. Wenn Menschen Dinge nachformatieren, die der Agent unvollständig produziert hat, haben Sie ein Qualitätsproblem, das die Kosten-pro-Task-Metrik allein nicht sichtbar machen wird.
Ein praktisches KPI-Dashboard für Agenten im Produktivbetrieb
Die meisten Teams verkomplizieren das. Für einen Produktiv-Agenten starten Sie mit sechs Zahlen, die wöchentlich getrackt werden:
| Metrik | Was sie Ihnen sagt | Zielrichtung |
|---|---|---|
| Containment Rate | Tasks ohne Mensch abgeschlossen | Aufwärts |
| Task Completion Rate | Ziele tatsächlich erreicht | Aufwärts |
| Eskalationsrate nach Kategorie | Wo der Agent versagt | Intent/Confidence-Kategorien abwärts |
| Fehler- / Halluzinationsrate | Output-Qualität | Abwärts |
| Kosten pro abgeschlossenem Task | Economics | Mit der Zeit abwärts |
| Time-to-Resolution (Agent vs. Mensch) | Effizienzlücke | Agent schneller |
Prüfen Sie diese monatlich gegen die Baseline, die Sie beim Deployment festgelegt haben. Eine flache Containment Rate nach zwei Monaten ist ein Signal zur Untersuchung. Steigende Kosten pro Task bei stabiler Containment Rate bedeuten in der Regel, dass Ihre Prompts oder Retrieval-Pipeline eine Überarbeitung benötigen.
Der Artikel ROI von KI-Agenten messen: ein Framework für KMU erklärt, wie Sie aus diesen Zahlen nach einigen Monaten Datenlage den finanziellen Case aufbauen.
Wenn KPIs signalisieren, dass es Zeit ist, den Agenten zu überdenken
Manchmal zeigen die Metriken, dass das Agenten-Design selbst geändert werden muss — nicht nur Prompts oder Schwellenwerte. Warnsignale:
- Containment Rate stagniert trotz mehrfacher Iterationen unter 50 %
- Eskalationskategorien zeigen Woche für Woche dieselben nicht erkannten Intents
- Nutzer übergehen den Agenten systematisch, anstatt seinen Output zu akzeptieren
- Kosten pro Task liegen über der menschlichen Baseline und verbessern sich nicht
Diese Muster weisen in der Regel auf ein Scoping-Problem hin: Der Agent hat eine zu breite Aufgabe erhalten, oder er wurde in einem Kontext eingesetzt, in dem die Inputvariabilität das Agenten-Design überfordert. Der Artikel Vom Pilot zur Flotte: KI-Agenten im Produktivbetrieb steuern zeigt, wie Sie das systematisch angehen.
Die schwerwiegendere Failure-Mode ist ein Agent, der statistisch in Ordnung wirkt, aber still das Vertrauen erodiert. Qualitative Signale zählen hier: Support-Tickets über den Agenten, Nutzerfeedback und die Rate, mit der Kunden innerhalb von 24 Stunden nach einer „gelösten” Sitzung zu einem Menschen eskalieren.
Was gute Messung von Anfang an auszeichnet
Teams, die KI-Agenten gut messen, teilen eine Praxis: Sie definieren Erfolgskriterien, bevor der Agent live geht — nicht danach. Welche Containment Rate rechtfertigt die Investition? Welche Eskalationsrate löst eine Prompt-Design-Überprüfung aus? Welche Fehlerrate ist für Ihre Branche und Ihren Task-Typ akzeptabel?
Das sind keine Schätzungen — sie werden zwischen dem Business-Owner des Ergebnisses und dem technischen Verantwortlichen ausgehandelt. Ohne diese Aushandlung wird jedes Review-Meeting zu einer Debatte darüber, ob 62 % Containment gut oder enttäuschend ist.
Wenn Sie gerade ein Deployment planen oder überprüfen und sich ein klares Bild davon machen möchten, welche Metriken zu Ihrem Use-Case passen, führt Orange ITS eine fokussierte 30-minütige Session durch, um das richtige KPI-Set auf Ihren spezifischen Agenten und Geschäftskontext zuzuschneiden. Nehmen Sie Kontakt auf, um dieses Gespräch zu buchen.
Für weiterführende operative Designfragen deckt unser Process-Optimisation-Service ab, wie wir Agenten im Produktivbetrieb instrumentieren, überwachen und iterieren — einschliesslich der Messframeworks, die wir für Kundendeployments einsetzen.
Der Artikel Warum KI-Agenten-Projekte scheitern — und wie Sie das Risiko reduzieren behandelt Messlücken als eine der häufigsten Failure-Modes, falls Sie sehen möchten, wie KPI-Blindstellen zum gesamten Projektrisiko beitragen.