KI-Agenten KPIs: die richtigen Metriken für den Betrieb

Sie haben einen KI-Agenten in Betrieb genommen. Er läuft, er antwortet, die Vendor-Demo war überzeugend. Aber sechs Monate später stellt jemand im Management-Meeting die naheliegende Frage: „Bringt das Ding wirklich etwas?”

Die meisten Teams können das nicht sauber beantworten. Nicht weil der Agent versagt hätte — er mag durchaus gut performen — sondern weil niemand vorab festgelegt hat, was „funktionieren” konkret bedeutet. Die richtigen KI-Agenten KPIs vor (oder unmittelbar nach) dem Go-live zu definieren ist der Unterschied zwischen einem nützlichen System und einer teuren Demo, die man sich zu abzuschalten schämt.

Dieser Artikel behandelt die Metriken, die für KI-Agenten im Produktivbetrieb wirklich zählen — jene, die zeigen, ob der Agent seinen Platz verdient, wo er versagt, und wann Handlungsbedarf besteht.

Warum „Er hat die Frage beantwortet” kein KPI ist

Beim Launch eines Agenten ist der Reflex, Zufriedenheitswerte oder Response-Accuracy auf hohem Niveau zu verfolgen. Das ist nicht sinnlos, gibt Ihnen aber keine operative Steuerung. Ein Agent kann flüssig antworten und trotzdem jede fünfte Anfrage an einen Menschen weiterleiten, Ihre LLM-Kosten in die Höhe treiben oder still und leise bei einer ganzen Kategorie von Edge Cases versagen, die Ihre Test-Suite nie abgedeckt hat.

Operative Performance-Messung von KI-Agenten erfordert Metriken, die direkt auf Geschäftsergebnisse einzahlen: eingesparte Zeit, Kosten pro Outcome und die Rate, mit der der Agent Aufgaben ohne menschliches Eingreifen abschliesst.

Das folgende Framework gruppiert KPIs in drei Ebenen: Task-Abschluss, Eskalation und Fehler und Economics.

Ebene 1: Task-Abschluss — erledigt der Agent die Arbeit wirklich?

Containment Rate

Die Containment Rate ist der Prozentsatz eingehender Anfragen, die der Agent von Anfang bis Ende ohne menschlichen Eingriff löst. Bei einem Kundensupport-Agenten bedeutet das: Der Kunde hat eine Antwort erhalten und die Unterhaltung abgeschlossen. Bei einem Document-Processing-Agenten: Das Dokument wurde klassifiziert, extrahiert und weitergeleitet, ohne dass ein menschlicher Prüfer es angefasst hat.

Warum es die Kernmetrik ist: Jeder Containment-Punkt ist eine Einheit freigegebener Menschenzeit. Ein Support-Agent, der 400 Tickets pro Woche bei 60 % Containment bearbeitet, schliesst 240 davon ohne menschliche Beteiligung ab. Bei 80 % sind es 320.

Es gibt keine universell „gute” Rate — sie hängt vom Task ab. Ein eng gefasster FAQ-Agent sollte 70–85 % oder mehr erreichen. Ein Document-Intake-Agent mit variablen Formaten kann bereits bei 50–60 % gut aufgestellt sein. Legen Sie die Baseline in der ersten Woche fest und verfolgen Sie den Trend.

Task Completion Rate vs. Deflection Rate

Diese beiden Begriffe werden häufig verwechselt. Die Deflection Rate misst lediglich, wie oft der Agent einen menschlichen Touchpoint vermeidet — sie bestätigt nicht, dass die Anfrage gelöst wurde. Ein Nutzer, der nach einer nicht hilfreichen Antwort abbricht, erhöht Ihre Deflection Rate, ohne Wert zu schaffen.

Die Task Completion Rate verfolgt, ob das eigentliche Ziel des Nutzers erreicht wurde: die Buchung wurde abgeschlossen, die Rückerstattung verarbeitet, die Information gefunden und bestätigt. Kombinieren Sie beide Metriken, um zu erkennen, ob Sie wirklich deflektieren — oder einfach den Nutzer allein lassen.

Ebene 2: Eskalation und Fehler — wo bricht der Agent ein?

Eskalationsrate (und Eskalationskategorien)

Die Eskalationsrate ist das Gegenstück zur Containment Rate: der Anteil der Anfragen, die beim Menschen landen. Allein die Zahl zu verfolgen reicht nicht. Sie müssen wissen, warum Eskalationen stattfinden.

Die meisten Agent-Plattformen legen Eskalations-Trigger in den Logs offen. Häufige Kategorien:

Intent nicht erkannt — der Agent hat die Anfrage nicht verstanden
Confidence unter Schwellenwert — verstanden, aber nicht sicher genug zum Handeln
Policy-Grenze — erfordert by design menschliche Genehmigung
Nutzerwunsch — der Nutzer hat ausdrücklich nach einem Menschen verlangt

Die ersten beiden sind handlungsrelevant. Wenn 30 % Ihrer Eskalationen auf „Intent nicht erkannt” entfallen, haben Sie ein Prompt-Design-Problem. Wenn die Mehrheit policy-bedingt ist, sind Ihre Schwellenwerte möglicherweise zu konservativ kalibriert.

Halluzinations- und Fehlerrate

Bei Agenten, die Informationen abrufen und ausgeben — Knowledge-Base-Abfragen, Dokumentenzusammenfassungen, FAQ-Antworten — ist die Nachverfolgung der faktischen Genauigkeit wichtiger, als die meisten Teams realisieren. Manuelle Stichproben bei einer Auswahl von Antworten liefern zusammen mit Nutzerfeedback ein praktisches Signal.

Automatisierte Evals — LLM-as-Judge-Scoring gegen ein Ground-Truth-Set — sind systematischer. Der Artikel KI-Agenten testen: Wie Evals zuverlässige Automatisierung sicherstellen zeigt, wie Sie das einrichten, ohne dass es zum Forschungsprojekt wird.

Time-to-Resolution

Für Workflows mit einem definierten Endzustand — ein gelöstes Ticket, ein eingereichtes Formular, ein bestätigter Termin — ist die Time-to-Resolution eine saubere Metrik. Vergleichen Sie agentenseitig bearbeitete mit menschlich bearbeiteten Lösungszeiten. Die Differenz ist die Effizienzgeschichte, die Sie intern erzählen.

Ein ehrlicher Hinweis: Manche Aufgaben sollten zu Menschen gelangen und dort länger dauern. Time-to-Resolution sollte pro Task-Kategorie gemessen werden, nicht über alles gemittelt.

Ebene 3: Economics — was kostet Sie jedes Outcome?

Hier verbinden sich die KI-Agenten-Metriken mit dem Business Case. Die drei wichtigsten Metriken:

Kosten pro abgeschlossenem Task

Nehmen Sie Ihre gesamten Betriebskosten für den Agenten in einem Zeitraum — LLM-API-Aufrufe, Infrastruktur, etwaige Plattformgebühren, plus einen fairen Anteil an Engineering-Wartungszeit — und dividieren Sie durch die Anzahl abgeschlossener Tasks. Vergleichen Sie das mit den Vollkosten eines Menschen für dieselbe Aufgabe.

Illustratives Szenario: Ein mittelgrosser E-Commerce-Betrieb verarbeitet 3.000 Rückgabeanfragen pro Monat. Jede beansprucht rund 8 Minuten Menschenzeit bei einem blended Arbeitgeberkostenansatz von etwa CHF 0,65–0,85/Minute (Schweizer Medianlöhne für kundenseitiges Personal plus Arbeitgebersozialabgaben von rund 19 %, gemäss LSE-Daten des BFS), also rund CHF 5–7 pro Anfrage. Wenn der Agent 70 % davon bei Gesamtbetriebskosten von CHF 900/Monat übernimmt, sinken die Kosten pro agentenbearbeitetem Task deutlich unter CHF 1. Das ist illustratives Rechenwerk — Ihre tatsächlichen Zahlen hängen von LLM-Nutzung, Arbeitskosten und Wartungsaufwand ab — aber das ist die Struktur der Kalkulation.

LLM-Token-Kosten pro Task

Wenn Ihr Agent skaliert, werden LLM-API-Kosten zu einer relevanten Variable. Verfolgen Sie die pro Task verbrauchten Tokens, aufgeschlüsselt nach Modell. Lange, unfokussierte System-Prompts und Retrieval-Pipelines, die zu viel Kontext zurückliefern, treiben diese Zahl unnötig in die Höhe — Monitoring zeigt Ineffizienzen, bevor sie sich aufschaukeln.

Umgeleitete Menschenzeit

Was tun die Menschen jetzt, da der Agent die Routinelast übernimmt? Wenn die Eskalationen, die Ihr Team erreichen, genuine Complex- oder High-Value-Aufgaben sind, macht der Agent seinen Job. Wenn Menschen Dinge nachformatieren, die der Agent unvollständig produziert hat, haben Sie ein Qualitätsproblem, das die Kosten-pro-Task-Metrik allein nicht sichtbar machen wird.

Ein praktisches KPI-Dashboard für Agenten im Produktivbetrieb

Die meisten Teams verkomplizieren das. Für einen Produktiv-Agenten starten Sie mit sechs Zahlen, die wöchentlich getrackt werden:

Metrik	Was sie Ihnen sagt	Zielrichtung
Containment Rate	Tasks ohne Mensch abgeschlossen	Aufwärts
Task Completion Rate	Ziele tatsächlich erreicht	Aufwärts
Eskalationsrate nach Kategorie	Wo der Agent versagt	Intent/Confidence-Kategorien abwärts
Fehler- / Halluzinationsrate	Output-Qualität	Abwärts
Kosten pro abgeschlossenem Task	Economics	Mit der Zeit abwärts
Time-to-Resolution (Agent vs. Mensch)	Effizienzlücke	Agent schneller

Prüfen Sie diese monatlich gegen die Baseline, die Sie beim Deployment festgelegt haben. Eine flache Containment Rate nach zwei Monaten ist ein Signal zur Untersuchung. Steigende Kosten pro Task bei stabiler Containment Rate bedeuten in der Regel, dass Ihre Prompts oder Retrieval-Pipeline eine Überarbeitung benötigen.

Der Artikel ROI von KI-Agenten messen: ein Framework für KMU erklärt, wie Sie aus diesen Zahlen nach einigen Monaten Datenlage den finanziellen Case aufbauen.

Wenn KPIs signalisieren, dass es Zeit ist, den Agenten zu überdenken

Manchmal zeigen die Metriken, dass das Agenten-Design selbst geändert werden muss — nicht nur Prompts oder Schwellenwerte. Warnsignale:

Containment Rate stagniert trotz mehrfacher Iterationen unter 50 %
Eskalationskategorien zeigen Woche für Woche dieselben nicht erkannten Intents
Nutzer übergehen den Agenten systematisch, anstatt seinen Output zu akzeptieren
Kosten pro Task liegen über der menschlichen Baseline und verbessern sich nicht

Diese Muster weisen in der Regel auf ein Scoping-Problem hin: Der Agent hat eine zu breite Aufgabe erhalten, oder er wurde in einem Kontext eingesetzt, in dem die Inputvariabilität das Agenten-Design überfordert. Der Artikel Vom Pilot zur Flotte: KI-Agenten im Produktivbetrieb steuern zeigt, wie Sie das systematisch angehen.

Die schwerwiegendere Failure-Mode ist ein Agent, der statistisch in Ordnung wirkt, aber still das Vertrauen erodiert. Qualitative Signale zählen hier: Support-Tickets über den Agenten, Nutzerfeedback und die Rate, mit der Kunden innerhalb von 24 Stunden nach einer „gelösten” Sitzung zu einem Menschen eskalieren.

Was gute Messung von Anfang an auszeichnet

Teams, die KI-Agenten gut messen, teilen eine Praxis: Sie definieren Erfolgskriterien, bevor der Agent live geht — nicht danach. Welche Containment Rate rechtfertigt die Investition? Welche Eskalationsrate löst eine Prompt-Design-Überprüfung aus? Welche Fehlerrate ist für Ihre Branche und Ihren Task-Typ akzeptabel?

Das sind keine Schätzungen — sie werden zwischen dem Business-Owner des Ergebnisses und dem technischen Verantwortlichen ausgehandelt. Ohne diese Aushandlung wird jedes Review-Meeting zu einer Debatte darüber, ob 62 % Containment gut oder enttäuschend ist.

Wenn Sie gerade ein Deployment planen oder überprüfen und sich ein klares Bild davon machen möchten, welche Metriken zu Ihrem Use-Case passen, führt Orange ITS eine fokussierte 30-minütige Session durch, um das richtige KPI-Set auf Ihren spezifischen Agenten und Geschäftskontext zuzuschneiden. Nehmen Sie Kontakt auf, um dieses Gespräch zu buchen.

Für weiterführende operative Designfragen deckt unser Process-Optimisation-Service ab, wie wir Agenten im Produktivbetrieb instrumentieren, überwachen und iterieren — einschliesslich der Messframeworks, die wir für Kundendeployments einsetzen.

Der Artikel Warum KI-Agenten-Projekte scheitern — und wie Sie das Risiko reduzieren behandelt Messlücken als eine der häufigsten Failure-Modes, falls Sie sehen möchten, wie KPI-Blindstellen zum gesamten Projektrisiko beitragen.

Häufige Fragen

Was ist die Containment Rate und warum ist sie die Kernmetrik?

Der Prozentsatz eingehender Anfragen, die der Agent von Anfang bis Ende ohne menschlichen Eingriff löst; jeder Prozentpunkt steht für freigegebene Mitarbeiterzeit. Es gibt keinen universellen Zielwert: Ein eng gefasster FAQ-Agent sollte 70 bis 85 Prozent erreichen, ein Document-Intake-Agent mit variablen Formaten kann schon bei 50 bis 60 Prozent gut aufgestellt sein.

Worin unterscheiden sich Deflection Rate und Task Completion Rate?

Die Deflection Rate misst nur, ob ein menschlicher Touchpoint vermieden wurde; ein Nutzer, der nach einer unbrauchbaren Antwort abbricht, erhöht sie, ohne Wert zu schaffen. Die Task Completion Rate prüft, ob das eigentliche Nutzerziel erreicht wurde, etwa eine abgeschlossene Buchung oder eine verarbeitete Rückerstattung; beide Werte müssen kombiniert erfasst werden.

Welche Eskalationskategorien sollte man auswerten?

Vier typische Kategorien aus den Logs: Intent nicht erkannt, Konfidenz unter Schwellenwert, Policy-Grenze und ausdrücklicher Nutzerwunsch nach einem Menschen. Die ersten beiden sind direkt handlungsrelevant: 30 Prozent Eskalationen wegen nicht erkannter Intents deuten auf ein Prompt-Design-Problem, überwiegend policy-bedingte Eskalationen auf zu konservative Schwellenwerte.

Wie berechnet man die Kosten pro abgeschlossenem Task?

Gesamtbetriebskosten des Agenten in einem Zeitraum (LLM-API-Aufrufe, Infrastruktur, Plattformgebühren plus anteilige Engineering-Wartung) geteilt durch die Anzahl abgeschlossener Tasks, verglichen mit den Vollkosten eines Menschen. Im illustrativen Szenario des Artikels kostet eine menschlich bearbeitete Rückgabeanfrage rund CHF 5 bis 7, der Agent bei CHF 900 Betriebskosten pro Monat deutlich unter CHF 1 pro Task.

Welche KPI-Signale zeigen, dass das Agenten-Design überdacht werden muss?

Eine Containment Rate, die trotz mehrfacher Iterationen unter 50 Prozent stagniert, wöchentlich dieselben nicht erkannten Intents, Nutzer, die den Agenten systematisch umgehen, und Kosten pro Task über der menschlichen Baseline ohne Verbesserung. Diese Muster deuten meist auf ein Scoping-Problem hin: eine zu breite Aufgabe oder zu hohe Inputvariabilität.