Skip to content
Business und Governance

KI-Agenten KPIs: die richtigen Metriken für den Betrieb

Orange ITS — KI-Engineering-Team 7 Min. Lesezeit

Sie haben einen KI-Agenten in Betrieb genommen. Er läuft, er antwortet, die Vendor-Demo war überzeugend. Aber sechs Monate später stellt jemand im Management-Meeting die naheliegende Frage: „Bringt das Ding wirklich etwas?”

Die meisten Teams können das nicht sauber beantworten. Nicht weil der Agent versagt hätte — er mag durchaus gut performen — sondern weil niemand vorab festgelegt hat, was „funktionieren” konkret bedeutet. Die richtigen KI-Agenten KPIs vor (oder unmittelbar nach) dem Go-live zu definieren ist der Unterschied zwischen einem nützlichen System und einer teuren Demo, die man sich zu abzuschalten schämt.

Dieser Artikel behandelt die Metriken, die für KI-Agenten im Produktivbetrieb wirklich zählen — jene, die zeigen, ob der Agent seinen Platz verdient, wo er versagt, und wann Handlungsbedarf besteht.


Warum „Er hat die Frage beantwortet” kein KPI ist

Beim Launch eines Agenten ist der Reflex, Zufriedenheitswerte oder Response-Accuracy auf hohem Niveau zu verfolgen. Das ist nicht sinnlos, gibt Ihnen aber keine operative Steuerung. Ein Agent kann flüssig antworten und trotzdem jede fünfte Anfrage an einen Menschen weiterleiten, Ihre LLM-Kosten in die Höhe treiben oder still und leise bei einer ganzen Kategorie von Edge Cases versagen, die Ihre Test-Suite nie abgedeckt hat.

Operative Performance-Messung von KI-Agenten erfordert Metriken, die direkt auf Geschäftsergebnisse einzahlen: eingesparte Zeit, Kosten pro Outcome und die Rate, mit der der Agent Aufgaben ohne menschliches Eingreifen abschliesst.

Das folgende Framework gruppiert KPIs in drei Ebenen: Task-Abschluss, Eskalation und Fehler und Economics.


Ebene 1: Task-Abschluss — erledigt der Agent die Arbeit wirklich?

Containment Rate

Die Containment Rate ist der Prozentsatz eingehender Anfragen, die der Agent von Anfang bis Ende ohne menschlichen Eingriff löst. Bei einem Kundensupport-Agenten bedeutet das: Der Kunde hat eine Antwort erhalten und die Unterhaltung abgeschlossen. Bei einem Document-Processing-Agenten: Das Dokument wurde klassifiziert, extrahiert und weitergeleitet, ohne dass ein menschlicher Prüfer es angefasst hat.

Warum es die Kernmetrik ist: Jeder Containment-Punkt ist eine Einheit freigegebener Menschenzeit. Ein Support-Agent, der 400 Tickets pro Woche bei 60 % Containment bearbeitet, schliesst 240 davon ohne menschliche Beteiligung ab. Bei 80 % sind es 320.

Es gibt keine universell „gute” Rate — sie hängt vom Task ab. Ein eng gefasster FAQ-Agent sollte 70–85 % oder mehr erreichen. Ein Document-Intake-Agent mit variablen Formaten kann bereits bei 50–60 % gut aufgestellt sein. Legen Sie die Baseline in der ersten Woche fest und verfolgen Sie den Trend.

Task Completion Rate vs. Deflection Rate

Diese beiden Begriffe werden häufig verwechselt. Die Deflection Rate misst lediglich, wie oft der Agent einen menschlichen Touchpoint vermeidet — sie bestätigt nicht, dass die Anfrage gelöst wurde. Ein Nutzer, der nach einer nicht hilfreichen Antwort abbricht, erhöht Ihre Deflection Rate, ohne Wert zu schaffen.

Die Task Completion Rate verfolgt, ob das eigentliche Ziel des Nutzers erreicht wurde: die Buchung wurde abgeschlossen, die Rückerstattung verarbeitet, die Information gefunden und bestätigt. Kombinieren Sie beide Metriken, um zu erkennen, ob Sie wirklich deflektieren — oder einfach den Nutzer allein lassen.


Ebene 2: Eskalation und Fehler — wo bricht der Agent ein?

Eskalationsrate (und Eskalationskategorien)

Die Eskalationsrate ist das Gegenstück zur Containment Rate: der Anteil der Anfragen, die beim Menschen landen. Allein die Zahl zu verfolgen reicht nicht. Sie müssen wissen, warum Eskalationen stattfinden.

Die meisten Agent-Plattformen legen Eskalations-Trigger in den Logs offen. Häufige Kategorien:

  • Intent nicht erkannt — der Agent hat die Anfrage nicht verstanden
  • Confidence unter Schwellenwert — verstanden, aber nicht sicher genug zum Handeln
  • Policy-Grenze — erfordert by design menschliche Genehmigung
  • Nutzerwunsch — der Nutzer hat ausdrücklich nach einem Menschen verlangt

Die ersten beiden sind handlungsrelevant. Wenn 30 % Ihrer Eskalationen auf „Intent nicht erkannt” entfallen, haben Sie ein Prompt-Design-Problem. Wenn die Mehrheit policy-bedingt ist, sind Ihre Schwellenwerte möglicherweise zu konservativ kalibriert.

Halluzinations- und Fehlerrate

Bei Agenten, die Informationen abrufen und ausgeben — Knowledge-Base-Abfragen, Dokumentenzusammenfassungen, FAQ-Antworten — ist die Nachverfolgung der faktischen Genauigkeit wichtiger, als die meisten Teams realisieren. Manuelle Stichproben bei einer Auswahl von Antworten liefern zusammen mit Nutzerfeedback ein praktisches Signal.

Automatisierte Evals — LLM-as-Judge-Scoring gegen ein Ground-Truth-Set — sind systematischer. Der Artikel KI-Agenten testen: Wie Evals zuverlässige Automatisierung sicherstellen zeigt, wie Sie das einrichten, ohne dass es zum Forschungsprojekt wird.

Time-to-Resolution

Für Workflows mit einem definierten Endzustand — ein gelöstes Ticket, ein eingereichtes Formular, ein bestätigter Termin — ist die Time-to-Resolution eine saubere Metrik. Vergleichen Sie agentenseitig bearbeitete mit menschlich bearbeiteten Lösungszeiten. Die Differenz ist die Effizienzgeschichte, die Sie intern erzählen.

Ein ehrlicher Hinweis: Manche Aufgaben sollten zu Menschen gelangen und dort länger dauern. Time-to-Resolution sollte pro Task-Kategorie gemessen werden, nicht über alles gemittelt.


Ebene 3: Economics — was kostet Sie jedes Outcome?

Hier verbinden sich die KI-Agenten-Metriken mit dem Business Case. Die drei wichtigsten Metriken:

Kosten pro abgeschlossenem Task

Nehmen Sie Ihre gesamten Betriebskosten für den Agenten in einem Zeitraum — LLM-API-Aufrufe, Infrastruktur, etwaige Plattformgebühren, plus einen fairen Anteil an Engineering-Wartungszeit — und dividieren Sie durch die Anzahl abgeschlossener Tasks. Vergleichen Sie das mit den Vollkosten eines Menschen für dieselbe Aufgabe.

Illustratives Szenario: Ein mittelgrosser E-Commerce-Betrieb verarbeitet 3.000 Rückgabeanfragen pro Monat. Jede beansprucht rund 8 Minuten Menschenzeit bei einem blended Arbeitgeberkostenansatz von etwa CHF 0,65–0,85/Minute (Schweizer Medianlöhne für kundenseitiges Personal plus Arbeitgebersozialabgaben von rund 19 %, gemäss LSE-Daten des BFS), also rund CHF 5–7 pro Anfrage. Wenn der Agent 70 % davon bei Gesamtbetriebskosten von CHF 900/Monat übernimmt, sinken die Kosten pro agentenbearbeitetem Task deutlich unter CHF 1. Das ist illustratives Rechenwerk — Ihre tatsächlichen Zahlen hängen von LLM-Nutzung, Arbeitskosten und Wartungsaufwand ab — aber das ist die Struktur der Kalkulation.

LLM-Token-Kosten pro Task

Wenn Ihr Agent skaliert, werden LLM-API-Kosten zu einer relevanten Variable. Verfolgen Sie die pro Task verbrauchten Tokens, aufgeschlüsselt nach Modell. Lange, unfokussierte System-Prompts und Retrieval-Pipelines, die zu viel Kontext zurückliefern, treiben diese Zahl unnötig in die Höhe — Monitoring zeigt Ineffizienzen, bevor sie sich aufschaukeln.

Umgeleitete Menschenzeit

Was tun die Menschen jetzt, da der Agent die Routinelast übernimmt? Wenn die Eskalationen, die Ihr Team erreichen, genuine Complex- oder High-Value-Aufgaben sind, macht der Agent seinen Job. Wenn Menschen Dinge nachformatieren, die der Agent unvollständig produziert hat, haben Sie ein Qualitätsproblem, das die Kosten-pro-Task-Metrik allein nicht sichtbar machen wird.


Ein praktisches KPI-Dashboard für Agenten im Produktivbetrieb

Die meisten Teams verkomplizieren das. Für einen Produktiv-Agenten starten Sie mit sechs Zahlen, die wöchentlich getrackt werden:

MetrikWas sie Ihnen sagtZielrichtung
Containment RateTasks ohne Mensch abgeschlossenAufwärts
Task Completion RateZiele tatsächlich erreichtAufwärts
Eskalationsrate nach KategorieWo der Agent versagtIntent/Confidence-Kategorien abwärts
Fehler- / HalluzinationsrateOutput-QualitätAbwärts
Kosten pro abgeschlossenem TaskEconomicsMit der Zeit abwärts
Time-to-Resolution (Agent vs. Mensch)EffizienzlückeAgent schneller

Prüfen Sie diese monatlich gegen die Baseline, die Sie beim Deployment festgelegt haben. Eine flache Containment Rate nach zwei Monaten ist ein Signal zur Untersuchung. Steigende Kosten pro Task bei stabiler Containment Rate bedeuten in der Regel, dass Ihre Prompts oder Retrieval-Pipeline eine Überarbeitung benötigen.

Der Artikel ROI von KI-Agenten messen: ein Framework für KMU erklärt, wie Sie aus diesen Zahlen nach einigen Monaten Datenlage den finanziellen Case aufbauen.


Wenn KPIs signalisieren, dass es Zeit ist, den Agenten zu überdenken

Manchmal zeigen die Metriken, dass das Agenten-Design selbst geändert werden muss — nicht nur Prompts oder Schwellenwerte. Warnsignale:

  • Containment Rate stagniert trotz mehrfacher Iterationen unter 50 %
  • Eskalationskategorien zeigen Woche für Woche dieselben nicht erkannten Intents
  • Nutzer übergehen den Agenten systematisch, anstatt seinen Output zu akzeptieren
  • Kosten pro Task liegen über der menschlichen Baseline und verbessern sich nicht

Diese Muster weisen in der Regel auf ein Scoping-Problem hin: Der Agent hat eine zu breite Aufgabe erhalten, oder er wurde in einem Kontext eingesetzt, in dem die Inputvariabilität das Agenten-Design überfordert. Der Artikel Vom Pilot zur Flotte: KI-Agenten im Produktivbetrieb steuern zeigt, wie Sie das systematisch angehen.

Die schwerwiegendere Failure-Mode ist ein Agent, der statistisch in Ordnung wirkt, aber still das Vertrauen erodiert. Qualitative Signale zählen hier: Support-Tickets über den Agenten, Nutzerfeedback und die Rate, mit der Kunden innerhalb von 24 Stunden nach einer „gelösten” Sitzung zu einem Menschen eskalieren.


Was gute Messung von Anfang an auszeichnet

Teams, die KI-Agenten gut messen, teilen eine Praxis: Sie definieren Erfolgskriterien, bevor der Agent live geht — nicht danach. Welche Containment Rate rechtfertigt die Investition? Welche Eskalationsrate löst eine Prompt-Design-Überprüfung aus? Welche Fehlerrate ist für Ihre Branche und Ihren Task-Typ akzeptabel?

Das sind keine Schätzungen — sie werden zwischen dem Business-Owner des Ergebnisses und dem technischen Verantwortlichen ausgehandelt. Ohne diese Aushandlung wird jedes Review-Meeting zu einer Debatte darüber, ob 62 % Containment gut oder enttäuschend ist.

Wenn Sie gerade ein Deployment planen oder überprüfen und sich ein klares Bild davon machen möchten, welche Metriken zu Ihrem Use-Case passen, führt Orange ITS eine fokussierte 30-minütige Session durch, um das richtige KPI-Set auf Ihren spezifischen Agenten und Geschäftskontext zuzuschneiden. Nehmen Sie Kontakt auf, um dieses Gespräch zu buchen.

Für weiterführende operative Designfragen deckt unser Process-Optimisation-Service ab, wie wir Agenten im Produktivbetrieb instrumentieren, überwachen und iterieren — einschliesslich der Messframeworks, die wir für Kundendeployments einsetzen.

Der Artikel Warum KI-Agenten-Projekte scheitern — und wie Sie das Risiko reduzieren behandelt Messlücken als eine der häufigsten Failure-Modes, falls Sie sehen möchten, wie KPI-Blindstellen zum gesamten Projektrisiko beitragen.

Insights

Setzen Sie diese Ideen um

Ein 30-minütiges Gespräch genügt, um herauszufinden, ob ein KI-Agent zu Ihrem Workflow passt — und was er einbringen würde.