KI-Agenten: Wann Workflows wirklich intelligent werden

Die meisten Automatisierungsprojekte scheitern — nicht weil die Technologie versagt hat, sondern weil der falsche Prozess als erstes gewählt wurde. Ein gut konfigurierter Zapier-Flow erledigt eine starre, vorhersehbare Aufgabe zuverlässig. Ein Workflow mit KI-Agenten ist etwas anderes: Er denkt, wählt Werkzeuge, passt sich während des Laufs an und erholt sich von partiellen Fehlern. Beides sind keine Substitute. Der entscheidende Hebel liegt darin, für jeden Prozess den richtigen Automatisierungstyp zu wählen.

Dieser Artikel gibt Ihnen eine klare Definition, was einen Workflow “agentic” macht, erklärt, wo das relevant ist und wo nicht, und schließt mit einer konkreten Checkliste, die Sie heute auf Ihre eigenen Abläufe anwenden können.

Was klassische Automatisierung wirklich gut kann

Bevor wir agentische Workflows definieren, lohnt sich ein präziser Blick auf konventionelle Automatisierung — denn im richtigen Kontext ist sie schlicht überlegen.

Regelbasierte Automatisierung (RPA, Trigger-Aktion-Tools, starre ETL-Pipelines) folgt einem festen Skript: Wenn Bedingung A eintritt, wird Aktion B ausgeführt. Jeder Verzweigungspfad ist vorprogrammiert. Eingaben müssen in einem erwarteten Format ankommen. Ausnahmen werden an eine Person weitergeleitet oder bringen den Job zum Stillstand.

Das deckt viel ab. Wöchentliche Berichts-E-Mails, Rechnungsextraktion aus einem einheitlichen Lieferantentemplate, das Kopieren freigegebener Daten zwischen zwei Systemen — das sind hochvolumige, wenig variierende Aufgaben, die klassische Automatisierung günstig und zuverlässig bewältigt.

Der Schwachpunkt liegt im Scope Creep: Teams versuchen, Workflows zu automatisieren, die variabel, urteilsintensiv oder von aktuellem Kontext abhängig sind — und enden mit spröden Systemen, die mehr Pflege erfordern als die ursprüngliche manuelle Arbeit.

Was einen KI-Agenten-Workflow “agentic” macht

Ein agentischer Workflow unterscheidet sich von klassischer Automatisierung in drei Dimensionen:

1. Dynamisches Schlussfolgern statt fester Regeln Ein Agent folgt keinem vorab geschriebenen Entscheidungsbaum — er formuliert einen Plan zur Laufzeit, basierend auf dem aktuellen Zustand der Aufgabe. Lautet die Aufgabe “Qualifiziere diesen eingehenden Lead und plane ein Erstgespräch,” bewertet der Agent, was er weiß, entscheidet, welche Werkzeuge er aufruft (CRM-Abfrage, Kalenderprüfung, E-Mail-Entwurf), und sequenziert seine eigenen Schritte. Kein Entwickler musste jeden möglichen Pfad fest codieren.

2. Werkzeugnutzung und Interaktion mit der Umgebung Agentische Systeme können externe APIs aufrufen, Datenbanken abfragen, Suchen durchführen, Dateien schreiben und an andere Agenten oder Menschen übergeben. Der entscheidende Unterschied: Der Agent entscheidet welches Werkzeug er wann einsetzt, anstatt immer dasselbe Werkzeug in derselben Reihenfolge aufzurufen. Das macht ihn nützlich für Aufgaben, bei denen die “richtige” Aktion von Zwischenergebnissen abhängt.

3. Fehlerkorrektur und Iteration Wenn ein Schritt fehlschlägt oder unerwartete Ergebnisse liefert, kann ein Agent mit einem anderen Ansatz neu versuchen, um Klärung bitten oder eskalieren — statt anzuhalten und auf manuellen Neustart zu warten. Genau das macht agentische Automatisierung praxistauglich für Workflows mit realer Variabilität.

Ein wichtiger Hinweis: “Agentic” ist ein Spektrum, keine Binärentscheidung. Eine einfache Schleife, die ein Suchwerkzeug aufruft, ist leicht agentic. Ein System, in dem spezialisierte Sub-Agenten bei komplexen Dokumentenprüfungen zusammenarbeiten, ist es in hohem Maß. Die benötigte Architektur hängt vom Prozess ab. (Lesen Sie unsere Übersicht zu Multi-Agenten-Systemen, wenn Ihre Workflows komplex genug werden, um mehrere kooperierende Agenten zu rechtfertigen.)

Die Reifecheckliste: Welche Ihrer Prozesse qualifizieren sich?

Nicht jeder Workflow verdient einen agentischen Ansatz. Die folgende Prüfung in vier Dimensionen über Ihr Prozess-Backlog lässt die vielversprechenden Kandidaten hervortreten und bewahrt Sie vor teuren Fehlinvestitionen.

Dimension 1 — Prozessvariabilität

Fragen Sie sich: Variiert der Input zwischen einzelnen Instanzen wesentlich?

Geringe Variabilität (gleiches Format, gleiche Quelle, vorhersehbare Werte): klassische Automatisierung gewinnt. Nicht überentwickeln.
Mittlere Variabilität (überwiegend konsistent, gelegentliche Ausnahmen): ein Hybridansatz funktioniert — regelbasierter Kern mit einer kleinen KI-Schicht für die Ausnahmebehandlung.
Hohe Variabilität (Freitext-Eingaben, diverse Datenquellen, unvorhersehbare Struktur): hier rechtfertigt ein KI-Agenten-Workflow seinen Aufwand.

Illustratives Beispiel: ein Logistikunternehmen, das Frachtbuchungsanfragen per E-Mail erhält. Ein Kunde schickt ein strukturiertes CSV. Ein anderer schickt ein PDF. Ein dritter schickt eine WhatsApp-Nachricht mit Abmessungen und einem Foto. Kein einziger starrer Parser bewältigt alle drei Varianten. Ein Agent, der die Nachricht liest, das Format erkennt, die relevanten Felder extrahiert und ins TMS schreibt — über alle Varianten hinweg — liefert konstanten Durchsatz, wo feste Automatisierung versagen würde.

Dimension 2 — Erforderliches Urteilsvermögen

Fragen Sie sich: Erfordert die Erledigung dieser Aufgabe Interpretation, Priorisierung oder eine kontextabhängige Entscheidung?

Ein Support-Ticket als Abrechnungs- oder technisches Problem zu klassifizieren ist Urteilsvermögen. Ein LLM bewältigt das gut.
Zu entscheiden, ob eine Vertragsklausel standard ist oder rechtliche Prüfung erfordert, ist Urteilsvermögen — mit erheblichen Konsequenzen. Das erfordert ein Human-in-the-Loop-Design, keine vollständige Automatisierung.
Zu identifizieren, welche der 200 offenen Aufgaben anhand von Dringlichkeitssignalen als erste angegangen werden soll, ist Urteilsvermögen. Ein Agent kann dabei unterstützen.

Die rote Linie: Alles, bei dem eine falsche automatisierte Entscheidung regulatorische, finanzielle oder reputationsschädigende Folgen jenseits eines konfigurierbaren Schwellenwerts hat, muss ein menschliches Genehmigungsgate beinhalten. Agentic bedeutet nicht unbeaufsichtigt. (Mehr zur Strukturierung dieser Aufsicht finden Sie in unserem Leitfaden zur Governance von KI-Agenten.)

Dimension 3 — Datenzugang und Werkzeugoberfläche

Fragen Sie sich: Welche Systeme muss dieser Workflow berühren, und kann der Agent sie erreichen?

Ein Agent ist nur so leistungsfähig wie sein Werkzeugset. Ein Workflow, der das ERP lesen, das CRM beschreiben und eine formatierte E-Mail versenden muss, ist technisch zugänglich — aber nur, wenn jemand diese Integrationen gebaut oder konfiguriert hat. Bevor Sie einen Workflow als “agentic-ready” einstufen, kartieren Sie die Datenabhängigkeiten:

Welche Systeme halten die Eingabedaten?
Welche Systeme müssen als Ergebnis aktualisiert werden?
Sind APIs oder Integrationen verfügbar, oder müsste der Agent mit einer Benutzeroberfläche interagieren (langsamer, fragiler)?
Gibt es Datenzugriffsberechtigungsprobleme — besonders relevant unter dem Schweizer revDSG oder der DSGVO?

Workflows mit sauberen API-Oberflächen erzielen höhere Punkte. Solche, die Scraping von abgeschotteten internen Tools erfordern, erzielen niedrigere Punkte, bis die Integrationsarbeit geleistet ist.

Dimension 4 — Volumen und Häufigkeit

Fragen Sie sich: Wie oft läuft dieser Prozess, und mit welchem Volumen?

Agentische Systeme verursachen reale Kosten — LLM-Inferenz, Rechenleistung, Entwicklung und laufende Wartung. Ein Workflow, der fünfmal im Monat läuft, rechtfertigt die Investition wahrscheinlich nicht, es sei denn, jede Instanz ist genuinen hohen Wert (ein komplexes Angebot, eine wichtige Kundenanfrage). Ein Workflow, der hunderte Male täglich läuft, ist ein starker Kandidat, auch wenn der Wert pro Instanz bescheiden ist.

Illustratives Szenario: ein Beratungsunternehmen mit 30 Mitarbeitenden, deren Belegschaft durchschnittlich 45 Minuten pro Tag für E-Mail-Triage aufwendet — Kundenanfragen sortieren, dringende Punkte kennzeichnen, erste Antwortvorlagen erstellen. Bei 20 Arbeitstagen pro Monat sind das 450 Personenstunden, die von einer hochvariablen, hochvolumigen Aufgabe verbraucht werden. Ein agentischer Triage-Workflow, der die Bearbeitungszeit um 30–50 % reduziert, könnte monatlich 135–225 Stunden zurückgewinnen — Zahlen, die je nach Implementierungsqualität und Prozesseignung erheblich variieren. Das Modell kann aufgehen; ob es das tut, hängt von Datenzugang und Integrationsreife ab.

Das Backlog bewerten: ein praktischer Ansatz

Bewerten Sie jeden Workflow-Kandidaten in den vier Dimensionen auf einer Skala von 1–3:

Dimension	1 — Schlechte Eignung	2 — Marginal	3 — Gute Eignung
Variabilität	Gering / starr	Gemischt	Hoch / unstrukturiert
Erforderliches Urteilsvermögen	Keines	Moderat	Kontextabhängige Entscheidungen
Datenzugang	Nicht zugänglich	Partielle APIs	Vollständige API-Abdeckung
Volumen / Häufigkeit	Selten / gering	Moderat	Hohes Volumen / täglich

Ein Workflow mit einem Wert von 10–12 ist ein starker Kandidat für einen KI-Agenten-Workflow. Ein Wert von 7–9 verdient eine genauere Betrachtung und möglicherweise ein gezieltes Pilot-Projekt. Unter 7 ist klassische Automatisierung oder manuelle Bearbeitung wahrscheinlich kosteneffizienter.

Diese Bewertung ersetzt kein architektonisches Urteil — sie bringt Gespräche ans Licht, die sich lohnen. Ein Workflow mit Wert 11, der sensible Personendaten berührt, braucht zunächst ein Governance-Design. Einer mit Wert 8, der einen engagierten internen Sponsor und vorhandene API-Zugänge hat, könnte das klügere erste Projekt sein. Kontext zählt immer.

Wo agentische Automatisierung nicht die Antwort ist

Zu einer ehrlichen Einschätzung gehören die Grenzen:

Stark regulierte Entscheidungen: Kreditscoring, Unterstützung bei medizinischen Diagnosen, Rechtsberatung — diese erfordern menschliche Freigabe und Audit-Trails, die über das hinausgehen, was die meisten Agenten-Architekturen standardmäßig bieten.
Latenz-kritische Prozesse: Manche Workflows benötigen Reaktionszeiten unter 100 ms. Die meisten LLM-basierten Agenten arbeiten derzeit mit etwa 0,5–10 Sekunden pro Reasoning-Schritt, abhängig von Modellgröße und Denktiefe. Echtzeit-Preisbildung oder Betrugsscoring bei Transaktionsvolumen ist die falsche Anwendung.
Einstufige Hochvolumen-Aufgaben: Wenn eine Aufgabe immer “extrahiere Feld X aus Dokumenttyp Y” lautet, ist ein fein abgestimmtes Extraktionsmodell oder ein einfacher API-Aufruf schneller, günstiger und zuverlässiger als ein Allzweck-Agent.

Zu verstehen, wofür ein KI-Agenten-Workflow nicht geeignet ist, ist genauso wichtig wie zu wissen, wo er glänzt. Falsch eingesetzt verschwenden agentische Systeme Entwicklerstunden und produzieren fragile Automatisierungen. Richtig eingesetzt absorbieren sie operative Komplexität, die sonst zusätzliches Personal erfordern würde.

Von der Checkliste zur Entscheidung

Diese Bewertung über Ihre Workflows hinweg liefert Ihnen eine priorisierte Liste von Automatisierungschancen — nicht nur ein vages Gefühl, dass “KI helfen könnte.” Diese priorisierte Liste ist der Ausgangspunkt für eine sinnvolle KI-Agenten-Implementierungs-Roadmap: Sie wissen, welche Prozesse Sie zuerst in der Pilot-Phase testen, welche Integrationen vorhanden sein müssen und wo menschliche Aufsicht nicht verhandelbar ist.

Die Frage, mit der die meisten Operations-Verantwortlichen konfrontiert sind, lautet nicht “Sollen wir automatisieren?” — sondern “Wo fangen wir an, und wie vermeiden wir Projekte, die vielversprechend aussehen, aber nichts liefern?” Die Antwort darauf erfordert eine Analyse auf Prozessebene, keine generische KI-Strategie.

Unser Service zur Prozessoptimierung ist genau auf diese Art strukturierter Bewertung ausgerichtet: Ihre Workflows kartieren, sie gegen Reifekriterien bewerten und die passende Automatisierungsarchitektur für jeden einzelnen entwerfen — ob das eine einfache Regel, ein hybrider Agent oder ein mehrstufiges agentisches System ist.

Wenn Sie zwei oder drei Workflows identifiziert haben, die in der Checkliste gut abschneiden, und eine zweite Meinung zu Architektur und Sequenzierung wünschen, ist ein 30-minütiges Gespräch der richtige nächste Schritt. Buchen Sie eine Prozessanalyse mit dem Orange ITS Team — wir sagen Ihnen klar, welche Ihrer Workflows bereit für die Automatisierung sind und was deren Umsetzung erfordern würde.

Häufige Fragen

Was unterscheidet einen agentischen Workflow von klassischer Automatisierung wie Zapier?

Drei Dinge: Ein Agent formuliert seinen Plan zur Laufzeit statt einem festen Entscheidungsbaum zu folgen, er entscheidet selbst, welches Werkzeug er wann einsetzt, und er korrigiert Fehler durch neue Versuche, Rückfragen oder Eskalation. Klassische regelbasierte Automatisierung bleibt bei starren, vorhersehbaren Aufgaben überlegen.

Wie finde ich heraus, welche meiner Prozesse sich für KI-Agenten eignen?

Bewerten Sie jeden Workflow in vier Dimensionen auf einer Skala von 1 bis 3: Prozessvariabilität, erforderliches Urteilsvermögen, Datenzugang und Volumen. Ein Wert von 10 bis 12 ist ein starker Kandidat, 7 bis 9 verdient ein gezieltes Pilotprojekt, unter 7 ist klassische Automatisierung oder manuelle Bearbeitung meist kosteneffizienter.

Wofür sind KI-Agenten ungeeignet?

Für stark regulierte Entscheidungen wie Kreditscoring oder medizinische Diagnostik, für latenzkritische Prozesse unter 100 ms, da LLM-basierte Agenten etwa 0,5 bis 10 Sekunden pro Reasoning-Schritt benötigen, und für einstufige Hochvolumen-Aufgaben, bei denen ein einfacher API-Aufruf oder ein spezialisiertes Extraktionsmodell schneller und günstiger ist.

Brauchen agentische Workflows immer eine menschliche Freigabe?

Nicht immer, aber überall dort, wo eine falsche automatisierte Entscheidung regulatorische, finanzielle oder reputationsschädigende Folgen oberhalb eines definierten Schwellenwerts hätte, ist ein menschliches Genehmigungsgate Pflicht. Agentisch bedeutet nicht unbeaufsichtigt.

Ab welchem Volumen rechnet sich ein KI-Agenten-Workflow?

Ein Prozess, der fünfmal im Monat läuft, rechtfertigt die Investition selten, außer jede Instanz hat hohen Einzelwert. Ein Prozess mit hunderten Läufen täglich ist ein starker Kandidat. Beispiel: Bei 30 Mitarbeitenden mit 45 Minuten täglicher E-Mail-Triage fallen rund 450 Personenstunden pro Monat an; eine Reduktion um 30 bis 50 Prozent könnte 135 bis 225 Stunden zurückgewinnen.