KI-Agenten orchestrieren: Wie Agenten als System funktionieren

Die meisten KI-Agenten-Pilotprojekte scheitern still zwischen Proof of Concept und Produktivbetrieb. Die Demo funktioniert. Die Stakeholder nicken. Dann fragt jemand, was passiert, wenn der Lead-Enrichment-Agent einen Timeout hat, das CRM einen unvollständigen Datensatz zurückgibt und die Follow-up-E-Mail trotzdem versendet wird — mit leerem Firmennamen.

Das ist ein Orchestrierungsfehler. Häufiger als ein Modell-Fehler.

KI-Agenten-Orchestrierung ist die Koordinierungsschicht über den einzelnen Agenten — sie übernimmt Routing, Statübergabe, Fehlerbehandlung und entscheidet, wann ein Mensch eingreifen muss. Einzelne Agenten können bei eng umrissenen Aufgaben hervorragende Arbeit leisten. Die Orchestrierung entscheidet, ob eine Sammlung davon ein zuverlässiges System wird oder ein teures Wissenschaftsprojekt.

Dieser Artikel richtet sich an technische Entscheider, die Multi-Agent-Implementierungen evaluieren. Er behandelt keine Framework-Syntax. Er erklärt, was die Orchestrierungsschicht leistet, wo Projekte ohne sie scheitern und wie man das Budget dafür ehrlich plant.

Warum die Koordinierungsschicht alles entscheidet

Ein einzelner Agent ist unkompliziert zu bewerten. Sie testen ihn, messen die Genauigkeit, deployen. Die Fehlerfläche ist überschaubar.

Verbinden Sie Agenten — einen Intake-Agenten, der Anfragen klassifiziert, einen Retrieval-Agenten, der Daten abruft, einen Response-Agenten, der die Ausgabe formuliert, einen Action-Agenten, der in Ihre Systeme zurückschreibt — und die Fehlermodi multiplizieren sich. Jeder Handoff ist ein potenzieller Bruchpunkt. Jede geteilte Zustandsinformation ist eine Annahme, die verletzt werden kann.

KI-Agenten-Orchestrierung macht Koordination explizit statt implizit. Anstatt dass Agenten einander ad-hoc aufrufen und versteckte Abhängigkeiten erzeugen, verwaltet eine Orchestrierungsschicht:

Routing: Welcher Agent eine bestimmte Aufgabe übernimmt — basierend auf Anfragetyp oder Konfidenzschwellenwert
Statübergabe: Welcher Kontext zwischen Agenten weitergegeben wird und in welchem Format
Fehlerbehandlung: Was passiert, wenn ein Agent scheitert, einen Timeout hat oder eine Ausgabe mit geringer Konfidenz liefert
Menschliche Checkpoints: Welche Entscheidungen eine Person erfordern, bevor der Workflow fortfährt
Audit Trail: Was in welcher Reihenfolge passiert ist, damit Fehler nachvollziehbar sind

Ohne diese Schicht haben Sie Agenten. Mit ihr haben Sie ein System.

Die vier Stellen, an denen Orchestrierung versagt (und was das kostet)

Zu verstehen, wo Orchestrierung scheitert, ist nützlicher als eine generische Beschreibung ihrer Funktion. Hier sind die Fehlermodi, die in den ersten sechs Monaten nach einem Multi-Agent-Deployment am häufigsten auftreten.

1. Routing ohne Fallback

Die Routing-Logik klassifiziert eine eingehende Anfrage und leitet sie an den passenden Agenten weiter. Einfache Klassifizierung funktioniert gut für die Fälle, die Sie antizipiert haben. Das Problem sind die Fälle, die Sie nicht antizipiert haben.

Eine Anfrage, die ausserhalb der Trainingsverteilung Ihres Routers liegt, wird entweder falsch klassifiziert (an den falschen Agenten gesendet, der eine verworrene oder leere Antwort zurückgibt) oder vollständig verworfen. Ohne Fallback — typischerweise eine Catch-all-Queue für menschliche Handoffs — bekommt der Nutzer Stille. Bei einem kundenseitigen Workflow ist diese Stille eine verlorene Transaktion oder eine Support-Eskalation. In jedem Fall wird ein Mensch nachträglich einbezogen, meistens frustriert.

Die Lösung ist explizit. Jeder Routing-Graph braucht einen beschrifteten Ausgang für „Ich weiss es nicht”, und dieser Ausgang muss irgendwohin Sinnvolles führen.

2. Zustand, der nicht weitergegeben wird

Jeder Agent in einer Sequenz braucht Kontext für seine Arbeit. Der Retrieval-Agent muss wissen, wofür er abruft. Der Response-Agent braucht den abgerufenen Inhalt. Der Action-Agent braucht die Bestätigung, dass die Antwort akzeptiert wurde.

Der Fehlermodus sind Agenten, die isoliert korrekt funktionieren, aber im Produktivbetrieb unvollständigen Zustand erhalten — weil das Handoff-Schema für den Happy Path ausgelegt war und nie gegen partielle Upstream-Fehler getestet wurde. Ein Agent, der ein Null-Feld erhält, wo er einen Firmennamen erwartet, halluziniert entweder einen Wert (schlecht) oder scheitert still und gibt ein unvollständiges Ergebnis weiter (schlimmer, weil der Fehler unsichtbar ist).

Zustands-Schemata müssen explizit, versioniert und an jeder Handoff-Grenze validiert sein — Ingenieurarbeit, die in der Hektik vor dem Release oft übersprungen wird.

3. Retry-Schleifen ohne Abbruchbedingungen

Wenn ein Agent scheitert — durch einen Timeout, einen API-Fehler oder eine fehlerhafte Antwort — muss der Orchestrator entscheiden, ob er es erneut versucht, überspringt oder eskaliert. Retry ist in der Regel der richtige erste Schritt. Aber Retry ohne maximale Anzahl und Eskalationspfad erzeugt Schleifen.

Stellen Sie sich einen Bestellverarbeitungs-Agenten vor, der scheitert, weil die Inventar-API down ist. Ohne Abbruchbedingung versucht der Orchestrator es unbegrenzt weiter, häuft immer mehr Anfragen gegen einen toten Endpoint auf, während der Nutzer auf eine Bestätigung wartet, die nie kommt. Die Lösung ist ein Circuit Breaker: Nach N Fehlern innerhalb eines Zeitfensters stoppt der Orchestrator die Wiederholungsversuche und leitet mit vollständigem Kontext in eine menschliche Queue weiter.

Das ist Standard-Denken aus verteilten Systemen — und es ist überraschend, wie oft es in ansonsten gut konzipierten Agenten-Architekturen fehlt.

4. Menschliche Checkpoints, die alles blockieren

Human-in-the-Loop ist bei hochriskanten Entscheidungen nicht optional — Vertragsfreigaben, Änderungen an Patientendaten, wesentliche Finanztransaktionen. Die Orchestrierungsherausforderung besteht darin, dass ein schlecht konzipierter Checkpoint zum Engpass wird, der den Zweck der Automatisierung zunichtemacht.

Wenn ein Checkpoint die Genehmigung einer bestimmten Person erfordert und diese Person nicht verfügbar ist, staut sich die Queue. Wenn die Genehmigungsoberfläche nicht den vollständigen Kontext enthält, den der Prüfer braucht, fragt er manuell nach und fügt Latenz hinzu. Wenn keine Timeout-Behandlung vorhanden ist, bleiben Anfragen unbegrenzt liegen.

Effektive menschliche Checkpoints sind asynchron, präsentieren vollständigen Kontext in der Genehmigungsoberfläche, haben ein definiertes Timeout-Verhalten und können delegiert werden. Dies gut zu gestalten ist so sehr ein Produktproblem wie ein technisches.

Wie produktionsreife Orchestrierung tatsächlich aussieht

Pilot-Demos testen Agentenfähigkeiten anhand kuratierter Eingaben. Der Produktivbetrieb testet alles andere.

Eine produktionsreife Orchestrierungsschicht für ein Multi-Agent-System umfasst:

Einen Routing-Graphen mit dokumentierten Edge Cases — nicht nur den Happy Path
Explizite Zustandsverträge zwischen Agenten — typisierte Schemata, kein freies JSON
Per-Agent-Timeout- und Retry-Konfiguration — mit definierten Eskalationspfaden
Eine menschliche Queue mit Kontext-Bündelung — damit Prüfer haben, was sie brauchen, ohne danach suchen zu müssen
Observability — strukturierte Logs pro Workflow-Lauf, nachverfolgbar bis zur Ursache jedes Fehlers
Ein Test-Harness für Edge Cases — einschliesslich gezielter Fehlerinjektion

Frameworks wie LangGraph liefern die Primitive, nicht das Design. Die Entscheidungen — was wiederholen, wann eskalieren, welchen Zustand mitführen — sind domänenspezifisch. Kein Framework trifft diese Entscheidungen für Sie.

Deshalb kommt das Architekturgespräch vor der Framework-Auswahl. LangGraphs graphbasiertes Zustandsmanagement ist die richtige Wahl für komplexe Branching-Workflows; für eine lineare Drei-Schritt-Pipeline ist es überdimensioniert.

Warum Orchestrierung nicht nachträglich ergänzt werden kann

Ein einzelner Agent, der einen Workflow automatisiert, braucht keine schwere Orchestrierungsschicht. Fügen Sie einen zweiten Agenten hinzu, und der Bedarf an expliziter Koordination wächst. Fügen Sie einen dritten hinzu — jeder kommuniziert mit gemeinsamen Systemen, jeder trägt zu einem einzigen Kundenergebnis bei — und Orchestrierung ist keine optionale Infrastruktur mehr.

Die meisten Teams unterschätzen diese Progression. Sie pilotieren einen Agenten, er funktioniert, sie fügen einen weiteren hinzu, und plötzlich debuggen sie State-Passing-Probleme über vier Agenten ohne Audit Trail. Die Rework-Kosten für das Nachrüsten von Orchestrierung in ein bestehendes Multi-Agent-System sind erheblich.

Die praktische Konsequenz: Wenn Sie planen, mehr als zwei Agenten in Sequenz zu betreiben, entwerfen Sie die Orchestrierungsschicht bevor Sie den zweiten Agenten bauen — nicht danach.

Wer das jetzt braucht — und wer warten sollte

Eine vollständige KI-Agenten-Orchestrierung ist sinnvoll, wenn:

Sie drei oder mehr Agenten sequenziell oder parallel betreiben oder planen
Ihr Workflow mehrere externe Systeme mit eigenen Zuverlässigkeitsmerkmalen berührt
Ein Fehler downstream einen kundenseitigen Ausfall, ein Compliance-Ereignis oder eine Finanztransaktion bedeutet

Es ist verfrüht, wenn Sie noch validieren, ob Agenten Ihre spezifische Aufgabe bewältigen können, oder wenn Ihr Use Case eine Single-Agent-, Single-System-Integration ist. Das Muster Agentic Workflow — ein Agent, der autonom innerhalb eines definierten Rahmens operiert — ist oft der richtige Ausgangspunkt, bevor Sie Multi-Agent-Koordination einführen.

Orchestrierungskomplexität sollte der tatsächlichen Komplexität entsprechen. Nicht umgekehrt.

Das Attributionsproblem bei Orchestrierungsfehlern

KI-Agenten-Projekte scheitern aus vielen Gründen, aber Orchestrierungsfehler sind besonders schwer zu diagnostizieren. Wenn sich ein einzelner Agent falsch verhält, führt man das auf Modellverhalten oder Prompt-Design zurück. Wenn die Orchestrierung scheitert, liegt die fehlerhafte Ausgabe oft mehrere Schritte von ihrer Ursache entfernt. Der Nutzer sieht eine falsche Antwort; das Log zeigt, dass der Response-Agent korrekt gearbeitet hat; das eigentliche Problem ist, dass der Retrieval-Agent drei Schritte früher unvollständigen Kontext erhalten hat.

Diese Attributionslücke ist der Grund, warum Orchestrierungsfehler tendenziell das Vertrauen in das gesamte System untergraben. Teams fügen Workarounds hinzu, dann manuelle Prüfungen, bis die Automatisierung faktisch umgangen wird und der Pilot zum Kostenfaktor statt zum Produktivitätshebel wird.

Observability und Fehlerbehandlung von Anfang an eingebaut — das ist der Weg, diese Lücke zu schliessen. Nicht der spannende Teil der Agenten-Entwicklung — aber der Teil, der darüber entscheidet, ob das System in sechs Monaten noch läuft.

Wie Orange ITS Orchestrierung für Kunden gestaltet

Bei Orange ITS ist Orchestrierung ein erstklassiges Deliverable — kein Nachgedanke, sobald die Agenten gebaut sind. Für jedes Multi-Agent-Engagement definieren wir Routing-Graph, Zustandsverträge, Fehlerbehandlungspfade und das Design der menschlichen Checkpoints, bevor wir Agenten-Code schreiben. Diese Entscheidungen sind günstiger zu ändern, solange sie nur auf dem Papier stehen.

Unsere Arbeit im Bereich KI-Agenten-Entwicklung deckt die gesamte Koordinierungsschicht ab — von der Framework-Auswahl bis zur Observability — damit Kunden Lücken nicht sechs Monate nach dem Launch entdecken.

Wenn Sie eine Multi-Agent-Implementierung evaluieren und vor dem Commitment in eine Richtung einen klaren Blick auf Ihre Orchestrierungsanforderungen möchten, ist ein 30-minütiges Gespräch ein pragmatischer Einstieg.

Jetzt ein Gespräch mit Orange ITS buchen — eine technische Unterhaltung darüber, was Ihr System wirklich braucht, kein Verkaufsgespräch.

Häufige Fragen

Was leistet die Orchestrierungsschicht in einem Multi-Agenten-System?

Sie macht Koordination explizit statt implizit und verwaltet fünf Dinge: Routing der Aufgaben an den passenden Agenten, Zustandsübergabe zwischen Agenten, Fehlerbehandlung bei Timeouts oder Ausgaben mit geringer Konfidenz, menschliche Checkpoints für kritische Entscheidungen und einen Audit Trail. Ohne diese Schicht hat man Agenten, mit ihr ein System.

Woran scheitern Multi-Agenten-Pilotprojekte am häufigsten?

An Orchestrierungsfehlern, nicht an mangelnder Modellgenauigkeit. Die vier typischen Fehlermodi der ersten sechs Monate: Routing ohne Fallback, Zustand, der bei Übergaben unvollständig ankommt, Retry-Schleifen ohne Abbruchbedingungen und menschliche Checkpoints, die zum Engpass werden.

Warum braucht jeder Routing-Graph einen Fallback?

Anfragen ausserhalb der antizipierten Fälle werden sonst falsch klassifiziert oder still verworfen, und der Nutzer bekommt Stille, was bei kundenseitigen Workflows eine verlorene Transaktion oder Support-Eskalation bedeutet. Jeder Routing-Graph braucht einen expliziten Ausgang für unbekannte Fälle, typischerweise eine Catch-all-Queue für menschliche Übergaben.

Wie gestaltet man menschliche Checkpoints, ohne die Automatisierung auszubremsen?

Effektive Checkpoints sind asynchron, präsentieren den vollständigen Kontext direkt in der Genehmigungsoberfläche, haben ein definiertes Timeout-Verhalten und lassen sich delegieren. Hängt die Freigabe an einer einzelnen, nicht verfügbaren Person oder fehlt der Kontext, staut sich die Queue und der Zweck der Automatisierung wird zunichtegemacht.

Wann sollte man die Orchestrierungsschicht planen?

Bevor der zweite Agent gebaut wird, denn das Nachrüsten in ein bestehendes Multi-Agenten-System verursacht erhebliche Rework-Kosten. Voll ausgebaute Orchestrierung lohnt sich ab drei oder mehr Agenten, bei Workflows über mehrere externe Systeme oder wenn Fehler kundenseitige Ausfälle, Compliance-Ereignisse oder Finanztransaktionen betreffen; für Single-Agent-Integrationen ist sie verfrüht.