Die meisten KI-Agenten-Projekte beginnen einfach und werden schnell komplex. Ein einfacher Chatbot entwickelt sich zu einem mehrstufigen Workflow. Ein einzelner Tool-Aufruf wird zu einem verzweigten Entscheidungsbaum. In dem Moment, in dem ein Agent pausieren, auf die Genehmigung eines Menschen warten und dann genau dort fortfahren muss, wo er aufgehört hat — dann zeigt sich, ob das Framework, das Sie vor drei Monaten gewählt haben, standhält oder versagt.
LangGraph wurde für diesen Moment entwickelt. Es ist, ohne Einschränkung, eines der leistungsfähigsten Open-Source-Frameworks für die Orchestrierung von KI-Agenten. Gleichzeitig ist es eines der anspruchsvollsten in der Handhabung. Diese Bewertung ist eine ehrliche Einschätzung beider Seiten: was LangGraph außergewöhnlich gut macht, was es Ihr Engineering-Team kostet, und die Anwendungsfälle, in denen dieser Aufwand gerechtfertigt ist — oder nicht.
Was LangGraph wirklich ist (jenseits des Marketings)
LangGraph ist eine Orchestrierungsbibliothek von LangChain, Inc. Sie modelliert Agent-Workflows als gerichtete Graphen: Knoten stehen für Aktionen oder LLM-Aufrufe, Kanten für Übergänge zwischen ihnen (einschließlich bedingter Verzweigungen). Der Zustand — alles, was der Agent über den aktuellen Lauf weiß — wird explizit als typisiertes Schema definiert, das durch den Graphen fließt.
Das ist die zentrale Idee. Im Gegensatz zu Frameworks, die den Zustand als implizites Kontextobjekt behandeln, das lose weitergegeben wird, zwingt LangGraph Sie dazu, Ihr Zustandsschema von Anfang an zu definieren. Jeder Knoten liest daraus und schreibt darin. Das macht den Datenfluss sichtbar, nachvollziehbar und reproduzierbar.
Das Framework ist in Python geschrieben, mit einer TypeScript-Implementierung (@langchain/langgraph), die 2025 Produktionsreife erlangt hat. Es ist eng mit dem LangChain-Ökosystem integriert, kann aber auch mit anderen LLM-Anbietern und Tool-Layern eingesetzt werden.
Drei Fähigkeiten unterscheiden es von leichtgewichtigeren Alternativen:
- Checkpointing: LangGraph kann den Zustand an jedem Knoten, über Läufe hinweg, in einer Datenbank persistieren. Ein Agent kann unbegrenzt pausiert und mit vollständig erhaltenem Kontext wieder aufgenommen werden.
- Human-in-the-Loop (HITL): Dank Checkpointing können Sie Flows erstellen, bei denen die Ausführung an einem definierten Knoten anhält, auf eine menschliche Entscheidung (genehmigen, ablehnen, bearbeiten) wartet und dann fortfährt. Das ist keine Behelfslösung — es ist ein erstklassiges Feature.
- Zyklen und Schleifen: Der Graph kann Zyklen enthalten, d. h. ein Agent kann einen Vorgang erneut versuchen, sich selbst korrigieren oder iterieren, ohne dass das Framework eine Sonderbehandlung benötigt.
Wo LangGraph seinen Ruf verdient
Anwendungsfälle, die die Entwicklungsinvestition rechtfertigen
LangGraph eignet sich am besten dort, wo der Kontrollfluss genauso wichtig ist wie das KI-Ergebnis selbst. Denken Sie an Workflows, in denen:
Freigabe-Gates nicht verhandelbar sind. Ein Finanz-Agent, der Zahlungsanweisungen entwirft, braucht eine menschliche Prüfung und Bestätigung, bevor etwas eine Bank-API erreicht. LangGraphs HITL-Mechanismus behandelt das sauber — Sie definieren den Unterbrechungsknoten, der Agent hält dort an, und Ihre UI fragt den ausstehenden Zustand ab.
Lang laufende Prozesse über Stunden oder Tage reichen. Ein Beschaffungs-Agent, der Anfragen sendet, auf Lieferantenantworten wartet, Angebote vergleicht und fehlende Rückmeldungen eskaliert, ist kein einzelner API-Aufruf. Er läuft über Tage. Checkpointing stellt sicher, dass ein Server-Neustart oder ein Wochenende den Lauf nicht verloren gehen lässt.
Komplexe bedingte Verzweigungen den Workflow steuern. Wenn Ihr Agent je nach Zwischenergebnissen zu verschiedenen Sub-Workflows routen muss — und diese Routen ihre eigene Verzweigungslogik haben — macht eine Graphstruktur das lesbar. Eine flache Kette von Prompts tut das nicht.
Für Teams, die Multi-Agent-Systeme aufbauen, bietet LangGraph auch starke Unterstützung für Supervisor-Muster: ein koordinierender Graph, der Aufgaben an spezialisierte Sub-Graphen weiterleitet. Das passt gut zu KI-Agenten-Orchestrierungsproblemen, die über das hinausgehen, was ein einzelner Agent zuverlässig bewältigen kann.
Der Engineering-Aufwand: Was Entscheidungsträger wissen müssen
Hier muss eine LangGraph-Bewertung direkt sein.
LangGraph ist kein Framework, mit dem man “an einem Nachmittag produktiv wird”. Das explizite Zustandsgraph-Modell — dasselbe Feature, das Ihnen Kontrolle gibt — verlangt, dass Ihre Entwickler in Graphentheorie denken, bevor sie einen einzigen Prompt schreiben. Das Design des Zustandsschemas ist eine echte Designaufgabe. Kantenbedingungen müssen explizit behandelt werden. Das Debuggen eines fehlerhaften Graphen erfordert das Nachverfolgen von Zustandsübergängen über Knoten hinweg — was Werkzeuge (LangSmith oder Ihre eigene Observability-Schicht) und Erfahrung voraussetzt.
Eine realistische Entwicklungsschätzung: Ein moderat komplexer LangGraph-Workflow — etwa ein mehrstufiger Dokument-Review-Agent mit einem HITL-Freigabe-Gate und zwei bedingten Verzweigungen — könnte einen erfahrenen Python-Entwickler zwei bis vier Wochen kosten, um ihn zu entwickeln, zu testen und für die Produktion zu härten — basierend auf Praxisberichten und Community-Vergleichen. Der entsprechende Workflow in einem No-Code-Builder wie n8n könnte wenige Tage dauern. Die LangGraph-Version wird zuverlässiger und besser kontrollierbar sein. Aber diese Lücke muss für den jeweiligen Anwendungsfall gerechtfertigt sein.
Das LangChain-Erbe. LangGraph wird zusammen mit LangChain ausgeliefert, und wenn Ihre Entwickler beide gemeinsam einsetzen, erben sie LangChains Abstraktionsschichten. LangChain hat sich deutlich verbessert, fügt aber immer noch Indirektion hinzu: Eine Tool-Definition in LangChain sieht etwas anders aus als ein direkter Funktionsaufruf, und das Debuggen erfordert das Verständnis beider Schichten. Teams, die schlanken, expliziten Code bevorzugen, greifen manchmal zu LangGraph und halten LangChain auf Abstand — möglich, erfordert aber bewusstes Abhängigkeitsmanagement.
Operativer Aufwand. Für den Produktionseinsatz benötigen Sie:
- Ein Persistenz-Backend für Checkpoints (PostgreSQL oder ein unterstützter Store)
- Ein Streaming-Setup, wenn Ihre UI Echtzeit-Fortschrittsfeedback benötigt
- Eine Observability-Schicht (LangSmith ist die naheliegende Wahl, obwohl es Kosten und eine Vendor-Abhängigkeit hinzufügt)
- Klares State-Versioning, wenn sich Ihr Schema nach dem Deployment weiterentwickelt
Keines davon ist ein Blocker für ein fähiges Engineering-Team, aber es summiert sich. Ein Team, das noch keine zustandsbehafteten Agent-Workflows in der Produktion betrieben hat, sollte zusätzliche Zeit für den operativen Layer einplanen — nicht nur für die Graph-Logik.
Wer LangGraph wählen sollte — und wer nicht
Gut geeignet:
- Teams mit mindestens einem Python-Entwickler, der mit typisierten Datenmodellen und explizitem Kontrollfluss vertraut ist
- Projekte, bei denen HITL-Genehmigung oder lang laufende Multi-Tage-Prozesse echte Anforderungen sind
- Multi-Agent-Architekturen, bei denen mehrere spezialisierte Agenten koordinierten Zustand benötigen
- Regulierte Branchen (Finanzen, Compliance, Recht), in denen jede Agent-Aktion einen Audit-Trail benötigt — LangGraphs Checkpointing-Zustand eignet sich dafür von Natur aus
Nicht geeignet:
- Ein 10-köpfiges KMU, das einen Kundensupport-Chatbot oder ein einfaches Dokument-Q&A-Tool benötigt — LangGraph ist dafür überdimensioniert; ein einfacheres Framework oder eine verwaltete Plattform liefert schneller und ist günstiger im Betrieb
- Teams ohne dedizierte Python-Entwicklungskapazität — die Lernkurve ist real und die laufende Wartung erfordert dieselben Fähigkeiten
- Prototyping- oder MVP-Phasen, in denen die Workflow-Logik noch nicht stabil ist — ein Zustandsschema zu früh zu definieren, bevor Sie den Prozess verstehen, führt zu kostspieligem Refactoring
Das ist dieselbe Bewertung, die wir anwenden, wenn wir für einen Kunden ein Open-Source-Framework für KI-Agenten auswählen: Das Framework, das Ihnen die meiste Leistung bietet, ist nicht immer das, das Ihnen das beste Ergebnis für Ihre spezifische Situation bringt.
LangGraph in der Produktion: konkrete Stärken und bekannte Schwachstellen
| Dimension | Bewertung |
|---|---|
| Zustandsverwaltung | Explizit, typisiert, nachvollziehbar — beste in der Klasse unter OSS-Frameworks |
| Human-in-the-Loop | Erstklassige Unterstützung; Checkpointing macht es robust |
| Observability | Erfordert LangSmith oder eigenes Tracing; kein Null-Aufwand |
| Multi-Agent-Unterstützung | Starke Supervisor-/Sub-Graphen-Muster |
| TypeScript-Unterstützung | Produktionsreif; Python-Releases liegen pro Zyklus ~4–8 Wochen voraus |
| Lernkurve | Hoch — Graph-Design erfordert Erfahrung, um es richtig zu machen |
| LangChain-Abhängigkeit | Optional, aber häufig; fügt Abstraktions-Overhead hinzu |
| Community / Dokumentation | Große Community; Dokumentation hat sich verbessert, kann aber über Versionen hinweg inkonsistent sein |
Der Produktionsreife-Test für Agent-Frameworks — Checkpointing, Observability, Fehlerwiederherstellung, Zustandspersistenz — ist einer, für den LangGraph effektiv entwickelt wurde. Er besteht ihn, mit dem Vorbehalt, dass keine dieser Fähigkeiten ohne Konfigurationsaufwand funktioniert: Sie erfordern ein bewusstes Setup.
Wie wir LangGraph bei Orange ITS einsetzen
Wir haben LangGraph-Workflows für Kunden entwickelt, bei denen die Anforderungen es wirklich verlangten: Compliance-Review-Pipelines, die für die menschliche Freigabe anhalten, Dokumentenverarbeitungs-Workflows, die sich über mehrere spezialisierte Sub-Agenten verzweigen, und interne Tools, bei denen die Nachvollziehbarkeit jedes Entscheidungsschritts eine verbindliche Anforderung war.
Wir haben es auch abgelehnt — und etwas Leichtgewichtigeres gebaut — wenn der Workflow im Wesentlichen eine lineare Kette mit einem oder zwei Tool-Aufrufen war, oder wenn das Team des Kunden keine Python-Kapazitäten hatte, um es nach der Übergabe zu warten.
Die Entscheidung läuft auf eine einzige Frage hinaus: Hat Ihr Workflow Verzweigungslogik, menschliche Gates oder mehrtägige Persistenzanforderungen? Wenn ja, ist LangGraph die Entwicklungsinvestition wert. Wenn nicht, zahlen Sie für Leistung, die Sie nicht nutzen werden.
Für Teams, die evaluieren, wie LangGraph im Vergleich zu einem rollenbasierten Multi-Agent-Ansatz abschneidet, behandelt der CrewAI-vs-LangGraph-Vergleich diesen Trade-off direkt.
Das ehrliche Fazit
LangGraph gibt Ihnen mehr Kontrolle über den Agentenzustand und den Ausführungsfluss als jedes andere Open-Source-Framework. Diese Kontrolle ist nicht kostenlos — sie kostet Entwicklungszeit, durchdachtes Zustandsschema-Design und eine operative Investition in Persistenz und Observability.
Für den richtigen Anwendungsfall ist es die richtige Wahl. Für ein 15-köpfiges Logistikunternehmen, das Angebotsanfragen per E-Mail automatisieren möchte, mit großer Wahrscheinlichkeit nicht.
Die Antwort auf “Sollten wir LangGraph einsetzen?” liegt in den Besonderheiten Ihres Prozesses, der technischen Kapazität Ihres Teams und darin, was passiert, wenn ein Agent mitten in einem Workflow einen Fehler macht. Diese Besonderheiten lassen sich in 30 Minuten gründlich besprechen.
Wenn Sie LangGraph für ein reales Projekt evaluieren, buchen Sie ein 30-minütiges technisches Gespräch mit Orange ITS. Wir gleichen Ihre Workflow-Anforderungen mit dem ab, was LangGraph in der Produktion wirklich liefert — und sagen Ihnen ehrlich, ob ein leichtgewichtigerer Ansatz Ihnen besser dienen würde. Unser KI-Agenten-Entwicklungsservice deckt den gesamten Stack ab: Framework-Auswahl, Architektur und den operativen Layer, den die meisten Evaluierungen vergessen.