Open-Source KI-Agenten Frameworks: Die CTO-Shortlist

Das Open-Source-Ökosystem für KI-Agenten hat sich schnell fragmentiert. Vor einem Jahr gab es drei oder vier ernsthafte Kandidaten. Heute sind es Dutzende, jedes mit einem gepflegten README, wachsenden GitHub-Sternen und einem Discord voller begeisterter Nutzer. Die eigentliche Frage ist nicht „Welche Frameworks gibt es?” — sondern „Auf welches würde ich das Produktivsystem eines Kunden setzen?”

Das ist unsere Antwort auf diese Frage, Stand Mitte 2026. Keine Feature-Checkliste. Kein Benchmark-Ranking. Die ehrliche Shortlist eines Entwicklungsteams — die Frameworks, die wir tatsächlich eingesetzt haben, die wir ausgeschlossen haben, und die Kriterien, die den Unterschied gemacht haben.

Wer die zugrundeliegende Architektur verstehen möchte, bevor er ein Framework wählt, findet in KI-Agenten-Architektur, erklärt für Entscheidungsträger einen guten Einstieg.

Die Auswahlkriterien, die wirklich zählen

Bevor wir die Kandidaten aufführen, lohnt es sich, die Achsen zu benennen, die unsere Framework-Entscheidungen leiten. Sie entstammen der Beobachtung, wie Agent-Projekte in der Produktion scheitern und gelingen — nicht aus der Lektüre von Dokumentation.

Observability out of the box. Ein Agent, der nicht erklären kann, warum er einen Fehler gemacht hat, ist nicht produktionsreif. Tracing, Logging auf Step-Ebene und Token-Audit-Trails müssen nativ oder über eine gut unterstützte Integration vorhanden sein — nicht als Nachbesserung sechs Monate nach dem Launch.

Wartungsaufwand pro Feature. Manche Frameworks sind leistungsfähig, verlangen aber, dass Sie viel eigene Infrastruktur verantworten. Andere abstrahieren so aggressiv, dass man gegen die Abstraktion kämpft, sobald die Anforderungen vom Happy Path abweichen. Keines der beiden Extreme ist kostenlos.

Ökosystem-Reife und Community-Gesundheit. Sterne sind Eitelkeit. Wir schauen auf: Release-Frequenz, Reaktionsfähigkeit bei Issues, Anzeichen kommerzieller Unterstützung und ob die Community echte Produktionsprobleme löst oder hauptsächlich das Quickstart-Tutorial wiederholt.

Multi-Agent-Unterstützung ohne Verrenkungen. Die meisten realen Deployments brauchen irgendwann mehr als einen Agenten, der zusammenarbeitet. Frameworks, die Multi-Agent als erstklassige Anforderung behandeln, sparen erheblichen Nachbesserungsaufwand. Mehr dazu in Multi-Agent-Systeme: Wenn ein KI-Agent nicht ausreicht.

Neutralität gegenüber LLM- und Tool-Providern. Vendor-Lock-in auf Framework-Ebene verstärkt den Lock-in auf Modellebene. Frameworks, die das LLM als austauschbare Abhängigkeit behandeln, sind klar zu bevorzugen.

Die Shortlist: Frameworks, auf die wir setzen

LangGraph

LangGraph ist das Framework, auf das wir zurückgreifen, wenn die Komplexität des Control Flows hoch ist und die Folgen einer falschen Aktion erheblich sind. Es modelliert Agenten als zustandsbehaftete Graphen — Knoten sind Ausführungsschritte, Kanten sind Übergänge, und Sie definieren exakt, was passiert, wenn der Graph auf einen Fehler oder eine Verzweigungsbedingung trifft.

Diese Explizitheit hat echte Kosten. Das Onboarding dauert länger. Einfache Agenten wirken in LangGraph überdimensioniert. Für mehrstufige, Multi-Agent-Systeme, bei denen Sie deterministische Recovery-Pfade, Checkpointing und Human-in-the-Loop-Unterbrechungen benötigen, gibt es jedoch nichts in dieser Kategorie, das das gleiche Kontrollniveau bietet.

LangSmith (LangChains Observability-Schicht) integriert sich eng und schließt die Tracing-Lücke gut. Kommerzieller Support ist verfügbar. Das Projekt wird aktiv gepflegt. Das sind Mindestanforderungen, die LangGraph erfüllt. Einen tieferen Einblick bietet CrewAI vs. LangGraph: Das richtige Agent-Framework wählen.

Ideal geeignet für: Komplexe Orchestrierung, Finanz- oder Compliance-Workflows, Systeme mit Audit-Trail-Anforderungen, Teams, die mit Python und Graph-Primitiven vertraut sind.

Nicht die richtige Wahl, wenn: Sie einen einfachen Single-Agent-Task-Loop ausliefern oder Ihr Team nicht bereit ist, den kognitiven Overhead des Graph-Modells zu tragen.

CrewAI

CrewAI hat Multi-Agent-Koordination zugänglich gemacht. Die Rollen/Task/Crew-Abstraktion bildet natürlich ab, wie Nicht-Techniker über Arbeit nachdenken („wir haben einen Researcher, einen Writer und einen Editor”) — was bedeutet, dass das Framework die Lücke zwischen Produktanforderungen und Implementierung ungewöhnlich gut überbrückt.

Es abstrahiert mehr als LangGraph, was sowohl eine Stärke als auch ein Risiko ist. Die meisten Kunden-Workflows passen ohne Reibung in CrewAIs Modell. Wenn nicht — wenn Sie präzises State Management, nichtlineare Flows oder individuelle Memory-Backends benötigen — spüren Sie die Grenze. CrewAI hat Enterprise-Features hinzugefügt und entwickelt sich weiter aktiv, die Grenze hat sich also nach oben verschoben, aber sie existiert noch.

Ideal geeignet für: Multi-Agent-Workflows mit klarer Rollentrennung, Teams, die bei einer gut definierten Aufgabenstruktur schnell vorankommen wollen, Content-Pipelines, Recherche-und-Synthese-Aufgaben.

Nicht die richtige Wahl, wenn: Der Workflow stark zustandsbehaftet ist, Ausnahmen häufig auftreten oder Sie feinkörnige Kontrolle über das benötigen, was zwischen den Schritten passiert.

OpenAI Agents SDK

Anfang 2025 veröffentlicht, ist das OpenAI Agents SDK (früher im Preview als „Swarm” bekannt) die schlankste produktionsorientierte Option auf dieser Liste. Die Primitiven sind minimal: Agenten, Handoffs und Tools. Dieser Minimalismus ist eine bewusste Entscheidung, und für unkomplizierte Deployments funktioniert er gut.

Den Vorbehalt sollte man klar benennen: Das SDK ist für OpenAI-Modelle optimiert, und die engsten Integrationen — Tracing, eingebaute Tools, Guardrails — sind OpenAI-nativ. Drittanbieter-Modelle zu verwenden ist technisch möglich, aber man verzichtet auf den Großteil dieser nativen Fähigkeiten. Das ist eher eine Ökosystem-Einschränkung als ein harter technischer Lock-in, aber eine echte strategische Überlegung für jeden Kunden, der langfristige Provider-Flexibilität im Blick hat.

Ideal geeignet für: Teams, die bereits auf den OpenAI-Stack setzen, Projekte mit klarem und begrenztem Umfang, schnelles Prototyping, bei dem die Einfachheit der Abstraktion ein echter Vorteil ist.

Nicht die richtige Wahl, wenn: Provider-Flexibilität wichtig ist oder Sie etwas aufbauen, das komplex genug ist, dass die minimalen Primitiven auf der Anwendungsebene neu erfunden werden müssen.

Mastra

Mastra ist ein neuerer Kandidat, den man im Blick behalten sollte. Es ist TypeScript-nativ, was für Teams relevant ist, die Agent-Logik nahe an einem Node.js- oder Next.js-Backend aufbauen — es beseitigt das Python-Bridging-Problem, das in gemischten Stacks operationelle Komplexität erzeugt. Es bietet vernünftige Workflow-Primitiven, eingebaute Unterstützung für durables Execution und eine wachsende Menge an Integrationen.

Wir haben es in Projekten eingesetzt, bei denen das Frontend-Team Agent-Logik besitzen musste, ohne in Python context-switchen zu müssen. Die Erfahrung war merklich besser als bei Alternativen. Das Ökosystem reift noch, daher ist das Risikoprofil für geschäftskritische Systeme höher als bei LangGraph oder CrewAI. Für TypeScript-first-Teams verdient Mastra jedoch eine ernsthafte Evaluierung.

Ideal geeignet für: Node.js/TypeScript-Stacks, Teams, die polyglotte Deployments vermeiden wollen, webanwendungsnahe Agenten.

Evaluierte und vorerst ausgeschlossene Frameworks

AutoGen / AG2. Microsofts Beitrag zum Ökosystem ist für Forschungsanwendungsfälle und komplexe Multi-Agent-Simulationen genuinen interessant. In der produktiven Kundenarbeit fügt das konversationsbasierte Modell Reibung hinzu: Man denkt in Agenten, die Nachrichten austauschen, statt diskrete Schritte auszuführen, was das Debugging erschwert und die Kostenkontrolle weniger vorhersehbar macht. Das Projekt durchlief zudem einen erheblichen Fork und Umbenennung (AG2), der zu Community-Fragmentierung führte. Hinweis: Ab Oktober 2025 hat Microsoft AutoGen in den Wartungsmodus versetzt — nur noch Bug-Fixes und Sicherheits-Patches, keine neuen Features — und das Microsoft Agent Framework (Zusammenführung von AutoGen und Semantic Kernel) als Produktionsnachfolger mit GA 1.0 im April 2026 gestartet. Teams, die das Microsoft-Ökosystem evaluieren, sollten das Agent Framework statt AutoGen prüfen; der Community-Fork AG2 läuft unter ag2ai eigenständig weiter.

smolagents. Das Framework von Hugging Face ist bewusst minimal und priorisiert Code-Ausführung als primären Tool-Use-Mechanismus. Das ist eine fundierte Design-Entscheidung — Code-first-Agenten sind leistungsstark. Der Minimalismus bedeutet jedoch, dass Sie Ihre eigene Observability-, Memory- und Deployment-Geschichte von Grund auf zusammenstellen. Für Teams, die wissen, was sie tun, und Framework-Overhead vermeiden wollen, ist es eine legitime Option. Für die meisten Kunden-Engagements ist der Montageaufwand es nicht wert.

VoltAgent. Wie Mastra TypeScript-first, aber mit anderen Tradeoffs. VoltAgent ist in einem früheren Stadium und hat ein kleineres Ökosystem. Interessant zu beobachten, insbesondere für Teams, die TypeScript-Optionen evaluieren. Heute noch nicht unser erster Produktions-Tipp.

Eine Entscheidungsmatrix für Praktiker

Framework	Sprache	Kontrollgranularität	Multi-Agent	Observability	Produktionsreife
LangGraph	Python	Sehr hoch	Erstklassig	Stark (LangSmith)	Hoch
CrewAI	Python	Mittel	Erstklassig	Moderat	Hoch
OpenAI Agents SDK	Python / TypeScript	Niedrig–Mittel	Via Handoffs	OpenAI-nativ	Mittel–Hoch
Mastra	TypeScript	Mittel	Unterstützt	Wachsend	Mittel
AutoGen/AG2	Python	Hoch	Erstklassig	Schwach in Produktion	Mittel

Was das für Ihr Projekt bedeutet

Die Framework-Auswahl ist nicht der schwierigste Teil beim Aufbau eines KI-Agenten-Systems. Die schwierigeren Fragen kommen früher: Welches Problem lösen Sie eigentlich? Wie sieht Erfolg in der Produktion aus? Gegen welchen Fehlerfall müssen Sie sich am stärksten absichern?

Auch die Build-vs-Buy-Entscheidung beeinflusst diese Wahl. Teams, die Open-Source-Frameworks einsetzen, entscheiden sich implizit dafür, Wartung, Versionierung und Upgrade-Zyklen selbst zu verantworten. Das ist in vielen Situationen die richtige Entscheidung — insbesondere wenn die Anforderungen an die Individualisierung hoch sind oder sensitive Daten innerhalb einer kontrollierten Infrastruktur bleiben müssen. Aber es ist eine Entscheidung, die explizit und nicht per Default getroffen werden sollte.

Vor allem: Die Framework-Wahl sollte der Architektur folgen, nicht ihr vorausgehen. Wenn Sie LangGraph wählen, bevor Sie die State-Übergänge Ihres Agenten kartiert haben, werden Sie überdimensioniert bauen. Wenn Sie CrewAI wählen, ohne zu prüfen, ob Ihr Workflow zur Rollen/Task-Abstraktion passt, stoßen Sie schnell an die Decke. Ein sauberer Produktionsreife-Test, der vor der Festlegung durchgeführt wird, erspart erheblichen Nachbesserungsaufwand.

Technische Disziplin, klar definierte Tool-Interfaces, Observability vom ersten Tag an und ein realistischer Umfang — das sind die Faktoren, die Agent-Systeme, die zuverlässig laufen, von solchen trennen, die ständige Aufsicht benötigen. Das Framework ist selten die entscheidende Variable.

Sprechen Sie mit einem Team, das diese Entscheidungen kennt

Wenn Sie Open-Source KI-Agenten Frameworks für ein echtes Projekt evaluieren — kein Prototyp, sondern etwas, das in sechs Monaten zuverlässig funktionieren muss — verdient die Framework-Frage ein ernsthaftes Gespräch. Die richtige Antwort hängt von Ihrem Stack, Ihrem Team, Ihrer Datenumgebung und dem ab, was Sie tatsächlich automatisieren möchten.

Wir arbeiten mit Schweizer und europäischen Unternehmen zusammen, um massgeschneiderte KI-Agenten mit den für die jeweilige Situation am besten geeigneten Frameworks zu entwerfen und zu entwickeln. Das bedeutet, ehrlich zu sein, wenn ein Framework das falsche Werkzeug ist, und ebenso ehrlich, wenn ein schlankerer Ansatz besser dient als individuelle Entwicklung.

Buchen Sie ein 30-minütiges Gespräch mit unserem Team, um Ihren Anwendungsfall, die technischen Rahmenbedingungen und das Framework — oder die Kombination — zu besprechen, das wir tatsächlich empfehlen würden. Keine Präsentation, keine generischen Ratschläge. Nur ein direktes Gespräch über Ihre konkrete Situation.

Erfahren Sie auch mehr darüber, wie wir bei Orange ITS KI-Agenten-Entwicklung angehen.

Häufige Fragen

Welche Open-Source-Frameworks für KI-Agenten sind 2026 produktionsreif?

Die Shortlist umfasst vier Kandidaten: LangGraph für komplexe, sicherheitskritische Orchestrierung, CrewAI für rollenbasierte Multi-Agenten-Workflows, das OpenAI Agents SDK für schlanke Triage-Anwendungsfälle im OpenAI-Ökosystem und Mastra als TypeScript-native Option für Node.js-Teams.

Nach welchen Kriterien sollte ich ein Agenten-Framework auswählen?

Fünf Achsen: Observability out of the box, Wartungsaufwand pro Feature, Ökosystem-Reife und Community-Gesundheit (Release-Frequenz statt GitHub-Sterne), Multi-Agent-Unterstützung als erstklassige Anforderung und Neutralität gegenüber LLM-Anbietern, um Lock-in auf Modellebene zu vermeiden.

Warum wurden AutoGen und smolagents nicht auf die Shortlist gesetzt?

AutoGen ist seit Oktober 2025 im Wartungsmodus, das konversationsbasierte Modell erschwert Debugging und Kostenkontrolle, und der AG2-Fork hat die Community fragmentiert. smolagents ist bewusst minimal, sodass Observability, Memory und Deployment komplett selbst zusammengestellt werden müssen, was für die meisten Kundenprojekte den Aufwand nicht wert ist.

Was spricht für Mastra gegenüber den Python-Frameworks?

Es ist das einzige TypeScript-native Framework der Shortlist und beseitigt das Python-Bridging-Problem für Node.js- und Next.js-Teams: keine polyglotte Deployment-Landschaft, das Frontend-Team kann die Agent-Logik selbst besitzen. Das Ökosystem reift noch, daher ist das Risikoprofil für geschäftskritische Systeme höher.

Sollte ich zuerst das Framework wählen oder die Architektur planen?

Die Framework-Wahl sollte der Architektur folgen, nicht ihr vorausgehen. Wer LangGraph wählt, bevor die Zustandsübergänge kartiert sind, baut überdimensioniert, wer CrewAI wählt, ohne die Passung zur Rollen-Abstraktion zu prüfen, stösst schnell an die Decke. Observability, Tool-Interfaces und realistischer Umfang zählen mehr als das Framework selbst.