KI-Agenten selbst entwickeln oder kaufen? Ein Entscheidungsrahmen

Auf einen Blick

Ein Fünf-Dimensionen-Scorecard verwandelt eine festgefahrene Diskussion in ein klares Ergebnis zwischen 5 und 15 Punkten – und zeigt zuverlässig, ob eine Standardlösung, ein Hybridansatz oder eine individuelle Entwicklung die richtige Wahl ist.
Nicht-standardisierte oder On-Premise-ERP-Anbindungen erhalten in der Integrationsdimension 3 Punkte und führen in der Regel zur Individualentwicklung – kein Plattform-Connector deckt diese Fälle ab.
Gesundheits-, Finanz- oder rechtlich geschützte Daten erfordern typischerweise eine On-Premise- oder Private-Cloud-Umgebung und schliessen die meisten Standard-SaaS-Plattformen von vornherein aus.
Wer die Integrationstiefe nicht bewertet, bevor er einen Plattformvertrag unterzeichnet, geht ein hohes Risiko ein – Notfallkorrekturen im vierten Monat kosten ein Vielfaches einer sorgfältigen Planung im Vorfeld.

Die meisten Debatten über Eigenentwicklung oder Zukauf enden in einer Sackgasse. Der Befürworter der Standardlösung argumentiert mit Geschwindigkeit und niedrigen Anfangskosten. Die interne Technikleitung besteht auf Kontrolle und langfristiger Flexibilität. Der CEO möchte bis Donnerstag eine Empfehlung. Niemand verlässt den Raum mit einer Entscheidung.

Dieser Artikel bietet Ihnen einen strukturierten Ausweg. Bewerten Sie fünf Dimensionen, addieren Sie die Punkte, und Sie haben eine belastbare Position — keine Bauchentscheidung, kein Vendor-Pitch — die Sie Ihrem Board vorlegen können.

Ein wichtiger Vorbehalt vorab: „Kaufen” bedeutet nicht dasselbe in allen Fällen. Der Markt gliedert sich heute in mindestens drei deutlich unterschiedliche Optionen, und die Wahl zwischen ihnen ist genauso wichtig wie die übergeordnete Frage Eigenentwicklung oder Zukauf.

Die Drei Optionen, zwischen denen Sie tatsächlich wählen

Bevor Sie irgendetwas bewerten, klären Sie, was „kaufen” in Ihrer Situation konkret bedeutet:

Standard-SaaS-Agenten — vorgefertigte KI-Assistenten von Anbietern (Intercom, Zendesk, HubSpot usw.) mit eingebetteten AI-Funktionen. Am schnellsten einzuführen; am wenigsten anpassbar; Sie arbeiten in deren UX und Datenmodell.

No-code / Low-code Agent Builder — Plattformen wie Zapier AI, Make, Voiceflow oder Botpress, mit denen Fachanwender Agentenlogik visuell zusammenstellen können. Flexibler als SaaS, aber sie stoßen schnell an Grenzen, sobald die Komplexität steigt. Wir haben diese Grenze ausführlich beschrieben in Wenn No-Code AI Agent Builder an ihre Grenzen stoßen.

Individuelle Entwicklung — ein Agent, der auf offenen Frameworks (LangGraph, CrewAI, Mastra) oder von Grund auf entwickelt wird, konzipiert und umgesetzt von einem Entwicklungsteam. Höchste Anfangskosten; höchste langfristige Flexibilität und Integrationstiefe.

Hybride Ansätze sind ebenfalls möglich — ein No-code-Builder für den Frontend-Workflow, eine maßgeschneiderte Modell- oder Integrationsschicht darunter. Das Scorecard berücksichtigt auch diesen Fall.

Das Fünf-Dimensionen-Scorecard

Bewerten Sie jede Dimension mit 1–3. Addieren Sie das Gesamtergebnis.

Punkte 5–8: Eine Standardlösung oder Low-code-Plattform ist wahrscheinlich die richtige Wahl.
Punkte 9–11: Hybrider Ansatz. Erwägen Sie eine Plattform für das Frontend mit einer individuellen Integrationsschicht.
Punkte 12–15: Individuelle Entwicklung ist wahrscheinlich die richtige Antwort.

Dies ist eine Orientierungshilfe, kein Mandat. Nutzen Sie sie, um die Diskussion zu verankern.

Dimension 1 — Differenzierungswert (1–3)

Fragen Sie sich: Berührt dieser Agent einen Prozess, der eine Quelle von Wettbewerbsvorteilen für unser Unternehmen ist?

1 Punkt — Der Prozess ist generisch (Terminplanung, FAQ-Deflection, Dokumentenweiterleitung). Wettbewerber in Ihrer Branche handhaben ihn auf die gleiche Weise, und die Art, wie Sie ihn handhaben, ist kein Grund, warum Kunden Sie wählen.
2 Punkte — Der Prozess ist für Kunden wichtig, aber nicht einzigartig. Sie haben spezifische Vorstellungen davon, wie er funktionieren soll, die kein Standardprodukt ganz erfüllt.
3 Punkte — Der Prozess ist ein zentraler Differenziator. Wie Sie ihn handhaben, ist Teil Ihres Produkts, Ihrer Marke oder Ihrer Margenstory. Ihn einer Plattform zu überlassen bedeutet, Ihren Wettbewerbsvorteil identisch mit dem jedes anderen Unternehmens auf dieser Plattform zu machen.

Ein Logistikunternehmen mit einem proprietären Kalkulationsalgorithmus bewertet sich hier mit 3. Eine Anwaltskanzlei, die einen Agenten für das Onboarding neuer Mandanten einsetzt, könnte sich mit 2 bewerten — es ist wichtig, aber es ist nicht die Rechtsexpertise der Kanzlei.

Dimension 2 — Integrationstiefe (1–3)

Fragen Sie sich: Wie tief muss dieser Agent mit internen Systemen verbunden sein?

1 Punkt — Der Agent kann seine Aufgabe mit Daten erfüllen, die über Standard-APIs oder öffentliche Integrationen verfügbar sind. Ihr CRM, Kalender oder Ticketing-System ist gängig genug, dass jede Plattform es unterstützt.
2 Punkte — Der Agent benötigt Zugriff auf zwei oder drei interne Systeme, von denen mindestens eines eine nicht standardisierte Schnittstelle, eine On-Premise-Komponente oder ein maßgeschneidertes Datenschema hat.
3 Punkte — Der Agent muss aus ERP-Tabellen lesen oder in sie schreiben, auf Legacy-Datenbanken, proprietäre interne APIs oder regulierte Datenspeicher mit spezifischen Zugriffsanforderungen zugreifen. Standardkonnektoren existieren nicht oder sind nicht vertrauenswürdig.

Schweizer Mittelständler stellen häufig fest, dass sie hier eine 3 vergeben, sobald sie die tatsächlichen Datenflüsse kartieren — eine Sage-200-Integration oder ein selbst entwickeltes ERP steht auf keiner nativen Konnektorliste einer Plattform, und der Aufwand, diese Lücke zu überbrücken, gehört auf die Kostenseite der Eigenentwicklungs-Gleichung.

Dimension 3 — Datensensibilität (1–3)

Fragen Sie sich: Wie sensibel sind die Daten, die der Agent verarbeitet, und wo müssen sie gespeichert werden?

1 Punkt — Die Daten sind nicht sensibel oder befinden sich bereits in einer SaaS-Umgebung. Die Verarbeitung über eine Drittanbieter-Plattform ist gemäß Ihrer Datenschutzrichtlinie und den geltenden Vorschriften (revDSG, DSGVO, branchenspezifische Regeln) akzeptabel.
2 Punkte — Die Daten sind mäßig sensibel. Sie sind bereit, eine Cloud-Plattform zu nutzen, benötigen aber vertragliche Garantien zur Datenhaltung und möchten nicht, dass Daten dauerhaft auf der geteilten Infrastruktur der Plattform gespeichert werden.
3 Punkte — Die Daten sind hochsensibel (Gesundheitsdaten, Finanzdaten, gesetzlich geschützte Kommunikation, Personalakten) oder es gibt explizite Anforderungen für eine On-Premise- oder Private-Cloud-Verarbeitung (typischerweise von Branchenregulatoren wie FINMA oder berufsrechtlichen Geheimhaltungsvorschriften, nicht allein vom revDSG). Viele Plattformen können dies ohne Enterprise-Add-ons nicht erfüllen, die das Kostenbild grundlegend verändern.

Schweizer Gesundheitsdienstleister, Treuhänder und Anwaltskanzleien vergeben hier fast immer eine 3.

Dimension 4 — Änderungshäufigkeit (1–3)

Fragen Sie sich: Wie oft müssen die Logik, die Ausgaben oder die Integrationen des Agenten geändert werden?

1 Punkt — Der vom Agenten bearbeitete Prozess ist stabil. Sie erwarten, ihn einmal zu konfigurieren und höchstens quartalsweise kleinere Anpassungen vorzunehmen. Der Update-Rhythmus des Anbieters wird Ihren Workflow nicht stören.
2 Punkte — Der Prozess ändert sich einige Male im Jahr. Sie können den Change-Management-Overhead der Plattform tolerieren, haben aber schlechte Erfahrungen mit anbieterseitigen Updates gemacht, die Dinge kaputt gemacht haben.
3 Punkte — Der Prozess ändert sich häufig — neue Produktlinien, regulatorische Aktualisierungen, Marktbewegungen. Jede Änderung auf einer No-code-Plattform bedeutet, einen visuellen Workflow auseinanderzunehmen und neu zusammenzusetzen. Dieser Overhead summiert sich. Auf einem individuellen System ändert ein Entwickler eine Konfiguration oder ein Prompt-Template; auf einer Plattform ist es ein Neuaufbau.

Wenn Ihre Compliance-Anforderungen sich mit Schweizer Regulierungsaktualisierungen ändern oder Ihr Produktkatalog saisonal wechselt, bewerten Sie sich hier ehrlich.

Dimension 5 — Interne Kompetenz (1–3)

Fragen Sie sich: Was kann Ihr Team nach dem Go-live realistisch selbst betreiben?

Diese Dimension verläuft umgekehrt. Ein hoher Wert ist hier nicht immer besser.

1 Punkt — Ihr Team verfügt über Entwickler, die mit Python oder TypeScript vertraut sind, Kenntnisse im Umgang mit APIs haben und Erfahrung mit LLM-basierten Systemen mitbringen. Sie können nach der Übergabe einen individuell entwickelten Agenten selbstständig betreiben.
2 Punkte — Sie haben technisch versiertes Betriebspersonal, das in einer No-code-Umgebung arbeiten kann, aber nicht im Code. Eine individuelle Entwicklung würde für jede Änderung jenseits der Konfiguration laufende Anbieterunterstützung erfordern.
3 Punkte — Keine nennenswerte technische Kapazität im Unternehmen. Sie benötigen etwas, das ein Fachanwender betreiben kann, oder ein vollständig verwaltetes Servicemodell.

Für die Bewertung: Haben Sie hier eine 1 vergeben, ziehen Sie 1 vom Gesamtergebnis ab (interne Kompetenz senkt die Kosten der individuellen Entwicklung). Haben Sie eine 3 vergeben, addieren Sie 1 (sie erhöht die tatsächlichen Kosten der individuellen Entwicklung, auch wenn jede andere Dimension in diese Richtung weist).

Das Scorecard in der Praxis: Zwei Beispiele

Beispiel A — Ein Schweizer Versicherungsmakler mit 40 Mitarbeitenden, der einen Agenten für Policen-Erneuerungserinnerungen einsetzt

Differenzierungswert: 1 (generischer Prozess)
Integrationstiefe: 2 (Anbindung an das Policenverwaltungssystem über eine gut dokumentierte REST API)
Datensensibilität: 2 (personenbezogene Daten, DSGVO-konforme Verarbeitung erforderlich, aber Cloud ist mit vertraglichen Garantien akzeptabel)
Änderungshäufigkeit: 1 (der Erneuerungsprozess ändert sich selten)
Interne Kompetenz: 3 (kein Entwickler im Team)

Gesamt: 9 — Hybrid. Ein No-code-Builder wie Voiceflow oder Make mit sorgfältig ausgestalteten Datenverarbeitungsverträgen ist ein vernünftiger Ausgangspunkt. Falls sich die API des Policensystems als weniger sauber herausstellt als dokumentiert, überdenken Sie die Entscheidung.

Beispiel B — Ein Schweizer Fertigungsunternehmen mit 120 Mitarbeitenden, das einen Agenten einsetzt, um eingehende Auftragsbestätigungen zu verarbeiten, den Lagerbestand im On-Premise-ERP abzugleichen und Ausnahmen an das Logistikteam zu melden

Differenzierungswert: 2 (Auftragsmanagement ist zentral für den Betrieb, an sich kein Differenziator, aber ihr spezifischer Prozess ist idiosynkratisch)
Integrationstiefe: 3 (On-Premise-ERP, individuelle Lagertabellen, interner Ausnahme-Management-Workflow)
Datensensibilität: 2 (Geschäftsdaten, keine strengen regulatorischen Anforderungen jenseits des Standard-Datenschutzes)
Änderungshäufigkeit: 2 (Produktmix ändert sich quartalsweise, Prozessanpassungen erwartet)
Interne Kompetenz: 1 (kleines internes Entwicklerteam, vertraut mit APIs)

Gesamt: 10 (minus 1 für Kompetenz) = 9 — Hybrid, mit Tendenz zum Custom. Hier würden wir empfehlen, mit einer individuellen Integrationsschicht für das ERP zu beginnen und einen leichtgewichtigen Frontend-Workflow zu bauen, den das interne Team anpassen kann. Eine vollständig maßgeschneiderte Entwicklung ist gerechtfertigt, wenn das Budget es erlaubt.

Was das Scorecard Ihnen Nicht Sagt

Kein Scorecard ersetzt das Urteilsvermögen in Kostenfragen. Ein Unternehmen, das hier 14 Punkte erreicht, kann dennoch die Anfangskosten einer individuellen Entwicklung ansehen und entscheiden, dass eine Plattform für die nächsten zwölf Monate die pragmatische Wahl ist — mit einem Migrationsplan für den Moment, an dem die Einschränkungen spürbar werden. Das ist eine valide Entscheidung.

Was Sie vermeiden wollen, ist diesen Trade-off zu treffen, ohne ihn anzuerkennen. Eine Plattformentscheidung ohne Bewertung der Integrationstiefe ist keine Entscheidung; es ist eine Hoffnung. Wenn die Plattform im vierten Monat nicht mit Ihrem ERP kommunizieren kann, kostet die Notfall-Eigenintegration mehr, als es von Anfang an richtig zu machen gekostet hätte.

Es lohnt sich, das Total Cost of Ownership gesondert zu betrachten — Die tatsächlichen Kosten von KI-Agenten: Custom vs. Plattform TCO geht auf die Zahlen ein, die in Anbieterangeboten selten auftauchen. Und wenn Vendor Lock-in ein Thema ist, zeigt KI-Agent Plattform Lock-in: Die Risiken, die niemand einpreist, wie die tatsächlichen Wechselkosten aussehen.

Wer Entwickeln Sollte — und Wer (Wahrscheinlich) Kaufen Sollte

Signal	Wahrscheinliche Richtung
Prozess ist generisch und stabil	Plattform oder SaaS
Keine interne Entwicklungskapazität, begrenztes Budget	Low-code-Plattform (mit realistischem Blick auf die Grenzen)
Daten müssen On-Premise oder in einer bestimmten Jurisdiktion bleiben	Custom oder Private-Cloud-Deployment
Der Agent ist ein zentraler Teil Ihres Produkts oder Service	Custom
Sie verfügen über ein funktionierendes internes Entwicklerteam	Custom oder Hybrid
Sie benötigen einen Proof-of-Concept in zwei Wochen	Plattform zur Validierung, Custom zum Skalieren
Integration erfordert nicht standardisierte interne Systeme	Custom
Sie wurden bereits von Vendor Lock-in getroffen	Custom

Die Rolle von Orange ITS

Wir arbeiten mit allen drei Bereitstellungsmodellen — wir helfen Kunden zu validieren, ob eine Plattform wirklich passt, bevor sie sich binden, und wir entwickeln die individuelle Schicht, wenn sie es nicht tut. Unser Fokus liegt darauf, funktionierende Agenten zu liefern — nicht auf einer bestimmten Technologie.

Die Teams, mit denen wir am besten zusammenarbeiten, sind solche, die eine zweite Meinung zur Entscheidung möchten, bevor sie einen Plattformvertrag unterzeichnen oder eine interne Entwicklung starten. Den Fehler bei der Eigenentwicklungs-Entscheidung am Anfang zu machen ist der häufigste Einzelgrund, warum KI-Agentenprojekte keine Ergebnisse liefern — es ist günstiger, es in einem strukturierten Gespräch richtig zu machen, als ein sechsmonatiges Plattform-Deployment rückgängig zu machen.

Wenn Sie diese Entscheidung gerade durcharbeiten, gibt Ihnen ein 30-minütiges Gespräch mit unserem Team bei Orange ITS eine klare Empfehlung für Ihre spezifische Agenten-Initiative — kein generischer Pitch für einen Ansatz. Wir fragen nach Ihrem Stack, Ihren Daten und Ihrer internen Kapazität und sagen Ihnen ehrlich, wo wir das Risiko sehen.

30-Minuten-Gespräch zur Eigenentwicklung vs. Zukauf buchen

Wir sind in Chiasso ansässig, arbeiten in der gesamten Schweiz und in Europa und haben individuelle KI-Agenten-Entwicklung für Unternehmen mit 15 bis 500 Mitarbeitenden umgesetzt. Keine Verpflichtungen, keine Präsentationsfolien.

Häufige Fragen

Wie entscheide ich strukturiert zwischen Kauf und Eigenentwicklung eines KI-Agenten?

Mit einem Fünf-Dimensionen-Scorecard: Differenzierungswert, Integrationstiefe, Datensensibilität, Änderungshäufigkeit und interne Kompetenz, jeweils mit 1 bis 3 Punkten bewertet. 5 bis 8 Punkte sprechen für eine Standardlösung, 9 bis 11 für einen Hybridansatz, 12 bis 15 für individuelle Entwicklung.

Welche drei Kauf-Optionen gibt es überhaupt?

Standard-SaaS-Agenten wie in Intercom oder HubSpot eingebettete KI-Funktionen (schnell, wenig anpassbar), No-Code- und Low-Code-Builder wie Zapier AI, Make oder Botpress (flexibler, aber mit Komplexitätsgrenzen) sowie individuelle Entwicklung auf offenen Frameworks mit den höchsten Anfangskosten und der grössten langfristigen Flexibilität.

Wann führt die Integrationstiefe fast zwingend zur Eigenentwicklung?

Wenn der Agent aus ERP-Tabellen lesen oder schreiben, auf Legacy-Datenbanken, proprietäre interne APIs oder regulierte Datenspeicher zugreifen muss. Für nicht-standardisierte oder On-Premise-ERPs wie ein Sage-200-System oder Eigenentwicklungen existieren keine verlässlichen Plattform-Konnektoren.

Welche Rolle spielt die Datensensibilität bei der Entscheidung?

Hochsensible Daten wie Gesundheits-, Finanz- oder rechtlich geschützte Daten erfordern typischerweise On-Premise- oder Private-Cloud-Verarbeitung und schliessen die meisten Standard-SaaS-Plattformen aus. Schweizer Gesundheitsdienstleister, Treuhänder und Anwaltskanzleien landen hier fast immer bei der höchsten Bewertung.

Kann ich trotz hohem Scorecard-Wert mit einer Plattform starten?

Ja, das kann eine valide pragmatische Entscheidung sein, etwa als Plattform-Validierung für zwölf Monate mit Migrationsplan. Entscheidend ist, den Trade-off bewusst zu treffen: Eine Plattformwahl ohne Bewertung der Integrationstiefe ist keine Entscheidung, sondern eine Hoffnung, und Notfallkorrekturen im vierten Monat kosten ein Vielfaches.