Skip to content
Business und Governance

KI-Agenten Entwicklung: Was sie 2026 wirklich kostet

Orange ITS — KI-Engineering-Team 7 Min. Lesezeit

Sie haben einen konkreten Anwendungsfall — vielleicht die Automatisierung der Angebotserstellung, das Vorklassifizieren eingehender E-Mails oder die Bearbeitung von Bestellstatusanfragen ohne menschliches Eingreifen. Sie haben bei einigen auf KI spezialisierten Entwicklungspartnern nach einer Grössenordnung gefragt und Antworten zwischen CHF 5.000 und CHF 200.000 erhalten. Beide Zahlen stammen von Anbietern mit nachweisbarer Erfahrung. Was steckt dahinter?

Die Antwort: Die Entwicklungskosten für KI-Agenten variieren um den Faktor 40 — abhängig von vier Faktoren, die die meisten Anbieter erst dann offenlegen, wenn Sie bereits tief im Scoping-Prozess stecken. Dieser Artikel schlüsselt realistische Preisrahmen nach Projekttyp auf und benennt — was noch nützlicher ist — die Kostentreiber, die Angebote in die Höhe treiben, damit Sie diese erkennen, bevor Sie etwas unterschreiben.

Hinweis zum Umfang: Dieser Artikel behandelt die initialen Build-Kosten. Den Dreijahresvergleich inklusive Infrastruktur, Wartung und Plattformgebühren finden Sie unter Die wahren Kosten von KI-Agenten: Custom vs. Platform TCO.


Realistische Kostenrahmen nach Projekttyp

Am schnellsten verankern Sie Ihre Erwartungen, wenn Sie in Stufen denken. Diese Rahmen spiegeln wider, was ein kompetenter Entwicklungspartner — kein Freelancer, kein Systemintegrator mit Enterprise-Tagessätzen — für die Umsetzung in Westeuropa typischerweise berechnet.

Stufe 1: Proof-of-Concept / Pilot (CHF 5.000–18.000)

Ein eingegrenzter Pilot verbindet ein einzelnes KI-Modell mit einer oder zwei Datenquellen oder APIs, übernimmt eine eng definierte Aufgabe (z.B. Klassifizierung und Weiterleitung von Support-Tickets oder die Erstellung von Erstantworten aus einer Knowledge Base) und läuft in einer Sandbox- oder begrenzten Produktionsumgebung.

Inbegriffen: Prompt Engineering, grundlegende Tool-Nutzung, eine Integration, minimale UI oder API-Oberfläche, einfaches Testing.

Nicht inbegriffen: Produktionshärtung, Monitoring, Authentifizierung, mehrstufiges Reasoning oder Resilienz unter Last. Ein Pilot ist per Definition kein fertiges Produkt.

Wann diese Stufe sinnvoll ist: Sie müssen die Grundannahme validieren — dass die KI die Aufgabe zuverlässig übernehmen kann — bevor Sie sich für den vollständigen Build entscheiden. Es ist kein Abkürzungsweg in die Produktion.

Stufe 2: Einzelner Produktionsagent (CHF 18.000–60.000)

Ein Produktionsagent, der eine Sache gut erledigt: Kundenfragen anhand Ihrer Produktdokumentation beantworten, eingehende Leads gegen Ihr CRM qualifizieren, eingehende Dokumente verarbeiten und weiterleiten. Er läuft zuverlässig, behandelt Fehler kontrolliert, protokolliert seine Aktionen und ist mit mindestens einem Geschäftssystem integriert.

Hier landen die meisten Erstimplementierungen im KMU-Bereich. Die grosse Bandbreite spiegelt vor allem die Integrationskomplexität wider: Ein Agent, der über eine saubere REST-API liest, kostet weit weniger in der Anbindung als einer, der strukturierte Daten aus einem Legacy-ERP extrahieren muss.

Stufe 3: Multi-Agenten-System (CHF 60.000–200.000+)

Mehrere Agenten, die koordiniert zusammenarbeiten — einer übernimmt den Eingang, einer führt die Aufgabe aus, einer validiert die Ausgabe, einer eskaliert an einen Menschen, wenn die Konfidenz niedrig ist. Diese Architekturen sind geeignet, wenn der Prozess Verzweigungslogik, mehrere Datenquellen oder Entscheidungen mit relevantem Fehlerrisiko umfasst.

Das obere Ende dieses Rahmens umfasst typischerweise eine vollständige Discovery- und Architekturphase, mehrere Integrationen (von denen einige Custom Connectors erfordern), Orchestrierungslogik, Evaluierungsinfrastruktur und einen strukturierten Übergabeprozess. Wenn ein Anbieter CHF 200.000 für einen Einzelaufgaben-Agenten anbietet, fordern Sie konsequent eine Scope-Aufschlüsselung ein.


Die fünf Kostentreiber, die Anbieter selten von sich aus nennen

Die obigen Rahmen zu verstehen ist nur die halbe Arbeit. Hier divergieren Angebote — und hier werden Scoping-Gespräche teuer, wenn Sie unvorbereitet sind.

1. Integrationskomplexität ist die grösste Variable

Ein Agent, der Fragen mithilfe einer sauberen, gut dokumentierten API beantwortet, ist ein grundlegend anderes Engineering-Problem als einer, der Daten über CRM, ERP und Dokumentenmanagementsystem lesen, schreiben und abgleichen muss. Jede zusätzliche Integration multipliziert sowohl den Build-Aufwand als auch die Testoberfläche.

Stellen Sie jedem Anbieter die Frage: «Welche Integrationen sind im Scope, und wie werden sie bepreist, wenn sich die API als undokumentiert oder instabil herausstellt?» Die Antwort verrät viel darüber, wie der Anbieter mit Risiken umgeht.

2. Evaluierungs- und Testing-Infrastruktur

Produktionsagenten müssen getestet werden — nicht nur manuell während des Builds, sondern systematisch. Ein fundiertes Evaluierungsframework (ein Satz von Testfällen, der die Verteilung realer Eingaben abdeckt und Ausgaben anhand definierter Kriterien prüft) macht typischerweise 15–30% des Build-Aufwands in einem gut geführten Projekt aus. Viele günstige Angebote lassen es ganz weg. Sie merken es, wenn der Agent vor Kunden zu halluzinieren beginnt. Wie das in der Praxis aussieht, zeigt Testing von KI-Agenten: Wie Evals Automatisierung zuverlässig halten.

3. Human-in-the-Loop Design

Zu entscheiden, was der Agent eskalieren soll — und den Workflow zu bauen, der Eskalationen verwaltet — ist keine Kleinigkeit. Es umfasst UX (Wie übernimmt ein Mensch den Faden, ohne Kontext zu verlieren?), Data Modeling (Wo lebt das eskalierte Gespräch?) und Richtlinien (Wer wird benachrichtigt, über welchen Kanal, in welchem Zeitrahmen?). Projekte, die dies als Nachgedanken behandeln, gehen typischerweise zurück in die Scoping-Phase, sobald der Auftraggeber feststellt, dass der Agent manchmal Fehler macht.

4. Modellauswahl und API-Kostenarchitektur

Das zugrundeliegende LLM ist keine Commodity-Entscheidung im Projektmassstab. Ein leistungsfähigeres Modell behebt Edge Cases besser, kostet aber mehr pro Aufruf. Ein günstigeres Modell kann 90% der Anfragen gut bearbeiten und bei den verbleibenden 10% gravierend scheitern. Die richtige Antwort hängt von Ihrem Anwendungsfall, Ihrem Volumen und Ihrer Fehlertoleranz ab — ein Anbieter, der dies noch nicht mit Ihnen modelliert hat, hat das Scoping nicht abgeschlossen.

Operative API-Kosten sind in den meisten Build-Angeboten nicht enthalten. Stellen Sie sicher, dass Sie die laufenden Kosten pro Anfrage verstehen, bevor Sie unterschreiben, und fragen Sie, ob die Architektur eine Modellsubstitution bei Preisänderungen ermöglicht. LLM-API-Preise ändern sich häufig — Mitte 2026 liegen die Kosten für Frontier-Modelle zwischen etwa $0.10 und $25 pro Million Token, je nach Modell und Richtung (Input vs. Output). Bitten Sie Ihren Anbieter, die voraussichtlichen monatlichen API-Kosten für Ihr erwartetes Abfragevolumen vor Vertragsunterzeichnung zu modellieren.

5. Compliance- und Datenschutzanforderungen

Für europäische und Schweizer Kunden sind Datenhaltungsort, DSGVO-Konformität und — je nach Branche — nDSG-Pflichten keine optionalen Extras. Eine Agentenarchitektur, die alle Daten über eine US-gehostete API leitet, kann günstig zu bauen und teuer zu korrigieren sein. Die Discovery-Phase sollte diese Anforderungen ans Licht bringen, bevor das Design beginnt, nicht danach. Wenn Sie in einem regulierten Sektor tätig sind, planen Sie zusätzlich 15–25% für compliance-bewusste Architekturentscheidungen ein.


Wer diese Leistungen erbringt und was die Tarife beeinflusst

Freelancer und Solo-Praktiker (CHF 100–200/Std., KI-Spezialisten und erfahrene Praktiker am oberen Ende dieser Spanne) können gut eingegrenzte Pilots und Einzelagenten-Builds übernehmen, wenn die Integrationen sauber sind. Das Risiko liegt im Bus-Faktor: eine Person, begrenzte Abdeckung, variable Qualitätskontrolle.

Spezialisierte KI-Agenturen (CHF 150–250/Std.) wie Orange ITS bringen Architekturerfahrung, eine etablierte Toolchain, Evaluierungspraktiken und Übergabedokumentation mit. Besser geeignet für Produktions-Deployments, bei denen der Agent tatsächlich unbeaufsichtigt läuft.

Grosse Systemintegratoren und Beratungsunternehmen (CHF 250–500+/Std.) sind sinnvoll, wenn der KI-Agent eine Komponente eines grösseren Enterprise-Transformationsprogramms ist oder wenn es das Beschaffungswesen erfordert. Für eigenständige Agenten-Builds rechtfertigt der Overhead häufig den Tarif nicht.

Der Tagessatz allein sagt wenig. Verlangen Sie ein fest umrissenes Engagement mit definierten Lieferobjekten — Pilots und Einzelagenten-Builds sollten auf Festpreisbasis lieferbar sein, wenn der Anbieter dies bereits gemacht hat.


Scope-Plausibilitätscheck: Haben Sie die Antworten?

Beantworten Sie diese Fragen, bevor Sie Angebote einholen. Unklare Antworten führen zu extrem unterschiedlichen — und letztlich nichtssagenden — Angeboten.

  • Was tut der Agent, konkret? Nicht «bearbeitet Kundenanfragen» — welche Anfragen, aus welchem Kanal, mit Zugriff auf welche Daten?
  • Wie sieht Erfolg numerisch aus? 80% Deflection-Rate? Antwort unter 3 Sekunden? Null fehlerhafte Bestelländerungen?
  • Von welchen Systemen muss er lesen oder schreiben, und wie ist der Zustand dieser Integrationen? (Saubere APIs? Legacy-Systeme? Manuelle Exporte?)
  • Was passiert, wenn der Agent falsch liegt oder unsicher ist? Gibt es ein menschliches Handoff, oder scheitert er kontrolliert mit einer Standardnachricht?
  • Wo leben die Daten, und welche Compliance-Pflichten haben Sie? DSGVO, nDSG, branchenspezifische Regulierung?

Anbieter, die Ihnen diese Fragen im ersten Gespräch nicht stellen, scopieren nicht rigoros. Das Angebot, das Sie erhalten, wird sich ändern.


Was «günstige» KI-Agenten-Entwicklung wirklich kostet

Das CHF-5.000-Angebot ist real. Ebenso real ist das CHF-80.000-Sanierungsprojekt, das folgt, wenn ein Pilot-Grade-Agent ohne Härtung in die Produktion geht.

Das Muster ist konsistent: Ein Stakeholder genehmigt einen günstigen Build, um schnell voranzukommen, der Agent geht ohne Evaluierungsinfrastruktur live, beginnt in grossem Massstab Fehler zu produzieren, und die Kosten für die Korrektur — schlecht dokumentierte Prompt-Logik entwirren, Integrationen neu aufbauen, die nie sauber abstrahiert wurden, Compliance-Kontrollen nachträglich einbauen — übersteigen das, was ein solider Build gekostet hätte.

Das bedeutet nicht, dass Sie überentwickeln sollten. Ein eingegrenzter Pilot ist für die meisten Erstkäufer tatsächlich der richtige Ausgangspunkt. Die Disziplin besteht darin, ihn als Pilot zu behandeln — die Annahme validieren, dokumentieren, was die Produktion erfordern würde, und das Budget entsprechend planen.

Um den Business Case neben den Build-Kosten zu rahmen, sind Den ROI von KI-Agenten messen: ein Framework für KMU und Build vs. Buy: ein Entscheidungsrahmen für KI-Agenten nützliche Weiterführungen.


Ein Angebot mit definiertem Scope — keine vage Schätzung

Wenn Sie einen konkreten Anwendungsfall haben und verstehen möchten, was es tatsächlich kosten würde, ihn zu bauen — mit Integrationen, Compliance-Anforderungen und Evaluierungsinfrastruktur eingerechnet — bietet Orange ITS ein 30-minütiges Scoping-Gespräch an, das in einer schriftlichen Aufschlüsselung der Anforderungen Ihres Builds und einem realistischen Kostenrahmen resultiert.

Keine generischen Präsentationen. Kein Beratungsoverhead. Eine konkrete Einschätzung von den Personen, die es bauen würden.

Scoping-Gespräch mit Orange ITS buchen — oder erfahren Sie mehr über unseren KI-Agenten-Entwicklungsservice.

Insights

Setzen Sie diese Ideen um

Ein 30-minütiges Gespräch genügt, um herauszufinden, ob ein KI-Agent zu Ihrem Workflow passt — und was er einbringen würde.