KI13. Mai 20267 min Lesezeit

Codex, Claude und Cursor in der Agentur-Softwareentwicklung

Wie Software-Agenturen Codex, Claude und Cursor sinnvoll in Discovery, Implementierung, Code Review, Tests und Dokumentation einsetzen, ohne Verantwortung an KI abzugeben.

Marius Gill

Geschäftsführer und Softwareentwickler mit über 10 Jahren Erfahrung

7 min Lesezeit

KI-Werkzeuge wie Codex, Claude und Cursor sind in der professionellen Softwareentwicklung angekommen. Für eine Agentur sind sie besonders interessant, weil Projekte viele wiederkehrende Aufgaben enthalten: Anforderungen strukturieren, Codebasen verstehen, Features umsetzen, Tests ergänzen, Pull Requests vorbereiten und Dokumentation pflegen.

Der Nutzen entsteht aber nicht dadurch, dass man "KI Code schreiben lässt". Der Nutzen entsteht, wenn KI in einen klaren Entwicklungsprozess eingebettet wird: mit Discovery, Architektur, Datenschutz, Tests, menschlichem Review und verbindlicher Verantwortung. Gerade in Kundenprojekten darf KI keine Blackbox sein.

Dieser Artikel beschreibt einen realistischen Workflow für Agenturen, die Codex, Claude und Cursor in der Softwareentwicklung, KI-Integration und Backend-Entwicklung einsetzen möchten, ohne Qualität oder Kontrolle zu verlieren.

Was Codex, Claude und Cursor unterschiedlich gut machen

Die Werkzeuge überschneiden sich, aber sie fühlen sich im Alltag unterschiedlich an.

Codex ist stark, wenn ein Agent selbstständig in einem Repository arbeiten soll: Dateien lesen, Änderungen vornehmen, Tests ausführen, Fehler analysieren und einen nachvollziehbaren Patch vorbereiten. Das passt gut zu klar abgegrenzten Aufgaben wie Bugfixes, Refactorings, Tests, Migrationsschritten oder Dokumentationsupdates.

Claude ist häufig hilfreich für Analyse, technische Diskussion, Architekturfragen, Spezifikationen und das Durchdenken größerer Zusammenhänge. In vielen Teams wird Claude auch als Coding-Agent eingesetzt, besonders wenn viel Kontext verdichtet oder ein komplexer Plan überprüft werden soll.

Cursor ist für Entwicklerinnen und Entwickler direkt im Editor nützlich. Es unterstützt beim Navigieren in der Codebasis, beim Bearbeiten einzelner Dateien, beim Erklären bestehender Logik und beim schnellen Umsetzen kleinerer Änderungen im Entwicklungsfluss.

Werkzeug	Typische Stärke	Sinnvolle Nutzung in der Agentur
Codex	Agentische Arbeit im Repository	Branch-Aufgaben, Tests, Reviews, Refactoring, PR-Vorbereitung
Claude	Analyse und strukturierte Argumentation	Discovery, Architektur, Risikoanalyse, technische Konzepte
Cursor	Editor-naher Entwicklungsfluss	Pair Programming, lokale Änderungen, Verständnis bestehender Module

Keines dieser Werkzeuge sollte allein entscheiden, was gebaut wird. Sie sind Assistenzsysteme. Die Verantwortung bleibt beim Team.

Discovery: KI hilft beim Strukturieren, nicht beim Entscheiden

In der Discovery-Phase geht es um Ziele, Nutzergruppen, Prozesse, Daten, Risiken und Prioritäten. KI kann hier sehr hilfreich sein, weil sie unstrukturierte Informationen sortiert und Fragen sichtbar macht.

Typische Aufgaben:

Meeting-Notizen in Anforderungen und offene Fragen überführen
User Stories, Akzeptanzkriterien und Nicht-Ziele formulieren
technische Risiken für Web-App, API, Backend oder Integration sammeln
Varianten vergleichen und Annahmen dokumentieren
erste Testfälle aus Anforderungen ableiten

Die Grenzen sind wichtig: KI kennt das Unternehmen, die Stakeholder und die politischen Rahmenbedingungen nicht vollständig. Sie kann keine Prioritäten verbindlich setzen, keine Budgets verantworten und keine rechtliche oder fachliche Freigabe ersetzen.

Für Agenturen ist KI in der Discovery am wertvollsten, wenn sie bessere Fragen erzeugt. Gute Fragen führen zu kleineren Risiken in der Umsetzung.

Umsetzung: Kleine Aufgaben funktionieren besser als große Wünsche

In der Implementierung liefern Codex, Claude und Cursor die besten Ergebnisse, wenn Aufgaben klein, überprüfbar und klar begrenzt sind. "Baue das Dashboard" ist zu grob. Besser ist: "Ergänze im bestehenden Dashboard einen Filter für aktive Kunden, ändere keine API-Verträge und füge Tests für leere Ergebnisse hinzu."

Ein guter Arbeitsauftrag enthält:

Ziel und erwartetes Verhalten
betroffene Dateien, Module oder APIs
Grenzen: Was darf nicht geändert werden?
technische Qualitätskriterien
Teststrategie
Hinweise für das spätere Review

Das passt gut zu typischen Agenturaufgaben: Komponenten anpassen, Backend-Endpunkte erweitern, Validierung ergänzen, Datenmodelle migrieren, Fehlerzustände behandeln, bestehende Tests ausbauen oder Dokumentation aktualisieren.

Bei sicherheitskritischen, zahlungsrelevanten oder personenbezogenen Daten sollte der Scope noch enger sein. KI kann Vorschläge machen, aber das Team muss Architektur, Berechtigungen, Datenflüsse und Fehlerfälle selbst prüfen.

Code Review: KI findet Muster, Menschen bewerten Folgen

KI ist im Code Review nützlich, weil sie schnell nach offensichtlichen Problemen suchen kann: fehlende Tests, inkonsistente Benennung, unklare Fehlerbehandlung, doppelte Logik oder mögliche Randfälle. Sie kann auch Pull Requests zusammenfassen und Review-Checklisten vorbereiten.

Das ersetzt kein menschliches Review. Ein erfahrener Entwickler prüft andere Dinge:

Passt die Änderung zur Architektur?
Bleiben bestehende API-Verträge stabil?
Sind Berechtigungen und Mandantentrennung korrekt?
Entstehen neue technische Schulden?
Ist das Verhalten für Nutzerinnen und Nutzer richtig?
Sind Risiken ausreichend getestet?

KI kann plausibel klingende Begründungen liefern, die trotzdem falsch sind. Deshalb sollte sie im Review als zweiter Blick genutzt werden, nicht als Merge-Instanz.

Tests: Der wichtigste Hebel für sichere KI-Nutzung

Wer KI in der Softwareentwicklung ernsthaft nutzen will, braucht Tests. Ohne Tests wird jede beschleunigte Implementierung zur manuellen Prüfaufgabe. Mit Tests kann ein Agent schneller arbeiten, weil falsche Änderungen früh sichtbar werden.

Sinnvolle Testaufgaben für KI:

Unit Tests für Randfälle ergänzen
fehlende Tests für Bugfixes schreiben
Testdaten verständlicher strukturieren
Snapshot- oder Komponententests aktualisieren
API-Fehlerfälle abdecken
E2E-Szenarien vorbereiten

Trotzdem müssen Teams prüfen, ob Tests wirklich Verhalten absichern oder nur die aktuelle Implementierung nachzeichnen. Ein schlechter Test gibt trügerische Sicherheit. Gute Tests beschreiben fachliche Erwartungen.

Dokumentation: KI ist gut beim ersten Entwurf

Dokumentation ist ein Bereich, in dem KI oft sofort Zeit spart. Sie kann README-Abschnitte, Migrationsnotizen, API-Beschreibungen, Changelogs oder technische Entscheidungsnotizen vorbereiten.

Der erste Entwurf ist aber nicht automatisch korrekt. Gerade bei Kundensystemen muss ein Mensch prüfen, ob die Dokumentation fachlich stimmt, keine internen Details offenlegt und verständlich genug für das Zielpublikum ist.

Eine gute Praxis ist, Dokumentation direkt mit der Änderung zu verlangen: Wenn ein Agent einen neuen Backend-Endpunkt baut, soll er auch die API-Notiz, Testabdeckung und relevante Betriebsinformation aktualisieren.

Datenschutz und Vertraulichkeit

Agenturen arbeiten oft mit Kundendaten, Geschäftslogik, Zugangsdaten, internen Dokumenten und nicht öffentlichen Repositories. Deshalb gehört Datenschutz nicht ans Ende des KI-Workflows, sondern an den Anfang.

Wichtige Fragen:

Welche Daten dürfen in welches KI-Werkzeug?
Werden personenbezogene Daten, Secrets oder Kundendokumente übertragen?
Gibt es eine vertragliche Grundlage und passende Auftragsverarbeitung?
Können Repositories, Logs und Prompts nachvollzogen werden?
Welche Inhalte müssen anonymisiert oder lokal gehalten werden?
Wer prüft Ergebnisse auf Datenschutz- und Sicherheitsrisiken?

In vielen Fällen reicht es, Aufgaben ohne sensible Daten zu formulieren, Testdaten zu verwenden und Secrets strikt aus Prompts, Logs und Agent-Kontexten herauszuhalten. Bei regulierten Projekten braucht es zusätzlich klare Freigaben, dokumentierte Prozesse und technische Schutzmaßnahmen.

Risiken: Wo KI in Agenturprojekten schaden kann

KI kann Entwicklung beschleunigen, aber sie kann auch Fehler schneller verbreiten. Typische Risiken sind:

plausibel aussehender Code mit falscher fachlicher Logik
übergroße Änderungen, die mehr anfassen als nötig
fehlende Berücksichtigung von Sicherheit, Datenschutz oder Barrierefreiheit
unpassende Bibliotheken oder unnötige Abhängigkeiten
Tests, die nicht die richtigen Risiken abdecken
Dokumentation, die Annahmen als Fakten darstellt
schleichender Verlust von Systemverständnis im Team

Diese Risiken lassen sich nicht durch bessere Prompts allein lösen. Sie brauchen Prozesse: kleine Aufgaben, klare Ownership, Code Review, Tests, Logging, Monitoring und eine Kultur, in der KI-Ergebnisse kritisch geprüft werden.

Wo KI wirklich hilft

KI hilft besonders bei Arbeit, die klar beschreibbar, prüfbar und kontextabhängig ist:

bestehende Codebasen schneller verstehen
Boilerplate und wiederkehrende Muster umsetzen
Tests für bekannte Regeln ergänzen
technische Alternativen strukturieren
Refactorings vorbereiten
Pull Requests zusammenfassen
Dokumentation aktuell halten
Fehleranalysen beschleunigen

In einer Agentur kann das Projektteams entlasten. Weniger Zeit geht in Sucharbeit, Formatierung und Standardaufgaben. Mehr Zeit bleibt für Produktentscheidungen, Architektur, Qualität und Kommunikation.

Wo KI nicht hilft

KI ist schwach, wenn das eigentliche Problem unklar ist. Sie kann fehlende Strategie nicht ersetzen und schlechte Anforderungen nicht zuverlässig korrigieren.

KI hilft nicht gut bei:

ungeklärten Geschäftsmodellen
politischen Prioritätskonflikten
fehlender Produktverantwortung
unsauberen Datenbeständen ohne fachliche Klärung
Sicherheitsentscheidungen ohne Kontext
rechtlichen Bewertungen
finaler Verantwortung gegenüber Kunden

Auch sehr neue, projektspezifische oder stark regulierte Anforderungen brauchen menschliche Expertise. KI kann vorbereiten, vergleichen und prüfen helfen. Entscheiden muss das verantwortliche Team.

Ein pragmatischer Agentur-Workflow

Ein robuster Workflow sieht so aus:

Discovery mit klaren Zielen, Risiken und Nicht-Zielen
technische Aufgabe klein schneiden
KI-Agent oder Editor-Assistenz mit begrenztem Scope einsetzen
Tests, Typecheck und Lint ausführen
Ergebnis durch Entwickler reviewen lassen
Datenschutz, Sicherheit und fachliche Logik prüfen
Dokumentation und Entscheidungsnotizen aktualisieren
erst danach mergen und ausrollen

Dieser Ablauf ist nicht spektakulär, aber belastbar. Er macht KI zu einem Teil professioneller Softwareentwicklung, nicht zu einer Abkürzung um Engineering herum.

Fazit

Codex, Claude und Cursor können Agenturteams produktiver machen. Sie helfen bei Discovery, Implementierung, Code Review, Tests und Dokumentation. Der größte Effekt entsteht aber nicht durch blindes Automatisieren, sondern durch bessere Vorbereitung und schnellere Feedbackschleifen.

Für Kundenprojekte bleibt entscheidend: Menschen verantworten Anforderungen, Architektur, Datenschutz, Qualität und Betrieb. KI ist ein Werkzeug im Prozess. Gut eingesetzt, macht sie Softwareentwicklung strukturierter und schneller. Schlecht eingesetzt, produziert sie nur schneller Unsicherheit.

Schlussfolgerung

Codex, Claude und Cursor können Agenturteams schneller und strukturierter machen, wenn die Arbeit gut vorbereitet, getestet und reviewed wird. Sie ersetzen keine Produktverantwortung, keine Architekturentscheidungen und keine fachliche Prüfung.

Geschrieben von

Marius Gill

Geschäftsführer und Softwareentwickler mit über 10 Jahren Erfahrung

Alle Beiträge

Weitere Beiträge

Accessibility

Aktualisiert 13. Mai 2026

Barrierefreiheit für Website und App: Was Unternehmen jetzt umsetzen sollten

Eine praktische Anleitung für Unternehmen: WCAG, Tastaturbedienung, Fokus, Formulare, Kontrast, Inhalte, Designsysteme, Tests und Prozesse für barrierefreie Websites und Apps.

Performance

Aktualisiert 13. Mai 2026

Core Web Vitals: Performance-Optimierung für schnelle Websites

Was LCP, INP und CLS messen, warum Felddaten wichtiger sind als ein einzelner Labortest und wie Bilder, Fonts, JavaScript, Caching und Third-Party-Skripte eine Website spürbar schneller machen.

Hamburg

Aktualisiert 13. Mai 2026

Individualsoftware Hamburg: Wann Standardsoftware nicht mehr reicht

Wann Hamburger Mittelständler mit Standardsoftware gut fahren, wann individuelle Software wirtschaftlicher wird und wie Migration, Integrationen und Risiken sauber geplant werden.

Nächste Schritte

Lassen Sie uns über Ihr Projekt sprechen

30-minütiges Erstgespräch. Wir besprechen Ihre Ziele, klären offene Fragen und skizzieren den möglichen Projektablauf.

Termin buchen