Zum Inhalt springen
Alle Beiträge
KI7 min Lesezeit

Codex, Claude und Cursor in der Agentur-Softwareentwicklung

Wie Software-Agenturen Codex, Claude und Cursor sinnvoll in Discovery, Implementierung, Code Review, Tests und Dokumentation einsetzen, ohne Verantwortung an KI abzugeben.

Marius Gill

Marius Gill

Geschäftsführer und Softwareentwickler mit über 10 Jahren Erfahrung

Teilen

7 min Lesezeit

KI-Werkzeuge wie Codex, Claude und Cursor sind in der professionellen Softwareentwicklung angekommen. Für eine Agentur sind sie besonders interessant, weil Projekte viele wiederkehrende Aufgaben enthalten: Anforderungen strukturieren, Codebasen verstehen, Features umsetzen, Tests ergänzen, Pull Requests vorbereiten und Dokumentation pflegen.

Der Nutzen entsteht aber nicht dadurch, dass man "KI Code schreiben lässt". Der Nutzen entsteht, wenn KI in einen klaren Entwicklungsprozess eingebettet wird: mit Discovery, Architektur, Datenschutz, Tests, menschlichem Review und verbindlicher Verantwortung. Gerade in Kundenprojekten darf KI keine Blackbox sein.

Dieser Artikel beschreibt einen realistischen Workflow für Agenturen, die Codex, Claude und Cursor in der Softwareentwicklung, KI-Integration und Backend-Entwicklung einsetzen möchten, ohne Qualität oder Kontrolle zu verlieren.

Was Codex, Claude und Cursor unterschiedlich gut machen

Die Werkzeuge überschneiden sich, aber sie fühlen sich im Alltag unterschiedlich an.

Codex ist stark, wenn ein Agent selbstständig in einem Repository arbeiten soll: Dateien lesen, Änderungen vornehmen, Tests ausführen, Fehler analysieren und einen nachvollziehbaren Patch vorbereiten. Das passt gut zu klar abgegrenzten Aufgaben wie Bugfixes, Refactorings, Tests, Migrationsschritten oder Dokumentationsupdates.

Claude ist häufig hilfreich für Analyse, technische Diskussion, Architekturfragen, Spezifikationen und das Durchdenken größerer Zusammenhänge. In vielen Teams wird Claude auch als Coding-Agent eingesetzt, besonders wenn viel Kontext verdichtet oder ein komplexer Plan überprüft werden soll.

Cursor ist für Entwicklerinnen und Entwickler direkt im Editor nützlich. Es unterstützt beim Navigieren in der Codebasis, beim Bearbeiten einzelner Dateien, beim Erklären bestehender Logik und beim schnellen Umsetzen kleinerer Änderungen im Entwicklungsfluss.

WerkzeugTypische StärkeSinnvolle Nutzung in der Agentur
CodexAgentische Arbeit im RepositoryBranch-Aufgaben, Tests, Reviews, Refactoring, PR-Vorbereitung
ClaudeAnalyse und strukturierte ArgumentationDiscovery, Architektur, Risikoanalyse, technische Konzepte
CursorEditor-naher EntwicklungsflussPair Programming, lokale Änderungen, Verständnis bestehender Module

Keines dieser Werkzeuge sollte allein entscheiden, was gebaut wird. Sie sind Assistenzsysteme. Die Verantwortung bleibt beim Team.

Discovery: KI hilft beim Strukturieren, nicht beim Entscheiden

In der Discovery-Phase geht es um Ziele, Nutzergruppen, Prozesse, Daten, Risiken und Prioritäten. KI kann hier sehr hilfreich sein, weil sie unstrukturierte Informationen sortiert und Fragen sichtbar macht.

Typische Aufgaben:

  • Meeting-Notizen in Anforderungen und offene Fragen überführen
  • User Stories, Akzeptanzkriterien und Nicht-Ziele formulieren
  • technische Risiken für Web-App, API, Backend oder Integration sammeln
  • Varianten vergleichen und Annahmen dokumentieren
  • erste Testfälle aus Anforderungen ableiten

Die Grenzen sind wichtig: KI kennt das Unternehmen, die Stakeholder und die politischen Rahmenbedingungen nicht vollständig. Sie kann keine Prioritäten verbindlich setzen, keine Budgets verantworten und keine rechtliche oder fachliche Freigabe ersetzen.

Für Agenturen ist KI in der Discovery am wertvollsten, wenn sie bessere Fragen erzeugt. Gute Fragen führen zu kleineren Risiken in der Umsetzung.

Umsetzung: Kleine Aufgaben funktionieren besser als große Wünsche

In der Implementierung liefern Codex, Claude und Cursor die besten Ergebnisse, wenn Aufgaben klein, überprüfbar und klar begrenzt sind. "Baue das Dashboard" ist zu grob. Besser ist: "Ergänze im bestehenden Dashboard einen Filter für aktive Kunden, ändere keine API-Verträge und füge Tests für leere Ergebnisse hinzu."

Ein guter Arbeitsauftrag enthält:

  • Ziel und erwartetes Verhalten
  • betroffene Dateien, Module oder APIs
  • Grenzen: Was darf nicht geändert werden?
  • technische Qualitätskriterien
  • Teststrategie
  • Hinweise für das spätere Review

Das passt gut zu typischen Agenturaufgaben: Komponenten anpassen, Backend-Endpunkte erweitern, Validierung ergänzen, Datenmodelle migrieren, Fehlerzustände behandeln, bestehende Tests ausbauen oder Dokumentation aktualisieren.

Bei sicherheitskritischen, zahlungsrelevanten oder personenbezogenen Daten sollte der Scope noch enger sein. KI kann Vorschläge machen, aber das Team muss Architektur, Berechtigungen, Datenflüsse und Fehlerfälle selbst prüfen.

Code Review: KI findet Muster, Menschen bewerten Folgen

KI ist im Code Review nützlich, weil sie schnell nach offensichtlichen Problemen suchen kann: fehlende Tests, inkonsistente Benennung, unklare Fehlerbehandlung, doppelte Logik oder mögliche Randfälle. Sie kann auch Pull Requests zusammenfassen und Review-Checklisten vorbereiten.

Das ersetzt kein menschliches Review. Ein erfahrener Entwickler prüft andere Dinge:

  • Passt die Änderung zur Architektur?
  • Bleiben bestehende API-Verträge stabil?
  • Sind Berechtigungen und Mandantentrennung korrekt?
  • Entstehen neue technische Schulden?
  • Ist das Verhalten für Nutzerinnen und Nutzer richtig?
  • Sind Risiken ausreichend getestet?

KI kann plausibel klingende Begründungen liefern, die trotzdem falsch sind. Deshalb sollte sie im Review als zweiter Blick genutzt werden, nicht als Merge-Instanz.

Tests: Der wichtigste Hebel für sichere KI-Nutzung

Wer KI in der Softwareentwicklung ernsthaft nutzen will, braucht Tests. Ohne Tests wird jede beschleunigte Implementierung zur manuellen Prüfaufgabe. Mit Tests kann ein Agent schneller arbeiten, weil falsche Änderungen früh sichtbar werden.

Sinnvolle Testaufgaben für KI:

  • Unit Tests für Randfälle ergänzen
  • fehlende Tests für Bugfixes schreiben
  • Testdaten verständlicher strukturieren
  • Snapshot- oder Komponententests aktualisieren
  • API-Fehlerfälle abdecken
  • E2E-Szenarien vorbereiten

Trotzdem müssen Teams prüfen, ob Tests wirklich Verhalten absichern oder nur die aktuelle Implementierung nachzeichnen. Ein schlechter Test gibt trügerische Sicherheit. Gute Tests beschreiben fachliche Erwartungen.

Dokumentation: KI ist gut beim ersten Entwurf

Dokumentation ist ein Bereich, in dem KI oft sofort Zeit spart. Sie kann README-Abschnitte, Migrationsnotizen, API-Beschreibungen, Changelogs oder technische Entscheidungsnotizen vorbereiten.

Der erste Entwurf ist aber nicht automatisch korrekt. Gerade bei Kundensystemen muss ein Mensch prüfen, ob die Dokumentation fachlich stimmt, keine internen Details offenlegt und verständlich genug für das Zielpublikum ist.

Eine gute Praxis ist, Dokumentation direkt mit der Änderung zu verlangen: Wenn ein Agent einen neuen Backend-Endpunkt baut, soll er auch die API-Notiz, Testabdeckung und relevante Betriebsinformation aktualisieren.

Datenschutz und Vertraulichkeit

Agenturen arbeiten oft mit Kundendaten, Geschäftslogik, Zugangsdaten, internen Dokumenten und nicht öffentlichen Repositories. Deshalb gehört Datenschutz nicht ans Ende des KI-Workflows, sondern an den Anfang.

Wichtige Fragen:

  • Welche Daten dürfen in welches KI-Werkzeug?
  • Werden personenbezogene Daten, Secrets oder Kundendokumente übertragen?
  • Gibt es eine vertragliche Grundlage und passende Auftragsverarbeitung?
  • Können Repositories, Logs und Prompts nachvollzogen werden?
  • Welche Inhalte müssen anonymisiert oder lokal gehalten werden?
  • Wer prüft Ergebnisse auf Datenschutz- und Sicherheitsrisiken?

In vielen Fällen reicht es, Aufgaben ohne sensible Daten zu formulieren, Testdaten zu verwenden und Secrets strikt aus Prompts, Logs und Agent-Kontexten herauszuhalten. Bei regulierten Projekten braucht es zusätzlich klare Freigaben, dokumentierte Prozesse und technische Schutzmaßnahmen.

Risiken: Wo KI in Agenturprojekten schaden kann

KI kann Entwicklung beschleunigen, aber sie kann auch Fehler schneller verbreiten. Typische Risiken sind:

  • plausibel aussehender Code mit falscher fachlicher Logik
  • übergroße Änderungen, die mehr anfassen als nötig
  • fehlende Berücksichtigung von Sicherheit, Datenschutz oder Barrierefreiheit
  • unpassende Bibliotheken oder unnötige Abhängigkeiten
  • Tests, die nicht die richtigen Risiken abdecken
  • Dokumentation, die Annahmen als Fakten darstellt
  • schleichender Verlust von Systemverständnis im Team

Diese Risiken lassen sich nicht durch bessere Prompts allein lösen. Sie brauchen Prozesse: kleine Aufgaben, klare Ownership, Code Review, Tests, Logging, Monitoring und eine Kultur, in der KI-Ergebnisse kritisch geprüft werden.

Wo KI wirklich hilft

KI hilft besonders bei Arbeit, die klar beschreibbar, prüfbar und kontextabhängig ist:

  • bestehende Codebasen schneller verstehen
  • Boilerplate und wiederkehrende Muster umsetzen
  • Tests für bekannte Regeln ergänzen
  • technische Alternativen strukturieren
  • Refactorings vorbereiten
  • Pull Requests zusammenfassen
  • Dokumentation aktuell halten
  • Fehleranalysen beschleunigen

In einer Agentur kann das Projektteams entlasten. Weniger Zeit geht in Sucharbeit, Formatierung und Standardaufgaben. Mehr Zeit bleibt für Produktentscheidungen, Architektur, Qualität und Kommunikation.

Wo KI nicht hilft

KI ist schwach, wenn das eigentliche Problem unklar ist. Sie kann fehlende Strategie nicht ersetzen und schlechte Anforderungen nicht zuverlässig korrigieren.

KI hilft nicht gut bei:

  • ungeklärten Geschäftsmodellen
  • politischen Prioritätskonflikten
  • fehlender Produktverantwortung
  • unsauberen Datenbeständen ohne fachliche Klärung
  • Sicherheitsentscheidungen ohne Kontext
  • rechtlichen Bewertungen
  • finaler Verantwortung gegenüber Kunden

Auch sehr neue, projektspezifische oder stark regulierte Anforderungen brauchen menschliche Expertise. KI kann vorbereiten, vergleichen und prüfen helfen. Entscheiden muss das verantwortliche Team.

Ein pragmatischer Agentur-Workflow

Ein robuster Workflow sieht so aus:

  1. Discovery mit klaren Zielen, Risiken und Nicht-Zielen
  2. technische Aufgabe klein schneiden
  3. KI-Agent oder Editor-Assistenz mit begrenztem Scope einsetzen
  4. Tests, Typecheck und Lint ausführen
  5. Ergebnis durch Entwickler reviewen lassen
  6. Datenschutz, Sicherheit und fachliche Logik prüfen
  7. Dokumentation und Entscheidungsnotizen aktualisieren
  8. erst danach mergen und ausrollen

Dieser Ablauf ist nicht spektakulär, aber belastbar. Er macht KI zu einem Teil professioneller Softwareentwicklung, nicht zu einer Abkürzung um Engineering herum.

Fazit

Codex, Claude und Cursor können Agenturteams produktiver machen. Sie helfen bei Discovery, Implementierung, Code Review, Tests und Dokumentation. Der größte Effekt entsteht aber nicht durch blindes Automatisieren, sondern durch bessere Vorbereitung und schnellere Feedbackschleifen.

Für Kundenprojekte bleibt entscheidend: Menschen verantworten Anforderungen, Architektur, Datenschutz, Qualität und Betrieb. KI ist ein Werkzeug im Prozess. Gut eingesetzt, macht sie Softwareentwicklung strukturierter und schneller. Schlecht eingesetzt, produziert sie nur schneller Unsicherheit.

Schlussfolgerung

Codex, Claude und Cursor können Agenturteams schneller und strukturierter machen, wenn die Arbeit gut vorbereitet, getestet und reviewed wird. Sie ersetzen keine Produktverantwortung, keine Architekturentscheidungen und keine fachliche Prüfung.

Marius Gill

Geschrieben von

Marius Gill

Geschäftsführer und Softwareentwickler mit über 10 Jahren Erfahrung

Nächste Schritte

Lassen Sie uns über Ihr Projekt sprechen

30-minütiges Erstgespräch. Wir besprechen Ihre Ziele, klären offene Fragen und skizzieren den möglichen Projektablauf.

Termin buchen