Die neue Definition Of Done in Zeiten von KI-Agenten in der Entwicklung

Executive Summary:
Um was geht es in diesem Beitrag:
Inhaltsverzeichnis

Hinweis zur Quelle: Dieser Beitrag ist eine detaillierte deutsche Übersetzung und fachliche Aufbereitung des bereitgestellten englischen Originaltexts über den „AI Evaluation Stack“.

Traditionelle Software ist vorhersagbar: Input A plus Funktion B ergibt Output C. Genau diese Deterministik macht robuste Tests möglich. Generative KI ist dagegen stochastisch und damit nicht vollständig vorhersagbar. Derselbe Prompt liefert am Montag oft ein anderes Ergebnis als am Dienstag – klassische Unit-Tests, wie wir sie aus der Softwareentwicklung kennen, reichen dafür nicht mehr aus.

Wer enterprise-taugliche KI ausrollen will, kann sich deshalb nicht auf reine „Vibe Checks“ verlassen, die heute funktionieren und morgen beim Kunden scheitern. Stattdessen braucht es eine neue Infrastrukturschicht: den AI Evaluation Stack.

Der hier dargestellte Ansatz basiert auf praktischer Erfahrung aus KI-Produkten für Fortune-500-Unternehmen in regulierten und risikoreichen Branchen – dort, wo Halluzinationen nicht lustig, sondern Compliance-Risiko sind.

Das neue Evaluationsparadigma für KI

Klassische Softwaretests sind oft binär (Bestanden/Nicht bestanden). KI-Evaluationen können zwar ebenfalls binäre Checks enthalten, arbeiten aber häufig auf einem Spektrum. Eine Evaluation ist kein einzelnes Skript, sondern eine strukturierte Pipeline aus Assertions – von strikten Syntaxprüfungen bis zu semantischen Qualitätsbewertungen.

Die Taxonomie der Evaluation Checks

Für eine robuste und kosteneffiziente Architektur sollten Assertions in zwei Schichten getrennt werden:

Layer 1: Deterministische Assertions

Ein großer Teil produktiver KI-Fehler sind keine semantischen Halluzinationen, sondern einfache Struktur- und Routingfehler. Deterministische Checks sind daher das erste Gate der Pipeline: klassischer Code, Regex und Schema-Prüfungen validieren die strukturelle Integrität.

Typische binäre Fragen in Layer 1:

  • Wurde das korrekte JSON-Key/Value-Schema erzeugt?
  • Wurde der richtige Tool-Call mit den erforderlichen Argumenten aufgerufen?
  • Wurde ein gültiges Format (z. B. GUID oder E-Mail-Adresse) korrekt befüllt?

Architektonisch gilt: Diese Schicht muss zuerst kommen (Fail-Fast). Wenn eine Downstream-API ein exaktes Schema erwartet und das Modell fehlerhaftes JSON liefert, ist der Fall sofort verloren. Frühes Abbrechen verhindert teure semantische Prüfungen (Layer 2) und spart menschliche Review-Kapazität (Layer 3).

Layer 2: Modellbasierte Assertions

Wenn Layer 1 besteht, wird semantische Qualität bewertet. Weil Sprache flexibel ist, kann klassischer Code kaum zuverlässig prüfen, ob eine Antwort „hilfreich“ oder „empathisch“ ist. Dafür nutzt man modellbasierte Evaluation, bekannt als LLM-as-a-Judge.

Es wirkt zunächst paradox, ein nicht-deterministisches System mit einem anderen zu bewerten – in der Praxis ist es aber ein extrem wirkungsvolles Muster für Nuancen, die sich nicht per Regex ausdrücken lassen. Menschliche Reviewer können das hervorragend, aber nicht in CI/CD-Skalierung über zehntausende Fälle.

Drei kritische Inputs für verlässliche LLM-Judge-Evaluationen

  1. Ein starkes Reasoning-Modell als Judge: Der Judge sollte leistungsfähiger sein als das Produktionsmodell (insbesondere, wenn Produktion aus Latenzgründen ein kleineres Modell nutzt).
  2. Ein striktes Bewertungsraster (Rubrik): Vage Prompts erzeugen Rauschen. Gute Rubriken definieren klare Abstufungen von Fehlschlag bis Erfolg.
  3. Ground Truth / Golden Outputs: Menschenvalidierte Zielantworten erhöhen die Bewertungszuverlässigkeit deutlich, weil der Judge gegen einen verifizierten Referenzpunkt vergleichen kann.

Architektur: Offline- und Online-Pipeline

Eine belastbare Evaluationsarchitektur braucht zwei komplementäre Pipelines:

  • Offline-Pipeline: Baseline, Regression und harte Gates vor Deployment.
  • Online-Pipeline: Monitoring nach Deployment, Drift-Erkennung und neue Edge Cases aus der Realität.

Die Offline-Evaluationspipeline

Ihr Ziel ist Regression Testing: Fehler, Drift und Latenzprobleme vor Produktion erkennen. Ein Enterprise-LLM-Feature ohne blockierendes Offline-Gate ist ein Anti-Pattern – vergleichbar mit unkompiliertem Code im Main-Branch.

1) Golden Dataset kuratieren

Startpunkt ist ein statisches, versioniertes Golden Dataset (typisch 200–500 Testfälle), das den realen Einsatzraum abdeckt. Jeder Fall koppelt exakten Input mit erwartetem Golden Output.

Wichtig: Das Dataset muss reale Traffic-Verteilungen spiegeln – inklusive Happy Paths, Edge Cases, Jailbreaks und adversarialen Inputs. Gerade die Verweigerungsfähigkeit unter Stress ist oft Compliance-pflichtig.

Beispiel (Tool Use): Input: „Plane ein 30-minütiges Follow-up mit dem Kunden für nächsten Dienstag um 10 Uhr.“ Erwarteter Output: korrekter Tool-Call mit passender JSON-Struktur (Dauer, Tag, Uhrzeit, Teilnehmer).

Synthetische Datengenerierung mit spezialisierten LLMs kann die Kuratierung beschleunigen, aber ein Human-in-the-Loop ist obligatorisch: Domain-Experten müssen Fälle prüfen, korrigieren und freigeben, bevor sie ins Repository gehen.

2) Evaluationskriterien definieren

Nach der Datensatzkurierung folgt ein hybrides Scoring über Layer-1- und Layer-2-Checks mit Gewichtung.

Beispiel (10 Punkte, Agent „E-Mail senden“):

  • Layer 1 (6 Punkte): Richtiger Tool-Call? Gültiges JSON? Schema-konform?
  • Layer 2 (4 Punkte): Betreff passend zur Intention? Inhalt ohne Halluzination? CC/BCC korrekt? Priorität sinnvoll gesetzt?

Der LLM-Judge sollte sein Urteil pro Kriterium begründen, damit Fehlschläge sauber debuggt werden können.

Pass-Threshold und Short-Circuit-Logik

Beispiel: Bei 8/10 liegt die Bestehensgrenze bei acht Punkten. Kritisch ist die harte Short-Circuit-Logik: Fällt ein deterministischer Check (z. B. kaputtes JSON), wird der gesamte Fall sofort als Fail bewertet (0/10). Es hat keinen architektonischen Sinn, teure semantische Bewertung auf strukturell defekte Outputs anzuwenden.

3) Pipeline ausführen und Signale aggregieren

Die Offline-Pipeline läuft typischerweise als blockierender CI/CD-Schritt im Pull Request. Infrastruktur spielt die Golden-Fälle durch, speist Inputs ins Produktionsmodell, sammelt Outputs und führt Assertions aus.

Ergebnisse werden als Pass-Rate aggregiert. Für Enterprise-Anwendungen liegt der Zielkorridor häufig über 95 %, bei stark regulierten Domänen eher Richtung 99 %+.

4) Analyse, Iteration, Alignment

Auf Basis der Fehlersignale folgt Root-Cause-Analyse: Prompts schärfen, Tool-Beschreibungen verbessern, Wissensquellen ergänzen, Hyperparameter justieren. Nach jeder Änderung ist ein vollständiger Regression-Run nötig, da ein Fix in einem Edge Case an anderer Stelle neue Regressionen auslösen kann.

Die Online-Evaluationspipeline

Während Offline als Gatekeeper dient, ist Online das Telemetrie-System im Live-Betrieb. Fünf Signalkategorien sind zentral:

1) Explizite User-Signale

  • Thumbs up/down als direkte Qualitätsindikation
  • Freitext-Feedback zur Identifikation neuer Failure Modes

2) Implizite Verhaltenssignale

  • Hohe Regenerate-/Retry-Raten als Hinweis auf schlechte Erstantworten
  • Apology-Rate („I’m sorry“) als Heuristik für degradierte Fähigkeiten
  • Refusal-Rate als Indikator überstrenger Safety-Kalibrierung

3) Deterministische Produktions-Assertions (synchron)

Layer-1-Checks sind millisekundenschnell und sollten auf 100 % des Traffics laufen (Schema-Validität, Tool-Konformität). So lassen sich Drift oder API-Änderungen früh erkennen.

4) LLM-as-a-Judge in Produktion (asynchron)

Falls Datenschutzrahmen es erlauben, sollte ein LLM-Judge asynchron auf einer Stichprobe (z. B. 5 %) laufen. Nicht synchron im kritischen Pfad – sonst steigen Latenz und Kosten massiv.

Der Feedback-Flywheel: Von Monitoring zu kontinuierlicher Verbesserung

Evaluation ist kein Set-and-Forget-System. Statische Datensätze altern durch Concept Drift. Beispiel: Ein HR-Bot erreicht 99 % auf Payroll-Fragen, scheitert aber sofort, wenn plötzlich viele Fragen zu einem neuen Equity-Plan auftauchen.

Der kontinuierliche Verbesserungsprozess:

  1. Capture: Negatives Signal in Produktion.
  2. Triage: Session für menschliches Review markieren.
  3. Root Cause: Lücke analysieren und System verbessern.
  4. Dataset Augmentation: Fall + korrigierten Expected Output ins Golden Dataset aufnehmen (inkl. synthetischer Varianten).
  5. Regression: Den neuen Edge Case in alle künftigen Runs integrieren.

Ohne diesen Loop entsteht eine gefährliche Illusion: hohe Offline-Scorecards bei gleichzeitig sinkender echter Nutzerqualität.

Fazit: Die neue Definition of Done

Im Zeitalter generativer KI ist ein Feature nicht „fertig“, nur weil Code kompiliert und ein Prompt kohärent klingt. „Done“ ist ein Feature erst dann, wenn eine rigorose, automatisierte Evaluationspipeline stabil läuft – gegen kuratierte Golden Datasets und gegen neu entdeckte Produktions-Edge-Cases.

Das ist der neue Qualitätsstandard für KI-getriebene Produktentwicklung: messen statt raten, iterieren statt hoffen, und Qualität als fortlaufendes Betriebssystem begreifen.

Call to Action

Teile dieses Framework mit Engineering, Product und Legal, um einen gemeinsamen Qualitätsstandard für KI zu etablieren. Hört auf zu raten, ob eure Modelle in Produktion degradieren – und fangt an, es systematisch zu messen.

weitere insights