Architekturziele für Coding Agents mit Harness Engineering

0 Harness Engineering embarc.de embarc Architekturziele für Coding Agents mit
Harness Engineering Alexander Kaserbacher 26.05.2026

1 Harness Engineering embarc.de Alexander Kaserbacher [email protected] www.embarc.de Software Architekt
& AI Engineer linkedin.com/in/alexksbr/

2 Harness Engineering embarc.de embarc.de Agenda 1 Warum Harness Engineering?
2 Was ist Harness Engineering? 3 Wir bauen eine Harness 4 Was wir gelernt haben 5 Abschluss & Ausblick

3 Harness Engineering embarc.de 01. Warum Harness Engineering? Coding Agents,
Stärken und Fehler, AI als Verstärker

4 Harness Engineering embarc.de embarc.de Was ist ein Coding Agent?
[ Video: coding-agent-initial-demo.mov ]

5 Harness Engineering embarc.de embarc.de Coding Agents sind mächtig, aber
limitiert

6 Harness Engineering embarc.de embarc.de AI ist ein Verstärker „AI’s
primary role in software development is that of an amplifier. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.“ DORA State of AI-assisted Software Development 2025 +243 % mehr Incidents pro Pull Request 31 % mehr ungeprüfte Merges −19 % gemessen langsamer Coding Agents schreiben Code, doch Software-Entwicklung ist mehr. Verifikation und Kontext- Einschätzung sind der Flaschenhals und deutlich schwerer zu automatisieren. „Key Takeaways from the DORA Report 2025" (Git-Telemetrie-Analyse), faros.ai „Key Takeaways from the DORA Report 2025" (Git-Telemetrie-Analyse), faros.ai „Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity" (Juli 2025), metr.org

7 Harness Engineering embarc.de Coding Agents sind nicht zuverlässig genug,
um sie produktiv ohne Aufsicht einzusetzen. Harness Engineering automatisiert diese Aufsicht teilweise, benötigt aber selbst Engineering-Arbeit*. * Harness wird entworfen, hat Bugs, braucht Tests, wird iteriert und muss sich weiterentwickeln

8 Harness Engineering embarc.de 02. Was ist Harness Engineering? Guides,
Sensoren, deterministisch/inferential, Steering Loop

9 Harness Engineering embarc.de embarc.de Agent = Model + Harness
Harness Prompt, Tools, Kontext, Regeln, Prüfungen Euer Gestaltungsraum Agent = Model + Harness Quelle: „The Anatomy of an Agent Harness“, LangChain Model „TLDR: Agent = Model + Harness. Harness engineering is how we build systems around models to turn them into work engines. The model contains the intelligence and the harness makes that intelligence useful. […]“

10 Harness Engineering embarc.de embarc.de Inner & Outer Harness USER
BUILDER Modell Builder Harness Der innere Ring ist vom Tool-Hersteller: System-Prompt, Retrieval, Orchestrierung User Harness Der äußere Ring ist von euch, für euer System: alles, womit ihr den Agent führt und prüft. Der äußere Ring ist euer Gestaltungsraum.

11 Harness Engineering embarc.de embarc.de Drei Regulationskategorien Maintainability Code-Qualität am
reifsten, viel Tooling Architecture Fitness Architekturziele durchsetzen einiges an Tooling, (noch) nicht breit eingesetzt Behaviour funktionale Korrektheit am schwierigsten Unser Fokus heute liegt hier

12 Harness Engineering embarc.de embarc.de Die zwei Dimensionen ZEITPUNKT GUIDE
wirkt, bevor der Agent handelt Feedforward Agent handelt SENSOR prüft, nachdem der Agent handelt Feedback AUSFÜHRUNG Regelbasiert berechnet, schnell, zuverlässig KI-gestützt KI-gestützt, semantisch, probabilistisch

13 Harness Engineering embarc.de embarc.de Beispiele REGELBASIERT KI-GESTÜZT Guide Sensor
Tool-Whitelists z.B. Projekt-Templates Instruktionen z.B. AGENTS.md, Skills Tests z.B. Archunit, Linter, Type-Checker Intelligente Prüfungen z.B. LLM-as-Judge, Review- Agent

14 Harness Engineering embarc.de embarc.de Quelle zum Nachlesen à https://martinfowler.com/articles/harness-engineering.html

15 Harness Engineering embarc.de embarc.de Behavioral Harness: Spec-Driven Development Spec-Driven
Development ist ein KI-gestützter Guide: die Spec steuert den Agent und aus ihr entstehen zugleich die Sensoren (Akzeptanzkriterien). Kategorie “Behavioral Harness” Spec beschriebt Systemverhalten und wird zur Quelle der Wahrheit Aber … Löst nicht die Frage, ob der Mensch (der die Spec formuliert/liest) das Problem überhaupt verstanden hat. Beispiele: GitHub Spec Kit, AWS Kiro, Tessl

16 Harness Engineering embarc.de embarc.de Was hier nicht neu ist
Fitness Functions z. B. ArchUnit, dependency-cruiser CI/CD Quality Gates etablierte Pipeline-Prüfungen Control Theory / Ashby Regulator braucht so viel Vielfalt wie das System Harness Engineering = Synthese für einen neuen Failure-Modus à nicht-deterministische Generatoren. Ford/Parsons/Kua, „Building Evolutionary Architectures“, W. R. Ashby, „An Introduction to Cybernetics“

17 Harness Engineering embarc.de embarc.de Die Steering Loop Agent handelt
Mensch beobachtet Harness verbessern der nächste Lauf ist besser geführt Der Mensch steuert den Agent, indem er die Harness iterativ verbessert.

18 Harness Engineering embarc.de embarc.de Wer macht das schon? Stripe
1.300+ PRs/Woche Agent-Flotte „Minions“, „Blueprints“, „Toolshed“ (~500 Tools) OpenAI ~1 Mio. Zeilen 3 Engineers, ~1.500 PRs / 5 Monate „With coding agents, [constraints are] an early prerequisite; they're what allow speed without decay or architectural drift.“ Anthropic Multi-Agent Planner / Generator / Evaluator-Harness „Every component in a harness encodes an assumption about what the model can't do on its own.“ Quellen: stripe.dev, openai.com, anthropic.com

19 Harness Engineering embarc.de 03. Wir bauen eine Harness Guides
und Sensors in Action…

20 Harness Engineering embarc.de embarc.de Das Setup Controller Service Repository
Entities Aufgabe an den Agent „Add a new endpoint GET /api/profiles/top?limit=10 to this app. It returns the top N user profiles ranked by their follower count (descending). For each profile include: username, bio, image, follower count, and the user's email address. TypeScript-Backend mit ORM, Schichtenarchitektur (NestJS + MikroORM)

21 Harness Engineering embarc.de embarc.de Ohne Harness: der Agenten-Lauf [
Video: pre-flight-test.mov ]

22 Harness Engineering embarc.de embarc.de Analyse: drei Findings Layer Raw
SQL im Service. Hardcoded Tabellennamen, ORM umgangen. PII E-Mail im öffentlichen Listing-Endpoint exponiert. Bounds limit-Parameter ohne Obergrenze (ist ein DoS-Angriffsvektor).

23 Harness Engineering embarc.de embarc.de Guide bauen: AGENTS.md AGENTS.md =
Guide Feedforward, regelbasiert. Die PII-Regel: kein PII in Listing-Endpoints. Cross-Tool-Standard AGENTS.md ist ein offener Standard (Agentic AI Foundation), kompatibel mit vielen Coding Agents Selber schreiben LLM-generierte Kontextdateien können manchmal weniger effektiv sein.

24 Harness Engineering embarc.de embarc.de Sensor 1: regelbasiert + strukturell
Semgrep-Regel Verbietet Raw SQL im Service-Layer (regelbasiert, schnell) Agent-instruktive Message Sagt dem Agent warum ein Fehler existiert und wie er zu beheben ist Ein Agent mit gezieltem Verifikations-Kontext machte ~70 % weniger neue Fehler. Eine vage Anweisung ohne diesen Kontext machte es schlimmer (“mach TDD”). → Entscheidend ist wie präzise der Sensor antwortet. Quelle: TDAD, arXiv:2603.17973

25 Harness Engineering embarc.de embarc.de Sensor 2: regelbasiert + runtime
Semgrep (statisch) fängt die fehlende Obergrenze auf limit K6 (runtime) Last gegen ?limit=10000, Thresholds Im Repo, in der Demo nicht ausgeführt

26 Harness Engineering embarc.de embarc.de Sensor 3: KI-gestützt LLM-as-Judge Prüft
den Diff gegen die AGENTS.md-Regeln für semantische Verstöße. Backstop Falls der Agent den Guide nicht befolgt, fängt der Judge es. Defense in Depth. Implementierungs-Landschaft Direct-Call, Hook, Sub-Agent, MCP KI-gestützt = semantisch reich, aber probabilistisch.

27 Harness Engineering embarc.de embarc.de Mit Harness: der Agent-Lauf

28 Harness Engineering embarc.de embarc.de Mit Harness: commit und push

29 Harness Engineering embarc.de embarc.de Ohne Harness vs. mit Harness
OHNE HARNESS MIT HARNESS Layer Raw SQL im Service QueryBuilder, im ORM-Layer PII email exposed kein Email-Feld, Test prüft Abwesenheit Bounds nur untere Schranke Ober- und Untergrenze (Max 100)

30 Harness Engineering embarc.de 04. Was wir gelernt haben Möglichkeiten
und Einschränkungen

31 Harness Engineering embarc.de embarc.de Harnesses sind Code Eine Harness
ist kein einmaliges Setup, sondern Software, mit allem, was dazugehört: Bugs sie hat Fehler Tests muss geprüft werden Iteration Regeln nachschärfen Evolution ändert sich mit AUS DEM EXPERIMENT Unsere eigene Harness hatte zwei Bugs: eine Semgrep-Regel, die generische Typen nicht erkannte, und ein Judge, der den falschen Diff verglich. Eine Harness ist nie fertig. Pflege ist laufende Architekturarbeit.

32 Harness Engineering embarc.de embarc.de Was kein Sensor zuverlässig fängt
Fehldiagnose Overengineering Missverstandene Anweisung à Regelbasierte Sensoren fangen Struktur zuverlässig, KI-gestützte fangen Semantik teilweise. à Sensoren können nur abfangen, was Menschen explizit formulieren und spezifizieren. Der Mensch bleibt der Sensor letzter Instanz.

33 Harness Engineering embarc.de embarc.de Wo die Sensoren sitzen Edit-Time
› Agent-Self-Check › Pre-Commit › CI › Monitoring ◂ früh · schnell · günstig spät · gründlich · teuer ▸ Defense in Depth Kein einzelner Punkt fängt alles. Verteilt Sensoren über den Lifecycle (schnelle Checks früh, gründliche spat) Drift-Sensoren laufen ohne Auslöser Toter Code, Dependency-Vulnerabilities, SLO-Erosion.

34 Harness Engineering embarc.de embarc.de Welche Harness ist möglich? Wie
viel Harness ihr bauen könnt, hängt davon ab, welche Eingriffspunkte euer Coding-Agent-Tool euch lässt. Mehr Eingriffspunkte → mächtigere Harness Hooks (Code, der vor/nach jeder Agent-Aktion läuft), Regel-Dateien, Tool-Freigaben. Eine Blackbox lässt sich kaum harnessen. Dieselben Rechte sind Angriffsfläche Ein Agent mit breitem Tool-Zugriff ist angreifbar (Prompt-Injection). Die Rechte des Agents bewusst zuzuschneiden gehört zur Harness. Bei Tool-Auswahl, muss die “harnessbarkeit” ein wichtiges Kriterium sein. Hintergrund: Ashbys „Requisite Variety

35 Harness Engineering embarc.de embarc.de Was noch nicht bewiesen ist
Keine große kontrollierte Studie belegt bisher die holistische Effektivität von Harness Engineering. WIR KENNEN DAS PROBLEM DORA, Faros AI ohne Struktur verschlechtert die Delivery-Stabilität. ES GIBT INDIKATOREN TDAD Gezielter Kontext senkt Regressionen ~70 % IN DER PRAXIS POSITIVE SIGNALE Stripe, OpenAI, Anthropic Harnesses funktionieren produktiv und im großen Maßstab.

36 Harness Engineering embarc.de „The harness is most needed where
it is hardest to build.“ - Brigitta Böckeler, “Harness engineering for coding agent users”

37 Harness Engineering embarc.de embarc.de Harnessability Harnessability = wie gut
sich eine Codebasis für Agents führen und prüfen lässt. Eine Architektur-Qualitätseigenschaft wie Wartbarkeit oder Skalierbarkeit. Starke Typisierung Type-Checking gibt es praktisch geschenkt. Klare Modulgrenzen erlauben architektonische Constraint-Regeln. Opinionated Frameworks abstrahieren weg, worum der Agent sich nicht kümmern muss. Brownfield-Codebasen haben oft geringe “Harnessability”

38 Harness Engineering embarc.de embarc.de Inkrementell, nicht Big Bang Eine
große Codebasis harnesst man nicht auf einmal. Jeder Agent-Fehler wird zu einem neuen Guide/Sensor. der erste Guide/Sensor neue kommen dazu tragfähige Harness Zeit ▸

39 Harness Engineering embarc.de 05. Abschluss & Ausblick Was ändert
sich nun konkret für euch und was sollt ihr tun?

40 Harness Engineering embarc.de embarc.de Was sich für Architekt:innen ändert
Code schreiben früher der Kern Harness schreiben jetzt der Hebel Architekturarbeit wird wichtiger Kontext verstehen, Ziele klären, Regeln formulieren. Die Harness amortisiert Ein Sensor von heute schützt jeden zukünftigen PR.

41 Harness Engineering embarc.de embarc.de Wenn ihr das ins Unternehmen
tragt Was euch in der Praxis erwartet: Harnesses brauchen Pflege Qualität von Guides/Sensoren sind Handwerk Brownfield ist zäh Team-Buy-in ist nötig Der Nutzen kommt nicht sofort Harness kostet Tokens

42 Harness Engineering embarc.de embarc.de Take-aways & nächste Schritte Agents
brauchen eine Harness um zuverlässig zu sein. Harness Engineering ist Engineering Code, Tests, Evolution. Architekturarbeit wird wichtiger nicht obsolet. Aufgabe: Nimm ein Architekturziel, formuliere es als einen Sensor, lass einen Coding Agent dagegen laufen.

43 Harness Engineering embarc.de embarc.de Vertiefung mit Praxisanteil 12. –
16. Oktober 2026 | Berlin

44 Harness Engineering embarc.de embarc.de Folien & Code https://embarc.de/harness-engineering-sas-preview-ak/ Folien
Code https://github.com/alexksbr/harness-engineering-demo

45 Harness Engineering embarc.de Feedback & Fragen? Ich freue mich
auf Fragen & Diskussionen!

Architekturziele für Coding Agents mit Harness ...

Architekturziele für Coding Agents mit Harness Engineering

Featured

Transcript