Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Architekturziele für Coding Agents mit Harness ...

Avatar for Alex Kaserbacher Alex Kaserbacher
May 26, 2026
10

Architekturziele für Coding Agents mit Harness Engineering

Avatar for Alex Kaserbacher

Alex Kaserbacher

May 26, 2026

Transcript

  1. 0 Harness Engineering embarc.de embarc Architekturziele für Coding Agents mit

    Harness Engineering Alexander Kaserbacher 26.05.2026
  2. 2 Harness Engineering embarc.de embarc.de Agenda 1 Warum Harness Engineering?

    2 Was ist Harness Engineering? 3 Wir bauen eine Harness 4 Was wir gelernt haben 5 Abschluss & Ausblick
  3. 6 Harness Engineering embarc.de embarc.de AI ist ein Verstärker „AI’s

    primary role in software development is that of an amplifier. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.“ DORA State of AI-assisted Software Development 2025 +243 % mehr Incidents pro Pull Request 31 % mehr ungeprüfte Merges −19 % gemessen langsamer Coding Agents schreiben Code, doch Software-Entwicklung ist mehr. Verifikation und Kontext- Einschätzung sind der Flaschenhals und deutlich schwerer zu automatisieren. „Key Takeaways from the DORA Report 2025" (Git-Telemetrie-Analyse), faros.ai „Key Takeaways from the DORA Report 2025" (Git-Telemetrie-Analyse), faros.ai „Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity" (Juli 2025), metr.org
  4. 7 Harness Engineering embarc.de Coding Agents sind nicht zuverlässig genug,

    um sie produktiv ohne Aufsicht einzusetzen. Harness Engineering automatisiert diese Aufsicht teilweise, benötigt aber selbst Engineering-Arbeit*. * Harness wird entworfen, hat Bugs, braucht Tests, wird iteriert und muss sich weiterentwickeln
  5. 8 Harness Engineering embarc.de 02. Was ist Harness Engineering? Guides,

    Sensoren, deterministisch/inferential, Steering Loop
  6. 9 Harness Engineering embarc.de embarc.de Agent = Model + Harness

    Harness Prompt, Tools, Kontext, Regeln, Prüfungen Euer Gestaltungsraum Agent = Model + Harness Quelle: „The Anatomy of an Agent Harness“, LangChain Model „TLDR: Agent = Model + Harness. Harness engineering is how we build systems around models to turn them into work engines. The model contains the intelligence and the harness makes that intelligence useful. […]“
  7. 10 Harness Engineering embarc.de embarc.de Inner & Outer Harness USER

    BUILDER Modell Builder Harness Der innere Ring ist vom Tool-Hersteller: System-Prompt, Retrieval, Orchestrierung User Harness Der äußere Ring ist von euch, für euer System: alles, womit ihr den Agent führt und prüft. Der äußere Ring ist euer Gestaltungsraum.
  8. 11 Harness Engineering embarc.de embarc.de Drei Regulationskategorien Maintainability Code-Qualität am

    reifsten, viel Tooling Architecture Fitness Architekturziele durchsetzen einiges an Tooling, (noch) nicht breit eingesetzt Behaviour funktionale Korrektheit am schwierigsten Unser Fokus heute liegt hier
  9. 12 Harness Engineering embarc.de embarc.de Die zwei Dimensionen ZEITPUNKT GUIDE

    wirkt, bevor der Agent handelt Feedforward Agent handelt SENSOR prüft, nachdem der Agent handelt Feedback AUSFÜHRUNG Regelbasiert berechnet, schnell, zuverlässig KI-gestützt KI-gestützt, semantisch, probabilistisch
  10. 13 Harness Engineering embarc.de embarc.de Beispiele REGELBASIERT KI-GESTÜZT Guide Sensor

    Tool-Whitelists z.B. Projekt-Templates Instruktionen z.B. AGENTS.md, Skills Tests z.B. Archunit, Linter, Type-Checker Intelligente Prüfungen z.B. LLM-as-Judge, Review- Agent
  11. 15 Harness Engineering embarc.de embarc.de Behavioral Harness: Spec-Driven Development Spec-Driven

    Development ist ein KI-gestützter Guide: die Spec steuert den Agent und aus ihr entstehen zugleich die Sensoren (Akzeptanzkriterien). Kategorie “Behavioral Harness” Spec beschriebt Systemverhalten und wird zur Quelle der Wahrheit Aber … Löst nicht die Frage, ob der Mensch (der die Spec formuliert/liest) das Problem überhaupt verstanden hat. Beispiele: GitHub Spec Kit, AWS Kiro, Tessl
  12. 16 Harness Engineering embarc.de embarc.de Was hier nicht neu ist

    Fitness Functions z. B. ArchUnit, dependency-cruiser CI/CD Quality Gates etablierte Pipeline-Prüfungen Control Theory / Ashby Regulator braucht so viel Vielfalt wie das System Harness Engineering = Synthese für einen neuen Failure-Modus à nicht-deterministische Generatoren. Ford/Parsons/Kua, „Building Evolutionary Architectures“, W. R. Ashby, „An Introduction to Cybernetics“
  13. 17 Harness Engineering embarc.de embarc.de Die Steering Loop Agent handelt

    Mensch beobachtet Harness verbessern der nächste Lauf ist besser geführt Der Mensch steuert den Agent, indem er die Harness iterativ verbessert.
  14. 18 Harness Engineering embarc.de embarc.de Wer macht das schon? Stripe

    1.300+ PRs/Woche Agent-Flotte „Minions“, „Blueprints“, „Toolshed“ (~500 Tools) OpenAI ~1 Mio. Zeilen 3 Engineers, ~1.500 PRs / 5 Monate „With coding agents, [constraints are] an early prerequisite; they're what allow speed without decay or architectural drift.“ Anthropic Multi-Agent Planner / Generator / Evaluator-Harness „Every component in a harness encodes an assumption about what the model can't do on its own.“ Quellen: stripe.dev, openai.com, anthropic.com
  15. 20 Harness Engineering embarc.de embarc.de Das Setup Controller Service Repository

    Entities Aufgabe an den Agent „Add a new endpoint GET /api/profiles/top?limit=10 to this app. It returns the top N user profiles ranked by their follower count (descending). For each profile include: username, bio, image, follower count, and the user's email address. TypeScript-Backend mit ORM, Schichtenarchitektur (NestJS + MikroORM)
  16. 22 Harness Engineering embarc.de embarc.de Analyse: drei Findings Layer Raw

    SQL im Service. Hardcoded Tabellennamen, ORM umgangen. PII E-Mail im öffentlichen Listing-Endpoint exponiert. Bounds limit-Parameter ohne Obergrenze (ist ein DoS-Angriffsvektor).
  17. 23 Harness Engineering embarc.de embarc.de Guide bauen: AGENTS.md AGENTS.md =

    Guide Feedforward, regelbasiert. Die PII-Regel: kein PII in Listing-Endpoints. Cross-Tool-Standard AGENTS.md ist ein offener Standard (Agentic AI Foundation), kompatibel mit vielen Coding Agents Selber schreiben LLM-generierte Kontextdateien können manchmal weniger effektiv sein.
  18. 24 Harness Engineering embarc.de embarc.de Sensor 1: regelbasiert + strukturell

    Semgrep-Regel Verbietet Raw SQL im Service-Layer (regelbasiert, schnell) Agent-instruktive Message Sagt dem Agent warum ein Fehler existiert und wie er zu beheben ist Ein Agent mit gezieltem Verifikations-Kontext machte ~70 % weniger neue Fehler. Eine vage Anweisung ohne diesen Kontext machte es schlimmer (“mach TDD”). → Entscheidend ist wie präzise der Sensor antwortet. Quelle: TDAD, arXiv:2603.17973
  19. 25 Harness Engineering embarc.de embarc.de Sensor 2: regelbasiert + runtime

    Semgrep (statisch) fängt die fehlende Obergrenze auf limit K6 (runtime) Last gegen ?limit=10000, Thresholds Im Repo, in der Demo nicht ausgeführt
  20. 26 Harness Engineering embarc.de embarc.de Sensor 3: KI-gestützt LLM-as-Judge Prüft

    den Diff gegen die AGENTS.md-Regeln für semantische Verstöße. Backstop Falls der Agent den Guide nicht befolgt, fängt der Judge es. Defense in Depth. Implementierungs-Landschaft Direct-Call, Hook, Sub-Agent, MCP KI-gestützt = semantisch reich, aber probabilistisch.
  21. 29 Harness Engineering embarc.de embarc.de Ohne Harness vs. mit Harness

    OHNE HARNESS MIT HARNESS Layer Raw SQL im Service QueryBuilder, im ORM-Layer PII email exposed kein Email-Feld, Test prüft Abwesenheit Bounds nur untere Schranke Ober- und Untergrenze (Max 100)
  22. 31 Harness Engineering embarc.de embarc.de Harnesses sind Code Eine Harness

    ist kein einmaliges Setup, sondern Software, mit allem, was dazugehört: Bugs sie hat Fehler Tests muss geprüft werden Iteration Regeln nachschärfen Evolution ändert sich mit AUS DEM EXPERIMENT Unsere eigene Harness hatte zwei Bugs: eine Semgrep-Regel, die generische Typen nicht erkannte, und ein Judge, der den falschen Diff verglich. Eine Harness ist nie fertig. Pflege ist laufende Architekturarbeit.
  23. 32 Harness Engineering embarc.de embarc.de Was kein Sensor zuverlässig fängt

    Fehldiagnose Overengineering Missverstandene Anweisung à Regelbasierte Sensoren fangen Struktur zuverlässig, KI-gestützte fangen Semantik teilweise. à Sensoren können nur abfangen, was Menschen explizit formulieren und spezifizieren. Der Mensch bleibt der Sensor letzter Instanz.
  24. 33 Harness Engineering embarc.de embarc.de Wo die Sensoren sitzen Edit-Time

    › Agent-Self-Check › Pre-Commit › CI › Monitoring ◂ früh · schnell · günstig spät · gründlich · teuer ▸ Defense in Depth Kein einzelner Punkt fängt alles. Verteilt Sensoren über den Lifecycle (schnelle Checks früh, gründliche spat) Drift-Sensoren laufen ohne Auslöser Toter Code, Dependency-Vulnerabilities, SLO-Erosion.
  25. 34 Harness Engineering embarc.de embarc.de Welche Harness ist möglich? Wie

    viel Harness ihr bauen könnt, hängt davon ab, welche Eingriffspunkte euer Coding-Agent-Tool euch lässt. Mehr Eingriffspunkte → mächtigere Harness Hooks (Code, der vor/nach jeder Agent-Aktion läuft), Regel-Dateien, Tool-Freigaben. Eine Blackbox lässt sich kaum harnessen. Dieselben Rechte sind Angriffsfläche Ein Agent mit breitem Tool-Zugriff ist angreifbar (Prompt-Injection). Die Rechte des Agents bewusst zuzuschneiden gehört zur Harness. Bei Tool-Auswahl, muss die “harnessbarkeit” ein wichtiges Kriterium sein. Hintergrund: Ashbys „Requisite Variety
  26. 35 Harness Engineering embarc.de embarc.de Was noch nicht bewiesen ist

    Keine große kontrollierte Studie belegt bisher die holistische Effektivität von Harness Engineering. WIR KENNEN DAS PROBLEM DORA, Faros AI ohne Struktur verschlechtert die Delivery-Stabilität. ES GIBT INDIKATOREN TDAD Gezielter Kontext senkt Regressionen ~70 % IN DER PRAXIS POSITIVE SIGNALE Stripe, OpenAI, Anthropic Harnesses funktionieren produktiv und im großen Maßstab.
  27. 36 Harness Engineering embarc.de „The harness is most needed where

    it is hardest to build.“ - Brigitta Böckeler, “Harness engineering for coding agent users”
  28. 37 Harness Engineering embarc.de embarc.de Harnessability Harnessability = wie gut

    sich eine Codebasis für Agents führen und prüfen lässt. Eine Architektur-Qualitätseigenschaft wie Wartbarkeit oder Skalierbarkeit. Starke Typisierung Type-Checking gibt es praktisch geschenkt. Klare Modulgrenzen erlauben architektonische Constraint-Regeln. Opinionated Frameworks abstrahieren weg, worum der Agent sich nicht kümmern muss. Brownfield-Codebasen haben oft geringe “Harnessability”
  29. 38 Harness Engineering embarc.de embarc.de Inkrementell, nicht Big Bang Eine

    große Codebasis harnesst man nicht auf einmal. Jeder Agent-Fehler wird zu einem neuen Guide/Sensor. der erste Guide/Sensor neue kommen dazu tragfähige Harness Zeit ▸
  30. 39 Harness Engineering embarc.de 05. Abschluss & Ausblick Was ändert

    sich nun konkret für euch und was sollt ihr tun?
  31. 40 Harness Engineering embarc.de embarc.de Was sich für Architekt:innen ändert

    Code schreiben früher der Kern Harness schreiben jetzt der Hebel Architekturarbeit wird wichtiger Kontext verstehen, Ziele klären, Regeln formulieren. Die Harness amortisiert Ein Sensor von heute schützt jeden zukünftigen PR.
  32. 41 Harness Engineering embarc.de embarc.de Wenn ihr das ins Unternehmen

    tragt Was euch in der Praxis erwartet: Harnesses brauchen Pflege Qualität von Guides/Sensoren sind Handwerk Brownfield ist zäh Team-Buy-in ist nötig Der Nutzen kommt nicht sofort Harness kostet Tokens
  33. 42 Harness Engineering embarc.de embarc.de Take-aways & nächste Schritte Agents

    brauchen eine Harness um zuverlässig zu sein. Harness Engineering ist Engineering Code, Tests, Evolution. Architekturarbeit wird wichtiger nicht obsolet. Aufgabe: Nimm ein Architekturziel, formuliere es als einen Sensor, lass einen Coding Agent dagegen laufen.