certifai — Der Agent Harness. Live, self-hosted, prüffest.

Das Problem

Agentische KI handelt selbständig. Ihre Kontrolle bisher nicht.

Unternehmen setzen Agenten ein, die Tools aufrufen, Aktionen verketten und nicht-deterministisch entscheiden. Vier Lücken entstehen fast immer gleichzeitig:

Kein Inventar

Niemand weiß verlässlich, welche Agenten wo mit welchen Rechten laufen — geschweige denn, wer sie verantwortet.

Keine Leitplanken zur Laufzeit

Richtlinien stehen im Wiki. Der Agent, der gerade 84.500 € überweist, hat sie nie gelesen.

Keine Beobachtbarkeit

Fehlverhalten und Drift fallen auf, wenn der Schaden entstanden ist — nicht davor.

Kein Nachweis

Im Prüffall fehlt der lückenlose, fälschungssichere Verlauf. Rekonstruktion aus E-Mails ist kein Audit-Trail.

02.08.2026 Ab diesem Datum gilt der EU AI Act allgemein — mit aktiver Aufsicht und Sanktionen bis 35 Mio. € oder 7 % des Umsatzes. Verschoben sind nur die High-Risk-Kataloge. Die Nachweis-Arbeit beginnt jetzt.

Die Lösung

Der Agent Harness — fünf Kontrolldimensionen, ein System

Verlässlichkeit entsteht nicht im Prompt, sondern an der Aktionsgrenze. Der Harness macht Kontrolle im Betrieb erzwingbar — und beweisbar. certifai ist seine lauffähige Referenzimplementierung.

Dimension	Was certifai tut	Stand
Ausführungssteuerung	Agenten pausieren, stoppen, reaktivieren — Kill-Switch per API und Dashboard, jede Änderung auditiert.	live
Tool- & Aktionskontrolle	Policy-Gate an der Aktionsgrenze: allow / block / pause. Irreversible Aktionen erfordern menschliche Freigabe.	live
Observability & Audit	OpenTelemetry-Datenvertrag, Trace-Store, hash-verketteter WORM-Audit-Trail — Manipulation fällt kryptografisch auf.	live
Identität, Kontext & Daten	Tool-Berechtigungen je Agent und Risikoklasse, deny by default. Identity-Federation über Partner.	live (Basis)
Evaluation & Qualität	Qualitäts- und Drift-Sicht auf die gemeinsame Trace-Basis (Langfuse, Phoenix).	in Arbeit

Das Cockpit

Ein Blick, ein Urteil: Wer läuft, wer wurde gestoppt, ist die Kette intakt?

Die Posture-Ansicht der Referenz-Instanz — Agenten-Inventar mit Kill-Switch, letzte Gate-Entscheidungen, Kontroll-Treffer und der Live-Status der Beweiskette.

🔒 certifai.buchta.systems/dashboard

Agenten2 2 aktiv

Gate-Entscheidungen7 4 Eingriffe (block/pause)

Control-Hits6 EU AI Act · ISO 42001 · MaRisk/DORA*

Audit-Trail10 Kette intakt ✓ · head 1a6fcbc9…

#5 · AG-014 · transfer_funds Human-Gate: menschliche Freigabe erforderlich pause

#4 · AG-014 · check_balance Innerhalb der freigegebenen Grenzen allow

Der Kern

Ein Request. Zwei Regulatorik-Nachweise. Null Nacharbeit.

Als der Zahlungs-Assistent transfer_funds vorlegte, antwortete das Gate nicht nur mit „angehalten" — es lieferte die Belege gleich mit: welcher Artikel des EU AI Act greift, welche MaRisk-Kontrolle betroffen ist, und den Eintrag in der fälschungssicheren Kette.

Für Ihre Prüfer heißt das: Der Nachweis entsteht im Moment der Entscheidung — nicht Wochen später in einer Excel-Rekonstruktion. Ein Export-Endpunkt liefert das komplette Bundle inklusive Kettenverifikation.

EU AI ActISO/IEC 42001 MaRisk*DORA*
* angelehnte Demo-Mappings — die fachliche Freigabe erfolgt durch den Regulatorik-Partner.

{
  "decision": "pause",
  "reason": "'transfer_funds' ist irreversibel —
             menschliche Freigabe erforderlich",
  "controls": [
    { "framework": "EU AI Act",
      "control_id": "art-14",
      "severity": "high" },
    { "framework": "MaRisk (angelehnt)",
      "control_id": "at-4.3.2",
      "severity": "high" }
  ],
  "audit_seq": 5,
  "audit_head": "1a6fcbc9256e54d8…"
}

Regulatorik als Daten

Neue Vorschrift? Ein versionierter Commit — kein Software-Release.

Kontrollen liegen als versionierte Policy-Packs vor: nachvollziehbar, mit Autor, Diff und Freigabe. Ändert sich die Regulatorik, ändern sich die Daten — die Plattform bleibt stehen. Genau hier entsteht laufender Wert: gepflegte, fachlich freigegebene Packs im Abonnement.

Heute im System

EU AI Act (Art. 12/14/15) · ISO/IEC 42001 · MaRisk- und DORA-angelehnte Financial-Services-Packs · Harness-Regeln (irreversible Aktionen, Tool-Allowlists je Risikoklasse).

Deny by default

Was nicht ausdrücklich erlaubt ist, wird blockiert — und der Verstoß gegen das Berechtigungskonzept selbst wird als Kontroll-Treffer dokumentiert.

Co-Creation eingebaut

Die fachliche Härtung der Packs ist bewusst die Rolle des Prüfungs- und Regulatorik-Partners — Software und Assurance greifen ineinander.

Vertrauen

Souveränität ist keine Fußnote. Sie ist die Architektur.

Self-hosted in Ihrer Umgebung

certifai läuft in Ihrer VPC oder auf Ihrer Infrastruktur. Traces und Inferenzdaten — die sensibelsten Daten, die Sie haben — verlassen Ihr Haus nicht. Kein US-SaaS, kein Datenabfluss.

OSS-first, prüfbarer Kern

Best-of-Breed-Open-Source hinter klaren Schnittstellen (OpenTelemetry, Langfuse, ClickHouse). Was Ihre Compliance prüfen will, kann sie lesen.

Kein Lock-in

Der OpenTelemetry-GenAI-Standard ist der einzige Datenvertrag. Agenten werden einmal instrumentiert; jede Komponente bleibt austauschbar.

Beweis statt Broschüre

Diese Seite läuft auf derselben gehärteten EU-Instanz wie das System dahinter: TLS, Firewall, tägliche Backups mit bestandener Restore-Probe — dokumentiert im Betriebs-Runbook. Sie lädt nichts von Dritten und setzt keine Cookies.

Sehen Sie den Harness laufen.

20 Minuten, Ihr Browser genügt: Live-Gate, Kill-Switch, Evidence-Export auf der Referenz-Instanz — und danach die Frage, wie Ihre Agenten unter den Harness kommen.

Demo-Termin anfragen Live-Dashboard (Zugang auf Anfrage)