Zuletzt aktualisiert: 26.05.2026

Was ist ein Harness? Der fehlende Layer zwischen LLM und echter Ausführung

Viele reden über „Agentic AI“, aber kaum jemand erklärt sauber den Unterschied zwischen Modell und Harness. Genau da entstehen falsche Erwartungen: Ein starkes Modell allein liefert noch keinen stabilen Workflow — und ein mächtiger Agenten-Stack ist wenig wert, wenn dir nach Updates oder Backups regelmäßig alte Baustellen wieder um die Ohren fliegen.

In diesem Artikel klären wir praxisnah:

was ein Harness wirklich ist,
warum Codex/Claude Code hier aktuell einen Vorsprung haben,
warum Google/Gemini in vielen Setups (noch) nicht gleich aufgestellt ist,
wo OpenClaw funktional weiterhin stärker ist,
und warum Hermes im Alltag oft mit der langweiligeren, aber wichtigeren Stärke punktet: weniger Betriebschaos nach Updates, Backups und Wartung.

Inhalt

Modell ≠ Harness: Der meistverwechselte Punkt
Was ein Harness konkret macht (Tooling, Rechte, Ausführung)
Warum Codex/Claude Code dadurch produktiver wirken
Warum Gemini/Google (noch) nicht überall denselben Harness-Stand haben
Wie nah Harness-Setups schon an OpenClaw kommen
Wo OpenClaw weiterhin klar differenziert
Praxis-Fazit: Wann Hermes sinnvoller ist — und wann OpenClaw

1) Modell ≠ Harness: Der meistverwechselte Punkt

Ein LLM ist die Denk-Engine. Ein Harness ist die Ausführungs-Schicht darum herum.

Ohne Harness bekommst du gute Antworten. Mit Harness bekommst du reproduzierbare Arbeit:

Dateien lesen/schreiben
Kommandos ausführen
Zwischenschritte validieren
Fehler erkennen und erneut versuchen
Ergebnisse strukturiert zurückliefern

Merksatz: Das Modell denkt. Das Harness liefert.

2) Was ein Harness konkret macht (Tooling, Rechte, Ausführung)

Ein brauchbarer Harness verbindet das Modell mit einer kontrollierten Laufzeit:

Tool-Aufrufe statt nur Textvorschläge
Ausführungs-Kontext (Repo, Pfade, Prozesse)
Rechte-/Scope-Grenzen
Logs und Nachvollziehbarkeit
optional: Session-Isolation

Ohne diese Ebene bleibt „Agentic AI“ oft Demo-Show. Mit ihr wird es arbeitsfähig.

3) Warum Codex/Claude Code dadurch produktiver wirken

Codex/Claude Code werden oft als „cleveres Modell“ wahrgenommen — tatsächlich ist der große Hebel die Harness-Integration:

direkter Zugriff auf Codebase + Shell
iterative Loops (Plan → Edit → Run → Fix)
strukturierter Kontext über mehrere Schritte

Das fühlt sich nicht wie Chat an, sondern wie ein junior-to-mid Engineer-Loop mit hoher Geschwindigkeit.

4) Warum Gemini/Google (noch) nicht überall denselben Harness-Stand haben

Wichtig: Es geht nicht um „Gemini ist schlecht“ — sondern um Produktreife der Ausführungsumgebung.

In vielen Setups ist die Lücke heute nicht primär Modellqualität, sondern:

weniger standardisierte Harness-Integration im konkreten Tool-Stack
schwächere End-to-End-Workflows out-of-the-box
mehr Integrationsaufwand für denselben Betriebsmodus

Das kann sich ändern. Aber im Praxisvergleich zählt, was heute stabil läuft.

5) Wie nah Harness-Setups schon an OpenClaw kommen

Mit gutem Harness sind wir schon erstaunlich nahe an OpenClaw-Kernideen:

multi-step Ausführung
Tooling statt reine Textantworten
reproduzierbare Workflows

Für reine Coding-Aufgaben reicht das oft weit.

6) Wo OpenClaw weiterhin klar differenziert

Die spannendere Frage ist nicht „Hat OpenClaw auch Tools?“, sondern: Wo ist es im echten Betrieb heute sichtbar stärker als ein schlankeres Hermes-Setup? Drei konkrete öffentliche Beispiele zeigen die Richtung.

Erstens: Channel-first Workflows mit echter Messaging-Tiefe. OpenClaw investiert sichtbar in Telegram als primäre Arbeitsoberfläche, nicht nur als Benachrichtigungskanal. Das sieht man schon daran, wie spezifisch Probleme und Fixes diskutiert werden — etwa bei TTS/Voice-Note-Routing, wo Antworten als echte Voice Messages statt als generische Audio-Dateien sauber ausgeliefert werden sollen.[1] Wenn dein Alltag aus Telegram, Threads, Sprachmemos und agentischen Rückkanälen besteht, ist das ein echter Produktvorteil.

Zweitens: komplexere Subagent-Lebenszyklen. Für längere, thread-gebundene Arbeit hat OpenClaw inzwischen sogar eine eigene „completion ownership“-Logik dokumentiert: also die Frage, ob das Ergebnis beim Worker-Thread, bei der anfragenden Session oder wieder im Ursprungskanal landet.[2] Das ist ein schönes Beispiel für einen Bereich, in dem OpenClaw eher wie ein Betriebssystem für Agenten wirkt, während Hermes bewusst leichter und direkter bleibt.

Drittens: tiefe Memory-/Privacy-Workflows für Agentenbetrieb. Mit Themen wie Privacy Audit und verschlüsseltem Memory-Export zeigt der öffentliche Tracker, dass OpenClaw stärker auf langlaufende, zustandsbehaftete Agentensysteme zielt.[3] Für Setups mit mehreren Oberflächen, persistenten Agenten und geteilter Langzeit-Continuity ist das ein Bereich, in dem OpenClaw funktional oft vor Hermes liegt.

Kurz gesagt: Harness-Tools wie Codex oder Claude Code dominieren den Editor-Loop. OpenClaw dominiert eher dort, wo Agentik über Kanäle, Threads, Memory und Dauerbetrieb hinweg zusammenhängen muss.

7) Praxis-Fazit: Wann Hermes sinnvoller ist — und wann OpenClaw

Jetzt zum unangenehmen, aber wichtigen Teil: Der größte Hermes-Vorteil ist für viele Nutzer nicht das spektakulärere Feature, sondern das geringere Wartungsdrama. Genau dort zeigen öffentliche OpenClaw-Issues ein wiederkehrendes Muster: Updates können Gateways hängen lassen, laufende Prozesse mit veralteten Bundle-Imports zurücklassen, macOS-Services zu Neustart-Schleifen treiben oder beim Re-Install TLS-relevante Variablen überschreiben.[4][5][6][7]

Das ist mehr als nur „ein Bug hier und da“. Für Operatoren heißt das in der Praxis: Backup gemacht, Update gemacht, und plötzlich funktionieren zwei alte Dinge nicht mehr, während drei neue halbfertig wirken. Genau deshalb bleiben Power-User solcher Systeme oft absichtlich auf älteren stabilen Versionen, statt jedes Release sofort mitzunehmen. Nicht aus Faulheit, sondern weil ein produktiver Agenten-Stack sonst schnell in ein Reparatur-Abo kippt — idealerweise mit Claude Code oder Codex daneben, um die Scherben wieder zusammenzukehren.

Hier punktet Hermes derzeit oft besser: weniger Plattform-Magie, weniger überladene Runtime-Pfade, weniger „alles hängt am Gateway“-Komplexität. Das macht Hermes nicht automatisch mächtiger, aber in vielen Alltags-Setups wartbarer. Fairnesshalber: Auch Hermes ist nicht bugfrei — im öffentlichen Tracker gibt es z. B. ebenfalls einen harten Report zu verschwundenen Cron-Jobs nach einem Update.[8] Der Unterschied ist eher die Betriebsökonomie: Wenn du ein System täglich benutzen willst, ohne nach jedem Wartungsfenster wieder stundenlang zu debuggen, wird diese Langweiligkeit plötzlich zu einem verdammt guten Feature.

Daraus ergibt sich eine viel praktischere Entscheidungsmatrix:

Nur Coding/Repo-Tasks: Codex oder Claude Code mit gutem Harness sind meist die schnellste Wahl.
Multi-Channel, Voice, Subagent-Topologien, tiefes Memory: OpenClaw hat hier aktuell die spannenderen Spezialfähigkeiten.
Alltags-Automation mit Fokus auf Stabilität und weniger Reparaturaufwand: Hermes ist oft die vernünftigere Wahl.
Gemini/Google-Setups: Potenzial hoch, aber aktuell stark abhängig vom konkreten Integrationsgrad im jeweiligen Stack.

Fazit + Ausblick

Die relevante Frage ist nicht „welches Modell ist am klügsten?“, sondern: Welche Laufzeit macht aus Intelligenz verlässliche Ausführung?

Teil 5 zeigt genau diesen Übergang von Chat zu operativer Agentik. Im nächsten Teil könnten wir daraus eine konkrete Matrix bauen: Task-Typ → bestes Setup (Harness-only vs. OpenClaw orchestration).

Weiterführende Links

OpenClaw Docs: https://docs.openclaw.ai
OpenClaw GitHub: https://github.com/openclaw/openclaw
OpenClaw Community: https://discord.com/invite/clawd

Quellen zu den Praxisbeispielen

[1] OpenClaw PR: Fix Telegram TTS voice-note routing — https://github.com/openclaw/openclaw/pull/84791 [2] OpenClaw PR: Add native subagent completion ownership — https://github.com/openclaw/openclaw/pull/80544 [3] OpenClaw PR: Memory Privacy Audit + Encrypted Backup — https://github.com/openclaw/openclaw/pull/81008 [4] OpenClaw Issue: UI Update button breaks Gateway when npm global + launchd — https://github.com/openclaw/openclaw/issues/85246 [5] OpenClaw Issue: Auto-update can leave running gateway with stale hashed bundle imports — https://github.com/openclaw/openclaw/issues/85844 [6] OpenClaw Issue: macOS launchd Gateway still restarts via gateway-update/update.run — https://github.com/openclaw/openclaw/issues/86417 [7] OpenClaw Issue: gateway install –force overwrites NODE_EXTRA_CA_CERTS, breaking TLS trust on update — https://github.com/openclaw/openclaw/issues/86579 [8] Hermes Issue: Updated deleted all my cron — https://github.com/NousResearch/hermes-agent/issues/26737