Tang Daosheng: Künstliche Intelligenz tritt offiziell in die Harness-Ära ein.
Im Frühling 2026 trat in der KI-Branche eine bemerkenswerte Veränderung auf: Die Leute redeten nicht mehr nur über Modelle.
In den letzten drei Jahren war das beliebteste Thema in der gesamten Branche die Anzahl der Modellparameter. 175 Milliarden, Billionen, Hundert Billionen - die Zahlen wurden immer größer und die Erzählungen immer aggressiver. Bei jedem Parameter-Sprung folgte eine Runde von Diskussionen über "Emergenzfähigkeiten". Das Modell lernte zu schließen, zu programmieren und zu schaffen, und es schien, als fehlte es nur noch einen Schritt, um echte Intelligenz zu erreichen.
Dann rührte ein kleiner Krebs die gesamte Branche auf.
OpenClaw veröffentlichte kein neues Modell, verbesserte keine Benchmarks und trainierte nicht einmal einen neuen Parameter. Es tat nur eine einfache Sache: Es baute für das große Modell eine vollständige Arbeitsumgebung auf: Dateisystem, Codesandbox, Toolchain, Feedback-Schleife, automatische Prüfung. In dieser Umgebung war dasselbe Modell nicht mehr nur ein Chatbot, der nur Gespräche führen konnte, sondern ein intelligentes Agens, das kontinuierlich arbeiten und Probleme autonom lösen konnte.
Es gibt nur eine Variable: die Hülle. Und diese Hülle hat jetzt einen offiziellen Namen, Harness.
Harness bedeutet wörtlich "Gespann", eine Sammelbezeichnung für Zügel, Zaumzeug, Sattel und Zuggeschirr. Ein wilder Hengst hat eine erstaunliche Kraft, aber ohne Zügel kannst du ihn nicht besteigen, ohne Zuggeschirr kann er keinen Wagen ziehen und ohne Sattel sitzt du nicht fest. Die Kraft des Pferdes ist roh und gewaltig, und Harness ist das System, das diese Kraft in den Antrieb für den Fortschritt der Zivilisation umwandelt.
Die Umsetzung von KI ist nicht nur ein Algorithmusproblem, sondern auch ein Engineeringproblem
Um Harness zu verstehen, brauchen wir einen klareren Rahmen:
Das große Modell ist der Motor, Harness ist das Kabelbaum und der Benutzer ist der Fahrer.
Der Motor kann die ursprüngliche Kraft liefern, aber er kann nicht allein fahren. Genauso kann das große Modell zwar denken und Gespräche führen, aber es hat keine Handlungsfähigkeit. Es braucht ein Kabelbaum, ein System, das die Kraft auf die Räder überträgt, die Signale auf das Armaturenbrett leitet und die Absichten des Fahrers in mechanische Bewegungen umsetzt, um ein fahrbereites Auto zu werden. Alle drei Elemente sind unentbehrlich, aber die Wertgewichtung dieser drei Elemente erfährt eine drastische Umverteilung.
In den letzten drei Jahren lag die Aufmerksamkeit der ganzen Welt auf dem Motor. OpenAI, Google, Anthropic, Meta - die klügsten Köpfe und die meisten Kapital wurden in eine Sache investiert: das Bauen eines größeren und stärkeren Motors. Das ist natürlich wichtig, ohne Motor geht nichts.
Aber es bildet sich ein Branchenkonsens: Die Steigerungskurve der Modellfähigkeiten verlangsamt sich. Die bloße Erhöhung von Parametern und Daten bringt immer weniger signifikante Leistungsschritte, die Grenznutzen sinkt drastisch.
Genauso wie in der Automobilindustrie vor hundert Jahren. Als alle Hersteller um die Motorleistung konkurrierten, erkannte Ford etwas anderes: Das Wichtige liegt nicht in der Leistung, sondern darin, wie die Leistung für die Normalbevölkerung nutzbar gemacht werden kann. Also erfand er die Fließbandfertigung, standardisierte Teile und das gesamte System, das das Auto von einem Spielzeug für Adelige zu einem Massenmittel wechselte. Im Wesentlichen war das das Harness der Industrierevolution.
Die heutige KI-Branche steht an derselben Wendepunkte.
Der Differenzierungsraum des Motors schrumpft, und der Wettbewerbsfokus verschiebt sich natürlich hin zu dem, wer den Motor besser nutzen kann. Das war ähnlich wie im CPU-Waffenlauf, der schließlich der Konkurrenz um Betriebssysteme und Anwendungsökosysteme wich. Die Chipleistung ist natürlich wichtig, aber das, was wirklich Wert schafft, ist die oberste Ebene.
Im Jahr 2026 veröffentlichte Anthropic eine Reihe von Engineering-Experimentdaten: Mit demselben Modell und demselben Prompt kosteten 20 Minuten mit einer einfachen Methode 9 Dollar, und die Kernfunktionen waren völlig nutzlos. Mit einem vollständigen Harness lief es 6 Stunden, kostete 200 Dollar und lieferte ein wirklich nutzbares Spiel, bei dem alle Kerninteraktionen funktionierten.
Das Modell blieb gleich, was sich änderte, war das Kabelbaum, das es steuert.
Alles außerhalb des Modells, einschließlich Code, Konfiguration, Ausführungslogik, Feedback-Schleife und Einschränkungsmechanismus, fällt in die Kategorie Harness. Das Modell ist die Quelle der Fähigkeiten, Harness macht diese Fähigkeiten zu einem nutzbaren System.
Wir haben auch ähnliche Erfahrungen in Tencent gemacht. Bei derselben Modellfähigkeit hat das Design des Scaffoldings, wie z.B. welche Tools für das Modell aufgerufen werden, wie die hierarchische Kontext-Engineering durchgeführt wird, wie das Langzeitgedächtnis verwaltet wird und wie der Arbeitsablauf gestaltet wird, einen großen Einfluss auf die tatsächliche Nutzbarkeit und die Kosten für Tokens.
Harness tritt in den Vordergrund
Warum trat Harness plötzlich im Jahr 2026 aus dem Hintergrund in den Vordergrund?
Der grundlegende Grund ist der Wandel des KI-Nutzungsparadigmas.
Das Jahr 2025 war das Jahr der Intelligenz-Agenten. Die Position des großen Modells hat sich von der Beantwortung von Fragen zu der Ausführung von Aufgaben entwickelt. Früher gabst du dem Modell eine Frage, und es gab dir eine Antwort - eine einmalige Interaktion, sauber und einfach. Aber Intelligenz-Agenten sind anders. Sie müssen kontinuierlich arbeiten, den Kontext merken, Tools aufrufen, entscheiden, was als nächstes zu tun ist, und sich selbst korrigieren, wenn sie Fehler machen.
Genauso wie die APPs in der Zeit des Mobilinternets werden Intelligenz-Agenten zur Hauptanwendungsplattform in der KI-Zeit. Intelligenz-Agenten machen aus dem Modell ein "Arbeiter". Und Arbeit erfordert von Natur aus eine Arbeitsumgebung, Tools, Dateisysteme, Feedback-Schleifen und Prüfkriterien. Dies alles ist Harness.
In dieser Arbeitsumgebung ist Skills einer der wichtigsten Module. Skills sind Fähigkeitseinheiten, die von großen Modellen direkt verstanden werden können und auf Textdarstellungen basieren. Sie sagen dem Modell, "Was ist dieses Tool, was kann es tun und wie wird es aufgerufen". Ihr Wert liegt in der Allgemeingültigkeit. Solange Skills auf natürlicher Sprache basieren, können sie von verschiedenen Harness-Frameworks aufgerufen werden. SkillHub ist die Plattform für den Austausch von Skills, die für diese Zeit gebaut wurde, um Fähigkeiten zu sammeln, wiederzuverwenden und über Frameworks hinweg zu teilen.
In der Engineering-Praxis wurden vier Schlüsselerkenntnisse gemacht, die direkt zur Verschiebung des Fokus geführt haben.
Erste Erkenntnis: Die Obergrenze der Modellfähigkeiten liegt nicht im Modell selbst, sondern außerhalb des Modells.
Das überzeugendste Experiment stammt von Nate B Jones: Mit demselben Modell stieg die Programmiererfolgsrate von 42 % auf 78 %, nur indem das Harness gewechselt wurde. Die Daten von LangChain bestätigen dies ebenfalls: Bei demselben Modell stieg die Punktzahl in Terminal Bench 2.0 von 52,8 % auf 66,5 %, und die Platzierung sprang von außerhalb der Top 30 direkt in die Top 5, nur indem das Harness geändert wurde.
Dies widerlegt die Annahme, dass man ein besseres Modell trainieren muss, um die KI stärker zu machen. Tatsächlich kann die Optimierung der "Hülle" außerhalb des Modells in diesem Moment einen höheren Rendite erzielen als das Warten auf das nächste Modell.
Zweite Erkenntnis: Einschränkungen sind keine Unterdrückung der Intelligenz, sondern eine Führung der Intelligenz.
Das Cursor-Team hat in großen Agent-Experimenten ein kontra-intuitives Phänomen festgestellt: Wenn das Modell alles generieren kann, verschwendet es viel Token, um in Sackgassen zu gelangen. Aber wenn Harness klare Grenzen definiert, konvergiert der Agent schneller zu der richtigen Antwort. Die Einschränkung des Lösungsspektrums erhöht die Produktivität des Agenten.
Dritte Erkenntnis: Harness macht das große Modell sicherer.
Ein großes Modell ohne Harness ist wie ein Praktikant ohne Betriebsanleitung. Es hat Fähigkeiten, aber man weiß nicht, was es als nächstes tun wird. Harness begrenzt den Handlungsraum des Modells auf einen kontrollierbaren Bereich durch Zugangsberechtigungen, Sandbox-Isolation, Betriebsprüfung und manuelle Genehmigungsstellen. Die meisten Harness-Frameworks definieren klar, welche Systeme zugegriffen werden können, welche Operationen eine Zweitbestätigung erfordern und welche Daten absolut nicht berührt werden dürfen.
Dies ist keine Schwächung der KI-Fähigkeiten, sondern eine Voraussetzung für die Einbindung von KI in die Unternehmensproduktion. Die KI muss Menschen vertrauenswürdig sein. Nur wenn man sie vertraut, kann man sie nutzen und tatsächlich einsetzen.
Vierte Erkenntnis: KI kann sich selbst nicht zuverlässig beurteilen.
Die Ingenieure von Anthropic haben festgestellt, dass ein Agent, wenn er seine gerade absolvierte Arbeit bewertet, sich selbstbewusst "gut gemacht" sagt, auch wenn die Qualität aus menschlicher Sicht offensichtlich schlecht ist. Ihre Beschreibung lautet: "Der out-of-the-box-Claude ist ein sehr schlechter QA-Agent." Dies bedeutet, dass das Modell allein keine effektive Qualitätskontrollschleife bilden kann. Es muss eine unabhängige Bewertungsmechanik außerhalb des Modells aufgebaut werden, was eine der Kernaufgaben von Harness ist.
Diese praktischen Erkenntnisse haben sich zu einer irreversiblen Tendenz zusammengeschlossen.
Werfen wir einen Blick auf die Entwicklung der KI-Engineering:
Von 2022 bis 2025 war das Stichwort Prompt Engineering, wie man eine gute Anweisung schreibt.
Im Jahr 2025 entwickelte es sich zu Context Engineering, wie man den gesamten Kontext dynamisch aufbaut.
Im Jahr 2026 ist Harness Engineering gekommen, wie man die gesamte Arbeitsumgebung aufbaut.
Um es bildlich zu sagen: Prompt Engineering ist wie ein Fahrerkarte für den Fahrer, Context Engineering ist wie ein Navigationssystem für den Fahrer, und Harness Engineering ist wie das Bauen eines kompletten Autos für den Fahrer, mit Armaturenbrett, Feedback-System, Sicherheitsbeschränkungen und Tempomat.
Jede Generation der Entwicklung negiert nicht die vorherige, sondern umfasst sie. Karten und Navigation sind wichtig, aber ohne Auto kann man mit Karten und Navigation nirgendwo hin.
Das Erwachen des Fahrers: Je stärker die KI, desto höher die Anforderungen an den Menschen
In der Dreiecksbeziehung zwischen Motor, Kabelbaum und Fahrer ist der Fahrer die am leichtesten zu vernachlässigende Rolle. In den letzten drei Jahren war das Modell der Hauptakteur der Erzählung, und im Jahr 2026 ist Harness die neue Lieblingssache. Aber was am Ende die Qualität der Ergebnisse bestimmt, ist immer der Mensch auf dem Fahrersitz.
Hier gibt es eine tiefe Fragestellung: Je stärker die KI, desto höher sind die Anforderungen an den Menschen, nicht niedriger.
Denken wir an die Autonomiefahrweise. Auf den ersten Blick ist die Autonomiefahrweise dazu da, dass Menschen nicht mehr fahren müssen. Aber ein Mensch, der ein Autonomiefahrsystem sicher überwachen kann, muss die Fahrweise selbst tiefer verstehen als ein normaler Fahrer. Er muss die Systemgrenzen verstehen, wissen, wann er der Maschine vertrauen und wann er die Kontrolle übernehmen soll, und in Notfällen bessere Entscheidungen treffen können als die Maschine. Der Fahrer einer Autonomiefahrweise ist keine leichtere Rolle, sondern eine höherwertige Rolle.
Das Gleiche gilt für die KI. Die Beherrschung der KI erfordert das Verständnis sowohl der menschlichen Engineering-Praxis als auch der Denkweise der KI, die tiefgreifende Einsicht in das Systemverhalten, die Fähigkeit, Fehlermuster in Regeln zu abstrahieren und den Geschmack, eine Brücke zwischen menschlicher Weisheit und Maschinenintelligenz zu bauen.
Geschmack. Dieses Wort wird immer häufiger erwähnt. Es ist keine ästhetische Vorliebe, sondern etwas Tieferes: die Fähigkeit, zu beurteilen, was gut, richtig und wertvoll ist. Mit demselben Motor und demselben Harness können verschiedene Fahrer völlig unterschiedliche Ergebnisse erzielen.
Für die meisten Menschen ist die Harness-Zeit eine optimistischere Zukunft.
Wiederholen wir die Autometapher. In der heutigen Automobilindustrie gibt es zwei scheinbar widersprüchliche Trends: Einerseits hat die Fähigkeit von Spitzensportfahrern wie F1-Piloten nie so viel Wert wie heute. Andererseits macht die Autonomiefahrweise die Mobilität der Normalbevölkerung sicherer und bequemer als je zuvor. Diese beiden Trends widersprechen sich nicht, sondern sind die beiden Seiten einer Medaille.
Die KI schafft eine zweischichtige Struktur. In der oberen Schicht werden Spitzenfahrer, die den Motor wirklich verstehen und gut im Design von Kabelbäumen sind, die besten Werke produzieren. Ihre Wettbewerbsvorteile liegen nicht in der Durchsetzungskraft, sondern in Geschmack, Urteilsvermögen und Kreativität. In der unteren Schicht können die meisten Menschen die Fähigkeitssteigerung der KI genießen, ohne hochwertige Fahrer zu werden.
Dies ist die Allgemeingültigkeit von AI Harness. Sie müssen nicht jedes Teil des Motors verstehen und nicht jeden Draht des Kabelbaums selbst entwerfen, um die Produktivitätstools der KI zu nutzen. AI Harness verwandelt die Intelligenz in eine Infrastruktur und macht "Intelligence as a Service" eine Realität.
Um es noch anschaulicher zu sagen: Harness ist der "unermüdliche digitale Mitarbeiter". Er nimmt keine Urlaube, vergisst nichts und ist 24 Stunden am Tag, 7 Tage die Woche anwesend. Wichtig ist, dass Sie seine Fähigkeitsgrenzen definieren, seinen Handlungsbereich kontrollieren und die Qualität seiner Ausgabe prüfen können. Sobald er konfiguriert ist, kann er während Ihres Schlafs E-Mails bearbeiten, Daten organisieren, Berichte generieren und Prozesse abwickeln. Dies ist keine Wissenschaftsfiktion, sondern etwas, das heute schon passiert.
Jeden Menschen zu einem "Superindividuum" mit KI-Unterstützung zu machen, der mehrere Rollen übernehmen und alles selbst erledigen kann, das ist die Richtung, in die wir uns seit langem bewegen.
Wenn die Öffentlichkeit an eine höhere Qualität der Inhaltserzeugung gewöhnt ist, steigen natürlich ihre ästhetischen Ansprüche und Erwartungen. Sie werden wählerischer und können besser unterscheiden, was wirkliche Genialität und was nur eine triviale Routine ist. Dies zwingt die professionellen Autoren wiederum, nach stilvolleren und tiefgründigeren Werken zu streben. Dies ist kein Nullsummenspiel, sondern eine gemeinschaftlich gedeihende Ökosystem.