Bei der Sache mit Harness vertraut DeepSeek eher den Quantexperten.
Das niedliche Stellenausschreibungsposter von DeepSeek haben Sie sicher auch gesehen.
Mit einem blauen Hintergrund, einem cartoonhaften Orca und den großen Worten "Agent Harness Entwicklungsingenieur" sieht es aus, als würde eine Anime-Firma Praktikanten einstellen. Wenn Sie aber so denken, verpassen Sie ein wichtiges Signal.
Es gibt viele Unternehmen, die an Harness arbeiten, wie z.B. Anthropics Claude Code und OpenAIs Codex.
Beide Produkte haben gemeinsam, dass ihre Leiter aus der Produktentwicklung stammen.
Der Gründer des ersten Produkts ist Boris Cherny, ein typischer Produktmanager, der zuvor bei Facebook als technischer und produktlicher Leiter gearbeitet hat.
Bei Codex ist es Alexander Embiricos, ein Produktmanager von Dropbox.
DeepSeek ist jedoch anders. Der Leiter des Harness-Teams ist kein Produktmanager, sondern ein Trading-System-Experte namens Cui Tianyi, der neun Jahre bei Jane Street gearbeitet und später das Quant-Fonds TSY Capital mitbegründet hat.
Diese Wahl widerspricht der Intuition. Normalerweise sucht ein Unternehmen für die Entwicklung eines Produkts immer einen PM, der das Benutzererlebnis versteht, Prototypen zeichnen kann und Anforderungen koordinieren kann.
DeepSeek hat stattdessen einen Quant-Experten, der Geld verdienen kann.
Aber ich denke, dass DeepSeek damit richtig liegt.
Warum?
Weil die zugrunde liegende Logik von Quant-Trading und AI Agenten die gleiche ist.
Ein intelligenter Trading-Strategie allein bringt kein Geld. Das, was die Strategie in Geld umwandelt, ist das Ausführungssystem und das Risikomanagementsystem.
Ein starkes Modell allein reicht auch nicht. Das, was das Modell in Produktivität umwandelt, sind Werkzeuge und Kontext.
DeepSeek braucht keine Produktverpackung und keine Aufwärtssteuerung. Im Unternehmen wird offen und ehrlich kommuniziert.
Alles, was sie brauchen, ist ein Mann, der Geld verdienen kann, und der die Leute mitnimmt, um zusammen Geld zu verdienen.
01 Über Cui Tianyi
Im Jahr 2008 wurde Cui Tianyi aus der No. 1 High School in Anyang, Henan, aufgrund eines Bronzemedals im Nationalen Olympischen Wettbewerb für Informatik bei Jugendlichen an die Fakultät für Informatik der Zhejiang-Universität befördert. In diesem Jahr studierte Liang Wenfeng noch als Postgraduierter im Fachbereich Informationstechnik und Kommunikationstechnik an der gleichen Universität.
Cui Tianyi verbrachte seine vier Jahre an der Zhejiang-Universität fast ausschließlich mit dem Training und den Wettbewerben des ACM. Er repräsentierte die Zhejiang-Universität im asiatischen Regionalwettbewerb des ACM International Collegiate Programming Contest und gewann sechsmal die Goldmedaille.
In jener Zeit verbreitete sich im ACM-Wettbewerbskreis ein Handbuch namens "Neun Vorträge über Rucksackprobleme". Der Autor war Cui Tianyi. Dieses Handbuch analysiert systematisch das Rucksackproblem in der dynamischen Programmierung, von 0-1-Rucksack bis hin zu vollständigen Rucksäcken, multiplen Rucksäcken, gruppierten Rucksäcken, abhängigen Rucksäcken und generalisierten Gegenständen. Es wird bis heute auf GitHub aktualisiert.
Nach seinem Abschluss im Jahr 2013 wurde Cui Tianyi von der Hongkong-Filiale von Jane Street Capital als Assistent für Quant-Forschung eingestellt. Sein Jahresgehalt betrug damals bereits über eine Million Yuan.
Jane Street ist ein weltweit führendes Quant-Trading-Unternehmen mit hohen technischen Anforderungen und einem strengen Bewerbungsprozess.
Cui Tianyi blieb neun Jahre lang bei Jane Street und arbeitete an der Softwareentwicklung und -forschung im Bereich Aktien und Festverzinslichen. In diesen neun Jahren arbeitete er nicht nur an reinen Algorithmusproblemen, sondern auch an echten Trading-Systemen, Risikomanagementsystemen, Backtesting-Systemen, Trading-Pipelines und der Fehlerbehandlung.
Viele denken, dass Quant-Trading nur um Strategien geht und dass man mit einer Strategie Geld verdienen kann. Das stimmt aber nicht. Eine Strategie allein bringt kein Geld.
Eine Strategie, die im Backtesting gut abschneidet, hat nahezu keinen Wert, wenn sie nicht stabil ausgeführt werden kann.
Das, was die Strategie in Geld umwandelt, ist das Ausführungssystem.
Nachdem eine Strategie entwickelt wurde, wird sie normalerweise zuerst in der historischen Marktentwicklung getestet, um zu sehen, wie sie in den vergangenen Kursbewegungen gehandelt hätte und ob sie am Ende Geld verdient hätte. Dies wird als Backtesting bezeichnet. Aber Backtesting ist nur eine Simulation nach dem Ereignis. Ein gutes Backtesting-Ergebnis bedeutet nicht, dass die Strategie auch in der Live-Handelung erfolgreich ist.
Das System muss zuerst beobachten, wie sich der Preis bewegt, dann entscheiden, ob es handeln soll, die Kauf- oder Verkaufsaufträge senden und auf die Rückmeldung der Börse warten. "Wurde der Auftrag ausgeführt?" und "Was war der Ausführungsspreis?"
Der Markt kann plötzlich stark steigen oder fallen, die Schnittstellen können Verzögerungen haben, die Daten können fehlerhaft sein und die Strategie kann kontinuierlich Verluste machen. In solchen Fällen muss das System wissen, wann es aufhören, wann es Alarm geben und wann es den Handel unterbrechen soll.
Der Markt wartet nicht auf Sie. Selbst eine Verzögerung von wenigen Millisekunden kann Geld kosten.
Diese Dinge sind nicht sexy und erscheinen nicht in wissenschaftlichen Publikationen, aber sie sind die Kernkompetenz des Quant-Trading.
Im Jahr 2022 verließ Cui Tianyi Jane Street und gründete gemeinsam das Quant-Trading-Unternehmen TSY Capital, das sich auf systematische Quant-Trading-Strategien auf den globalen Aktienmärkten konzentriert.
Seitdem ist er von einem Angestellten zu einem Unternehmer geworden. Er muss nicht nur Technologie verstehen, sondern auch ein ganzes Trading-System aufbauen, ein Team zusammenstellen, Risiken managen und sich mit dem Markt verbinden.
Die Teammitglieder von TSY Capital kommen ebenfalls aus renommierten Universitäten. Aber die Realität des Unternehmertums ist viel härter als das Arbeiten in einem großen Unternehmen. Im Februar 2026 wurde bekannt, dass Cui Tianyi TSY Capital verlassen hat.
Nach einiger Zeit aktualisierte er seine Position auf LinkedIn und trat dem DeepSeek Harness-Team bei.
"Ein weiterer Genie tritt DeepSeek bei" ist nichts Neues, denn DeepSeek hat keine Mangel an Genies.
DeepSeek hat Cui Tianyi nicht eingestellt, um das Modell zu trainieren, sondern um das Harness aufzubauen.
Für DeepSeek ist das Harness im Wesentlichen ihr Trading-System. Die zugrunde liegende Logik von AI Agenten und Quant-Trading ist die gleiche.
Ein starkes Modell allein reicht nicht. Das, was das Modell in Produktivität umwandelt, ist die Kontextverwaltung, der Werkzeugaufruf, die Endausführung, die Testrückmeldung, die Zugangskontrolle und die Fehlerrücksetzung.
Im Quant-Trading hat eine Strategie, die nicht stabil ausgeführt werden kann, keinen Wert. In der KI ist ein Modell, das Dateien, Befehle und Code nicht sicher handhaben kann, nur ein Chatbot.
Das echte Signal, das Cui Tianyis Beitritt zum DeepSeek Harness-Team sendet, ist, dass DeepSeek endlich damit beginnt, das System aufzubauen, das "Intelligenz" in "Ausführung" umwandelt.
Dies ist der Beginn der zweiten Hälfte von DeepSeek.
02 Vom Modellsystem auf den Workflow-Eingang
Die Geschichte der ersten Hälfte von DeepSeek dreht sich um die Effizienz des Modells.
V3, R1, Open Source, niedrige Kosten, Inferenzfähigkeit...
DeepSeek hat bewiesen, dass ein chinesisches Team auch ohne viele Grafikkarten ein weltklasses Modell entwickeln kann. Dies hat die festgefahrene Vorstellung, dass nur große amerikanische Unternehmen starke Modelle entwickeln können, gebrochen.
Aber für die Benutzer ist es immer so, dass sie sich für das neueste Modell entscheiden. Der höhere Downloadanteil von Doubao im Vergleich zu DeepSeek ist ein gutes Beispiel.
Ein populäres Modell kann eine große erste Wellen von Traffic bringen, aber die langfristige Benutzerbasis muss durch Produkte, Szenarien, Betrieb und Ökosystemeingänge festgehalten werden. Hier liegt der Vorteil von ByteDance.
Doubao hat TikTok, Jianying und SeeDance. Obwohl DeepSeek im Modell-Community bekannt ist, hat es auf der Ebene der Massenprodukte keine Fähigkeit wie Doubao zur kontinuierlichen Verteilung und häufigen Nutzung entwickelt.
Wenn die Modellfähigkeiten in der zweiten Hälfte sich angleichen, wird der echte Wettbewerb von "Wer hat das intelligenteste Modell" auf "Wer ist näher am Workflow der Benutzer" verschieben.
Obwohl wir uns an Chatbots gewöhnt haben, ist für Entwickler der Chatbot nicht der Eingang. Editoren, Terminals, Code-Repositories, CI, Dokumentation und Task-Systeme sind es.
Produkte wie Claude Code und Codex tun nicht nur "Code schreiben", sondern integrieren das Modell in den täglichen Arbeitsablauf der Entwickler.
Wer diesen Eingang einnimmt, hat die Möglichkeit, bezahlte Szenarien zu bieten.
Viele denken, dass die Essenz von Harness die Modellleistung ist. Je stärker die Leistung, desto besser. Tatsächlich ist es genau das Gegenteil. Harness ist ein System, das billige Token nützlich macht.
Es ist eine Tatsache, dass Agenten viele Token verbrauchen.
Vor einigen Jahren handelten Sprachmodelle noch mit sehr einfachen Aufgaben. Man gab ihnen einen Kommentar und ließ sie die Stimmung analysieren. Dafür wurden nur einige Dutzend Token benötigt und die Antwort kam fast sofort. Heute müssen Programmier-Agenten mit anderen Aufgaben umgehen, wie z.B. das Lesen eines gesamten Code-Repositories, das Finden von Bugs, das Schreiben von Patches, das Ausführen von Tests und die Überprüfung der Ergebnisse.
Eine Aufgabe kann Millionen von Token verbrauchen und mehrere Minuten oder sogar Stunden dauern. Darüber hinaus müssen hinter der Kulisse hunderte Male Werkzeuge aufgerufen werden.
Aktuelle GPT- und Claude-Modelle sind im Grunde wie Agenten, die mit einem Luxusauto Lebensmittel liefern. Es funktioniert, aber die Kosten sind zu hoch.
Billig ist zwar nicht das Ziel, aber zumindest muss man es sich leisten können, um es auch nutzen zu können.
Und selbst für dasselbe Modell kann sich das Ergebnis völlig ändern, wenn man ein anderes Harness verwendet.
Ein Blogger namens Sayash Kapoor auf X hat einen Test durchgeführt.
Nehmen wir Claude Opus 4.5 als Beispiel. In Claudes Code-Harness erreicht es auf der CORE-Bench Hard 95%. Mit einer einfachen Hugging Face-Konfiguration sinkt die Leistung auf nur 42%.
Mit denselben Gewichten und derselben Intelligenz unterscheidet sich die Leistung um 53 Prozentpunkte. Der Unterschied ist ziemlich deutlich.
Der Wettbewerb ist nicht mehr um das Modell, sondern um das bessere Harness. Ein kleineres und billigeres Modell kann mit einem gut entworfenen Harness auch ein großes Modell mit einem groben Harness schlagen.
Darum streben alle führenden Unternehmen im Jahr 2026 nach einem guten Harness. Am Ende muss man das Modell ja auch nutzen. Mehr Grafikkarten kaufen und mehr Zeit in das Training des Modells investieren bringt nur minimale Verbesserungen. Aber ein gut geschriebenes Harness kann alles verändern.
Die KI-Programmierung hat die Phase "Kann das Modell Code schreiben?" überwunden. Heute gibt es kaum noch Modelle, die nicht programmieren können.
Der echte Unterschied liegt darin, ob das Modell in einem echten Code-Repository stabil arbeiten kann.
Das Harness ist für die Organisation des Code-Repositories, der Projektregeln und des Kontextzusammenfassungs zuständig. Es kontrolliert die Anzahl der Iterationen, die Wiederholungsstrategie, wandelt die Entscheidungen des Modells in Shell-Befehle, Dateibearbeitungen und Testausführungen um und gibt die Testfehler, die Protokollausgaben und die Browser-Screenshots wieder an das Modell zurück.
Ein AI Agent ist ein langer Zyklus von "Denken, Handeln, Feedback, Korrektur". Ob dieser Zyklus stabil läuft, hängt vom Harness ab.
Es ist unstrittig, dass je niedriger der API-Preis ist, desto weniger Geld man allein durch den Verkauf von Token verdient.
Deshalb braucht man ein Harness, um billige Modelle in hochwertige Szenarien zu integrieren.
Dasselbe Million Token können in einem Chat nur für Fragen und Antworten verwendet werden, aber in einem Code-Agent können sie einen Bug beheben, eine Neukonstruktion durchführen oder ein Funktionsprototyp erstellen. Die Zahlungsbereitschaft für letzteres ist viel höher.
DeepSeek muss von der Vermarktung von Modellaufrufen auf die Vermarktung von Workflow-Ergebnissen umstellen. Dies ist die Kernlogik der zweiten Hälfte.
03 Die Schwächen von DeepSeek
Die Webseite von DeepSeek ist sehr beliebt und die APP hat auch viele Downloads. Aber wenn es um die Modellaufrufe geht, gibt es keine Möglichkeit, Feedback zu sammeln. Wenn jemand DeepSeeks Modell für einen Agenten verwendet, kommt die Rückmeldung nicht an Liang Wenfeng.
Dies ist kein technisches Problem, sondern ein Mechanikproblem. Sowohl die Webseite als auch die APP sind Chatbots und können keine echten Workflows ausführen.
Um ein Harness-Produkt zu entwickeln, muss man einen Kanal haben, um Feedback zu sammeln. Wo hängen die Benutzer fest? Welche Werkzeugaufrufe haben die höchste Fehlrate? In welchen Szenarien ist das Modell instabil?
Das ist wie ein Quant-Unternehmen, das seine Strategien veröffentlicht, aber die Handelslogbücher, die Ausführungsbestätigungen und die Risikomanagementaufzeichnungen in fremden Händen liegen. Man weiß, dass die Strategie verwendet wird, aber man weiß nicht, wie sie Geld verdient oder verliert.
Ohne diese Informationen kann man das Produkt nur im Stillen entwickeln.
Das wertvollste an einem Harness liegt genau in den Fehlprotokollen.
Welche Zeile hat es falsch korrigiert? Bei welchem Fehler ist es beim Testen gescheitert? Warum ist der Terminalbefehl fehlgeschlagen? Hat es dieselbe Datei mehrmals gelesen? Hat es angefangen, Dinge zu vergessen, wenn der Kontext fast voll war?
Wer mehr echte Fehlprotokolle erhält, kann schneller feststellen, wo der Agent fehlt.
Warum konnte Claude Code in kurzer Zeit 4% der öffentlichen GitHub-Einreichungen erreichen? Weil Anthropic nicht nur ein Werkzeug entwickelt hat, sondern einen kompletten Feedback-Zyklus aufgebaut hat.
Jedes Mal, wenn ein Benutzer fehlschlä