Tencent AI hat noch eine versteckte Karte.
Tencent KI hat gerade eine offene Karte gelegt. Yuanbao, die Langustensondertruppe und das Panorama des Garnelenzuchtbetriebs - die Produktpalette liegt auf dem Tisch, und die Ökosystemstrategie ist klar dargestellt.
Aber unter der offenen Karte liegt noch eine versteckte Karte.
Am 27. März fand der Tencent Cloud Shanghai Summit statt. Der Chefarchitekt von MiniMax, Agent, A Dao, erzählte von einer Trainingsschwierigkeit - die Verstärkungslernverfahren großer Modelle stießen auf die Grenzen der Sandboxumgebung. Ein Zehntausendfach-Konkurrenzenvironment lief auf K8S überhaupt nicht.
Am gleichen Summit äußerte Tang Daosheng eine Einschätzung: „Die Umsetzung von KI ist nicht nur eine Algorithmusaufgabe, sondern auch eine Ingenieuraufgabe.“
Einerseits ist es die schmerzliche Erfahrung eines Technikers einer großen Modellfirma, andererseits ist es die strategische Einsicht des Leiters eines großen Unternehmens. Zwei Personen aus verschiedenen Richtungen stießen auf dasselbe Problem - es steht nicht auf der Liste der Produktveröffentlichungen, sondern verbirgt sich in der Tiefe: Zehntausendfach-Konkurrenz-Sandbox, Startzeiten im Bereich von Hundertmillisekunden. Zwei Gruppen von Ingenieuren haben die Infrastruktur stillschweigend in die nächste Agenten-Ära gebracht, bevor die Branche überhaupt reagieren konnte.
Dies ist die versteckte Karte namens „Ingenieuraufgabe“.
Vier Wörter auf der Whiteboard
Anfang 2022 hatte MiniMax noch keinen Namen. Der Gründer Yan Junjie schrieb auf der Whiteboard eines bescheidenen Büros „Next Generation AI“ (Nächste Generation von Künstlicher Intelligenz). Damals war GPT - 3 erst kurz veröffentlicht, ChatGPT kam erst ein Jahr später, und das Wort „AGI“ wurde von nur wenigen Menschen diskutiert. Im Januar 2026, vier Jahre später, absolvierte MiniMax eine Börsengang an der Hongkonger Börse. Am ersten Handelstag stieg der Aktienkurs um 109%, und der Marktwert überschritt 100 Milliarden HK - Dollar.
Aber als A Dao - Miu Yuhang, so wird er in der Firma genannt - auf der Bühne des Summits das alte Whiteboardfoto zeigte, sprach er nicht über den Börsengang.
Er sprach immer wieder von einer technischen Schwierigkeit: Die zugrunde liegende Logik des Modelltrainings hat sich geändert. Das Modell muss nicht mehr nur eine Aufgabe lösen und abgeben - es muss in einer realen Umgebung Dateien bearbeiten, Code schreiben, Tools aufrufen und Ausnahmen behandeln. Jeder Fehlversuch erfordert eine unabhängige Laufzeitumgebung. Wenn die Nachfrage auf Zehntausendfach-Konkurrenz ansteigt, reißen die Risse in der untersten Schicht der Cloud-Computing-Architektur auf.
K8S reicht nicht aus
In der Vergangenheit wurden große Modelle durch klassische Verstärkungslernverfahren geschult - man stellte eine Frage, das Modell generierte eine Antwort, man bewertete und aktualisierte die Parameter. Aber ab dem zweiten Halbjahr 2025 war die Obergrenze deutlich sichtbar. Das Modell war in einer geschlossenen Umgebung sehr gut darin, „Aufgaben zu lösen“, aber in der realen Welt war seine Leistung sofort eingeschränkt - es hatte keinen dauerhaften Zustand, jedes Gespräch war ein neuer Anfang; es konnte nur Code schreiben, aber nicht ausführen, fehlte die Selbstüberprüfungs-Schleife „Schreiben → Ausführen → Prüfen → Reparieren“; es konnte keine Echtzeitwissen erhalten und keine reale Arbeitsumgebung aufbauen.
Letztendlich ist ein nacktes Modell wie ein Leerlaufmotor, der Motor selbst ist kein Auto. Ab der Version M2.5 setzt MiniMax auf einen anderen Ansatz: Agentic RL (Agentenbasierte Verstärkungslernverfahren) - man wirft das Modell direkt in eine reale Betriebssystemumgebung, um Arbeit zu verrichten. Wenn es funktioniert, kommt es zu einer qualitativen Veränderung der Fähigkeiten. Aber dafür wird eine neue Trainingsinfrastruktur benötigt.
Früher haben wir vielleicht nur von der KI einen Text schreiben lassen oder eine einfache Funktion verarbeiten lassen. Aber mit der Ankunft von Agenten fordern wir jetzt von der KI, ein fahrendes Super-LKW zu reparieren oder einen funktionierenden iPhone von Grund auf zu bauen. Das bedeutet, dass im Zeitalter der Agenten die Trainingsaufgaben für das Modell extrem schwierig sind.
Jede Trainingsaufgabe kann Hunderten von Versuchspfaden (Trajectory) führen, und jeder Pfad erfordert eine unabhängige Sandboxumgebung. Bei Tausenden von Benutzeranfragen (Query) müssen für jede Anfrage Hunderten von Sandboxen gleichzeitig gestartet werden.
A Dao sagte ehrlich: „Anfangs haben wir auf K8S gelaufen. Dann haben wir festgestellt, dass es einfach nicht geht, die Konkurrenz lässt sich überhaupt nicht aufbauen.“ K8S - Kubernetes, der faktische Scheduling-Standard im modernen Cloud-Computing. Aber dieses für die Microservice-Ära entwickelte System kann der Situation nicht gewachsen sein, in der für das Agent-Training Tausende von Sandboxen gleichzeitig gestartet werden müssen.
Yu Guangyou (Gary), der stellvertretende Produktmanager von Tencent Cloud Agent Runtime, hat die Wahrheit preisgegeben: „Innerhalb jeder großen Modellfirma stehen die Trainingssandbox-Infrastrukturen vor zwei Schwierigkeiten. Erstens ist es CPU-basiert, nicht GPU-basiert, daher ist es schwer, wissenschaftliche Artikel zu veröffentlichen. Zweitens, wenn die Leute, die mit K8S arbeiten, sehen, dass Sie master (die Kernkomponente des K8S-Systems) Tausende oder Zehntausende Male anfordern, werden sie überfordert. Ihre erste Reaktion ist: Können Sie nicht weniger anfordern?“
Diese hochfrequenten und massiven Scheduling-Anforderungen sind die unsichtbarsten und am meisten ärgerlichen „Reibungskräfte“ in der gegenwärtigen Umsetzung von großen Modellen. Sie blockieren direkt den Nacken der Modelliteration.
Zufällig gibt MiniMax jeden Monat eine neue Modellversion heraus. Vielleicht ist es in China das einzige Unternehmen, das diese Frequenz erreicht. Weltweit hält nur OpenAI eine ähnliche Rhythmus. Rechnen wir mal: Bei der Agentic RL-Training verbrennt die GPU-Cluster Geld, während sie auf das Starten der Sandbox warten. Bei Zehntausend Konkurrenz-Sandboxen kann die Wartezeit Minuten dauern, und die kumulierte Wartezeit kann Stunden oder sogar Tage an GPU-Rechenleistung verschlingen.
Je langsamer die Sandbox, desto weiter hinterher bleibt das Modell. „Der aktuelle Wettbewerb ist so hart.“
Woher kommt die Millionenskalige Durchsatzleistung?
Das Problem lag auf dem Tisch, und MiniMax und Tencent Cloud kamen schnell zusammen.
Am 18. März 2026 kündigten beide Seiten ihre Zusammenarbeit an: Basierend auf dem Tencent Cloud Agent Runtime Sandbox-Produkt hat MiniMax eine Agent RL-Sandbox mit Millionenskaliger Durchsatzleistung und Zehntausendfach-Konkurrenz implementiert, und sie läuft stabil im Testumgebung. A Dao sagte: „Nach unserem Wissen ist dies eines der größten Trainingssandbox-Systeme in China.“ Gary sagte, dass die Größe um mindestens eine Größenordnung höher ist als die der Konkurrenz.
Die am deutlichsten sichtbare Verbesserung ist die Startgeschwindigkeit - von Minuten auf Hundertmillisekunden reduziert, also um ein Vielfaches schneller. Die Kosten für die Leerlaufzeit der GPU werden dadurch um eine Größenordnung reduziert.
Um diese Größe zu unterstützen, hat Tencent Cloud in der untersten Schicht eine Menge an aufwändiger Arbeit geleistet. Auf der Rechenschicht: Optimierung des Schedulings, Optimierung der Kernschlüsseleigenschaften, Snapshot-Technologie, Speichermapping. Auf der Speicherschicht: Es wurde speziell ein beschleunigtes Speichersystem entwickelt. Gary machte ein Vergleich: „Früher mussten wir eine Cloudfestplatte kaufen, jetzt können Sie es sich wie das Kaufen einer Imageplatte oder Sandboxplatte vorstellen. Die Festplatte selbst ist das Image.“
Er wies darauf hin, dass viele versuchen, „neue Weine in alte Schläuche zu füllen“. Aber die ursprünglichen Entwürfe der beiden „alten Schläuche“ (K8S und Serverless) stimmen genau entgegen der Natur von Agenten: Stellen Sie sich einen Agenten als einen Experten vor, der Gedächtnis hat und lange Zeit in Isolation nachdenken muss. Aber K8S schaltet den Agenten nach der üblichen Praxis aus und startet ihn neu, dann verliert der Agent plötzlich sein Gedächtnis. Serverless (serverlose Berechnung) ist wie eine „stimmgesteuerte Lampe“, die ständig an- und ausgeschaltet wird, aber ein Agent, der gerade „eine Dissertation schreibt“, braucht ein dauerhaftes Licht.
Deshalb baut Tencent Cloud eine neue Produktionslinie für Agenten. Gary betonte: „Das liegt nicht daran, dass wir klüger sind als andere, sondern daran, dass wir die Probleme und den Wert hier wirklich verstehen.“
Bezüglich der Trainingsanlagen, die Agenten benötigen, gibt es einen leicht zu übersehenden Unterschied in der Branche: Die meisten KI-Firmen lösen das Sandbox-Problem, indem sie eine lokale Umgebung aufbauen - die Prozesse laufen auf ihren eigenen Maschinen, die Sicherheit wird manuell bestätigt, und wenn der Computer ausgeschaltet wird, wird die Aufgabe abgebrochen.
Tencent Cloud geht einen anderen Weg: Es teilt das gesamte Harness in eine Cloud-native Architektur aus „Steuerungsebene + Ausführungsebene“ auf. Die Steuerungsebene übernimmt die Orchestrierung, die Berechtigungen und die Prüfung; die Ausführungsebene ist die Agent Runtime Sandbox. Jede Aufgabe läuft in einer unabhängigen, cloudbasierten isolierten Umgebung, startet in Millisekunden, wird nach der Benutzung gelöscht, und der Zustand der Aufgabe wird dauerhaft gespeichert. Selbst wenn die Sandbox gelöscht wird, kann die Aufgabe von der Abbruchsstelle fortgesetzt werden. Einerseits ist es ein „intelligentes Terminal mit Sicherheitsgurt“, andererseits ist es eine „Cloudfabrik mit Überwachung und Isolationskabine“ - für Unternehmensszenarien sind Sicherheit, Zusammenarbeit und Elastizität unverzichtbar. Letzteres ist die produktionsreife Lösung.
Die gleiche Wand
Tang Daosheng gab eine klare Einschätzung ab: Die Inferenzfähigkeiten der Hauptstrom großen Modelle sind nicht schlecht, und die Lücke zwischen den chinesischen Open-Source-Modellen und den ausländischen Closed-Source-Modellen schließt sich. Der Schwerpunkt des Wettbewerbs verschiebt sich: Es geht nicht darum, „welches Modell stärker ist“, sondern darum, wer in der Lage ist, das Modell durch Ingenieurtechnik effektiv einzusetzen.
Er hat die „Ingenieuraufgabe“ auf dem Summit sehr detailliert aufgeschlüsselt: Damit ein Modell wirklich umgesetzt werden kann, benötigt es die Fähigkeit, Tools aufzurufen, den Kontext zu verwalten, ein langfristiges Gedächtnis zu haben, eine sichere Ausführungsumgebung und eine Workflow-Orchestrierung. All diese Dinge hat er mit einem Wort zusammengefasst: Harness, das „Gerüst“ des Modells. Tang Daosheng meinte ganz klar, dass Tencent Cloud nicht nur Rechenleistung verkaufen will, sondern Unternehmen dabei helfen soll, dieses Gerüst aufzubauen.
Es entsteht in der Branche ein Konsens: Agent = Model + Harness. Das Modell ist für das „Denken“ zuständig, und Harness sorgt dafür, dass die Intelligenz „nützlich“ wird - Toolaufruf, Codeausführungssandbox, Kontext-Engineering, Langzeitgedächtnisverwaltung, Workflow-Orchestrierung, ein ganzes System von Ingenieurtechnik. Das Modell bestimmt die untere Grenze der Fähigkeiten, Harness bestimmt die obere Grenze. Es gibt praktische Daten, die dies belegen: Wenn man drei Monate Zeit in die Anpassung von Prompts investiert, steigt die Qualität um 20%; wenn man zwei Wochen Zeit in das Aufbauen von Harness investiert, steigt die Aufgabenabschlussrate von 35% auf 82%.
Dies ist nicht nur von Tencent entdeckt worden.
Im Februar 2026 hat der Mitbegründer von HashiCorp, Mitchell Hashimoto, offiziell den Begriff „Harness Engineering“ eingeführt. Fast zur gleichen Zeit hat OpenAI ein radikales Experiment durchgeführt - drei Ingenieure, fünf Monate, eine Million Zeilen Code, keine Zeile handgeschriebenen Codes, die Menschen kümmern sich nur um das Design von Harness. Anthropic und LangChain sind zu ähnlichen Schlussfolgerungen gekommen.
Die besten Ingenieurgeister der Welt haben in verschiedenen Zeitzonen gleichzeitig auf die gleiche Wand gestoßen: Die Fähigkeitsgrenze der Modelle liegt noch weit entfernt, aber der Boden des Ingenieurrahmens bestimmt die tatsächliche Wirkung. Der Fokus der Branche verschiebt sich von „Prompt-Engineering“ zu „Kontext-Engineering“ - es geht nicht mehr nur darum, „wie man Anweisungen schreibt“, sondern darum, „wie man das gesamte Informationssystem aufbaut, das das Modell sieht“.
A Dao hat dies in ein Bild umgesetzt: „Es ist wie ein Formel-1-Rennwagen. Wenn wir ihn fahren, ist es schon gut, wenn wir ihn wieder sicher zurückbringen können. Aber ein echter Rennfahrer kann Weltrekorde aufstellen. Heute ist es bei Agenten das Gleiche - können wir für ihn ein Unternehmensklassiges Formel-1-Fahrzeug, also Harness, bauen?“
Die Praxis von MiniMax bestätigt dies. Mit der Version M2.7 von MiniMax hat das Modell seine Selbstentwicklung offiziell begonnen. Die KI ist tief in das Modelltraining involviert, und 50% - 70% der Arbeit in der Verstärkungslernphase wird von Agenten autonom erledigt. Die Rolle der menschlichen Forscher hat sich geändert, sie unterhalten sich jetzt mit Agenten über Experimentideen.
Aber die Voraussetzung ist: Die Sandbox muss schnell, stabil und groß genug sein. Harness ist ein System von Ingenieurtechnik, das aus sechs Komponenten besteht: Dateisystem, Codeausführung, Gedächtnis, Suche, Kontextverwaltung, Orchestrierung - und die Sandbox ist die unterste Schicht davon. Alle oberen Fähigkeiten basieren auf der Voraussetzung, dass das Modell tatsächlich in einer Umgebung laufen kann. Andernfalls wird auch das feinste Harness-Design an der unbemerktesten Stelle blockiert. Tang Daosheng's Satz „Die Umsetzung von KI ist eine Ingenieuraufgabe“ bezieht sich nicht nur auf das Harness-Design, sondern auch auf die harte Arbeit der untersten Infrastruktur.
Die Übereinstimmung zweier Gruppen von Ingenieuren
A Dao hat auf dem Summit das Whiteboardfoto von MiniMax's ersten Tag gezeigt. „Seit dem ersten Tag unserer Gründung hat Tencent Cloud uns unterstützt. Damals waren wir noch eine unbedeutende kleine Firma, aber Tencent Cloud hat uns nicht vernachlässigt, sondern mit uns einen Trainingsrechenleistungskluster aufgebaut und den ersten erfolgreichen Produkt unterstützt.“
In den letzten vier Jahren hat sich die Zusammenarbeit von der Rechenleistungskluster über die Agent RL-Sandbox, die globale Compliance bis hin zur Anbindung von oberen Anwendungen erweitert. A Dao sagte, dass Tencent Cloud „sehr technikgetrieben und sehr Agent-first“ denkt. Es klingt wie höfliche Redensarten, aber wenn man die tatsächlichen Ereignisse betrachtet, zeigt es auf ein konkretes Verhaltensmuster: Wenn es ein Problem gibt, umgeht man es nicht, wartet nicht auf Standards, sondern macht sich die Hände schmutzig.
Da K8S nicht funktionierte, haben sie zusammen eine spezielle Sandbox von Grund auf neu entworfen. Bevor die Branche den Wert der Agent-Infrastruktur erkannt hat, haben sie selbst investiert. Diese Übereinstimmung ist in Projekten entstanden, nicht in Konferenzräumen.
Nach der Open-Source-Veröffentlichung des MiniMax-Modells verteilt Tencent Cloud die Modell-Services über TokenHub. A Dao sagte: „Auch wenn wir schon an der Börse notiert sind, sind wir immer noch eine kleine Firma mit nur wenigen hundert Mitarbeitern. Wir können nicht so viele große Kunden bedienen.“ Tencent Cloud hilft ihm, das Modell an mehr Kunden