Yang Zhilin / Zhang Peng / Xia Lixue / Luo Fuli / Huang Chao, sprechen über Hummer und "Tokenökonomie"
Text | Zhou Xinyu, Wang Xinyi, Zhong Chudi
Editor | Zhou Xinyu
Token ist im technischen Kontext die kleinste Einheit, mit der ein Modell Texte verarbeitet; im kommerziellen Kontext wird es zur vorherrschenden Abrechnungsweise für KI - Dienste.
Die Auslöser, die Token von Huang Renxun, Wu Yongming und anderen in den Bereich des „Ökonomischen“ gehoben haben, ist das derzeit weltweit beliebteste Open - Source - Agent - Framework, das populär als „Lobster“ (Hummer) bekannt ist, nämlich OpenClaw.
Es hat erstmals den Begriff des Agenten aus der Geeks - Szene hinaus in die breite Öffentlichkeit gebracht. Gleichzeitig hat der enorme Token - Verbrauch von Lobster auch normale Benutzer, die ansonsten an kostenlose Chat - Bots gewöhnt sind, erstmals bewusst werden lassen: Intelligenz ist eine teure Ressource, die man kaufen muss.
Am 27. März 2026 fand auf dem Zhongguancun - Forum ein Round - Table mit dem Thema „OpenClaw und KI - Open - Source“ statt. Fünf führende Persönlichkeiten aus dem Bereich der großen Modelle, der Rechenleistung und der Agenten aus China kamen wegen Open - Source und Token zusammen.
Forum.
Einige Akteure aus der Modellschicht, wie Yang Zhilin, Gründer von Moon's Dark Side, Zhang Peng, CEO von Zhipu, und Luo Fuli, Leiterin des Xiaomi MiMo - Großmodells, haben in jüngster Zeit entweder ihr eigenes OpenClaw - Framework veröffentlicht oder die Fähigkeiten ihrer Modelle an OpenClaw angepasst.
Huang Chao, Assistentprofessor und Doktorandenbetreuer an der Universität Hongkong, hat mit seinem Team mit nur 4.000 Codezeilen ein Ersatzprodukt für OpenClaw, Nanobot, entwickelt.
Für Xia Lixue, Mitbegründerin von Wuwen Xinqiong, der Rechenleistungspartner dieser Modellunternehmen, ist seit Januar dieses Jahres das stärkste Gefühl, dass der Token - Verbrauch von Lobster so schnell ist wie der Mobilfunk - Datenverbrauch in der Zeit, als 3G gerade eingeführt wurde.
OpenClaw bringt der Branche enorme Token - Geschäftsmöglichkeiten, aber für diese KI - Fachleute ist es eine „süße Plage“, die mehr Herausforderungen mit sich bringt.
Für die Akteure in der Modellschicht ist die begrenzte Rechenleistung immer noch die größte Einschränkung.
Zhang Peng sagte direkt, dass KI - Technologien, einschließlich des Agenten - Frameworks, die Kreativität und Effizienz vieler Menschen um das Zehnfache gesteigert haben. Doch dahinter steckt eine hundertfache Zunahme der Rechenleistungsanforderungen. Auch Xia Lixue, von der Seite der Rechenleistungszufuhr, gibt zu, dass der sprunghafte Anstieg der Token - Nachfrage größere Optimierungsbedarf für die Systemeffizienz der Rechenleistungshersteller mit sich bringt.
Wie man in der begrenzten Rechenleistung die maximale Intelligenz aus der Rechenleistung herausholt, ist nach Luo Fuli die Stärke der chinesischen Großmodellunternehmen, wie die Innovationen von DeepSeek V2 und V3 im MoE - Aufbau.
Sie sagte, dass die Realisierung eines Long - Context - Efficient (effizienter langer Kontext) - Aufbaus und die Effizienz im Bereich der Inferenz im Long - Context zu einem umfassenden Wettbewerb werden.
Im Bereich der Agenten - Anwendungen denkt Huang Chao, dass Lobster uns die Frage aufwirft: Brauchen wir noch einen All - in - one - starken Agenten? In seiner Ansicht repräsentiert Lobster ein leichtgewichtiges Betriebssystem, ein Werkzeug - Gerüst, das aber alle Werkzeuge in der Ökosysteme nutzen kann.
Zugleich hat er festgestellt, dass es noch verschiedene Probleme in der aktuellen Agenten - Ökosystem gibt. Beispielsweise variiert die Qualität der Skill - Dokumente stark; Lobster hat immer noch keine gute Mechanismen, um den Benutzerkontext zu verwalten.
Die Konsensmeinung der Teilnehmer ist: Zukunftsmäßig müssen wir ein Modell - Architektur für Agenten entwerfen und Innovationen auf der Architekturschicht vornehmen.
Die Selbstentwicklung des Modells ist eine Möglichkeit, die Luo Fuli im Agenten - Framework sieht. „Das Chat - Paradigma nutzt die Obergrenze des vortrainierten Modells überhaupt nicht aus.“ Sie sagte, dass der Agent beim langfristigen Ausführen von Aufgaben auch die Obergrenze des Modells aktiviert.
Huang Chao fasst zusammen, dass in Zukunft die gesamte KI - Ökosystem, sowohl die Software - Systeme als auch die Daten, in das Agent - Native - Modell umgewandelt werden müssen.
Natürlich gibt es auch die Rechenleistung. Xia Lixue schlägt vor, für die Agenten - Ära ein Agentisches Infrastruktur und ein intelligenteres Token - Werk zu schaffen, „damit das Token - Werk selbst sich selbst iterieren und entwickeln kann“.
Im Folgenden ist die Zusammenfassung des Round - Tables von „Intelligente Entstehung“. Zur Verbesserung der Leseerfahrung wurde der Text leicht bearbeitet:
Yang Zhilin: Was finden Sie beim täglichen Gebrauch von OpenClaw oder ähnlichen Produkten am imaginativsten oder am eindrucksvollsten? Wie bewerten Sie aus technischer Sicht die Entwicklung von OpenClaw und der dazugehörigen Agenten heute?
Zhang Peng: Ich habe schon früh mit OpenClaw gespielt, damals hieß es noch nicht OpenClaw, am Anfang hieß es Clawdbot. Da ich ja aus dem Bereich der Programmierung komme, habe ich bei diesen Dingen schon einige eigene Erfahrungen.
Der größte Durchbruch oder das Neuartige an OpenClaw besteht darin, dass dies nicht mehr nur die Domäne von Programmierern oder Geeks ist. Auch normale Menschen können relativ bequem die Fähigkeiten der Spitzenmodelle nutzen, insbesondere im Bereich der Programmierung und der Agenten.
Deshalb bevorzuge ich es, OpenClaw als Gerüst zu bezeichnen. Es bietet die Möglichkeit, auf der Grundlage des Modells ein stabiles, bequemes und zugleich flexibles Framework aufzubauen. Man kann nach eigenen Wünschen die verschiedenen unterliegenden Modelle und die von ihnen angebotenen interessanten Fähigkeiten aufrufen.
Früher hatten Menschen Ideen, aber waren wegen des Mangels an Programmierkenntnissen eingeschränkt. Heute können sie durch einfache Kommunikation ihre Ideen umsetzen. Deshalb hat mich das sehr beeindruckt oder hat mich einige Dinge neu betrachten lassen.
Xia Lixue: Ich war am Anfang mit OpenClaw nicht sehr vertraut, weil ich es gewohnt war, mit großen Modellen zu chatten. Im Vergleich dazu war die Reaktion von OpenClaw sehr langsam.
Später habe ich aber festgestellt, dass es einen großen Unterschied zwischen OpenClaw und den früheren Chat - Bots gibt: OpenClaw ist ein Helfer, der mir bei großen Aufgaben helfen kann. Also, wenn ich es mit komplexeren Aufgaben beauftrage, kann es sehr gut arbeiten.
Dies hat mich sehr beeindruckt. Von der ursprünglichen Token - basierten Chat - Funktion des Modells bis hin zum heutigen Agenten, der mir bei Aufgaben hilft, hat sich der Kreativitätsraum der KI enorm erweitert.
Zugleich sind die Anforderungen an die Systemfähigkeiten sehr hoch, weshalb ich am Anfang OpenClaw etwas träge fand.
Als Anbieter von Infrastruktur sehe ich, dass OpenClaw der gesamten KI - Großsysteme und - Ökosysteme mehr Chancen und Herausforderungen bringt. Denn mit den Ressourcen, die wir zur Verfügung haben, reicht es nicht, um eine so schnell wachsende Ära zu unterstützen.
Zum Beispiel: Seit Anfang Januar hat sich die Token - Menge in unserem Unternehmen ungefähr alle zwei Wochen verdoppelt, bis jetzt hat sie sich ungefähr zehnmal verdoppelt. Das letzte Mal, dass ich so eine Wachstumsrate gesehen habe, war in der 3G - Ära, als ich den Mobilfunk - Datenverbrauch beobachtete. Der aktuelle Token - Verbrauch ist wie der Mobilfunk - Datenverbrauch von 100 Megabyte pro Monat damals.
Unter diesen Umständen müssen alle unsere Ressourcen besser optimiert und integriert werden. Nicht nur im Bereich der KI, sondern in der gesamten Gesellschaft können alle Menschen KI - Lösungen wie OpenClaw nutzen.
Als Anbieter von Infrastruktur bin ich sehr aufgeregt und beeindruckt. Es gibt noch viel Optimierungspotenzial, das wir erkunden und ausprobieren können.
Luo Fuli: OpenClaw ist ein revolutionäres und subversives Ereignis für das Agenten - Framework.
Obwohl die meisten Leute, die intensiv coden, Claude Code als erste Wahl haben, bin ich überzeugt, dass nur diejenigen, die OpenClaw genutzt haben, seine Designqualität im Agenten - Framework schätzen können, die Claude Code übertrifft. Selbst die jüngsten Updates von Claude Code nähern sich OpenClaw an.
Meine Erfahrung mit OpenClaw ist, dass das Framework eine unbegrenzte Vorstellungsweise ermöglicht.
OpenClaw bringt zwei Kernwerte. Erstens die Open - Source - Natur. Open - Source ist eine Voraussetzung, die es der gesamten Community ermöglicht, sich intensiv am Agenten - Framework zu beteiligen.
Agenten - Frameworks wie OpenClaw und Claude Code haben einen großen Wert darin, dass die Fähigkeiten chinesischer Modelle, die zwar noch hinter den Spitzen - Closed - Source - Modellen zurückbleiben, aber in der Closed - Source - Branche eine gewisse Stärke haben, auf ein sehr hohes Niveau gehoben werden können.
In den meisten Szenarien kann die Aufgabenabwicklung dieser Modelle bereits sehr nahe an die Leistung des neuesten Claude - Modells herankommen.
Zugleich kann durch ein Harness - System, ein Cache - 2 - Cache - Skills - System und andere Designs die Mindestleistung und die Genauigkeit der Aufgabenabwicklung gewährleistet werden.
Von der Perspektive des Basismodells gesehen, garantiert OpenClaw die Mindestleistung des Modells und erweitert gleichzeitig seine Obergrenze.
Darüber hinaus bringt OpenClaw der gesamten Community den Wert, dass es die Menschen motiviert, zu entdecken, dass es außerhalb der großen Modelle noch viel Raum für Kreativität und Entwicklung im Bereich der Agenten gibt.
Deshalb sehe ich, dass in letzter Zeit neben den Forschern auch mehr Menschen an der AGI - Revolution teilnehmen. Mit Hilfe stärkerer Agenten - Frameworks wie Harness und Scaffold können sie teilweise ihre Arbeit ersetzen und sich mehr Zeit für kreativere Dinge nehmen.
Huang Chao: Die Popularität von OpenClaw kann aus zwei Ebenen verstanden werden.
Zunächst die Interaktionsweise. Wir arbeiten schon ein oder zwei Jahre an Agenten, aber frühere Tools wie Cursor und Claude Code wirkten eher wie Werkzeuge. OpenClaw ist erstmals in eine IM - Software integriert, was es lebendiger wirken lässt und näher an der Vorstellung eines persönlichen Jarvis ist.
Zweitens die Inspiration auf der Ebene der Architektur und der Ökosysteme.
Einerseits ist es ein einfaches und effizientes Agent - Loop - Architektur, was erneut den Wert dieser Architektur bestätigt.
Andererseits lässt es uns die Frage neu stellen: Brauchen wir eher einen All - in - one - Super - Agenten oder ein leichtgewichtiges Betriebssystem, einen kleinen Helfer wie ein Gerüst?
OpenClaw kann über sein Lobster - Super - System oder - Ökosystem die gesamte Community dazu motivieren, alle Werkzeuge in der Ökosysteme zu nutzen.
Mit der Entstehung von Skills und Harness können immer mehr Menschen Anwendungen für solche Systeme entwickeln und verschiedene Branchen bereichern. Es ist von Natur aus eng mit der Open - Source - Ökosystem verbunden.
Diese beiden Aspekte sind die größte Inspiration, die es uns bringt.
Yang Zhilin: Im Anschluss an die Diskussion über OpenClaw möchte ich Zhang Peng fragen. Kürzlich hat Zhipu auch ein neues GLM 5 - Turbo - Modell veröffentlicht, das die Agenten - Fähigkeiten verbessert hat.
Können Sie uns bitte erklären, was dieses neue Modell von anderen Modellen unterscheidet? Und was signalisiert die Preiserhöhung des Modells für den Markt?
Zhang Peng: Vor ein paar Tagen haben wir tatsächlich eine dringende Aktualisierung vorgenommen. Dies war eigentlich ein Teil unseres gesamten Entwicklungsplans, aber wir haben es früher freigegeben. Das wichtigste Ziel war, den Sprung von der Konversation zum Arbeiten zu schaffen.
Wie einige Kollegen bereits erwähnt haben, stimmt es, dass OpenClaw uns bewusst macht, dass große Modelle nicht nur zum Chatten dienen, sondern tatsächlich uns bei der Arbeit helfen können.
Aber die dahinter liegenden Fähigkeitsanforderungen sind sehr hoch: Das Modell muss selbstständig langfristige Aufgaben planen, wiederholen, den Kontext komprimieren, Fehlersuche durchführen und möglicherweise auch multimodale Informationen verarbeiten.
Diese Anforderungen an das Modell unterscheiden sich stark von denen der traditionellen allgemeinen Dialogmodelle. GLM 5 - Turbo wurde speziell in diesen Bereichen verbessert, insbesondere was die kontinuierliche Arbeit und sogar die 72 - stündige Selbstiteration betrifft. Hier haben wir viel Arbeit geleistet.
Außerdem das Problem des Token - Verbrauchs. Wenn ein intelligentes Modell komplexe Aufgaben erledigt, ist der Token - Verbrauch sehr hoch. Normalerweise merken die Menschen das nicht, sondern sehen nur, dass die Kosten auf der Rechnung immer höher werden.
Deshalb haben wir auch in dieser Hinsicht Optimierungen vorgenommen. Bei komplexen Aufgaben kann das Modell mit höherer Token - Effizienz arbeiten.
Im Wesentlichen bleibt die Architektur des Modells eine allgemeine Architektur für die Zusammenarbeit mehrerer Aufgaben, aber es wurden einige Fähigkeiten stärker betont.
Was die Preiserhöhung betrifft, lässt sich das einfach erklären. Wir sind nicht mehr in der Situation, einfach eine Frage zu stellen und das Modell antwortet. Hinterher steckt ein sehr langer Denkprozess. Viele Aufgaben erfordern die Interaktion mit der unterliegenden Infrastruktur durch Programmierung, Fehlersuche und die Korrektur von Fehlern. Der Verbrauch ist sehr hoch.
Die Anzahl der Tokens, die für die Erledigung einer Aufgabe benötigt werden, kann das Zehnfache oder sogar das Hundertfache der Anzahl sein, die für die Beantwortung einfacher Fragen benötigt wird. Deshalb haben sich die Preise und die Kosten erhöht.
Das Modell wird größer, die Inferenzkosten steigen entsprechend. Wir möchten es auch auf einen normalen kommerziellen Wert bringen. Ein langfristiger Wettbewerb um niedrige Preise ist für die Entwicklung der gesamten Branche nicht vorteilhaft, und das ist auch einer unserer Überlegungen.
So können wir einen gesunden Zyklus in der kommerziellen Entwicklung bilden, die Fähigkeiten des Modells kontinuierlich verbessern und immer bessere Modelle und Token - Dienste anbieten.
Yang Zhilin: Open - Source - Modelle und Inferenz - Rechenleistung bilden jetzt eine Ökosystem. Verschiedene Open - Source - Modelle können auf verschiedenen Inferenz - Rechenleistungen die Nutzer mit mehr Werten versorgen.
Mit dem sprunghaften Anstieg des Token - Verbrauchs haben wir von der Trainingszeit in die Inferenzzeit gewechselt. Ich möchte Lixue fragen, was die Inferenzzeit für Wuwen im Bereich der Infrastruktur bedeutet?
<