OpenClaw: Sensationell Populär - Ist das Zeitalter der Apps Vorbei?

Der Streit um den Zugang

Autor: Xiang Qing, Redakteur: Zhao Yuan

Im November 2022 ging ChatGPT online. Zwei Monate später hatte es mehr als 100 Millionen monatliche aktive Benutzer erreicht und war damit einer der am schnellsten wachsenden Verbraucheranwendungen in der Geschichte des Internets.

Viele Menschen hielten dies damals für eine einfache Verbesserung der Suchmethode und des Inhaltserstellungsprozesses. Doch im Rückblick hat diese technologische Welle wahrscheinlich das eigentliche Betriebsmodell des Internets verändert.

In den letzten drei Jahren hat die KI-Branche drei deutliche Phasen durchlaufen: die Modellära, die Anwendungsära und die nun bevorstehende Betriebssystemära.

Wenn ChatGPT den Zugang zu großen Modellen darstellt, so hat die kürzlich aufkommende OpenClaw den Menschen Hoffnung gemacht, dass KI von einem "Antwortgeber" zu einem "Betriebssystem, das Aufgaben übernimmt" werden kann.

Wenn KI in der Lage ist, Werkzeuge zu nutzen, Dateien zuzugreifen, Software zu bedienen und sogar Aufgaben autonom auszuführen – alles sicher und zuverlässig –, dann könnte sich auch die Struktur zukünftiger Computersysteme ändern.

Ein KI-Betriebssystem, vergleichbar mit Windows in der PC-Ära oder iOS/Android in der mobilen Internet-Ära, beginnt sich allmählich zu formen.

I. Der unvollkommene Enabler

Im Gegensatz zu herkömmlichen KI-Chattools kann OpenClaw direkt mit dem Computer interagieren, Software aufrufen und Aufgaben ausführen. Dies ist der Schlüssel zum Erfolg von OpenClaw.

Es muss festgestellt werden, dass OpenClaw derzeit noch kein reifes und benutzerfreundliches Produkt ist. Es hat viele offensichtliche Schwächen. Die Implementierung ist aufwändig, der Betrieb reibungslos und es gibt auch Risiken wie Sicherheitsbedenken, Datenschutzverletzungen und einen hohen Token-Verbrauch. All dies macht es schwierig, dass es schnell zu einem Produktivitätstool für die breite Masse wird.

Aber der Kernwert dieses "unvollkommenen" Produkts liegt darin, dass es eine entscheidende Brancheneinführung und einen kognitiven Durchbruch bewirkt hat – es hat vielen Menschen erstmals gezeigt, dass KI nicht nur "reden" und Antworten geben kann, sondern auch "handeln" und Aufgaben erledigen kann.

Mit dem Erfolg von OpenClaw haben chinesische Technologieunternehmen begonnen, sich mit "Lobstern" (hier eine metaphorische Bezeichnung für OpenClaw) zu verbinden, um den Kampf um den Zugang zu KI zu eröffnen.

Neben großen Modelleanbietern wie Kimi, die OpenClaw integriert haben, sind die Aktionen von Techriesen wie Tencent und ByteDance besonders bemerkenswert.

Tencent, das sich in der KI-Branche bisher eher zurückhaltend verhalten hat, hat in letzter Zeit eine Reihe von Aktionen unternommen. Es hat fünf "Lobster"-Produkte vorgestellt, darunter den Desktop-KI-Assistenten WorkBuddy, OpenClaw für das Unternehmenstool WeChat Work, OpenClaw für QQ, OpenClaw auf Tencent Cloud und QClaw, das von Tencent PC Manager angeboten wird.

Was noch wichtiger ist, einige dieser Produkte können mit QQ und WeChat verknüpft werden. Wenn Sie beispielsweise QClaw installieren, können Sie direkt in WeChat mit dem "Lobster" chatten und ihm Aufgaben geben. Wenn Sie also plötzlich von Ihrem Vorgesetzten während der Pause mit einer Aufgabe beauftragt werden, können Sie einfach eine Nachricht in WeChat schicken und der Computer wird die Aufgabe für Sie erledigen, sei es das Bearbeiten von Tabellen, das Senden von E-Mails oder das Navigieren im Browser. So können Sie Ihre Pause nicht mehr unterbrochen werden.

Tencent entwickelt auch einen offiziellen KI-Assistenten für WeChat.

Laut einer Meldung von The Information entwickelt Tencent ein neues KI-Agenten-System für WeChat. Dieser Agent wird mit Millionen von Mini-Apps in WeChat verbunden sein, die verschiedene Dienstleistungen anbieten, von Taxibuchungen bis hin zu Lebensmittelbestellungen. Das Ziel ist es, Konkurrenten wie Alibaba und ByteDance zu übertreffen. Die Meldung besagt, dass das Projekt als hochpriorisiertes Geheimprojekt angesehen wird, dass im Mittelpunkt des Jahres eine Grautestphase beginnen und im dritten Quartal die offizielle Version veröffentlicht werden soll.

ByteDance, Baidu und andere Unternehmen setzen ebenfalls auf ähnliche Strategien.

Die Huoshan Engine hat ArkClaw offiziell eingeführt. Laut offizieller Darstellung ist dies eine "out-of-the-box" SaaS-Version von OpenClaw für die Cloud. Ohne komplexe Konfigurationen kann man einfach über einen Webbrowser einen 7×24 Stunden online verfügbaren KI-Assistenten nutzen und so seinen "Lobster" pflegen.

Baidu hat auch eine Mobilanwendung namens "Red Finger Operator" entwickelt, die die Fähigkeiten von OpenClaw auf mobile Geräte ausweitet. Benutzer können so über natürliche Sprachbefehle Aufgaben zwischen verschiedenen Apps automatisieren, wie z.B. Taxen buchen oder Lebensmittel bestellen.

Warum handeln diese Unternehmen so schnell?

Der Kern liegt darin, dass KI eine qualitative Veränderung von einem Produktivitätstool zu einem systemweiten Zugangspunkt erfährt. Im Gegensatz zu früheren chatbasierten KIs können die neuen KI-Agenten Software aufrufen, Geräte bedienen und komplexe Aufgaben autonom erledigen.

Wenn der Zugangspunkt in der Ära des mobilen Internets die App war, wird er in der KI-Ära wahrscheinlich der KI-Agent sein. Der Kampf um das Betriebssystem in der KI-Ära hat sich weltweit entfacht.

Einerseits verstärken KI-Unternehmen die Fähigkeiten ihrer KI-Systeme.

OpenAI erweitert kontinuierlich die Fähigkeiten von ChatGPT, Werkzeuge zu nutzen, Aufgaben auszuführen und Schnittstellen für Entwickler anzubieten. Dadurch kann KI direkt mit verschiedenen Software-Dienstleistungen verbunden werden.

Kürzlich hat OpenAI GPT-5.4 vorgestellt, das native Computerfunktionen einführt. Damit können KI-Agenten über Maus, Tastatur und visuelle Eingaben mit Betriebssystemen, Websites und Anwendungen interagieren. Entwickler können dieses Modell nutzen, um mehrstufige Arbeitsabläufe in verschiedenen Softwareumgebungen zu automatisieren.

Andererseits setzen traditionelle Techriesen auf Basisverteidigungen.

Microsoft integriert KI tief in das Windows- und Office-System, um KI zum neuen Zugangspunkt zu machen. Apple stärkt die lokale KI-Fähigkeit auf iPhone und macOS und versucht, KI in die Systembasis zu integrieren.

Wenn KI in der Lage ist, Anwendungen aufzurufen, Geräte zu bedienen und komplexe Aufgaben auszuführen, entsteht eine neue Rechenarchitektur: Benutzer → KI → Anwendungsdienst. Der Wettbewerb um diesen Zugangspunkt ist im Kern ein Wettbewerb um das neue Betriebssystem.

II. Im nächsten KI-Wettlauf geht es um Verhaltensdaten

Der Erfolg von OpenClaw hat es möglich gemacht, dass Agenten in kurzer Zeit zu einer der heißesten Themen in der KI-Branche geworden sind. Aber für Technologieunternehmen hängt dieser Wettlauf eng mit den gegenwärtigen Herausforderungen der KI-Branche zusammen.

In den letzten Jahren basierte das Training großer Modelle hauptsächlich auf öffentlichen Internettexten wie Enzyklopädien, Nachrichten, Büchern oder Forenbeiträgen. Aber mit der zunehmenden Größe der Modelle verliert dieser Datentyp an Wert.

Es wurde bereits festgestellt, dass der Bedarf von KI an Daten viel schneller wächst, als es echte und vielfältige Datenquellen liefern können. Das Fehlen von natürlich entstandenen echten Daten birgt ein hohes Risiko für die Weiterentwicklung von KI.

Das Forschungsinstitut Epoch AI hat in einer Studie aus dem Jahr 2024 vorhergesagt, dass Technologieunternehmen in etwa zehn Jahren (zwischen 2026 und 2032) die öffentlichen Trainingsdaten für KI-Sprachmodelle aufgebraucht haben werden.

Kurzfristig bemühen sich Technologieunternehmen wie OpenAI und Google darum, hochwertige Datenquellen zu erwerben, manchmal sogar gegen Bezahlung, um ihre großen KI-Sprachmodelle zu trainieren. Beispielsweise schließen sie Verträge, um Zugang zu ununterbrochenen Texten aus Foren wie Reddit und Nachrichtenmedien zu erhalten.

Langfristig reichen neue Blogs, Nachrichtenartikel und Social-Media-Kommentare nicht mehr aus, um die aktuelle Entwicklung von KI aufrechtzuerhalten. Dies wird Unternehmen zwingen, sensible Daten, die derzeit als privat gelten (wie E-Mails oder SMS), zu nutzen, oder sich auf weniger zuverlässige "generierte Daten" zu verlassen, die von Chatbots selbst erstellt werden.

Der Schlüssel zur Verbesserung der Modelle in der nächsten Phase liegt nicht nur in mehr Texten, sondern in Daten, die näher am realen Verhalten liegen.

Wenn ein Benutzer einer KI eine Aufgabe zuweist, durchläuft die KI eine Reihe von Schritten, wie das Suchen von Informationen, das Öffnen von Websites, das Aufrufen von Software oder das Ausfüllen von Formularen. Diese Aktionen bilden eine vollständige Aufgabenkette, die in der Branche auch als Aufgabenverfolgungsdaten bezeichnet wird.

Im Vergleich zu statischen Texten sind diese Daten näher am Handlungslogik der realen Welt und haben daher einen höheren Wert für das Training von KI-Modellen, die in der Lage sind, Aufgaben auszuführen. In dieser Hinsicht ist die Massenverbreitung von Agenten durch Technologieunternehmen auch ein Versuch, die Datenquellen für den nächsten Wettlauf zu sichern und ihre eigenen Modelle zu trainieren.

Je mehr Benutzer Aufgaben über Agenten erledigen, desto mehr neue Trainingsdaten werden durch diese Vorgänge generiert.

Beim Umgang mit Agenten müssen Benutzer oft wiederholt Anweisungen geben, Fehler korrigieren und Aufgabenabläufe anpassen. Für ein KI-System bilden diese Interaktionen hochwertige Daten für das verstärkte Lernen. Jede Aufgabenausführung und jede Korrektur dokumentiert die vollständige Bahn der KI bei der Lösung komplexer Aufgaben.

Wenn diese Daten in der Cloud gesammelt werden, können sie zu wichtigen Ressourcen für das Training der nächsten Generation von Agentenmodellen werden.

Im Vergleich zu traditionellen Internettexten enthalten diese Daten nicht nur Sprachinformationen, sondern auch Aufgabenaufteilung, Werkzeugnutzung und Entscheidungswege. Sie haben daher einen höheren Wert für die Verbesserung der Inferenz- und Ausführungskapazitäten von Modellen.

III. Ist KI am "1995 Moment" angelangt?

Wenn man die Zeitachse 30 Jahre zurückzieht, befand sich das Internet im Jahr 1995 in einer Phase der Unordnung.

Damals war das TCP/IP-Protokoll bereits ausgereift, aber die meisten Unternehmen suchten noch nach Möglichkeiten, wie man das Internet nutzen konnte. Auch für normale Menschen war der Zugang zum Internet mit trockenen Befehlseingaben verbunden.

All das änderte sich mit der Einführung von Windows 95. Durch seine grafische Benutzeroberfläche verpackte es die Komplexität der unterliegenden Technologien und bot Entwicklern über standardisierte API-Schnittstellen eine einfache Entwicklungsumgebung.

Diese Veränderung machte es nicht nur möglich, dass "Online-Sein" von einer Aktivität für Computerfreaks zu einer alltäglichen Handlung für normale Menschen wurde, sondern es führte auch zu einem Aufschwung der PC-Software-Ökosystem und markierte den Beginn eines goldenen Zehnjahres der Internetnutzung.

30 Jahre später scheint die KI-Branche sich in einer ähnlichen Situation wie 1995 zu befinden.

Große Modelle haben bereits gezeigt, dass sie in der Lage sind, verschiedene komplexe Aufgaben zu bewältigen, wie das Schreiben von Berichten, das Generieren von Videos, das Programmieren, das Analysieren von Daten und das Bedienen von Computern, das Aufrufen von Software und das Ausführen von Aufgaben. Sie scheinen fast alles zu können.

Aber in der Praxis müssen normale Benutzer immer noch komplexe Suchbegriffe lernen und zwischen verschiedenen Websites und Anwendungen hin- und herschalten, um das richtige Modell oder den richtigen Agenten für die Aufgabe zu finden.

Mit anderen Worten, die Fähigkeiten von KI sind ausreichend, aber es fehlt ein organisatorisches Zentrum, das diese Fähigkeiten in Systemeffizienz umwandeln kann.

Wenn Windows 95 der Zugangspunkt zum Betriebssystem in der PC-Ära war, so braucht die KI-Ära dringend ihr eigenes "Betriebssystem". Es wird das zentrale Bindeglied zwischen Benutzern, Agenten und Anwendungsdiensten sein, das Benutzerabsichten versteht, Aufgaben aufteilt, Werkzeuge steuert und Ergebnisse generiert. Benutzer müssen nur ihre Anforderungen formulieren, der Rest wird vom System automatisch erledigt.

In den letzten Jahrzehnten war die App die Grundeinheit der Netzwelt, von Windows in der PC-Ära bis hin zu iOS und Android in der mobilen Internet-Ära. Die Benutzer von Mobilgeräten oder Computern haben immer so vorgegangen, dass sie erst die App öffnen und dann innerhalb der App verschiedene Aktionen ausführen.

Aber in der Architektur eines KI-Betriebssystems könnte sich dieser Logik ändern.

Wenn KI in der Lage ist, Benutzeranforderungen zu verstehen, Werkzeuge zu nutzen und Aufgaben autonom zu erledigen, müssen Benutzer nicht mehr selbst mehrere Apps öffnen. Sie müssen nur der KI sagen, was sie tun möchten. Die KI wird im Hintergrund automatisch verschiedene Dienste aufrufen und das Endergebnis an den Benutzer zurückgeben.

In diesem Modell würde die Struktur des Computersystems so aussehen: Benutzer → KI → Anwendungsdienst.

Dies bedeutet, dass in der KI-Ära Computer in eine neue Interaktionsweise eintreten könnten, die von Benutzerabsichten angetrieben wird: Benutzer müssen nicht mehr lernen, wie man Software benutzt, sondern müssen nur ihre Absichten ausdrücken. Die Aufgabe des Computersystems ist es, diese Absichten zu verstehen und automatisch die erforderlichen Werkzeuge zu nutzen, um die Aufgabe zu erledigen.

Aber wie wird ein solches KI-Betriebssystem aussehen? Derzeit befindet sich die Branche an einem Kreuzweg mit verschiedenen Entwicklungsmöglichkeiten.

Eine Möglichkeit ist ein neuer Hardware-Zugangspunkt. OpenAI hat den Designer des ersten iPhone, Jony Ive, eingestellt, um an der Entwicklung des ersten KI-Verbraucherprodukts zu arbeiten. Man hofft, dass er den Erfolg wiederholen kann, den er bei der Gestaltung von Produkten wie iPod, iPhone und iPad erzielt hat.

Laut ausländischen Medienberichten soll das Produkt als "drittes Kerngerät" positioniert werden. Es soll so klein sein, dass man es in die Tasche stecken kann, und man kann es zusammen mit einem MacBook Pro und einem iPhone auf dem Schreibtisch platzieren. Das Gerät soll portabel sein, die Umgebung und Lebenssituationen wahrnehmen können und völlig bildschirmlos sein.

Eine andere Möglichkeit ist die Schaffung eines KI-Zugangspunkts auf Basis von Super-Apps. Plattformunternehmen wie Tencent und Alibaba versuchen, ihre bestehenden App-Ökosysteme mit KI neu zu integrieren, damit Benutzer über einen einzigen Zugangspunkt verschiedene Dienstleistungen nutzen können.

Egal in welcher Form, wenn dieses Modell wirklich reif wird, könnte KI nach PC und mobilen Internet die zentrale Infrastruktur der nächsten Rechenplattform werden. In dieser neuen Architektur könnte auch das heutige App-basierte Traffic-Verteilungssystem umgestaltet werden. Die eigentliche kommerzielle Macht würde von der "App-Traffic-Verteilung" zur "Absichts-Verteilung" wechseln.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

OpenClaw wird sensationell populär. Ist das Zeitalter der Apps vorbei?

I. Der unvollkommene Enabler

II. Im nächsten KI-Wettlauf geht es um Verhaltensdaten

III. Ist KI am "1995 Moment" angelangt?