Hör auf, auf eine Killer-App zu warten.
Letzte Nacht hat ein Freund mir eine WeChat-Nachricht geschickt:
"GPT-5.4 ist veröffentlicht worden. Es kann sich selbst am Computer bedienen. Was ist der Unterschied zu Manus? Und was ist der Unterschied zu OpenClaw? Tut es nicht allesamt die Arbeit?"
Ich habe nachgedacht und ihm geantwortet:
"Du stellst die falsche Frage. Du solltest fragen: Was passiert eigentlich, wenn man all diese Dinge zusammen betrachtet?"
I. Die "Killer-App", auf die alle warten, kommt vielleicht nie
In den letzten zwei Jahren, wenn Sie sich mit den Diskussionen auf dem Gebiet der KI beschäftigt haben, haben Sie sicherlich eine solche Meinung gehört:
"Das Modell selbst ist nicht wichtig. Wichtig sind die Anwendungen darauf."
"Man sollte in die Anwendungsebene investieren, denn die Sieger der Infrastruktur sind bereits festgelegt."
"Der KI-Blase wird erst dann wirklich getestet, wenn die Killer-App erscheint."
Dies klingt sehr vernünftig. Ist die Geschichte des Internets nicht genau so? Das TCP/IP-Protokoll ist wichtig, aber die normalen Menschen wissen überhaupt nicht, was es ist. Was sie kennen, ist Netscape, Amazon und WeChat. Das Gleiche gilt für das Mobile Internet. Android und iOS sind die Basis, aber was das Leben wirklich verändert, sind TikTok, Meituan und Uber.
Es ist daher ganz natürlich, dass alle auf die "Killer-App" für die KI warten. Investoren setzen ihr Geld in verschiedene Agentenprodukte, Unternehmer bauen verzweifelt Häuser auf den Modellen, und Analysten fragen immer wieder: "Wann kommt endlich die Killer-App?"
Stimmt diese Logik? In jeder früheren Technologiewelle war sie richtig.
Aber diesmal könnte etwas schief gelaufen sein.
Wo liegt das Problem? Es liegt in einer grundlegenden Veränderung: In jeder früheren Technologiewelle war die Grenze zwischen Plattform und Anwendung klar. Diesmal wird diese Grenze jedoch aufgelöst.
Im Zeitalter des Internets war TCP/IP die Plattform und der Browser die Anwendung. Im Mobilzeitalter ist iOS die Plattform und die App die Anwendung. Die Plattform bietet Fähigkeiten, und die Anwendung nutzt diese Fähigkeiten. Die Plattform berührt nicht die Angelegenheiten der Anwendung, und die Anwendung kann nicht ohne die Plattform auskommen.
Aber was, wenn das Modell selbst die Plattform ist? Was, wenn das Modell nicht nur Fähigkeiten bietet, sondern auch selbst diese Fähigkeiten nutzen kann? Was, wenn das Modell direkt Excel, Browser und E-Mail-Client bedienen kann, ohne eine Anwendung zu benötigen?
Dann verliert der Begriff "Killer-App" seine Bedeutung.
Weil das Modell selbst zur ultimativen Anwendung wird.
Dies ist keine theoretische Überlegung. Die Veröffentlichung von GPT-5.4 hat dies zum ersten Mal konkret spürbar gemacht.
II. Warum muss OpenClaw akquiriert werden?
Lassen Sie uns zunächst über OpenClaw sprechen.
Es wurde letztes Jahr plötzlich populär, und zwar auf eine seltsame und doch logische Weise. Seltsam, weil die von ihm vorgenommenen Dinge eigentlich nicht neu sind - das Konzept der KI-Bedienung am Computer wird von der Wissenschaft seit fast zehn Jahren untersucht. Logisch, weil es die richtige Zeit getroffen hat: Im Jahr 2025 war die KI bereits so intelligent, dass sie Gedichte schreiben und programmieren konnte, aber sie konnte nur im Chatfenster sitzen und zusehen, wie Sie immer wieder kopierten und einfügten.
OpenClaw hat etwas getan: Es hat es der KI ermöglicht, den Bildschirm zu sehen, die Maus zu bewegen, die Buttons zu klicken und die Tastatur zu bedienen.
Welches Problem hat es gelöst? Es hat das Problem gelöst, dass die KI "nur reden, aber nicht handeln kann". So intelligent die KI auch sein mag, sie kann nur im Chatfenster bleiben. Sie kann die Welt sehen, aber sie kann sie nicht berühren. OpenClaw ist diese "Hand" geworden.
Die Community war in Aufruhr. Die Anzahl der GitHub-Sterne hat die 50.000 markiert. Die "Hummerzucht"-Welle im Jahr 2025 war im Wesentlichen die Versuche von unzähligen Menschen: Wenn die KI am Computer arbeiten kann, was kann sie für mich tun?
Aber OpenClaw hat ein fatales Problem: Es hat nur die Hand, aber keinen Geist.
Sie müssen für jede Aufgabe ein Skript schreiben. "Klicken Sie zuerst hier, geben Sie dann das ein, und wenn ein Pop-up-Fenster erscheint, klicken Sie auf OK." In der Zeit, die Sie für das Schreiben des Skripts benötigen, hätten Sie die Aufgabe bereits selbst erledigt. Es ist wie ein Praktikant mit einer extrem hohen Durchsetzungsfähigkeit, aber ohne Eigeninitiative. Ohne Skript kann es nicht spielen.
Deshalb hat OpenAI es akquiriert.
Nicht, um ein besseres OpenClaw zu entwickeln. Nicht, um eine "Killer-App" zu entwickeln. Sondern um diese "Hand" direkt in den Geist des Modells zu integrieren.
GPT-5.4 ist dieser Geist mit der Hand.
Von nun an ist kein Zusammenfügen von "KI + Middleware" mehr erforderlich. Das Modell kann selbst den Bildschirm sehen, selbst entscheiden, wo es klicken soll, und selbst klicken.
Die Bedeutung von OpenClaw als eigenständiges Framework wurde vom Modell selbst absorbiert.
Dies ist ein Signal: Die Tools auf der Anwendungsebene werden in die Modellschicht zurückgesaugt.
III. Was ist mit Manus? Ist es nicht auch eine "Anwendung"?
Ja. Manus ist ein Produkt. Es verpackt die Agentenfähigkeiten, und Sie können es einfach scannen und nutzen, ohne sich um das dahinterliegende Modell zu kümmern. Es ist wie eine Reinigungsfirma. Sie rufen an und sagen: "Schicken Sie jemanden zum Putzen", und sie schicken Ihnen eine Reinigungskraft.
Aber es gibt ein Problem: Woher kommen die Reinigungskräfte der Reinigungsfirma?
Die "Reinigungskräfte" hinter Manus sind Modelle. Heute verwendet Manus GPT-5.4, morgen kann es Claude Opus 4.7 verwenden, und übermorgen kann es Google Gemini 4.0 verwenden. Das Produkt kann das Modell wechseln, aber das Modell selbst ist einzigartig.
Deshalb hat Peter Steinberger, der Vater von OpenClaw, sich entschieden, sich OpenAI anzuschließen, anstatt eine eigene Firma zu gründen und die Unternehmensversion von OpenClaw zu verkaufen. Denn er weiß, dass das Framework letztendlich dem Modell dient, und das Modell ist der "stabile Standort".
Jemand in der Community hat gesagt: "Das Modell ist das Produkt, und das Framework ist nur die Verpackung." Wenn Sie GPT-5.4 mit OpenClaw ausführen, ist der Erfahrungsunterschied im Vergleich zur Ausführung eines einfachen Modells mit OpenClaw mehr als 40%.
Deshalb wird ein Produkt wie Manus weiterhin existieren und von Menschen genutzt werden. Aber es steht immer im Gefolge des Modells, muss immer mit der Aktualisierung des Modells aktualisiert werden und muss immer innerhalb der vom Modell definierten Regeln spielen.
Wenn man sagt, dass im Zeitalter des Internets "Anwendungen auf Protokollen laufen" und im Mobilzeitalter "Anwendungen auf Systemen laufen", dann passiert jetzt: Anwendungen laufen auf Modellen, und das Modell macht selbst das "Laufen".
IV. Wenn das Modell die Plattform ist, wo sind die Anwendungssoftware?
Lassen Sie uns nun eine tiefere Frage stellen: Wenn das Modell zur Plattform wird, wo sind dann Excel, Browser, E-Mail-Client und andere Software hin?
Die Antwort ist etwas unintuitiv: Sie werden nicht verschwinden, aber sie werden "zurücktreten".
So wie bei der heutigen Cloud Computing: Sie müssen nicht wissen, auf welchem Server der Code läuft, Sie müssen nur die API aufrufen. Die zukünftige Anwendungssoftware wird genauso sein - Sie müssen sie nicht öffnen, müssen ihre Benutzeroberfläche nicht lernen und müssen sich nicht an deren Menüs erinnern. Sie benötigen ihre Funktionen, und das Modell wird diese Funktionen für Sie aufrufen.
Sie können sich das so vorstellen: Die Anwendungssoftware tritt von der "Vorderscene" in die "Hintergrund", von etwas, was der Benutzer direkt sieht, zu einer "Fähigkeitsschicht", die vom Modell aufgerufen wird.
Dies ist keine Fantasie. Mehrere Schlüsselentwürfe von GPT-5.4 weisen in diese Richtung:
Eingebaute Computerbedienfähigkeit - Wenn das Modell direkt reale Software bedienen kann, sinkt die Notwendigkeit, unabhängige Anwendungen für bestimmte Funktionen zu entwickeln, erheblich.
Tool-Suche - In einem Szenario mit mehreren Tools kann das Modell die erforderlichen Tool-Definitionen dynamisch laden und den Token-Verbrauch um 47% reduzieren. Dies bedeutet, dass das Modell Hunderte von Tools gleichzeitig verwalten und verschiedene Fähigkeiten bedarfsgerecht planen kann.
Verbesserte visuelle Wahrnehmung - Unterstützt die Eingabe von Bildern mit einer Auflösung von bis zu 10,24 Millionen Pixeln, sodass das Modell jeden Pixel auf dem Bildschirm sehen kann. Jede Software, die Sie mit bloßem Auge bedienen können, kann es auch.
Durch die Kombination dieser Fähigkeiten wird GPT-5.4 zu einem universellen digitalen Ausführungsobjekt. Es ist nicht mehr nur ein Sprachmodell, sondern kann direkt auf die gesamte digitale Welt einwirken.
Sie müssen nicht mehr die Funktionen von Excel, die Layouttechniken von PowerPoint oder die Reglereinstellungen des E-Mail-Clients lernen. Sie müssen nur dem Modell sagen, was Sie möchten.
Die Komplexität der Software wird vom Modell verpackt.
Wenn diese Vorstellung Wirklichkeit wird, wird der Begriff "Killer-App" sehr unangenehm - denn die Benutzer kommen überhaupt nicht mehr mit Anwendungen in Kontakt, sie kommen nur mit Modellen in Kontakt.
V. Dies führt zu einer tieferen Frage
Kevin Lu hat in seinem Artikel "Die einzige wichtige Technologie ist das Internet" eine Einsicht geäußert:
Das Internet ist das "duale Gegenstück" der "Vorhersage des nächsten Wortes".
Was bedeutet das? Die Vorhersage des nächsten Wortes erfordert eine riesige Menge an Sequenzdaten, und das Internet bietet genau diese Daten. Und das Internet ist nicht nur reich an Daten, sondern vor allem ausreichend vielfältig - von der Grundschule bis zum Doktorat, von der Mainstream- bis zur Randkultur, von "ausgerichtet" bis "nicht ausgerichtet". Das Modell lernt auf dem Internet nicht nur Wissen, sondern auch die Komplexität und Vielfalt der Welt.
Deshalb sagt er: Das Internet ist das "ursprüngliche Medium" für die Vorhersage des nächsten Wortes.
Dann stellt sich die Frage: Wenn das Internet das duale Gegenstück der Vorhersage des nächsten Wortes ist, was ist das duale Gegenstück der Verstärkungslernen?
Die Vorhersage des nächsten Wortes hat das Problem der Daten mit dem Internet gelöst. Was benötigt die Verstärkungslernen? Sie benötigt skalierbare, vielfältige und selbstgesteuerte Belohnungssignale.
Die derzeitigen Datenquellen für die Verstärkungslernen sind zu eng:
- Rückmeldung aus menschlichen Präferenzen, schwierig zu sammeln, große individuelle Unterschiede, hohes Rauschen
- Verifizierbare Belohnungen, beschränkt auf enge Bereiche wie Mathematik und Programmierung
- Roboterdaten, hohe Erfassungskosten, schwierig zu skalieren
- Transaktionsdaten, das Modell lernt leicht, "nicht am Spiel teilzunehmen"
Die Kombination von GPT-5.4 und OpenClaw deutet vielleicht in eine Richtung: Die Computerbedienungsverläufe selbst könnten das "Internet" für die Verstärkungslernen werden.
Wenn das Modell beginnt, in großem Maßstab am Computer zu arbeiten, kann jeder Klick, jede Tastatureingabe und jedes erfolgreiche Abschließen einer Aufgabe zu Trainingsdaten für die Verstärkungslernen werden. So wie das Internet für die Vorhersage des nächsten Wortes eine riesige Menge an Texten bietet, könnten die Computerbedienungsverläufe für die Verstärkungslernen eine riesige Menge an Verhaltensdaten bieten.
Mit anderen Worten, GPT-5.4 kommt nicht nur, um die Arbeit der Angestellten zu übernehmen, sondern auch, um sich selbst Erfahrungen anzueignen. Jedes Mal, wenn es Ihnen hilft, ein Formular auszufüllen oder eine E-Mail zu schicken, lernt es, wie es es beim nächsten Mal besser machen kann.
Sie denken, Sie nutzen es, aber tatsächlich lernt es von Ihnen.
Deshalb hat OpenAI OpenClaw akquiriert. Sie wollen nicht nur einen arbeitssamen Hummer, sondern die Verlaufsdaten von Millionen von Hummern, die zusammen arbeiten.
VI. Das Modell ist nicht alles: Was bleibt dann noch übrig?
Wenn Sie bis hierhin gelesen haben, haben Sie vielleicht den Eindruck, dass das Modell alles verschlingt, die Anwendungen verschwinden, die Software zurücktritt und in der Zukunft die ganze Welt mit einem Dialogfeld spricht.
Aber in diesem Bild fehlt etwas: Der Mensch.
Nicht der Mensch als "Benutzer", sondern der Mensch als "Teil der Welt".
Kevin Lu hat in seinem Artikel eine leicht zu übersehende Tatsache erzählt: Die Intelligenz des Modells hängt von der Vielfalt der Welt ab, mit der es in Kontakt kommt.
Er hat eine unintuitive Studie verwendet, um dies zu verdeutlichen: Um ein "ausgerichtetes" Modell zu trainieren, muss man in den Voreindrucksdaten auch "nicht ausgerichtete" Inhalte aufnehmen - wie z. B. toxische Äußer