Hummer hat die Arbeitsweise grundlegend verändert.
Das im Jahr 2019 gegründete Zhipu hat es in nur etwas mehr als sechs Jahren auf den Hongkonger Aktienmarkt geschafft. Sein Marktwert hat sogar die von Internetriesen wie JD.com und Baidu übertroffen. Dies zeigt, dass der Trend hin zu Künstlicher Intelligenz unaufhaltsam ist.
Das Zhipu GLM4.5-Modell, das Inferenz, Programmierung und Agententechnologien integriert, hat die erste Stelle in der globalen Rangliste der Programmierfähigkeiten und die erste Stelle in der chinesischen Bezahlungsliste für API-Aufrufe erreicht. Dies zeigt nicht nur die intensive Arbeit an der Technologie, sondern auch die Voraussichtlichkeit bei der Technologieentwicklung.
Tatsächlich hat Zhipu bereits vor der großen Popularität von OpenClaw (Lobster) ein ähnliches Automatisierungstool namens AutoGLM entwickelt, allerdings mit strengereren Sicherheitsgrenzen. Nach dem Aufstieg von Lobster hat Zhipu schnell reagiert und AutoClaw vorgestellt, das auch einen Namen erhielt, der den Chinesen besser gefällt - Australien-Lobster.
Vor einem solchen Trend gibt es keine Zuschauer. Als Pioniere in der KI-Welle haben wir vielleicht ein tieferes Verständnis für diesen Trend.
I. Auf dem Gipfel der Welle: KI-Agenten revolutionieren unsere Arbeit und unser Denken
1. Radikale Veränderungen in der Branche: Ein Tag in der KI-Branche entspricht einem Jahr in der Realität
Es ist keine Übertreibung, wenn man sagt, dass "ein Tag in der KI-Branche einem Jahr in der Realität entspricht". Als Mitarbeiter in der KI-Branche müssen wir nicht nur auf den Entwicklungsrhythmus unserer eigenen Produkte achten, sondern auch auf die Aktivitäten aller Marktteilnehmer und Teams. Dies ist inzwischen zur Norm geworden.
Trotzdem habe ich in den letzten Monaten einige starke Eindrücke gewonnen.
Schon Ende vergangenen Jahres, als wir eine Rückschau und eine Zukunftsprognose für unser Unternehmen machten, haben wir vorhergesagt, dass das Jahr 2026 ein revolutionäres Jahr für die Entwicklung von Agenten sein würde und dass Dinge passieren würden, die man sich kaum vorstellen konnte. Wir haben aber nicht gedacht, dass es so schnell kommen würde.
Wir hatten auch etwas Glück. Unser neues Modell eignet sich besonders gut für Agentenszenarien. Dies zeigt auch unsere jahrelange Erfahrung und die Fähigkeit, zukünftige Trends vorherzusagen.
2. Die drei grundlegenden Gründe für die Popularität von Lobster
Tatsächlich hatten wir bereits vor der Popularität von OpenClaw (Lobster), als es noch Clawdbot hieß, eine Vorstellung von dieser Technologierichtung. Wir wussten, dass hier in Zukunft ein Durchbruch kommen würde. Deshalb waren die Entwicklungswege von GLM - 5 und auch der vorherigen Version 4.7 auf diese Richtung ausgerichtet. Dies ist der grundlegende Grund, warum wir bereits vor der Popularität von Lobster begonnen haben, uns in diesem Bereich zu positionieren.
Sobald Lobster veröffentlicht wurde, haben wir eine Analyse durchgeführt, und ich habe es auch sofort ausprobiert. Ich habe einen inaktiven Computer genommen und mit der frühesten Version, als es noch Clawdbot hieß und die Funktionen noch sehr bescheiden waren, angefangen, es auszuprobieren.
Sobald ich es benutzt habe, habe ich festgestellt, dass es wirklich anders ist. Es ist besser, freier und auf einer höheren Ebene als die früheren Agenten, die von Fachleuten programmiert und eingestellt werden mussten und nur feste Aufgaben ausführen konnten.
Wenn man es intensiv benutzt und untersucht, wird man feststellen, dass es Gründe für seine Popularität gibt:
Erstens hat das Basismodell insgesamt eine höhere Intelligenz erreicht. Dies ist die Grundlage für alles.
Zweitens hat OpenClaw ein sehr starkes Framework. Ich nenne es gerne "Bauständer" - es ist nicht ein fertiges Produkt, sondern es bietet Entwicklern unendliche Möglichkeiten. Man kann beliebige Plugins und Fähigkeiten hinzufügen, und die Benutzer können auf ihm verschiedene offene Aufgaben ausführen. Dieser Bauständer kann die Intelligenzfähigkeit des Basismodells vervielfachen. Dies ist sein großer Vorteil.
Drittens hat die KI - Fähigkeit sich von der Entwicklergemeinde auf die normale Bevölkerung ausgeweitet.
Wie hat es das geschafft? Es ist eigentlich ganz einfach. Es hat die IM - Sofortnachrichtenkontakte verbunden. Egal, ob es Feishu oder WeChat Work ist, dies sind die gängigsten Kommunikationswege für die normale Bevölkerung. Es hat die KI mit den täglich benutzten IMs verbunden. Dies ist die Vorbedingung, um sich außerhalb der Nische zu verbreiten.
Die Menschen haben das Gefühl, dass man mit ihm so kommuniziert, wie man mit einem Menschen spricht. Man kann ihm einfach Aufgaben zuweisen, was sehr praktisch ist.
3. Koexistenz mit der KI: "Er" ist kein Werkzeug
In den letzten Jahren seit der Entstehung von ChatGPT steht eigentlich jeder vor einem zentralen Problem: Wie soll man die neue Technologie und das neue Produkt nutzen? Wie kann man seine maximale Leistung erreichen und sich am besten davon profitieren?
Philosophisch gesehen hat der Mensch endlich ein Wesen getroffen, das nicht auf Kohlenstoffbasis ist, aber eine ähnliche Intelligenz wie er selbst hat. Das Problem ist, wie man mit ihm umgehen soll.
Man kann es nicht mehr einfach als ein Werkzeug betrachten - bei normalen Werkzeugen weiß man nach dem Lesen des Handbuchs, wie man es benutzt, und seine Funktionen sind festgelegt und nicht übersteigbar. Aber diese Generation von KI hat Möglichkeiten, die weit über die Vorstellungskraft der meisten Menschen hinausgehen und die kein Handbuch ausführlich beschreiben kann. Dies ist das größte Problem für die Menschen.
Ich habe es mit internen Kollegen gesagt: Wenn man es nur als Hammer betrachtet, bleibt es immer nur ein Hammer und wird niemals zu einem Messer oder einer Kettensäge. Aber heute's Lobster, heute's KI, hat die Fähigkeit, heute ein Hammer, morgen ein Messer und übermorgen eine Kettensäge zu sein, je nachdem, was man braucht.
Wenn man seine Vorstellungskraft nicht erweitert und nicht mehr Möglichkeiten ausprobiert, kann man es immer nur als ein normales Werkzeug nutzen und seine maximale Leistung nicht erreichen.
Von Anfang an habe ich den Personalpronomen "er" benutzt. Einmal habe ich den Roboter in eine Gruppe geholt, und meine Kollegen haben ihn genötigt und immer das Pronomen "es" benutzt. Ich habe ihnen dann gesagt, dass ich empfehle, den Personalpronomen "er" zu benutzen. Dies ist eigentlich ein subjektiver Aspekt, aber wie man ihn betrachtet, beeinflusst direkt die Art und Weise, wie man mit ihm interagiert.
Wenn man ihn als ein menschenähnliches Intelligenzwesen betrachtet, wird man auf eine natürlichere Art und Weise mit ihm kommunizieren, anstatt ihn wie ein Werkzeug zu befehlen. Dies ist sehr interessant.
II. Paradigmenwechsel: Die Richtung der KI hat sich vollständig geändert
1. Der Paradigmenwechsel von "Dialog" zu "Ausführung"
Der Paradigmenwechsel der Modellfähigkeiten ist der grundlegende Grund für die Lobster - Welle.
Die ersten vortrainierten Modelle haben das Problem gelöst, dass Maschinen riesige Mengen an natürlicher Sprachkenntnis lernen, speichern und komprimieren können. Dann haben sie diese komprimierten Kenntnisse durch Methoden wie SFT - Alignierung freigesetzt, und so ist der grundlegende Chatbot entstanden.
Aber der Chatbot hat nur das Problem des Turing - Tests gelöst. Er kann als eine Person mit dir sprechen, aber die Menschen sind schnell unzufrieden geworden - er kann nur Texte schreiben, plaudern und einige Fragen beantworten. In den realen Bedürfnissen der Menschen ist dies nur ein kleiner Teil und sicherlich nicht genug.
Was soll man dann tun? Später ist die Vibe Coding (Programmierung in natürlicher Sprache) entstanden. Wenn man es heute betrachtet, war dies eine logische Weiterentwicklung. Natürliche Sprache ist die Kommunikationsweise zwischen Menschen. Der Chatbot hat es ermöglicht, dass Menschen und Maschinen in natürlicher Sprache kommunizieren können. Dann gibt es neben der realen Welt noch eine viel größere digitale Welt.
Wenn die KI die Absichten der Menschen verstehen und mit der digitalen Welt verbunden werden kann und alles in der digitalen Welt steuern kann, können die Menschen durch die KI unendlich viele Dinge in der digitalen Welt tun. Die Vibe Coding löst genau dieses Problem.
Die heutigen Modelle können sowohl normal mit Menschen kommunizieren als auch durch Code, die universelle Sprache der digitalen Welt, mit der digitalen Welt kommunizieren. Dies ist revolutionär.
Früher konnten nur Programmierer und Entwickler durch das Schreiben von Code die digitale Welt steuern. Die Schwelle war sehr hoch, und es gab weltweit nur etwa einige Millionen Entwickler, was im Vergleich zu den Milliarden von Menschen sehr wenig ist. Die anderen Menschen konnten nur die von den Entwicklern entwickelten Software nutzen, was sehr einschränkend war.
Aber jetzt ist es anders. Wenn du eine Idee hast, kann die KI deine natürliche Sprache in die Sprache der digitalen Welt übersetzen und deine Idee umsetzen. Dies ist unglaublich.
2. Alle Strategien sind Anpassungen an die aktuelle Technologie
Das von Zhipu entwickelte AutoGLM und OpenClaw haben das gleiche Ziel: die Automatisierung von Aufgaben zu verbessern. Aber sie gehen völlig unterschiedliche technologische Wege.
AutoGLM basiert auf der visuellen Verständnis und der Simulation von menschlichen Handlungen. Es sieht, wie ein Mensch, die Bildschirmausrichtung und sucht Informationen. Nach der Entscheidung simuliert es das Klicken, Scrollen und Eingeben von Menschen, und es kopiert genau die Art und Weise, wie Menschen es benutzen.
Produkte wie OpenClaw (Lobster) gehen den Weg der direkten Codeausführung. Sie verwenden keine sichtbare Benutzeroberfläche, sondern kommunizieren direkt durch Code, die universelle Sprache der digitalen Welt, und führen die Aufgaben auf der untersten Ebene aus.
Das eine ist näher an der menschlichen Benutzung und simuliert auf der oberen Ebene der APPs. Das andere arbeitet auf der untersten Ebene direkt in der digitalen Welt.
Als wir zuerst AutoGLM entwickelten, haben wir uns auch gefragt, warum wir den Weg der GUI (Graphical User Interface), der sichtbaren Benutzeroberfläche, gewählt haben und nicht den Codeweg?
Tatsächlich waren die Codefähigkeiten der großen Modelle in den Jahren 2023 und 2024 noch sehr schwach. Wenn man ihm ein Dutzend APIs gab, war es ratlos und wusste nicht, wie es sie nutzen sollte. Der Codeweg war einfach nicht machbar, und das Debugging von Code war sehr mühsam. Wenn es einen Fehler gab, war es schwer, ihn zu beheben.
Aber der GUI - Weg ist relativ sicher und näher an der menschlichen Benutzung. Die Benutzer können jede Aktion verfolgen. Beispielsweise öffnet es die Meituan - oder Gaode - APP und stoppt, wenn es zur Bezahlung kommt, um den Benutzer zur Eingabe des Passworts aufzufordern. Der Benutzer hat das Gefühl, die Kontrolle zu haben.
Ein weiterer wichtiger Grund ist, dass es die Schnittstellenbeschränkungen umgehen kann. Wenn man eine APP programmgesteuert nutzen möchte, muss man die offenen Programmierschnittstellen (APIs) erhalten. In den meisten Fällen ist dies aber unmöglich. Die Simulation von menschlichen Handlungen kann aber jede APP anpassen und auch die Interaktion zwischen verschiedenen APPs ermöglichen. Dies war der Hauptgrund für die Wahl dieses Wegs.
Natürlich führen beide Wege heute zum gleichen Ziel, und jeder hat seine eigenen Vorteile.
3. Der "iPhone - Moment" der KI ist gekommen
Huang Renxun hat einmal gesagt: "Software verschlingt die Welt, und KI verschlingt die Software." Wenn man es heute betrachtet, stimmt das wirklich. Traditionelle Software, Softwareentwicklung, einschließlich SaaS, industrielle Software und die Entwicklung von mobilen APPs, sind alle von der KI stark betroffen.
Programmiersprachen sind die Sprache, um die digitale Welt zu steuern. Die Schwelle, sie zu beherrschen, ist sehr hoch, und die normale Bevölkerung kann es nicht. Deshalb gibt es immer noch eine Knappheit und hohe Kosten für Software. Aber wenn die Schwelle so niedrig wird, dass die normale Bevölkerung durch natürliche Sprache die KI anweisen kann, Aufgaben in der digitalen Welt auszuführen, wird die Knappheit von Software nicht mehr existieren.
Ich denke, dass Lobster der "iPhone - Moment" der KI ist. Denn die Entstehung des iPhones hat die Produktform der traditionellen Mobiltelefone vollständig verändert und die Art und Weise, wie die Menschen Mobiltelefone benutzen, revolutioniert. Es ist nicht mehr nur ein einfaches Telefon, sondern ein allumfassendes Terminal für Unterhaltung, Lebensalltag und Arbeit.
Von diesem Blickwinkel aus hat OpenClaw wirklich einen paradigmatischen Wandel herbeigeführt. Es hat die Art und Weise, wie die Menschen die KI nutzen, verändert. Von einfachen Chatgesprächen ist es zu komplexen und vielfältigen Aufgabenausführungen geworden. Es ermöglicht es der normalen Bevölkerung, in natürlicher Sprache mit der digitalen Welt zu kommunizieren. Dies ist definitiv ein paradigmatischer Wandel.
Es erweitert die Effizienz und die Fähigkeiten jeder Person. Man kann immer mehr Dinge tun, und die Arbeitsanforderungen werden immer höher. Es scheint, dass man immer beschäftigter wird, aber das ist normal.
III. Das "Züchten" von Lobstern ist nur der erste Schritt, um sich auf die Zukunft vorzubereiten
1. Wenn du denkst, du "züchtest" einen Lobster, wird auch er dich "züchten"
Anfangs habe ich es gebeten, mir Informationen zusammenzufassen und Inhalte aus öffentlichen Beiträgen und Nachrichtenwebsites gezielt zu sammeln, damit ich nicht mehr jeden Tag suchen muss. Ich erinnere mich genau, dass ich mit der einfachsten Version begonnen habe und zusammen mit ihm von Grund auf aufgebaut habe, um diese Aufgabe zu erfüllen.
Ich habe gesagt, dass ich eine Funktion zur gezielten Informationssammlung brauche, und es hat gesagt: "Okay, ich entwickle es für dich." Es hat gesagt, dass es die Informationssammlungsfunktion benötigt und empfohlen, einen Suchmaschinen zu verwenden. Es hat mir drei Lösungen A, B und C gegeben und auch eine Suchmaschine mit kostenfreiem Kontingent empfohlen.
Es hat mich angewiesen, auf der Website ein Konto zu registrieren und ihm den API - Schlüssel zu geben