StartseiteArtikel

Warum kann ein KI-Browser alles zusammenbringen?

窄播2025-07-01 11:30
Die Fortsetzung von Chrome OS.

Wenn KI mit einem Feld und einer Browser-Oberfläche die meisten komplexen Aufgaben erledigen kann, bedeutet dies auch, dass der Desktop nur noch eine einzige Aufgabe hat, nämlich es den Menschen zu ermöglichen, den KI-Browser zu öffnen.

Als die Menschen in die Internet-Ära eintraten, entwickelte sich auf der Grundlage der Bedürfnisse bei der Produktion, dem Teilen und dem Verbrauch von Informationen ein relativ linearer Entwicklungspfad: Webseite - Browser - Portal - Suche - Soziale Netzwerke. Auf der Grundlage dieses Pfads suchen verschiedene Unternehmen und Entwickler beim Übergang in die KI-Ära an verschiedenen Knotenpunkten nach Möglichkeiten, die Technologie KI-kompatibel zu machen.

Der Browser war die erste breite Massenanwendung in der Internet-Ära. Bill Gates schrieb in seiner berühmten Memorandum "Die Internet-Welle", die vor dreißig Jahren veröffentlicht wurde: "Wir glauben, dass Computer in den nächsten 20 Jahren einen grundlegenden Einfluss auf Arbeit, Lernen und Spielen haben werden. Exzellente Softwareprodukte sind für das Erreichen dieser Fortschritte von entscheidender Bedeutung. Microsoft begann daher, um den Browser als Einstiegspunkt in die Software zu kämpfen."

Im Zuge der KI-Welle ist der KI-Browser einer der am stärksten umkämpften Knotenpunkte in der KI-Anwendung. Es gibt zahlreiche Teilnehmer am Wettbewerb um den KI-Browser, von berühmten Unternehmern bis hin zu Internet-Pionieren, von chinesischen Konzernen bis hin zu ausländischen Nachwuchskonzernen. Fellou, Dia und Opera suchen alle nach dem besten Weg zur Implementierung eines nativen KI-Browsers. Chrome und der QQ-Browser haben auch KI-Assistenten integriert, und OpenAI und Perplexity planen ebenfalls, eigene Browserprodukte zu veröffentlichen.

Der Zugang ist die direkteste Attraktion, die ein Browser bietet. Jede Änderung des dominanten Browsers bedeutet auch einen Wechsel des Zugangs. Microsoft und Netscape lieferten im Internetzeitalter den ersten Kampf um die Plattform. Microsofts Sieg stärkte seine Dominanz auf dem Desktop durch die Kombination von Windows und Internet Explorer. Als Google Chrome einführen ließ und den auf seinen Lorbeeren ruhenden Internet Explorer vom Thron stürzte, fand die Suchmaschine auch ihren idealen Partner.

Als die Menschen erkannten, dass KI möglicherweise eine neue Umwälzung bringen könnte, blieb der Browser immer noch eines der Kernkomponenten für die KI-Erfahrung. Allerdings wurde der KI-Browser von einem Behälter für die Suche zu einem Träger der KI-Fähigkeiten, von einem Fenster zur Informationsbeschaffung zu einem Partner für die delegierte Ausführung. Hinter dieser Veränderung verschmilzt KI Suche, Entscheidung und Ausführung, sodass Menschen komplexere Aufgaben über natürliche Sprache ausführen können.

Dies macht den KI-Browser zu einem Überlappungspunkt, wo sich KI-Anwendungen aus verschiedenen Richtungen wie KI-Suche, allgemeine Agenten und Copilot treffen. Doubao als KI-Assistent, das KI-Suchprodukt Quark und das Wissensdatenbankprodukt ima haben alle entschieden, ihre Produktfunktionen in Form eines Browsers zu verpacken. Gleichzeitig ist der virtuelle Computer, den Kouzikongjian und Manus für KI eingerichtet haben, eher eine Sammlung von Web-Tools, die auf Browser-Fähigkeiten basieren.

Unter diesem Trend wird der KI-Browser eher zu einem Betriebssystem für die KI-Ära. Dies war das Ziel, das Google von Chrome erhoffte - um den traditionellen Desktop-Betriebssystem zu umgehen und auf Basis des Browsers und der Cloud-Fähigkeiten eine neue Software- und Hardware-Ökosystem aufzubauen.

Wenn KI mit einem Feld und einer Browser-Oberfläche die meisten komplexen Aufgaben erledigen kann, bedeutet dies auch, dass der Desktop nur noch eine einzige Aufgabe hat, nämlich es den Menschen zu ermöglichen, den KI-Browser zu öffnen.

Am KI-Browser erkennen wir ein einfacheres Paradigma für die zukünftige Interaktion zwischen Menschen und Welt. Dieses Interaktionsparadigma wird nicht nur die Software verändern, sondern auch die Hardware zum Anbieter von lokaler Rechenleistung und Verbindung zu Cloud-Rechenleistung machen, wodurch ein flexibleres und leichteres Software- und Hardware-Ökosystem geschaffen wird. Das erste kann die Hardware-Konfiguration des Computers voll ausnutzen, um komplexe KI-Aufgaben im Browser auszuführen, während das zweite einfache Aufgaben auf leichten Geräten wie Smartbrillen ausführen kann.

Die KI-gesteuerte Browser-Umgestaltung

Marc Andreessen, der Gründer von Netscape, sagte einmal: Der Browser ist die Software, die bisher am größten die Lebensweise der Menschen beeinflusst hat. Diese Einschätzung hat sich auch heute nicht geändert. Selbst in einer Zeit, in der das Mobile Internet so weit verbreitet ist und die Menschen es gewohnt sind, auf WeChat und Douyin nach Informationen zu suchen und zu lesen, hat der Browser immer noch Hunderte von Millionen von Benutzern weltweit. Er ist für einen Großteil der komplexen Informationsbeschaffung zuständig und die Hauptöffnungsart für geteilte Dokumente und mehrdimensionale Tabellen.

Als KI zum treibenden Kern der neuen Technologiewelle wurde, wurde der Browser auch zum Schlüsselträger der KI-Fähigkeiten. Viele veröffentlichte KI-Browserprodukte haben dank einer intelligenteren Sucherfahrung und komplexeren Aufgabenautomatisierung Aufmerksamkeit und Begeisterung erregt und immer wieder Szenarien mit "knappem Zugang" geschaffen. Bisher müssen Sie noch immer um einen Einladungscode bitten, wenn Sie einen nativen KI-Browser wie Fellou oder Dia registrieren und nutzen möchten.

Unter der Voraussetzung der KI-Steuerung folgen zwar alle KI-Browser dem Design von KI-Dialogfeld + Browser-Oberfläche, aber in der konkreten Nutzung gibt es unterschiedliche Schwerpunkte. Die verschiedenen Standpunkte und Ausgangspunkte bestimmen die Entwicklungslogik und die Nutzungserfahrung der Produkte.

Wir können die KI-Browser grob in drei Kategorien einteilen: Native KI-Browser, KI-ähnliche Browser und traditionelle Browser mit KI-Fähigkeiten.

Unter den nativen KI-Browserprodukten fühlt sich Dia für mich eher wie ein normaler Browser an, und die Bedienung ist einfacher und flüssiger. Nachdem der Benutzer etwas in die Suchleiste eingegeben hat, kann er wählen, ob er eine Webseite öffnen oder einen Chat starten möchte. Auf einer geöffneten Seite kann der Benutzer jederzeit einen KI-Chat starten, um eine oder mehrere Seiten zusammenzufassen oder Fragen zu stellen. Der Arbeitsablauf besteht darin, zunächst die Informationsbedürfnisse zu befriedigen und dann zu Schreibaufgaben wie Artikeln oder Code zu wechseln.

Im Vergleich dazu fühlt sich Fellou eher wie ein Manus in Browser-Form an, und die Funktionen sind komplexer. Wegen seiner Betonung von Agentenbasierten tiefgreifenden Aktionen und Agentenbasierten Browser habe ich beim Verwenden von Fellou das Gefühl, Aufgaben an Assistenten zu verteilen. Nach der Aufgabe warte ich darauf, dass die Assistenten die Aufgabe erledigen. Diese Nutzungserfahrung ist identisch mit der von Manus und Kouzikongjian und hat nicht so stark das Gefühl des Surfen.

Außer den nativen KI-Browserprodukten existieren auch die Desktop-Versionen von Doubao, Quark und ima in Form von Browsern, aber die Browser-Funktion wird in der Produktpositionierung nicht hervorgehoben. Für diese Produkte, die auf KI-Assistenten, KI-Suche und KI-Wissensdatenbanken abzielen, ist der Browser eher eine zusätzliche Funktion für die Benutzer, die es ihnen ermöglicht, Aufgaben-Seiten zu öffnen. Die Produkt-Updates werden weiterhin auf die Optimierung von Assistenten, Suche und Wissensdatenbanken durch KI ausgerichtet sein.

Darüber hinaus nutzen traditionelle Browser die Chancen, die KI bietet, um sich neu zu erfinden. Der QQ-Browser hat QBot eingeführt, der multimodale Suche, automatische Erkennung des Lesewunsches auf Webseiten und die Nutzung von Büroassistenzfunktionen unterstützt. Chrome hat in seiner Aktualisierung auch den Gemini KI-Assistenten integriert, und Microsoft hat für den Edge-Browser den KI-Assistenten Copilot Vision eingeführt. Diese Veränderung entspricht im Wesentlichen dem Hinzufügen eines KI-Plugins zum Browser, wodurch er neben der bestehenden Nutzungserfahrung zusätzliche KI-Fähigkeiten erhält.

Im Vergleich zu nativen KI-Browsern und KI-ähnlichen Browsern haben traditionelle Browser beim Übergang zu KI-Fähigkeiten mehr Hemmnisse und können ein altes Produkt nicht so schnell auf einen neuen Weg bringen. Daher wählen sie oft einen schrittweisen Ansatz zur Umgestaltung. Liu Hanbo, der Leiter des QBot-Projekts, sagte: Der QQ-Browser wird aufbauend auf seinen bestehenden guten Geschäftsinhalten durch KI eine Zuwachsleistung erzielen. KI hat tatsächlich einen gewissen Zuwachs gebracht. Während der Graustufen-Testphase vor der offiziellen Veröffentlichung der KI-Funktionen des QQ-Browsers war die Aktivität der betroffenen Benutzer höher, und die Gesamtleistung stieg.

Die Wettbewerbslogik der Browser: Zugang, Operator und intelligenter Partner

Obwohl die Implementierungsansätze der drei Produktkategorien unterschiedlich sind, ist die dahinterliegende Wettbewerbslogik die gleiche.

Zunächst ist es ein Konsens, dass der Wettbewerb um den KI-Browser um die Kontrolle über den neuen Zugang geht. Josh Miller, der CEO von The Browser Company, dem Entwickler von Dia, sagte in einem öffentlichen Brief: Der Cloud-Einnahmen steigen stark an, aufstrebende Start-ups nutzen den Browser als Plattform, die Kryptowährungs-Ökosystem hängt von Browser-Plugins ab, WebAssembly eröffnet neue Interaktionserfahrungen...

Alles sammelt sich im Browser.

Dieser Sammeltrend wird durch KI noch deutlicher. Menschen verlassen sich zunehmend auf die Web-Seite, um KI-Suche, KI-Bildgenerierung, KI-Videoerstellung und andere Anforderungen zu erfüllen. Gleichzeitig beobachten wir, dass die KI-Sozialprodukte im ersten Quartal 2025 auf der Web-Seite deutlich zugenommen haben; E-Commerce-Plattformen wie Taobao legen wieder mehr Wert auf die PC-Nutzungserfahrung; Die Interaktion zwischen Menschen und Agenten-Produkten wie Kouzikongjian und Manus konzentriert sich auch mehr auf die Webseite.

Zweitens wird nicht nur der Zugang zur Informationsbeschaffung umkämpft, sondern auch der Ausgangspunkt für automatisierte Aufgabenabläufe. Der Browser wird dabei die Rolle des Operators spielen.

Arvind Srinivas, der CEO von Perplexity, meint, dass das Produkt von Perplexity eine Reihe von Arbeitsabläufen abdecken soll. Beispielsweise kann der Agent von Perplexity das Investmentportfolio eines Benutzers verwalten. Nachdem er Berichte und Nachrichten gelesen hat, sagt er dem Benutzer, wie er sein Risiko ausgleichen kann. Dieser Agent muss den gesamten Such- und Informations-Leseprozess verstehen, nicht nur die einzelne Suchanfrage.

Der Browser ist ein geeignetes Medium für diesen Prozess. Arvind Srinivas sagte: Wenn Sie wirklich möchten, dass KI von der Bereitstellung von Antworten zu Handlungen übergeht - Antworten sind im Wesentlichen eine Kombination von vier oder fünf Suchen, während Handlungen eine vollständige Browsersitzung darstellen, die über eine einzige Eingabe abgeschlossen wird - benötigen Sie einen Browser und eine nahtlose Integration von Rechenleistung auf Client- und Server-Seite.

Nach der Einführung von Xie Yang, dem Gründer von Fellou, sind die vier häufigsten Nutzungsszenarien des Fellou-Produkts Informationssuche, Datenerfassung, Veröffentlichung auf sozialen Medien und automatisierte Formularausfüllung. 60 % der Anwendungsfälle betreffen die Datensuche und -erfassung. Einige Benutzer haben über Fellou Bewerbungsinformationen an ihre Traumfirmen auf LinkedIn gesendet und schließlich Einladungen zu Interviews von zehn Firmen erhalten und bei einer davon eine Stelle angenommen. Dies zeigt, dass die Benutzer auch tatsächlich von KI-Browsern eine stärkere Handlungsfähigkeit erwarten.

Es ist wichtig zu beachten, dass KI-Browser über Cookies mehr Kontextinformationen über die Benutzer sammeln können, wie z. B. was der Benutzer auf einer Webseite gelesen, getan oder mit welchem Konto er sich angemeldet hat. Gleichzeitig können KI-Browser es den Benutzern ermöglichen, in angemeldetem Zustand andere Drittanbieter-Services über versteckte Tabellen zu nutzen, Daten von Webseiten zu erfassen und im Namen des Benutzers zu schließen und Aktionen auszuführen. Dies kann das Problem lösen, dass KI-Anwendungen keine Zugangsberechtigung auf unterliegende Ebenen haben und daher nicht direkt andere Anwendungen aufrufen und die dazugehörigen Informationen abrufen können.

Schließlich könnte der Browser-Wettbewerb am Ende auch ein Wettbewerb um intelligente Partner sein.

Der Browser wird in Zukunft ein Teil des KI-Assistenten. Xie Yang meint, dass Fellou es den Menschen ermöglicht, mehr Freiheit zu haben, mehr Zeit zu haben und sich selbst zu sein. Josh Miller sagte der Zeitschrift "The Verge", dass die Kernfunktion von Dia ein Chat-Tool ist, das den Benutzern hilft, Informationen effizienter zu finden und Aufgaben zu erledigen.

All diese Positionierungen deuten auf einen intelligenten Partner mit besserer Gedächtnis- und Handlungsfähigkeit hin.

Die Fortsetzung der Geschichte von Chrome OS

Aus meiner eigenen Nutzungserfahrung heraus ist der aktuelle KI-Browser noch kein kompetenter intelligenter Partner, sondern eher ein Kind, das noch nicht gelernt hat, Werkzeuge und Fachkenntnisse zu nutzen.

Wir können von KI-Browsern verlangen, dass sie E-Mails schreiben, Bewerbungen senden und Webseiten erstellen, aber in vielen Fällen erreichen sie nur ein akzeptables Niveau, und manche komplexe Aufgaben scheitern sogar während der Ausführung. Beispielsweise hat Fellou Schwierigkeiten, genüg