Google fügt stillschweigend Knopf hinzu: Gemini bekommt Hände und Füße, drei Riesen rennen um KI

Google hat still und leise einen neuen Agent-Eingang hinzugefügt: Gemini beginnt, "Hände und Füße" zu bekommen. Es ist nicht mehr nur für die Beantwortung von Fragen zuständig, sondern ist auch bereit, für Sie tätig zu werden.

Ein Screenshot hat vorab einige wichtige Informationen über die diesjährige Google I/O Conference enthüllt:

Gemini will nicht nur chatten, sondern auch als Agent-Arbeitsplatz fungieren.

In letzter Zeit hat TestingCatalog, das die Produktänderungen von Google langfristig verfolgt, einen neuen „Agents“-Eingang in Gemini entdeckt.

Es steht neben Gems und Files direkt als primärer Eingang, anstatt als versteckte Option, die nur von Entwicklern gesehen werden kann.

Diese Änderung sendet ein klares Signal:

In der nächsten Phase von Gemini wird es nicht nur ein Chatfenster sein, in dem man Fragen stellt und Antworten bekommt, sondern ein Arbeitsplatz, an dem man Aufgaben gibt und es diese ausführt.

Wenn man die Produktaktionen von Google in den letzten sechs Monaten betrachtet, wird die Linie bereits sehr klar:

Agent Designer wurde vollständig in Gemini Enterprise eingeführt, NotebookLM hat Audiogenerierung und Videozusammenfassung hinzugefügt, Agentspace wurde insgesamt in Gemini Enterprise integriert und ist jetzt dessen Kernmotor, Chrome hat eine Gemini-Sidebar eingebaut und Auto Browse eingeführt, damit die KI den Browser für dich bedienen kann.

Und jetzt ist in der Chat-Oberfläche von Gemini eine neue Registerkarte namens „Agents“ neben der Chat-Registerkarte erschienen. Benutzer können direkt darin neue Aufgaben erstellen, Ziele festlegen und Tools und Dateien hinzufügen. Die gesamte Oberfläche sieht eher wie ein Arbeitsplatz für die Aufgabenausführung aus als wie ein Chatfenster.

Bei jedem Schritt wird dasselbe getan: Die Agent-Funktionen werden von der Entwickler-Backend-Ebene an die normalen Benutzer herangeführt.

Die Google I/O hat noch nicht begonnen, aber Google hat bereits die Hälfte seiner Karten auf den Tisch gelegt.

Chat ist nicht mehr das einzige Zentrum

Wenn man die offizielle Produktbeschreibung von Google liest, wird man feststellen, dass sich der Stil bereits geändert hat.

Als Gemini für Google Workspace im Februar 2024 erstmals eingeführt wurde, was war damals der Verkaufspunkt? Chat.

Mit der KI chatten, dir bei der E-Mail-Erstellung helfen, dir bei der Sitzungsprotokollführung helfen. Im Wesentlichen ist es ein Chat-Assistent, der in Workspace integriert ist.

Wenn man jetzt die Beschreibung von Gemini Enterprise auf der Google-Website liest: „Gemini Enterprise ermöglicht es Teams, AI-Agenten auf einer sicheren Plattform zu entdecken, zu erstellen, zu teilen und auszuführen.“

Die Chatfähigkeit ist immer noch einer der Kerne von Gemini Enterprise, aber sie ist jetzt klar in ein größeres Agentenplattform-Framework integriert.

Die getestete Oberfläche von Gemini Enterprise, die von TestingCatalog preisgegeben wurde

Die getestete Oberfläche von Gemini Enterprise, die von TestingCatalog preisgegeben wurde, zeigt, dass der Agent bereits in den Hauptinteraktionsbereich gelangt ist: Links kann man zwischen Chat und Agent umschalten, rechts sind die Ziele, Agenten, Anwendungsverbindungen und Dateipaneele integriert.

Im neu hinzugefügten Tab „Agenten“ fallen zunächst die beiden klaren Eingänge „Neue Aufgabe“ und „Posteingang“ auf.

Wenn man eine neue Aufgabe startet, wird die Oberfläche zu einem leistungsstarken Aufgabenarbeitsbereich erweitert.

Obwohl die Kern-Chatansicht weiterhin vorhanden ist, erscheint rechts davon ein strukturiertes Aufgabenpanel.

Dieses Panel definiert klar alle Elemente der Aufgabe, einschließlich des klaren „Ziels“, des ausführenden „Agenten“, der zugänglichen „verbundenen Anwendungen“ und der erforderlichen „Dateien“.

Darüber hinaus erscheint in der rechten Sidebar ein Schalter namens „Require human review“ (menschliche Überprüfung erforderlich). Benutzer können so menschliche Überprüfungspunkte in den Aufgabenausführungsablauf einfügen. Die gesamte Oberfläche sieht dadurch eher wie ein Arbeitsbereich für die Aufgabenausführung aus als wie ein normales Chatfenster.

Dies zeigt, dass man Gemini nicht mehr nur zum Chatten öffnet, sondern um eine „Aufgabe auszuführen“.

Dies bestätigt auch, dass die Definition von Gemini Enterprise von einem „Chat-Assistenten“ zu einer leistungsstarken „Agenten-Ausführungsplattform“ gewandelt wurde.

Ohne Programmieren

Kann man auch Agenten erstellen

Im Produktbereich ist der wichtigste Baustein der Agent Designer, der Ende 2025 offiziell eingeführt wurde.

Die offizielle Definition von Google lautet:

Eine interaktive Code-freie/niedrigkodierte Plattform zur Erstellung, Verwaltung und Veröffentlichung von ein- und mehrschrittigen Agenten in Gemini Enterprise.

Betrachten wir die drei Schlüsselkompetenzen:

Erstens, mehrschrittige Agenten.

Es geht nicht um einfache Befehle wie „Schreibe mir eine E-Mail“, sondern um die Unterstützung der Orchestrierung von mehrschrittigen Aufgaben. Unter einem Agenten können auch Unter-Agenten angehängt werden, um einen Arbeitsfluss zu bilden.

Zweitens, Anbindung an reale Tools.

Gmail, Google Drive, Jira, GitHub, Notion, SharePoint – diese sind alle in den offiziellen Update-Logs aufgeführten bereits eingeführten Connectoren. Weitere Connectoren wie Shopify sind bereits in der öffentlichen Vorschauphase.

Drittens, Zeitgesteuerte Ausführung.

Der Agent muss nicht ständig überwacht werden. Man kann die Zeit festlegen, und er führt die Aufgabe selbst aus.

Bevorher hat Google bereits mit Agentspace (das jetzt in Gemini Enterprise integriert ist) diesen Ansatz validiert: Das Zusammenführen von Wissenssuche und Agentenausführung auf einer einzigen Plattform.

Mitarbeiter müssen sich nicht darum kümmern, welcher Agent im Hintergrund läuft oder welche Datenquelle abgerufen wird. Sie können alles in einer Oberfläche suchen, fragen und ausführen.

Das Auftauchen der C-End-Agent-Registerkarte in der preisgegebenen Oberfläche bedeutet, dass diese Funktionen nicht nur in der Enterprise-Version bleiben werden.

Es ist sehr wahrscheinlich, dass Google sie an alle Benutzer anbieten wird.

Ein Gehirn allein reicht nicht

Man braucht auch Hände und Füße

Hier muss ein leicht verwechselbares Konzept geklärt werden.

Ein Agent ist nicht gleichbedeutend mit einem großen Modell.

Ein großes Modell ist eher wie das „Gehirn“ eines Agenten, das für das Verstehen von Aufgaben, die Ableitung von Lösungswegen und die Generierung von Entscheidungen verantwortlich ist.

Aber um die Aufgabe wirklich zu erledigen, braucht es noch eine Schicht von „Händen und Füßen“, d. h. eine Orchestrierungsschicht, die für das Zerlegen von Schritten, das Aufrufen von Tools, das Verbinden von Kontexten und die Behandlung von Ausnahmen während der Ausführung verantwortlich ist.

Genau diese Fähigkeit hat Google diesmal ergänzt.

Aus den öffentlichen Informationen kann man den Agent Designer in Gemini Enterprise als ein visuelles Agentenarbeitsplatz-System für normale Unternehmensbenutzer verstehen: Man muss keine Programmierung kennen, um ein- und mehrschrittige Aufgaben zu orchestrieren.

Im Vergleich dazu ist der Agent Designer in Vertex AI Agent Builder eher auf die untere Ebene und die Entwickler-Szenarien zugeschnitten.

Die beiden haben sehr ähnliche Fähigkeitsstrukturen, aber der erste wurde zu einer einfacher zu bedienenden und zugänglicheren Produkt-Oberfläche gestaltet.

Mit anderen Worten, Google macht nicht einfach, dass das Modell besser chattet, sondern es packt die ursprünglich eher für Entwickler bestimmten Agenten-Build-Fähigkeiten in eine visuelle Arbeitsplatzoberfläche, die auch normale Benutzer bedienen können.

Für C-End-Benutzer bedeutet dies: Man muss keine API kennen, keine Python programmieren. Man kann einfach per Drag-and-Drop die KI dazu bringen, einen Arbeitsfluss auszuführen.

Der Unterschied zwischen einer „chatfähigen KI“ und einer „arbeitfähigen KI“ liegt genau in dieser Orchestrierungsschicht.

Dreikampf um die Orchestrierungsschicht

Wenn man den Blick weiter weg nimmt: Google ist nicht der einzige, der um die Orchestrierungsschicht kämpft.

Anthropic und OpenAI setzen jeweils auf völlig verschiedene Wege. Die Unterschiede zwischen den drei sind so groß, dass es fast wie die Entwicklung dreier verschiedener Produkte aussieht.

Schauen wir uns zunächst die Konzepte an.

Google geht den Weg der Plattformisierung.

Es integriert die Agenten-Fähigkeiten in die bestehende Produktmatrix: Workspace, Search, NotebookLM, Google Cloud. Mit seiner Verbreitungsfähigkeit will es die Konkurrenz überwältigen.

Die Logik ist klar: Die Fähigkeit, über 2 Milliarden Benutzer zu erreichen, ist eine Schutzmauer. Die erstellten Agenten werden einfach in die Tools integriert, die die Benutzer bereits nutzen.

Anthropic geht den Weg der Instrumentalisierung.

Claude Cowork läuft auf dem Desktop und kann direkt mit lokalen Dateien, Ordnern und Anwendungen interagieren.

Auf der offiziellen Produktseite von Anthropic steht:

Es kann sich frei zwischen verschiedenen Anwendungen bewegen, Informationen aus mehreren Quellen integrieren und Aufgaben ausführen, ohne dass der Benutzer jeden Schritt koordinieren muss.

https://www.anthropic.com/product/claude-cowork?utm_source=chatgpt.com

Es baut keine Plattform und keine Ökosysteme auf, sondern macht das Modell selbst zum Agenten.

OpenAI scheint eher einen Weg zu gehen, der sowohl Plattform als auch Ökosystem beinhaltet:

Einerseits erweitert es die dritte Seite Angebote und die Verbreitung über GPTs und den GPT Store, andererseits wechselt es auf der API-Seite von der Assistants API zur Responses API und übernimmt die umfassendere Agentenentwicklung mit dem Agents SDK.

Schauen wir uns jetzt die Architekturunterschiede an.

Google legt großen Wert auf die Orchestrierungsschicht.

Vertex AI Agent Builder bietet ein komplettes Framework, der Agent Designer fungiert als Frontend. Die Zusammenarbeit von mehreren Unternehmens-Agenten ist der Kern-Verkaufspunkt.

Anthropic legt eher Wert auf die Fähigkeiten als auf die Orchestrierung.

Das Modell unterstützt von Haus aus den Tool-Aufruf und die Interaktion mit der Umgebung. Die Orchestrierung überlässt es den Entwicklern selbst. Claude's Denkweise ist: Anstatt Ihnen ein Framework aufzubauen, mache ich das Modell stark genug, damit Sie es nach Ihren Wünschen orchestrieren können.

OpenAI befindet sich dazwischen.

Die Assistants API bietet eine Schicht der Orchestrierungsabstraktion, aber nicht so stark wie bei Google. Der GPT Store ist für die Verbreitung zuständig, aber die Aktivität des Ökosystems ist immer noch fraglich.

Die Zielgruppen sind auch völlig unterschiedlich.

Google zielt auf die Unternehmens-IT-Abteilungen und normale C-End-Benutzer ab, die Schwelle ist am niedrigsten. Anthropic zielt auf Entwickler und fortgeschrittene Benutzer ab, die Obergrenze ist am höchsten. OpenAI möchte einen breiten Spektrum abdecken, sowohl Entwickler als auch C-End-Benutzer ansprechen.

Interessanterweise konkurrieren die drei jetzt nicht mehr darum, „welches Modell schlauer ist“. Die Benutzerfreundlichkeit der Orchestrierungsschicht und die Reichhaltigkeit des Ökosystems sind die entscheidenden Faktoren, die für die Entscheidung der Entwickler zwischen ihnen ausschlaggebend sind.

Wer bringt zuerst eine Milliarde Menschen dazu, Agenten zu nutzen?

Das Schlachtfeld liegt diesmal nicht auf der Modellsicht.

Der Google-Chef Sundar Pichai hat einmal in einem offiziellen Blogpost gesagt: Die Wettbewerbsfähigkeit von Google liegt nicht nur in einer bestimmten Modellversion, sondern in der kompletten Full-Stack-Fähigkeit dahinter:

Von der Forschung, den Modellen und Tools bis hin zu den Produktschnittstellen, die auf Milliarden von Benutzern zugreifen können, und schließlich bis zur weltweiten Cloud-Infrastruktur und dem Rechenzentrumsystem.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。