Wie kann Gemini sich aus der schwierigen Situation befreien? Google's Chef - AI - Architekt rät: Zuerst Rückständigkeit zugeben und Rhythmus wiederfinden

Google gibt zu, hinterherzuliegen. Gemini 3 bringt technologische Wiederbelebung.

Das Eingestehen der Rückständigkeit war der erste Schritt für Google, um wieder aufzutanken. Sie haben die unterliegende Architektur neu strukturiert und so einen Kernvorteil in der multimodalen Verständnisbildung aufgebaut. Mit der "Nutzbarkeit" als Hauptschlachtfeld haben sie eine qualitative Veränderung in der Erfahrung mit großen Modellen erzielt. Darüber hinaus haben sie das Team in ein "paralleles System" umstrukturiert und die Infrastruktur wiederbelebt. Dadurch hat dieses Techriese endlich seinen Rhythmus wiedergefunden.

"Es war lange Zeit ein Wettlauf um Aufholjagd."

Als Koray Kavukcuoglu, der Chef - AI - Architekt von Google und CTO von DeepMind, vor der Kamera offen zugab, "zurückgelassen worden zu sein", war es kaum zu übersehen: Dieses Techriese, das einst die Goldene Zeit des Deep Learning definiert hatte, hatte eine wahre Krise erlebt. Der Ausbruch von ChatGPT zog die Aufmerksamkeit der gesamten Branche auf OpenAI, während Google als "Rückständiger" galt.

Aber diese schwierige Phase ist nun Geschichte.

Mit der umfassenden Veröffentlichung von Gemini 3 – das auf mehreren wichtigen Benchmarks wieder an der Spitze steht und in Produkten wie Suche, YouTube, Maps und Android gleichzeitig integriert wurde – hat Google bewiesen, dass es nicht nur aufgeholt hat, sondern auch seine Organisationsmethodik und technischen Wege neu gestaltet und seinen eigenen Rhythmus wiedergefunden hat.

In einem kürzlich geführten, fast einstündigen tiefgehenden Gespräch hat Kavukcuoglu selten das Geschehen hinter dieser "technologischen Renaissance" aufgedeckt: Wie hat Google in nur zwei Jahren die rückständige Lage in ein branchenweiteres, systemisches Vorsprungsposition umgewandelt?

Koray Kavukcuoglu, Chef - AI - Architekt von Google und CTO von DeepMind

Der wahre Ausgangspunkt: Das Eingestehen der Rückständigkeit

Kavukcuoglus Offenheit ist ungewöhnlich. "Als wir mit Gemini begannen, wussten wir, dass wir zurücklagen. Aber man muss ehrlich sein, die Realität akzeptieren, bevor man innovieren kann."

Dies markiert tatsächlich einen Wendepunkt in der internen Einigkeit: Die langjährige Tradition der Forschung allein reicht nicht mehr, um mit der Geschwindigkeit der Zeit Schritt zu halten.

Früher war DeepMind für wissenschaftliche Durchbrüche bekannt: AlphaGo, AlphaFold, MuZero. Diese Meilensteine haben das Halo des "technologischen Vorreiters" geschaffen. Doch wenn es darum geht, Modelle in Massenmarkt - Szenarien einzusetzen, hat sich gezeigt, dass dieser forschungsgetriebene Rhythmus nicht direkt in Produktfähigkeiten umgesetzt werden kann.

Das Eingestehen dessen war der erste Schritt für Google, um wieder aufzutanken.

Multimodularität ist keine Überzuckerung, sondern eine Notwendigkeit der unterliegenden Architektur

In dem Interview hat Koray mehrmals die "Multimodularität" in den Mittelpunkt gerückt. Seine Erklärung ist nicht geprägt von Werbung, sondern rein auf Ingenieurlogik basiert: Die Welt ist nicht linear, also kann auch die Intelligenz, die die Welt versteht, nicht linear sein.

Texte beschreiben nur eindimensionale Logik, Bilder repräsentieren räumliche Strukturen, Audio enthält zeitliche Hinweise, und Videos sind eine Kombination dieser Dimensionen. Ein Modell, das wirklich als universelles Intelligenzsystem fungieren kann, kann nicht nur auf Texteingabe und - ausgabe basieren.

Google hat sich entschieden, auf Architekturebene eine Einheitlichkeit herzustellen, sodass das Verständnis unterschiedlicher Modalitäten in einem einzigen Modell gemeinsam trainiert wird. Dies ist der schwierigste Weg, da nicht nur die Modellstruktur geändert werden muss, sondern auch die Tokenisierungsmethode, der Trainingsverlust, der Optimierer und sogar der Inferenzpfad neu gestaltet werden müssen.

Aber genau diese Umstrukturierung der unterliegenden Ebene hat es Gemini ermöglicht, in Bereichen wie Diagrammanalyse, Dokumentenverständnis und multimodalen Aufgaben schnell Abstand zu gewinnen. Die Außenwelt beurteilt Bildmodelle oft danach, "wie gut sie zeichnen können", während Googles Ansatz völlig anders ist – die Bedeutung der Multimodularität liegt darin, dass das Modell die Welt besser versteht, nicht dass es schöne Bilder erzeugt.

Das Geheimnis von Googles Beschleunigung: Die völlige Neuschreibung der Organisationsform

Die wirkliche Wende von Gemini kam auf Organisationsebene.

Früher war Google eher wie eine serielle Fertigungsstraße: Das Forschungs - Team trainierte das Modell, das Ingenieur - Team übernahm die Implementierung, das Produkt - Team kümmerten sich um die Benutzererfahrung, und das Sicherheits - Team sorgte als letzte Stufe für die Qualitätssicherung. Diese Struktur war in der Zeit der Internetprodukte effektiv, aber in der Ära der großen Modelle hat sie einen tödlichen Nachteil: langsames Iterieren und getrennte Prozesse.

Heute hat Google alle Teams neu zu einem "parallelen System" zusammengesetzt. Koray betont besonders, dass ab Gemini 3: Produktmanager ab dem ersten Tag des Trainings an der Aufgabenplanung beteiligt sind; das Ingenieur - Team parallel den Inferenzpfad und die Implementierungskosten optimiert; Sicherheitsstrategien in den Trainingsablauf integriert werden, statt erst vor der Veröffentlichung nachgebessert zu werden; echte Nutzerdaten direkt in die Trainingspipeline fließen, ohne durch die gesamte Organisationsstruktur gefiltert zu werden.

Diese Veränderung hat es Gemini ermöglicht, erstmals den Iterationsrhythmus der Konkurrenz einzuholen und das Modell auch "produktähnlicher" zu machen – stabiler, besser verstehend und in der Lage, echte Aufgaben auszuführen, anstatt nur Laborfähigkeiten zu demonstrieren.

Für ein Unternehmen mit über 200.000 Mitarbeitern ist diese Organisationsumstrukturierung weit schwieriger als eine einfache Modelliteration.

Der Sprung in der Gemini - Erfahrung: Die Verbesserung der Intelligenz ist nicht der Hauptgrund

In den letzten 12 Monaten haben viele Nutzer eine deutliche Verbesserung in der Gemini - Erfahrung festgestellt. Aber Korays Erklärung ist nicht, dass "das Modell klüger geworden ist", sondern dass Google endlich die "Nutzbarkeit" als Kernziel festgelegt hat, darunter:

Erstens: Die Fähigkeit, Anweisungen zu verstehen, hat stark zugenommen. Dies ist der Bereich, den die Nutzer am direktesten spüren und der auch der Ausgangspunkt für die Ausführung von Aufgaben durch das Modell ist.

Zweitens: Die internationale Anpassung gehört nun zu den Kernfähigkeiten. Google hat Nutzer weltweit. Bei der Ausbildung von Gemini wurden erstmals systematisch multikulturelle und transskenarische Korpora einbezogen, nicht nur Übersetzungen.

Drittens: Die Fähigkeit der Toolchain und die Codeausführung haben stark zugenommen. Dies bildet die Grundlage für die Entwicklung von Gemini zu einem Agenten – von "Antwort geben können" zu "Aufgaben ausführen können".

Die Verbesserung von Gemini ist kein punktueller Durchbruch, sondern das natürliche Ergebnis eines reifen Systemprojekts.

Die Infrastruktur wird erneut zu Googles Stärke

Bei der Diskussion über Wettbewerbsvorteile betont Koray am meisten nicht die Modellfähigkeiten, sondern die Infrastruktur – ein Aspekt, den die Außenwelt oft übersieht.

TPU, weltweite Rechenzentren, die Fähigkeit zur Verteilung über verschiedene Produkte, ein etabliertes Sicherheitsystem, eine riesige Anzahl von Zugangspunkten, die auf der Suche und Android aufbauen … Wenn diese Fähigkeiten mit einem einheitlichen Modell kombiniert werden, entsteht ein Netzwerkeffekt, der schwer zu kopieren ist.

Die Verbesserung von Gemini beruht im Wesentlichen auf der Wiederbelebung der Infrastruktur. Dies ist auch einer der Gründe, warum Google in kurzer Zeit von einem Rückständigen wieder in die Mitte der Branche zurückgekehrt ist.

Aus dem Interview lässt sich eine Veränderung spüren: Der Erfolg von Gemini ist nicht das Ergebnis eines genialen Einfalls eines Wissenschaftlers oder eines plötzlichen Anstiegs der Modellparameter, sondern das natürliche Ergebnis einer riesigen Organisation, die ihren einheitlichen Rhythmus wiedergefunden hat.

Google hat zwei Jahre gebraucht, um von der Problemerkennung über die Systemumstrukturierung bis zur Entwicklung einer neuen Produktlogik zu gelangen. Diese "systemische Wende" zieht zwar nicht so viel Aufmerksamkeit wie eine beeindruckende Demo, hat aber langfristig einen höheren Wert als jeder einzelne Modellsprung.

Es ist zu einem bestimmten Zeitpunkt gut, neue Spitzenleistungen und Benchmarks zu definieren. Die Definition von Benchmarks ist sehr wichtig. Es gibt einen Unterschied zwischen technologischem Fortschritt und Benchmarks. Im Idealfall stimmen sie hundertprozentig überein, aber das ist nie der Fall.

Der nächste AI - Krieg: Vom Sprachverständnis zur Handlungsintelligenz

Korays Einschätzung der Zukunft ist klar und direkt: Im nächsten Stadium wird es nicht darum gehen, wer das beste Modell für Gespräche hat, sondern wer besser in der Lage ist, mehrschrittige Aufgaben auszuführen.

Dieser Wettlauf wird stattfinden in: Automatisierung von Arbeitsabläufen, Entwickler - Toolchains, Unternehmensaufgaben - Intelligenz, Suche und Informationsorganisation, systemweitem AI (Android, Chrome, Workspace)

AI wandelt sich von Sprachmodellen zu "Aufgabenbetriebssystemen". Das Ziel von Gemini ist es, die Basisintelligenz für solche Systeme zu werden.

Für die Kapitalmärkte ist dies ein entscheidender Unterschied: Gesprächsmodelle sind Produkte, Handlungsmodelle sind Plattformen. Die kommerzielle Wertschöpfung von Plattformen ist weit höher als die von Produkten.

Im Folgenden die Hauptpunkte von Koray Kavukcuoglu:

Das wichtigste Kriterium für uns, um Fortschritt zu messen, ist die Umsetzung des Modells in der realen Welt. Wissenschaftler nutzen es, um ihre Forschung voranzubringen, Schüler nutzen es, um ihr Lernen zu unterstützen, Anwälte nutzen es, um Fälle zu analysieren, Ingenieure nutzen es, um Code zu schreiben – von der Fachwelt bis zum Alltag, von einfachen E - Mail - Schreibaufgaben bis zu komplexen kreativen Arbeiten, Menschen nutzen diese Technologie, um alle möglichen Aufgaben zu bewältigen. Diese breite Anwendung über verschiedene Bereiche und Szenarien hinweg ist genau das wichtigste Maß für den Wert.

Wenn wir allgemeine Künstliche Intelligenz erreichen wollen, müssen wir dies über Produkte und eine tiefe Verbindung mit den Nutzern und der Ökosysteme tun. Meine Kernaufgabe ist es, sicherzustellen, dass jedes Produkt von Google von der neuesten Technologie unterstützt wird. Wir wollen nicht die Produkte selbst entwickeln – wir sind keine Produktspezialisten, sondern Technologieentwickler. Wir konzentrieren uns auf die Technologieentwicklung und das Aufbauen von Modellen.

Wir halten uns immer an die gleiche Iterationsgeschwindigkeit wie das AI - Modell und veröffentlichen die Gemini - Anwendungen synchron – das ist keine leichte Aufgabe. Nur weil diese Teams schon in der frühen Phase der Entwicklung intensiv beteiligt waren, konnten wir sicherstellen, dass alle Produkte sofort aktualisiert werden, sobald das Modell fertig ist. Dieser Synergiemechanismus ist inzwischen unser Standardprozess.

Wenn ich immer wieder gefragt werde, welches das größte Risiko für Gemini sei, antworte ich immer gleich: Die Abnahme der Innovation ist unser wirkliches Problem. Ich glaube nicht, dass wir das ultimative Rezept gefunden haben, und ich glaube auch nicht, dass wir nur durch mechanisches Ausführen unser Ziel erreichen können.

(Hast du auch das Gefühl, dass es sich um ein Comeback handelt?) Ja, ich habe das Gefühl, sogar schon bevor es sichtbar wurde. Denn als die LLMs ihre Stärke wirklich gezeigt haben, war ich sehr ehrlich und dachte, dass wir in DeepMind einst eine führende KI - Laboratorium waren. Aber gleichzeitig habe ich auch gemerkt, dass wir in einigen Bereichen nicht genug investiert haben … Es war eine echte Aufholjagd. Wir haben lange Zeit hart nachgeholt.

Ich stimme nicht mit denen überein, die sagen, "Google ist zu groß und zu schwer zu lenken". Ich denke, dass wir dies zu einem Vorteil machen können, weil wir einzigartige Ressourcen und Fähigkeiten haben.

Wir gehen jetzt eindeutig in Richtung Multimodularität – sowohl bei der Eingabe als auch bei der Ausgabe. Mit dem technologischen Fortschritt durchdringen sich die Architekturkonzepte verschiedener Bereiche. Diese ursprünglich sehr unterschiedlichen Architekturen werden immer kompatibler. Dies ist keine zwangsweise Kombination, sondern eine natürliche Konvergenz der Technologieentwicklung. Wenn man die Wege zur Effizienzsteigerung und die Richtung der Ideenentwicklung erkennt, verschmelzen die Technologiepfade von selbst.

Im Folgenden der vollständige Text des Gesprächs (übersetzt mit Unterstützung von KI)

Logan Kilpatrick (Moderator):

Hallo zusammen und willkommen zurück bei Release Notes. Ich bin Logan Kilpatrick und arbeite im DeepMind - Team. Heute haben wir das Vergnügen, Koray Kavukcuoglu zu begrüßen, der CTO von DeepMind und der neue Chef - AI - Architekt von Google Core. Vielen Dank für dein Kommen. Ich freue mich auf das Gespräch.

Koray Kavukcuoglu:

Ja, ich bin sehr begeistert. Vielen Dank für die Einladung.

Logan Kilpatrick:

Natürlich, Gemini 3, wir sitzen hier und das Modell ist bereits veröffentlicht. Die Resonanz scheint sehr positiv zu sein. Ich denke, als wir es veröffentlicht haben, hatten wir bereits eine Ahnung, wie gut das Modell performen würde. Die Ranglisten sehen toll aus, aber ich denke, die echte Prüfung ist es, das Modell in die Hände der Nutzer zu geben und es tatsächlich zu veröffentlichen.

Koray Kavukcuoglu:

Das ist immer die Prüfung, oder? Ich meine, Benchmarks sind der erste Schritt. Dann haben wir getestet. Wir haben in früheren Versionen mit vertrauenswürdigen Testern getestet und so weiter. Also bekommt man das Gefühl, ja, es ist ein gutes Modell, sehr leistungsfähig. Es ist nicht perfekt, oder? Aber ich bin ziemlich zufried

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。