Google CTO und Chef-AI-Architekt enthüllen: Wie hat Google in zweieinhalb Jahren einen AI-Rückstand wettgemacht?
- Das grundlegende Kriterium für den Fortschritt von KI liegt nicht in den Benchmark-Scores, sondern darin, ob sie sich wirklich in die Wissens- und Schaffensarbeit der realen Welt integrieren und diese bereichern kann.
- Die Kernverbesserungen von Gemini 3 konzentrieren sich auf die präzise Intentionseinschätzung, die globale Servicefähigkeit sowie die instrumentelle und schöpferische Fähigkeit mit exponentiellem Effekt.
- Das "Atmosphärenprogrammieren" (Programmieren in natürlicher Sprache) bricht die Barriere zwischen Kreativität und Umsetzung und macht Innovation zu einer Fähigkeit, die jedem zugänglich ist.
- Die Realisierung von AGI ist keine abgeschlossene Laborforschung, sondern ein Ingenieurpraktikum, das durch die kontinuierliche Interaktion mit der realen Welt gemeinsam aufgebaut werden muss.
- Text- und Visuallmodelle teilen zunehmend die gleiche untere Architektur. Diese technologische Konvergenz schafft ein interaktives Erlebnis, das der menschlichen Intuition entspricht.
- Der Kern der Schwierigkeiten bei der Realisierung einer einheitlichen Modellarchitektur besteht darin, die doppelten Standards zwischen den strukturierten Signalen von Texten und der pixelgenauen Genauigkeit und konzeptionellen Kohärenz, die für die Bildgenerierung erforderlich ist, zu vereinbaren.
„Wir sind noch weit von der Spitzenleistung entfernt.“ Vor zweieinhalb Jahren, als Google DeepMind das Gemini-Projekt startete, sprach der Chief Technology Officer und Chef-KI-Architekt Koray Kavukcuoglu in einer internen Sitzung offen aus.
Damals lag Google im Wettlauf um die großen Modelle deutlich hinterher. Das AI Studio hatte nur 30.000 Benutzer und erzielte keinen Umsatz. Das Team war in der harten Konkurrenz unter großem Druck.
Von der ehrlichen Anerkennung des Rückstands bis zur Markterfolg von Gemini 3 hat Google ein beeindruckendes Comeback hingelegt. Hinter diesem Wendepunkt stehen drei Schlüsselumbrüche:
Erstens: Der Wechsel vom Labordenken zum Schlachtfelddenken und die Einrichtung eines Aktualisierungsrhythmus von "einer großen Iteration alle sechs Monate“.
Zweitens: Der Verzicht auf das Alles-unter-einem-Hut-Prinzip und die Konzentration auf drei Schlüsselstärken, damit das Modell die menschlichen Absichten wirklich versteht, globale Benutzer bedienen kann und die Fähigkeit hat, Werkzeuge zu nutzen und zu schaffen.
Drittens: Die Aktivierung der Ultima Ratio von Google, die Mobilisierung von 2.500 Experten auf sechs Kontinenten und die Erzielung einer Ende-zu-Ende-Synergie von der Chip-Ebene bis hin zu Milliardenprodukten wie der Suche und Android.
In diesem KI-Rüstungswettlauf um die Zukunft: Wie kann ein Tech-Riese sich zugeben, dass er hinterher liegt, und wie kann er in nur zweieinhalb Jahren die Spitze erreichen? In einem Gespräch mit Logan Kilpatrick, Senior Product Manager bei Google DeepMind, enthüllte Kavukcuoglu erstmals die wahre Geschichte hinter diesem Comeback.
Im Folgenden die Highlights des Interviews mit Koray Kavukcuoglu:
Frage: Nach der Veröffentlichung von Gemini 3 war die Marktreaktion positiv. Wie bewerten Sie den Durchbruch dieser Modellgeneration?
Kavukcuoglu: Nach den Benchmark-Tests und der Vorabverifizierung hat Gemini 3 tatsächlich unsere Erwartungen erfüllt. Dieses Modell verfügt nicht nur über starke technische Fähigkeiten, sondern hat vor allem in realen Anwendungsfällen die Akzeptanz der Benutzer gewonnen. Obwohl noch Verbesserungspotenzial besteht, sind die aktuellen Rückmeldungen ermutigend. Die Innovationspunkte, die die Benutzer interessieren, stimmen in hohem Maße mit unserer technologischen Richtung überein.
Frage: Von Gemini 2.5 zu Gemini 3.0 scheint die Geschwindigkeit des technologischen Fortschritts noch zu beschleunigen. Wie bewerten Sie diese Entwicklung?
Kavukcuoglu: In der heutigen KI-Branche hält ein erstaunlicher Innovationsrhythmus an. Sowohl auf der Ebene der Grundlagenforschung als auch der Ingenieurpraxis sehen wir kontinuierliche Durchbrüche. Dieser Fortschritt beruht auf einem positiven Kreislauf: Wenn die Technologie in der Praxis Wert schafft, erhalten wir mehr Rückmeldungen, die wiederum neue Innovationsideen hervorbringen. Mit zunehmender Komplexität und Vielfalt der zu lösenden Probleme treibt diese Herausforderung uns stattdessen voran.
Frage: Welche Rolle spielen Benchmark-Tests in der technologischen Entwicklung?
Kavukcuoglu: Benchmark-Tests und die Modellentwicklung ergänzen sich gegenseitig. Beispielsweise erreichte in den frühen Tagen in den HLE-Benchmark-Tests (die als "letzte menschliche Prüfung" gelten und die Fähigkeit von KI zur Lösung menschlicher komplexer Probleme messen) das Modell nur 1 % oder 2 % der Leistung. Heute können fortschrittliche Modelle wie DeepThink über 40 % erreichen. Bei herausfordernden Benchmarks wie GPQA Diamond verbessern wir zwar noch langsam um 1 % die Leistung, aber sie weisen auf Kernprobleme hin, die noch nicht vollständig gelöst sind.
Frage: Bedeutet der Fortschritt in Benchmark-Tests wie GPQA, dass wir die technologische Spitze neu definieren müssen?
Kavukcuoglu: Benchmark-Tests sind zwar wichtig, aber sie entsprechen nicht vollständig dem realen Fortschritt. Meiner Meinung nach liegt das grundlegende Kriterium für den technologischen Fortschritt in der praktischen Anwendung. Wenn Wissenschaftler mit Hilfe des Modells ihre Forschung vorantreiben, Schüler ihre Studien abschließen und Ingenieure reale Probleme lösen, wenn diese Werkzeuge sich wirklich in alle Aspekte der menschlichen Wissensarbeit einfügen, können wir von einem echten Fortschritt sprechen. Die Aufgabe der Benchmark-Tests besteht darin, eine quantifizierbare Referenz für diesen Fortschritt bereitzustellen.
Drei technologische Pfeiler und das Produkt-Rad: Der Weg für Gemini 3, die Barrieren zu durchbrechen
Frage: Wie bestimmt das Team bei der Modelliteration die Schwerpunkte für technologische Durchbrüche? Bei Gemini, insbesondere beim Pro-Modell, welche Aspekte wollten Sie verbessern?
Kavukcuoglu: Wir konzentrieren uns hauptsächlich auf drei Kernaspekte:
Zunächst die präzise Intentionseinschätzung. Das Modell muss die tieferen Absichten der Benutzerbefehle genau erfassen, anstatt einfach Muster zu matchen. Dies erfordert den Bruch mit der traditionellen Antwortlogik und die Entwicklung einer echten Aufgabe verstehen und ausführen können.
Zweitens die globale Servicefähigkeit. Als technologische Plattform für globale Benutzer muss Google sicherstellen, dass die Technologie wirklich inklusiv ist und auf jeden auf der Welt zugreifen kann. Die Leistungssteigerungen von Gemini 3 Pro in vielen Nicht-Vorzugssprachen sind ein wichtiger Schritt in Richtung technologischer Gleichberechtigung.
Schließlich die instrumentelle und schöpferische Fähigkeit. Auf der Ebene der technologischen Umsetzung konzentrieren wir uns auf die Kernfähigkeiten wie Funktionsaufrufe, Werkzeuggebrauch, Agentenaktionen und Codegenerierung. Die Fähigkeit zur Werkzeugausführung hat einen einzigartigen exponentiellen Effekt. Sie ermöglicht es dem Modell, sowohl vorhandene Werkzeugbibliotheken flexibel zu nutzen, um komplexe Schlussfolgerungen zu ziehen, als auch neue Werkzeuge zu schaffen. Diese Eigenschaft der Selbstentwicklung verwandelt das Modell von einem Ausführungswerkzeug in einen schöpferischen Akteur.
Die Bedeutung der Codefähigkeit liegt nicht nur auf technischer Ebene, sondern auch darin, dass sie als Baustein der digitalen Welt dient. In der heutigen digitalisierten Welt ist Code das zentrale Medium, das Kreativität und Realität verbindet und jedem Gedanken die Möglichkeit gibt, durch Berechnung umgesetzt zu werden.
Wir erleben eine grundlegende Veränderung des Programmierparadigmas. Durch das Programmieren in natürlicher Sprache (oder "Atmosphärenprogrammieren") können Schöpfer einfach ihre Vorstellungen in alltäglicher Sprache beschreiben, und sofort wird ein nutzbarer Code generiert. Dieses neue Paradigma von "Beschreibung ist Umsetzung" senkt die technologischen Barrieren auf ein nie dagewesenes Maß. Wenn die Barriere zwischen Kreativität und Umsetzung gebrochen wird, ist Innovation nicht länger das Privileg von professionellen Entwicklern, sondern eine Fähigkeit, die jeder mit einer Idee erreichen kann.
Frage: Welchen Wert hat die neu eingeführte Agenten-Coding-Plattform Anti-Gravity von Google für die Modelloptimierung?
Kavukcuoglu: Solche Produktplattformen bilden eine wichtige Infrastruktur für unsere technologische Entwicklung. Vom Blickwinkel der Modellentwicklung hat die direkte produktbezogene Verbindung mit den Entwicklern einen doppelten Wert:
Zunächst bieten uns die echten Benutzerrückmeldungen aus Produkten wie AI Studio und Anti-Gravity die direktesten Richtungen für die technologische Optimierung. Diese Anforderungssignale aus der Entwicklungsfront können präziser auf die zu verbessernden Aspekte des Modells hinweisen als alle simulierten Tests.
Zweitens formt dieser geschlossene Kreis von Produkt und Forschung unser Forschungs- und Entwicklungsparadigma neu. Genauso wie die AI-Übersicht in der Suche sich durch die Interaktion mit Millionen von Benutzern ständig verbessert, werden auch die tiefgreifenden Rückmeldungen von Anti-Gravity in der Veröffentlichungsphase zu einem Schlüsselfaktor für die Modelliteration.
Es ist wichtig zu betonen, dass obwohl die Benchmark-Tests uns die Koordinaten für die technologische Herausforderung vorgeben, der wirkliche Maßstab für den technologischen Wert immer die Anwendungsleistung in der realen Welt ist. Nur wenn das Modell in konkreten Szenarien kontinuierlich Wert schafft, hat die technologische Entwicklung wirklich Lebenskraft.
Von der Forschung zur Ingenieurpraxis: Wie der Chef-KI-Architekt das Muster der technologischen Umsetzung neu gestaltet
Frage: Als Chef-KI-Architekt, wie bewerten Sie die synergetische Beziehung zwischen der Modellentwicklung und der Produktumsetzung?
Kavukcuoglu: Der technologische Wert muss schließlich über die Produkterfahrung realisiert werden. Meine Kernaufgabe besteht darin, sicherzustellen, dass alle Produktlinien von Google von den neuesten KI-Fähigkeiten unterstützt werden, und gleichzeitig die Produktfeedback in einen wichtigen Antrieb für die technologische Entwicklung umzuwandeln.
Der bidirektionale Kreislauf zwischen technologischer Bereicherung und Bedarfsermittlung. Wir bemühen uns, ein umfassendes System zur technologischen Bereicherung aufzubauen: Einerseits wandeln wir die Spitzenfähigkeiten der Modelle in Produktwert um, andererseits gewinnen wir durch reale Benutzerumgebungen die Richtung für die Verbesserung. Dieser bidirektionale Kreislauf formt unser Forschungs- und Entwicklungsparadigma neu. Das Produkt ist nicht nur ein Anwendungsfall für die Technologie, sondern auch eine wichtige Quelle für technologische Durchbrüche.
Die Neudefinition der Benutzererfahrung im Zeitalter der KI. Wir befinden uns derzeit an einem entscheidenden Punkt in der Veränderung des Mensch-Maschine-Interaktionsparadigmas. Neue KI-Technologien definieren neu, was die Benutzer von Produkten erwarten, einschließlich der Interaktionsweise, der Service-Tiefe und der Informationspräsentation. Dies erfordert eine enge Zusammenarbeit mit allen Produktteams, um die Grenzen der nächsten Generation von intelligenten Erlebnissen zu erkunden.
Der praktische Weg zur Erreichung von AGI. Wir sind fest davon überzeugt, dass die Realisierung von AGI durch die kontinuierliche Interaktion mit der realen Welt erfolgen muss. Die Produktplattform bietet genau diesen wertvollen Verbindungsweg, damit wir die Rückmeldungssignale von Milliarden von Benutzern sammeln und die technologische Entwicklungsrichtung ständig korrigieren können. Dies ist der grundlegende Grund, warum wir die Produktintegration als Kernstück der Entwicklung von AGI betrachten.
Frage: Sie haben das Konzept der gemeinsamen Erstellung von AGI mit Kunden und Produkten erwähnt. Dies scheint den traditionellen Forschungsansatz zu überschreiten?
Kavukcuoglu: Dies ist der Kern unserer Methodik. Die Erstellung von AGI ist keine abgeschlossene Laborforschung, sondern ein Ingenieurpraktikum, das kontinuierlich mit der realen Welt interagiert.
Dafür entwickeln wir ein vollständiges System basierend auf dem Ingenieurdenken:
Ein systematischer Sicherheitsaufbau: Von der Vorhersagephase des Modells an werden Sicherheitsüberlegungen tief in den gesamten Entwicklungsablauf integriert. Wir haben nicht nur ein spezielles Sicherheitsteam, sondern auch jeden Entwickler mit Sicherheitsbewusstsein versehen. Bei jeder Iterationsprüfung haben die Sicherheitsindikatoren die gleiche Wichtigkeit wie die Leistungsindikatoren.
Ein global koordiniertes Ingenieurpraktikum: Die Veröffentlichung von Gemini 3 zeigt die einzigartige Kooperationsfähigkeit von Google. Genauso wie moderne Raumfahrtprojekte globale Zusammenarbeit erfordern, haben wir technologische Teams von sechs Kontinenten zusammengebracht und eine nahtlose Verbindung von der Grundlagenforschung bis zur Produktintegration hergestellt. Diese technologische Koordination auf einer solchen Skala stellt sicher, dass das Modell bei der Veröffentlichung in allen Produkten eine einheitliche Benutzererfahrung bietet.
Ein produktgetriebener technologischer Fortschritt: Wenn Produkte wie die AI-Übersicht und die Gemini-Anwendung bereits in der frühen Entwicklungsphase an der Modelloptimierung beteiligt sind, haben wir tatsächlich ein Rad für kontinuierliche Verbesserungen aufgebaut. Die Produktteams sind nicht nur Technologienutzer, sondern auch strategische Partner, die gemeinsam die technologische Richtung bestimmen. Diese tiefe Integration ermöglicht es uns, Laborinnovationen schnell in Nutzwert für die Benutzer umzuwandeln.
Die Zeit nach Gemini 3: Der nächste Kampfplatz für Agenten, Kreativität und Spezialisierung
Frage: Nach den bemerkenswerten Erfolgen von Gemini 3, wie plant das Team den Entwicklungspfad für das nächste Modell?
Kavukcuoglu: Wir halten immer einen Gleichgewicht zwischen "die Erfolge feiern" und "nach Exzellenz streben". Wir sollten uns natürlich über die Fortschritte von Gemini 3 freuen, aber gleichzeitig sind wir uns bewusst, dass es keine Grenzen für technologische Durchbrüche gibt.
Von der technologischen Perspektive haben wir einige Schlüsselbereiche für die Verbesserung identifiziert:
Die Qualität der Inhaltserstellung: Obwohl das aktuelle Modell bereits eine ausgezeichnete Textgenerierungsfähigkeit hat, muss es in Bezug auf Stilkonstanz, emotionale Genauigkeit und logische Strenge noch verbessert werden.
Die Fähigkeit von Agenten und Programmierung: Dies ist der Bereich mit dem größten Potenzial für Durchbrüche. Wir müssen das Modell in der Lage sein, komplexe Aufgaben zu planen, eigenständig zu entscheiden und den Code zu optimieren.
Die Abdeckung von spezialisierten Szenarien: Obwohl das aktuelle Modell die meisten Entwicklergruppen bedienen kann, müssen wir die Präzision und Zuverlässigkeit des Modells bei der