StartseiteArtikel

Nach der Veröffentlichung von Gemini 3 hat Demis Hassabis zum ersten Mal Stellung bezogen: Google ist wieder in der ersten Liga, aber es gibt tatsächlich einen Bubble in der KI-Branche.

36氪的朋友们2025-11-19 11:05
Der Künstliche-Intelligenz-Blase besteht teilweise, aber Google hat gleichzeitig die doppelte Absicherung sowohl für kurzfristige Geldumwandlung als auch für langfristige Billionen-Euro-Neuschienen.

Am 19. November, Pekinger Zeit, nach der Veröffentlichung der Gemini 3 - Serie von Google, hat das Tech - Podcast "Hard Fork" der New York Times eine Special - Ausgabe herausgebracht. Die Moderatoren Kevin Roose und Casey Newton haben Demis Hassabis, der CEO von Google DeepMind, und Josh Woodward, der Leiter des Google Gemini - Teams, interviewt.

Dieses Interview konzentriert sich auf das neueste Flaggschiff - KI - Modell von Google, Gemini 3 (tatsächlich die Pro - Version der Gemini 3.0 - Serie). Dies ist die bahnbrechende Veröffentlichung, nach der Google erstmals von der Branche weitgehend als wieder an der Spitze in Technik und Produkt anerkannt wird, nachdem es zunächst mit dem Misserfolg von Bard und den Nachholjahren von Gemini 1.x und 2.x zu kämpfen hatte.

Die beiden Leiter haben ausführlich die Durchbrüche von Gemini 3 bei der Mehrschritt - Inferenz, der Codegenerierung (insbesondere im Front - End und bei der "Stimmungscodierung") und der dynamischen Generierung von Interfaces dargelegt. Sie betonten, dass Google sein stärkstes Modell schnell in Produkte wie Suche, Gmail und Workspace für Milliarden von Nutzern integriert hat und so die Wettbewerbsbarrieren neu definiert hat.

Die zentralen Aussagen des Interviews sind:

Gemini 3 entwickelt sich genau wie erwartet. Es werden noch 5 bis 10 Jahre und 1 bis 2 bedeutende Forschungserfolge benötigt, bis die allgemeine Künstliche Intelligenz (AGI) erreicht wird.

Googles Vorteile in Effizienz, Kosten und Distribution auf allen Ebenen stellen sicher, dass es in jeder Marktlage Sieges siegen wird.

Es gibt in Teilen eine KI - Blase, aber Google hat sowohl kurzfristige Einnahmequellen als auch langfristige Billionen - Märkte in Sicht.

Im Folgenden die gekürzte Version des Interviews:

Roose: Casey, wir haben uns entschieden, heute eine Special - Ausgabe über die Veröffentlichung von Gemini 3 zu machen.

Newton: Ja, Kevin. Dieses Modell war in der Silicon Valley KI - Szene lange erwartet. Endlich können wir das fertige Produkt selbst testen.

Roose: Es gibt zwei Gründe, warum wir von unserem normalen Freitagspublikationsrhythmus abgewichen sind. Erstens haben wir die Gelegenheit bekommen, die beiden Kernvertreter von Googles KI - Bereich (Demis Hassabis, CEO von DeepMind, und Josh Woodward, Vizepräsident des Gemini - Teams) zu interviewen.

Zweitens hat die Veröffentlichung von Gemini 3 in der Branche starke Aufmerksamkeit erregt. Wir haben von mehreren Labors interne Informationen erhalten, dass das Modell in einigen Schlüsselbereichen Durchbrüche erzielt hat und möglicherweise eine ernsthafte Bedrohung für die Konkurrenz darstellt. In den letzten zwei Jahren wurde Google als Nachhänger angesehen. Die Frage ist nun: Sind sie wieder an der Spitze?

Newton: Bevor wir in das Interview eintauchen, geben wir zunächst einen kurzen Überblick über die bekannten Informationen. Google hat vor der Veröffentlichung eine private Pressekonferenz abgehalten. Die beeindruckendsten neuen Fähigkeiten von Gemini 3 sind: Die stark verbesserte Fähigkeit zur Codierung und "Stimmungscodierung" sowie die neue Funktion zur Generierung von Interfaces.

Es gibt nicht nur Texte aus, sondern generiert direkt maßgeschneiderte Interfaces für die Nutzer. Wenn Sie beispielsweise nach der Biografie von Vincent van Gogh fragen, generiert das Modell sofort eine vollständige Lernseite mit Bildern, Zeitachsen und interaktiven Elementen. Oder es kann einen Hypothekenrechner für Immobilien über eine Million Dollar erstellen. Dies markiert den Übergang von der "Frage - Antwort - Funktion" zur "Erfahrungsgestaltung".

Roose: In allen öffentlichen Benchmarks hat Gemini 3 das Gemini 2.5 Pro bei weitem übertroffen. Beispielsweise hat das letztere bei der sogenannten "Humanity's Last Exam", einem Sammelband interdisziplinärer Doktor - Level - Aufgaben, nur 21,6 % erreicht, während Gemini 3 direkt auf 37,5 % kommt. Google sagt insgesamt: Alle Aufgaben, die Sie mit ChatGPT, Claude oder früheren Gemini - Versionen erledigen können, können Sie mit Gemini 3 besser erledigen.

Newton: Sie haben auch eine frühe Demonstration von Gemini Agent gezeigt: Das Modell kann tief in den Nutzerposteingang einzugreifen, den gesamten Inhalt der E - Mails verstehen, automatisch kategorisieren, Antworten formulieren und sogar dem Nutzer helfen, den Posteingang vollständig zu leeren.

Ab dieser Woche wird Gemini 3 in der Gemini - App und in der KI - Mode von Google Suche verfügbar sein. US - Studenten werden ein Jahr lang kostenlosen Zugang zur Premiumversion erhalten. Das von Google wiederholt betonte Stichwort ist "Learn Anything" (Alles lernen), was eigentlich bedeutet, dass Gemini als das ultimative personalisierte Lernwerkzeug positioniert wird.

Roose: Demis, Josh, herzlich willkommen bei "Hard Fork". Vor zwei Jahren hat Sundar Pichai Bard als ein "aufgemotztes Honda Civic" bezeichnet, das im Wettlauf mit stärkeren Konkurrenten ist. Was für ein Auto ist dann Gemini 3?

Hassabis: Ich hoffe, es ist viel schneller als ein Honda Civic. Ich bin nicht so gut darin, mit Autos zu vergleichen. Vielleicht ist es eher wie ein professioneller Dragster. Es ist nicht für den Alltagsgebrauch oder für Rennstrecken konzipiert. Es hat eine reine, auf ein bestimmtes Ziel ausgerichtete enorme Kraft. Es repräsentiert die perfekte Kombination unserer besten Forschungsleistungen und der skalierbaren Rechenleistung. Das Ziel ist, in diesem Wettlauf an der Spitze der KI - Entwicklung eine beispiellose Momentanleistung zu zeigen.

Roose: Das ist interessant. Was kann Gemini 3 im Vergleich zu allen bisherigen KI - Modellen konkret neues tun? Geben Sie uns einige quantitative, praktische Beispiele.

Woodward: Drei Punkte sind besonders hervorzuheben. Erstens kann es bei der Mehrschritt - Inferenz gleichzeitig mehr Schritte berücksichtigen, und wir haben seine Zuverlässigkeit auf ein neues Niveau gebracht. Frühere Modelle verloren oft den Überblick oder hatten Halluzinationen, wenn es um die 5. oder 6. Stufe einer komplexen logischen Ableitung ging. Gemini 3 kann hingegen zuverlässig 10 bis 15 Schritte einer zusammenhängenden Inferenz durchführen, wie beispielsweise bei der komplexen Steuerplanung, der Planung und Buchung von ausländischen Geschäftsreisen oder der vollständigen Fehlersuche in einem riesigen System mit Millionen von Codezeilen.

Zweitens wird es erstmals in großem Maßstab neue Interfaces generieren. Die Nutzer wünschen sich nicht einfach nur eine Textantwort, sondern maßgeschneiderte Softwarekomponenten. Wenn Sie beispielsweise sagen: "Entwerfe mir ein Dashboard, das alle meine Portfolios verfolgt", wird es sofort ein interaktives, bedienbares Dashboard - Interface generieren, anstatt nur eine Beschreibung davon, wie man ein Dashboard erstellt.

Drittens haben wir enorme Ressourcen in die Codierungsfähigkeit investiert, insbesondere im Front - End und bei der "Stimmungscodierung". Das bedeutet, dass es auf der Grundlage von natürlicher Sprache Hinweisen funktionstüchtigen und gut gestalteten Code für Benutzeroberflächen generieren kann. Neue Produkte wie Google Antigravity werden dies auch in vollem Umfang zeigen. Das Modell kann die Layouts und Funktionen der Benutzeroberflächen dynamisch an den Kontext anpassen.

Newton: Viele Menschen denken, dass das "Chatten" für normale Nutzer bereits weitgehend gelöst ist. Sie können sich nicht einmal vorstellen, welche neuen Fragen sie an Gemini 3 stellen könnten, um eine qualitative Verbesserung im Vergleich zu früheren Versionen festzustellen. Wie sehen Sie diese Meinung?

Woodward: Ich verstehe diese Meinung. Auf den ersten Blick ist die Genauigkeit bei einfachen Fragen bereits sehr hoch. Der eigentliche Unterschied liegt aber in der Zuverlässigkeit, der Integration und der Art der Informationspräsentation. Die Antworten von Gemini 3 werden kürzer, ausdrucksstärker und leichter verständlich sein. Das ist eine Veränderung, die die meisten Menschen sofort bemerken werden.

Wichtiger noch ist, dass das Modell beginnt, tief mit anderen Datenquellen der Nutzer zu integrieren, beispielsweise mit anderen Produkten in der Google - Ökosystem. Es geht wirklich über die reine Frage - Antwort - Funktion hinaus und wird zum "digitale Haushaltsvorsteher" des Nutzers. Es kann den Kontext des gesamten Posteingangs verstehen und beim Verfassen einer Antwort nicht nur die Frage beantworten, sondern auch die Tonlage und den Inhalt anhand der bisherigen Kommunikationstil des Nutzers und der Beziehung zum Empfänger anpassen.

Hassabis: Ich stimme völlig zu. Seine Zuverlässigkeit, Stil und Perspektive sind sorgfältig ausgearbeitet. Es ist knapper und auf den Punkt getroffen. In Bereichen wie der "Stimmungscodierung" hat es die Praxistauglichkeit erreicht. Dies ist ein Übergang vom "Intelligenten Assistenten" zum "Intelligenten Kollegen". Ich plane selbst, es in den Weihnachtsferien für die Spielprogrammierung zu nutzen. Es kann jetzt nicht nur funktionierenden Code schreiben, sondern auch in der Entwurfsphase Architekturvorschläge geben.

Roose: Demis, bei unserem Interview im Mai dieses Jahres haben Sie gesagt, dass es noch 5 bis 10 Jahre und möglicherweise einige bedeutende Durchbrüche bis zur AGI braucht. Hat Gemini 3 diesen Zeitplan verändert?

Hassabis: Gar nicht. Es entwickelt sich genau wie wir in den letzten zwei Jahren geplant haben. Tatsächlich haben wir seit der Gründung der Gemini - Serie die schnellste Entwicklung in der Branche gehabt. Gemini 3 ist beeindruckend, aber immer noch innerhalb der Erwartungen.

Um die echte allgemeine Künstliche Intelligenz zu erreichen, sind noch 1 bis 2 entscheidende Durchbrüche bei der Konsistenz, der Inferenztiefe, dem Gedächtnismechanismus und der Modellierung der physischen Welt (wie in unseren laufenden Projekten SIMA und Genie) erforderlich. Im Moment arbeiten wir noch an der "System 1 - Denkweise" (schnell, intuitiv), aber um die AGI zu erreichen, müssen wir die "System 2 - Denkweise" (langsam, überlegt, analytisch) unlocken.

Außerdem muss das Modell ein langfristiges, selektives Gedächtnis haben, das es ermöglicht, bestimmte Interaktionen von Wochen oder Monaten zurück zu erinnern und anzuwenden, anstatt nur auf ein begrenztes Kontextfenster zu beschränken. Daher bleibt die Einschätzung von 5 bis 10 Jahren unverändert.

Newton: In der Branche wird derzeit über die "KI - Begleiter" diskutiert. Welche Art von Beziehung möchten Sie, dass die Nutzer zu Gemini 3 eingehen?

Woodward: Dies ist eine sehr sensible, aber wichtige Frage. Wir positionieren es als "Superwerkzeug", nicht als emotionaler Begleiter. Sein Kernwert ist es, den Nutzern zu helfen, ihre alltäglichen Aufgaben effizient zu erledigen und die Produktivität zu steigern. Innerhalb unseres Unternehmens achten wir auf einen neuen Indikator: Wie viele Aufgaben haben wir Ihnen heute geholfen, zu erledigen? Dies ist eher dem Kernwert der ersten Google - Suche - Effizienz - ähnlich. Wir glauben, dass die Positionierung als emotionaler Begleiter sowohl Sicherheitsrisiken birgt als auch vom Kernauftrag von Google als Anbieter von Informationen und Werkzeugen abweicht.

Roose: War es ein großer strategischer Fehler, die Chance auf einen viralen Wachstum durch die "erotischen Begleiter" zu verpassen?

Woodward: Ich möchte darauf nicht eingehen. Unser Sicherheitsteam hat strenge Regeln und Leitlinien.

Roose: In den letzten Wochen waren die Konkurrenten offensichtlich nervös. Glauben Sie, dass Google derzeit im KI - Wettlauf an der Spitze ist?

Hassabis: Die gegenwärtige Konkurrenz ist die heftigste aller Zeiten. Das einzig Wichtige ist die Geschwindigkeit der Entwicklung, und wir sind damit sehr zufrieden. Wir haben unseren Forschungsvorsprung nie verloren, und jetzt hat endlich auch die Produktentwicklung aufgeholt. Die Konkurrenten sind in der Forschung sehr gut, aber bei der skalierbaren Distribution und der vertikalen Integration können sie unsere Vorteile nicht nachahmen.

Wir integrieren Gemini in Produkte wie Maps, YouTube, Android, Suche und Workspace für Milliarden von Nutzern. Dieses Verteilungsnetzwerk und der Rückkopplungsmechanismus von Endnutzerdaten sind eine unüberwindbare Schutzmauer. Außerdem haben wir durch unsere Vorteile in der Entwicklung eigener TPU - Chips auf allen Ebenen eine deutlich niedrigere Trainingskosten und höhere Effizienz als die Konkurrenten, die auf externe GPU - Ressourcen angewiesen sind.

Newton: Was halten Sie von der Debatte über das Skalengesetz und die abnehmenden Renditen? Einige Leute meinen, dass je größer das Modell ist, desto geringer ist die Grenznutzensteigerung der Leistung.

Hassabis: Dies ist eine anhaltende Debatte. Wir sind sehr zufrieden mit der Verbesserung von Gemini 3 gegenüber 2.5, die genau unseren Erwartungen entspricht. Die Renditen steigen nicht mehr wie in der Anfangsphase exponentiell, aber die Zunahme der Praxistauglichkeit und die Verbesserung der Zuverlässigkeit sind immer noch weit höher als unsere Grenzkosten. Es lohnt sich also weiterhin, volle Kraft reinzustecken. Bis zu den 1 bis 2 Forschungserfolgen, die für die AGI erforderlich sind, ist es weiterhin die effektivste Strategie, die Leistung durch die größten Basismodelle zu steigern. Wir glauben, dass das Skalengesetz weiterhin gilt.

Roose: Befinden wir uns in einer KI - Blase?

Hassabis: Dies ist eine zu binäre Frage. In einigen Bereichen (beispielsweise bei Firmen, die Milliarden von Dollar in der Seed - Runde bekommen, aber kein echtes Produkt haben und nur von Konzepten reden) gibt es tatsächlich eine Blase. Die Bewertungen stimmen nicht mit den tatsächlichen Einnahmen überein. Aber Google hat sowohl kurzfristige Einnahmequellen (Suche, Workspace, Cloud - TPU) als auch langfristige Billionen - Märkte (Robotik, Spiele, Medikamentenforschung, Materialwissenschaft usw.).

Beispielsweise schafft unser spezialisiertes Modell AlphaFold in der Medikamentenforschung bereits tatsächlichen Wert. Dies ist ein Billionen - Markt, der nichts mit der Bewertung von VerbraucherkI zu tun hat. Unabhängig davon, ob es kurzfristig eine Blase gibt oder nicht, werden wir siegen: In der Boom - Phase nutzen wir die Chancen, in der Rezessionsphase sind wir dank unserer Vorteile auf allen Ebenen und unserem starken Cashflow widerstandsfähiger.

Newton: Wenn es jetzt eine Thanksgiving - Party wäre und jemand den politischen Gesprächsthema ablenken möchte, welches Feature von Gemini 3 würden Sie ihm empfehlen, um alle zu beeindrucken?

Woodward: Ich weiß nicht, ob es Thanksgiving retten kann, aber es kann Spaß machen. Nehmen Sie ein Selfie mit Ihrem Smartphone und lassen Sie Gemini 3 das Foto verrückt bearbeiten.

Unser Bildmodell in Gemini ist immer noch weltweit das stärkste. Sie können sofort eine Familienfoto in jede komische Szene, Stil oder Epoche verwandeln. Das wird definitiv alle zum Lachen bringen. Danach, wenn Sie zeigen, wie es Ihnen hilft, einen anständigen Kündigungsschreiben zu verfassen oder einen maßgeschneiderten Festtagsrezeptrechner zu generieren, werden sie natürlich andere neue Funktionen erkunden.

Dieser Artikel stammt von "Tencent Tech", Übersetzung: Wuji, Redaktion: Xiaojing, veröffentlicht von