StartseiteArtikel

Hier finden Sie die neuesten Erkenntnisse von Demis Hassabis von DeepMind.

量子位2025-09-15 15:31
Die "wissenschaftliche Goldene Zeit" von NanoBanana bis AGI

Die Popularität von Nano Banana hat es ermöglicht, dass Demis Hassabis, der CEO von Google DeepMind, in einem neuesten Interview erneut über AGI spricht.

Wenn wir innerhalb der nächsten zehn Jahre vollständiges AGI haben, wird dies ein goldenes Zeitalter der Wissenschaft und eine neue Renaissance einläuten.

Nano Banana ist sicherlich kein AGI, aber es zeigt auch einige der Schlüsselkompetenzen und -merkmale, die Hassabis für ein AGI - System erforderlich hält.

Hassabis hat vorher vorhergesagt, dass wir AGI um 2030 erreichen könnten. Der dringend zu überwindende Engpass besteht darin, dass heutige KI - Systeme keine echte "Doktorwürdige Intelligenz" besitzen. Sie sind zwar in einigen Bereichen hervorragend, aber in anderen machen sie noch einfache Fehler.

Außerdem hat die heutige KI keine "echte Kreativität" und kann keine neuen Vermutungen oder Hypothesen aufstellen.

Um ein AGI zu entwickeln, muss man die Welt um uns herum und die physische Welt verstehen, nicht nur die abstrakte Welt der Sprache oder der Mathematik.

Trotz der oben genannten Herausforderungen ist Hassabis weiterhin überzeugt, dass der Beginn von AGI ein "goldenes Zeitalter der Wissenschaft" einläuten wird und in vielen Bereichen wie Energie und Gesundheit enorme Vorteile für die Menschheit bringen wird.

Netizens sagen: Bislang ist dies einer der realsten Dialoge über die Herausforderungen und Chancen auf dem Weg zu AGI.

Genug geredet. Quantum Bit hat dieses Interview übersetzt und zusammengefasst. Lasst uns es gemeinsam betrachten:

  • Die Fähigkeit, realistische physikalische Interaktionsszenarien zu generieren, ist selbst ein Beweis für das tiefe Verständnis der Weltgesetze durch das System.
  • Humanoid - Roboter sind für alltägliche Aufgaben von großem Wert, aber spezialisierte Roboterformen haben ebenfalls unersetzliche Anwendungsfälle.
  • AGI sollte ursprüngliche Schaffenskraft besitzen, nicht nur bestehende Systeme optimieren.
  • Nicht alle können die gleiche Ausgabequalität erzielen, da dies auch von Fachkenntnissen wie Anwendungstechniken, ästhetischem Blickwinkel und Erzählfähigkeit abhängt.
  • Ich glaube, dass sich innerhalb der nächsten 10 Jahre der Medikamentenentwicklungszyklus von mehreren Jahren oder sogar zehn Jahren auf einige Wochen oder sogar Tage verkürzen kann.
  • Die Stärke von Nano Banana liegt nicht nur darin, dass es ein Spitzen - Bildgenerator ist, sondern auch in seiner erstaunlichen Konsistenz.
  • Das Endziel eines Hybrid - Systems besteht darin, die verifizierten Lösungen stromaufwärts in die Lernkomponenten zu integrieren.
  • ……

Der Nobelpreis und Google DeepMind

Moderator: Zunächst herzlichen Glückwunsch zu Ihrem Nobelpreis. Vielen Dank an X und an die erstaunlichen Durchbrüche von AlphaFold. Vielleicht haben Sie das bereits erwähnt, aber ich weiß, dass alle hier gerne hören möchten, wo Sie sich befanden und wie die Situation war, als Sie den Nobelpreis erhielten.

Hassabis: Es war ein sehr surrealer Moment (lacht). Alles war einfach unglaublich. Sie benachrichtigen Sie etwa 10 Minuten bevor alles online geht. Wenn Sie einen Anruf aus Schweden bekommen, fühlen Sie sich wie vom Blitz getroffen - es ist der Anruf, den jeder Wissenschaftler sich wünscht. Dann folgen einige Zeremonien, und Sie verbringen eine ganze Woche in Schweden zusammen mit der Königsfamilie. Es war einfach fantastisch.

Das Wunderbarste ist, dass sie das Nobelpreiszertifikat aus dem Tresor holen und Sie dann darauf unterschreiben können, neben anderen großen Preisträgern. Es ist ein ziemlich unglaublicher Moment. Auf anderen Seiten können Sie Feynman und Feyn, Marie Curie, Einstein und Niels Bohr sehen. Dann blättern Sie weiter und können Ihren eigenen Namen in jenes Buch schreiben.

Moderator: Hatten Sie einen vagen Verdacht, dass Sie nominiert wurden und wussten, dass dies eventuell Ihnen bevorstehen könnte?

Hassabis: Letztendlich ist es ziemlich erstaunlich, dass man in dieser Zeit die Nachrichten so gut verschließen kann - aber diese Technologie wird tatsächlich wie ein schwedisches Nationalgut geschützt. Also kann die Außenwelt nur Gerüchte hören. Einige denken beispielsweise, dass AlphaFold vielleicht eine solche Anerkennung verdient. Aber die Kriterien für die Vergabe des Preises beinhalten sowohl wissenschaftliche Durchbrüche als auch die reale Auswirkung, wobei letztere vielleicht erst nach 20 oder 30 Jahren sichtbar wird. Also kann niemand vorhersagen, wann ein Durchbruch kommt oder ob er überhaupt möglich ist. Genau das ist der faszinierendste Teil der Forschung.

Moderator: Das ist wirklich eine Überraschung. Herzlichen Glückwunsch. Wenn wir über DeepMind sprechen. Alphabet ist ein riesiges Konzernunternehmen mit vielen Geschäftsbereichen. Welche Rolle spielt DeepMind darin und welche Verantwortungen trägt es hauptsächlich?

Hassabis: Wir betrachten DeepMind und Google DeepMind jetzt als eine Einheit - vor einigen Jahren wurden die beiden Unternehmen zusammengeführt, und die Kräfte aller KI - Teams von Google und Alphabet wurden integriert. Man kann sagen, dass wir die Stärken aller Teams zusammengebracht haben und eine einheitliche Abteilung gegründet haben.

Ich würde es lieber so beschreiben: Wir sind wie das "Motorenhaus" von Google und Alphabet. Wir bauen nicht nur das Kern - Gemini - Modell, sondern entwickeln auch verschiedene KI - Modelle, darunter Video - Modelle und interaktive Weltmodelle. Jetzt sind diese Modelle vollständig in die Google - Ökosystem integriert, und fast jedes Produkt und jede Interaktionsoberfläche läuft mit unseren entwickelten KI - Modellen.

Heute interagieren bereits Milliarden von Nutzern über die KI - Übersicht, den KI - Modus oder die Gemini - Applikation mit unseren Modellen - und das ist erst der Anfang. Wir integrieren KI tief in alle Produkte wie Workspace und Gmail. Für uns ist dies eine ausgezeichnete Gelegenheit: Wir können sowohl führende Forschung betreiben als auch sofort die Ergebnisse für die Nutzer weltweit zugänglich machen.

Moderator: Wie viele Leute sind in Ihrem Team und wie sieht es mit ihnen aus? Sind es Wissenschaftler und Ingenieure? Wie ist die Zusammensetzung Ihres Teams?

Hassabis: Unser Team besteht derzeit aus etwa 5000 Personen, hauptsächlich aus Ingenieuren und Doktoranden - Forschern... Ich schätze, dass sie über 80 % ausmachen, was ungefähr drei oder vier tausend Spitzentechniker entspricht.

Das Genie 3 Weltmodell

Moderator: Die Modelliterationen gehen sehr schnell, und es gibt ständig neue Modelle oder sogar völlig neue Modellkategorien, wie das kürzlich veröffentlichte Genie Weltmodell. Was ist also das Genie Weltmodell? Wir haben ein Demo - Video vorbereitet, das wir während der Live - Übertragung besprechen können.

Demo - Video: Was Sie sehen, ist nicht nur ein Spiel oder ein Video, sondern eine vollständige virtuelle Welt, die von Genie 3 generiert wurde. Als neuer Durchbruch in der Weltmodellierung können Sie jetzt einfach eine Szene beschreiben, und Genie 3 generiert sofort eine interaktive, immersive Umgebung, die es Ihnen ermöglicht, tatsächlich in Ihre eigene imaginierte Welt einzutauchen.

Hassabis: Ja, all diese dynamischen Bilder und interaktiven Welten, die Sie sehen - achten Sie darauf, jemand steuert jetzt diese 3D - Umgebung in Echtzeit mit den Pfeiltasten und der Leertaste. Der wichtigste Punkt ist: Alle diese Pixel werden sofort generiert. Bevor ein Spieler einen bestimmten Bereich erkundet, existiert dort überhaupt kein Inhalt.

Zum Beispiel in dieser Szene: Jemand malt an der Wand in einem Raum. Wenn der Spieler sich umdreht und zurückschaut, ist die Malspur immer noch an der Wand, und dieser Teil existierte vorher nicht. Noch wunderbarer ist, dass Sie jederzeit Befehle wie "Person in Hähnchenkostüm" oder "Wassermotorrad" eingeben können, und die KI integriert diese Elemente sofort in die Szene. Ich finde, dass es wirklich erstaunlich ist.

Moderator: Es ist etwas schwer zu verstehen. Wir haben alle 3D - immersive Videospiele gespielt, aber bisher gibt es keine Funktion, um Objekte zu erstellen. Sie haben keine 3D - Engine wie Unity oder Unreal verwendet, um Objekte vorab zu erstellen. Alles, was Sie sehen, sind 2D - Bilder, die von der KI in Echtzeit generiert werden, aber es entsteht ein völlig immersiver 3D - Eindruck - das ist der echte Durchbruch.

Hassabis: Dieses Modell lernt im Wesentlichen die physikalischen Gesetze durch Reverse - Engineering. Es analysiert Millionen von echten Weltvideos von Plattformen wie YouTube und leitet daraus die Funktionsweise der realen Welt selbstständig ab. Obwohl es noch nicht perfekt ist, kann es bereits hochkonsistente Interaktionsszenarien von ein oder zwei Minuten generieren. Besonders bemerkenswert ist, dass sein Generierungsbereich weit über menschliche Aktivitäten hinausgeht. Sie können sowohl einen Hund am Strand steuern als auch mit einer Qualle interagieren und tatsächlich eine Vielfalt von Welten simulieren.

Moderator: Der traditionelle 3D - Rendering - Engine funktioniert so, dass Programmierer alle physikalischen Regeln vorab schreiben, wie z. B. wie Licht reflektiert wird und wie Objekte sich bewegen. Sie erstellen ein 3D - Modell, und die Engine berechnet die Licht - und Schatteneffekte gemäß den voreingestellten Programmen und rendert schließlich das Bild. Der Durchbruch von Genie besteht darin, dass es diese physikalischen Gesetze nur durch das Anschauen von unzähligen Videos selbstständig versteht. Ohne jegliche künstliche Programmierungen von physikalischen Gesetzen erlernt es komplexe Prinzipien wie Lichtreflexion und Objektbewegung nur durch Beobachtung und Lernen.

Hassabis: Ja, es verwendet nicht nur echte Videodaten, sondern auch synthetische Daten von Spiel - Engines für das Training. Dieses Projekt hat für mich eine besondere Bedeutung. Was mich wirklich erschüttert hat, ist, dass ich in den 90er Jahren, als ich in die Branche eintrat, selbst Spiel - KI und Grafik - Engines geschrieben habe. Damals war es schon fast unmöglich, Polygon - Modellierung und physikalische Engines manuell zu programmieren. Und jetzt, wenn ich mir Genie ansehe: die dynamischen Reflexionen auf dem Wasser, die Fließfähigkeit der Materialien, das physikalische Verhalten der Objekte usw. All diese Effekte, die früher stundenlang programmieren mussten, sind jetzt sofort verfügbar.

Moderator: Es ist schwer, mit Worten zu beschreiben, wie komplexe Probleme dieses Modell gelöst hat. Dieser Durchbruch ist wirklich unvorstellbar. Wohin wird uns diese Technologie führen, wenn wir dieses Modell in die... fünfte Generation vorausschauen?

Hassabis: Unser ursprüngliches Ziel bei der Entwicklung solcher Modelle war immer klar. Obwohl die einfachen Sprachmodelle (wie die Basisversion von Gemini) ständig fortschreiten, haben wir uns von Tag eins an für die Schaffung eines echten multimodalen Systems eingesetzt - es kann beliebige Eingabetypen verarbeiten, einschließlich Bilder, Audio und Video, und beliebige Ausgabemöglichkeiten generieren.

Dies betrifft die Kernfrage der allgemeinen Künstlichen Intelligenz (AGI): Eine echte AGI muss unsere physikalische Welt verstehen, nicht nur die abstrakte Welt der Sprache oder der Mathematik. Diese Fähigkeit zur physikalischen Wahrnehmung ist der fehlende Schlüsselbaustein in der heutigen Robotik und die Voraussetzung für die tatsächliche Nützlichkeit alltäglicher KI - Helfer wie intelligente Brillen - sie müssen die physikalische Umgebung, in der Sie sich befinden, und ihre Funktionsweise verstehen.

Deshalb sind das Genie - Modell und unser Spitzen - Text - zu - Video - System Veo im Wesentlichen "Weltmodelle". Dies sind alle Beispiele für unsere Bemühungen, Weltmodelle zu erstellen, die die Dynamik und die physikalischen Gesetze der Welt verstehen. Die Fähigkeit, realistische physikalische Interaktionsszenarien zu generieren, ist selbst ein Beweis für das tiefe Verständnis der Weltgesetze durch das System.

Die Robotik - Revolution

Moderator: Diese Technologie wird schließlich zu einem revolutionären Durchbruch in der Robotik führen. Obwohl dies nur eine Anwendungsrichtung ist, können wir vielleicht darüber diskutieren, wie hoch das gegenwärtige Niveau der visuell - sprachlichen - motorischen Modelle ist.

Unser vorgestelltes universelles System sieht so aus: Ein Gerät mit Kamera kann ich mit Sprache, also mit Text oder Stimme, anweisen, dass ich möchte, dass es etwas macht. Dann weiß es, wie es in der realen Welt praktische Aktionen unternehmen muss, um etwas zu tun.

Hassabis: Ja. Sie können sich unser Gemini ansehen, die Echtzeit - Version von Gemini. In dieser Version können Sie Ihr Handy hochhalten und es auf die Welt um Sie herum richten - ich empfehle es jedem, es zu versuchen - seine Einsicht in die reale Welt ist schon erstaunlich. Wir planen, es in eine bequemere Vorrichtung wie Brillen zu integrieren, und dann wird es ein echter Alltagshelfer sein. Wenn Sie auf der Straße gehen, kann es Ihnen verschiedene Dinge empfehlen. Wir können es auch in Google Maps integrieren.

In der Robotik haben wir etwas namens "Gemini - Robotermodell" erstellt, das auf dem Gemini - Modell basiert und mit zusätzlichen Roboter - Daten feinabgestimmt wurde. In der Demo, die im Sommer dieses Jahres veröffentlicht wurde, gibt es zwei Roboterarme, die Objekte auf einem Tisch manipulieren. Sie können direkt mit dem Roboter sprechen, z. B. "Lege das gelbe Objekt in den roten Eimer", und er kann die Sprache in präzise Handlungsanweisungen umsetzen.