Google DeepMind CEO: Braucht es nur 1–2 Durchbrüche bis zur Künstlichen Allgemeinen Intelligenz (AGI)?
4. Dezember 2025, Axios AI+ Summit.
Bei dem letzten Gespräch saß gegenüber Mike Allen, Mitbegründer von Axios, der Gewinner des vergangenen Jahres Nobelpreises für Chemie, Demis Hassabis, CEO von Google DeepMind.
Als man ihn fragte, wie weit man von der AGI noch entfernt sei, wich er nicht aus:
Wir fehlen der AGI nur noch an einem oder zwei technologischen Durchbrüchen auf AlphaGo-Ebene.
Diese Aussage hat die gesamte KI-Branche erschüttert, weil sie so konkret war. Aber dies ist keine hastig gefasste Prognose, sondern eine auf der gegenwärtigen technologischen Entwicklung basierende Schlussfolgerung.
Wichtig ist, dass er auch die zugrunde liegende Logik des KI-Wettbewerbs auf den Punkt gebracht hat: Es geht nicht darum, wer am meisten Geld oder am meisten GPU's investiert, sondern darum, wer Forschung, Ingenieurwesen und Produktentwicklung am besten miteinander verbinden kann.
Abschnitt 1 | Ist die AGI bald da? Worauf gründet er diese Aussage?
Hassabis gibt ein Zeitfenster von 5 bis 10 Jahren für die Realisierung der AGI an. Dies basiert nicht auf der Größe der Modellparameter, sondern auf einigen sehr konkreten Fortschritten:
1. Das Modell entwickelt sich von einem Text-Experten zu einem multimodalen Verständnissystem
Das beeindruckt Hassabis am meisten an Gemini: Nicht das Schreiben von Code oder das Generieren von Texten, sondern das Verständnis von Videos und das Erfassen der Absichten hinter den Bewegungen.
Während eines Tests mit Gemini zeigte er einen Ausschnitt aus dem Film "Fight Club" ab, in dem der Hauptcharakter seinen Ring abnimmt, bevor er anfängt zu kämpfen. Er fragte dann spontan:
Was bedeutet diese Bewegung?
Gemini beschrieb nicht nur die sichtbare Bewegung, sondern gab eine tiefgehende Interpretation: Dies ist ein Symbol für das Ablegen von Identität und Regeln, ein Übergang des Charakters von der Realität zum Extrem.
Hassabis' Bewertung war: Erschüttert.
Denn dies geht über die Mustererkennung hinaus und zeigt bereits erste Anzeichen von Einsichtsfähigkeit.
2. Das Modell hat eigene Urteile und ist nicht mehr nur anpassungsfähig
Hassabis erwähnt besonders, dass Gemini etwas Kleines, aber von großer Bedeutung erreicht hat. Wenn man sagt: "Du hast unrecht", weicht es nicht einfach aus, sondern widerspricht sanft.
Dies ist nicht nur eine Urteilsfindung über richtig oder falsch, sondern zeigt, dass das Modell beim Verständnis des Kontexts und der Korrektur von Fehlern auch die Tonlage kontrollieren und den Ausdruck balancieren kann.
Hassabis sagt, dass er die Perspektive von Gemini mag: Knapp, ruhig, selbstbewusst und nicht gefällig.
Dies bedeutet, dass das Modell beginnt, sich von der Rolle eines Chat-Tools zu lösen und sich einem System mit stabiler Perspektive nähert.
3. Vom Generieren von Inhalten zum Entwickeln von Produkten
Gemini kann jetzt zwei Dinge leisten:
Mit einem Klick ein spielbares Spiel generieren: Früher hätte dies Wochen der Entwicklung erfordert, jetzt kann ein vollständiges Prototyp in wenigen Stunden erstellt werden
Frontend-Webseiten generieren: Nicht nur Code schreiben, sondern auch wissen, wie man sie attraktiv und benutzerfreundlich macht
Darunter steckt ein umfassendes Verständnis des Code-Struktur, des Designkonzepts und der Interaktionserfahrung. Es geht nicht nur darum, Text zu generieren, sondern darum, etwas zu schaffen, das direkt verwendet werden kann.
Aktuelle Modelle zeigen bereits erste Anzeichen von Verständnis-, Urteils- und Schaffenskraft.
Deshalb sagt er: Wir sind sehr nahe dran, es fehlen nur noch ein oder zwei technologische Durchbrüche auf AlphaGo-Ebene.
Abschnitt 2 | Aber es ist noch keine AGI: Wo liegen die Unterschiede?
Obwohl diese Fähigkeiten sich weiterentwickeln, gesteht er auch zu: Wir haben die AGI noch nicht erreicht, die gegenwärtigen Modelle haben noch deutliche Schwächen.
Während im vorherigen Abschnitt beschrieben wurde, was das Modell bereits kann, geht es hier darum, was es noch nicht kann.
1. Es fehlt an kontinuierlicher Lernfähigkeit
Aktuelle Large Language Models können nicht kontinuierlich lernen, sie können nur die Daten, die während des Trainings zur Verfügung standen, einmalig lernen.
Dies bedeutet: Es wächst nicht im Laufe der Nutzung, wird nicht durch die Interaktion mit Benutzern schlauer und korrigiert keine Fehler aus Erfahrung wie ein Mensch.
Online-Lernen und Langzeitgedächtnis-Systeme sind eine der Schlüsseltechnologien auf dem Weg zur AGI.
2. Es kann keine langfristigen Pläne umsetzen
Obwohl die Modelle in der Einzelschritt-Inferenz und Code-Generierung immer stärker werden, können sie keine langkettigen Inferenzen durchführen und keine langfristigen Ziele planen und umsetzen.
Dies liegt nicht an mangelnden Fähigkeiten, sondern daran, dass die zugrunde liegende Architektur nicht für mehrstufige Entscheidungsfindung konzipiert ist. Eine AGI muss in der Lage sein, wissenschaftliche Projekte über mehrere Tage hinweg zu bearbeiten, Strategien anzupassen und Ziele schrittweise zu erreichen.
Aktuelle Modelle sind eher auf die sofortige Reaktion ausgelegt als auf die Zielsteuerung.
3. Agentensysteme sind noch instabil
Beim Thema des allgemeinen Assistenten von Gemini betont er: Wir können ihnen noch nicht die gesamte Aufgabe übergeben und sicher sein, dass sie sie erledigen.
Aktuelle Agenten können noch nicht zuverlässig mehrstufige Aufgaben in komplexen Umgebungen ausführen.
Die Stabilität von Agenten entscheidet darüber, ob die AGI in der Praxis eingesetzt werden kann.
4. Es fehlt an einem stabilen Gedächtnis über mehrere Gespräche hinweg
Obwohl Gemini eine "Perspektive" hat, behält es diese nur innerhalb eines einzelnen Gesprächs konsequent bei, es ist kein wahrer Agent mit individuellem Gedächtnis.
Eine echte AGI sollte in der Lage sein:
Eine konsistente Position beizubehalten (ohne sich selbst zu widersprechen)
Langfristige Präferenzen des Benutzers zu merken (Gedächtnis und Entscheidung in Einklang bringen)
Verhalten an den Kontext anzupassen, statt von vorne anzufangen
Dies erfordert eine tiefere Architektur-Entwicklung, wie z.B. Langzeitgedächtnis-Netzwerke und Ziel-Erhaltungs-Mechanismen, und nicht nur die Optimierung von Prompten.
Woher werden diese Durchbrüche kommen?
Abschnitt 3 | Woher werden die Schlüsseltechnologien kommen? Er gibt zwei Richtungen an
Hassabis nennt nicht direkt, was diese ein oder zwei technologischen Durchbrüche auf AlphaGo-Ebene sein werden, aber er zeigt in seinem Gespräch zwei klare Wege auf.
Dies sind auch die Richtungen, in denen er sich momentan bewegt.
1. Weltmodelle: KI das Verständnis für die Funktionsweise der physischen Welt vermitteln
DeepMind hat ein Weltmodell namens Genie, mit dem man ein Video generieren kann und sich dann wie in einem Spiel darin bewegen kann, während die Kohärenz über eine Minute aufrechterhalten bleibt.
Die Bedeutung von Genie liegt nicht nur im Generieren von Videos, sondern im Aufbau einer virtuellen Welt mit physischer Konsistenz und raumzeitlicher Kohärenz. Es basiert nicht auf der Anhäufung von Daten, sondern auf der Simulation der Funktionsweise der Welt.
Dies bedeutet, dass die KI sich entwickelt:
Von der Erkennung von Bildern zum Verständnis von physikalischen Gesetzen,
Von der Verarbeitung von Texten zur Vorhersage der realen Welt.
Ein multimodales Weltmodell, das in der Lage ist, eine simulierte Umgebung zu konstruieren und zu verstehen, ist die Grundlage für eine AGI.
2. Agentensysteme: Vom Beantworten von Fragen zum Erledigen von Aufgaben
Aktuelle Modelle können zwar chatten und Code schreiben, aber man kann ihnen noch nicht die gesamte Aufgabe übergeben und sicher sein, dass sie sie von Anfang bis Ende erledigen.
Das Ziel des allgemeinen Assistenten von Gemini ist es, dieses Problem zu lösen, es ist der nächste Schritt in der Entwicklung von Agenten:
Eingebettet in Brillen, Alltagssituationen und Arbeitsabläufe,
Es kann sich erinnern, schließen und Aufgaben übernehmen,
Es geht nicht nur darum, Fragen zu beantworten, sondern Ziele zu erreichen.
Wenn man ein stabiles Agentensystem entwickeln kann, das in der Lage ist, Aufgaben selbständig zu planen, umzusetzen und an die Ergebnisse anzupassen, ist die AGI nicht mehr weit.
Deshalb betont er auch, dass die bloße Vergrößerung von Large Language Models nicht zur AGI führen wird, sondern dass die echten Durchbrüche aus der Weltmodellierung und der Weiterentwicklung von Agentensystemen kommen werden.
Abschnitt 4 | Variable: Risiken und Wettbewerb
Allerdings gibt es eine Voraussetzung für die 5- bis 10-jährige Prognose: Die AGI wird nicht einfach so eintreten, wenn die Zeit gekommen ist, es gibt noch viele Unbekannte auf dem Weg dorthin.
Die größte Unsicherheit kommt von technologischen Risiken und geopolitischen Wettbewerben.
1. Technologische Risiken und Schutzmaßnahmen
Der Moderator stellte eine Reihe von scharfen Fragen: Könnten böswillige Akteure KI nutzen, um Krankheitserreger zu synthetisieren? Infrastrukturen anzugreifen? Könnten Agenten außer Kontrolle geraten?
Hassabis' Antwort war:
"All diese Risiken existieren, die Wahrscheinlichkeit ist nicht null, aber niemand weiß die genauen Zahlen. Das Einzige, was man tun kann, ist, diese Risiken ernst zu nehmen und sich im Voraus vorzubereiten."
Er hat drei Hauptrisiken identifiziert:
Böswillige Nutzung: Böse Menschen nutzen KI, um Schaden anzurichten, besonders Hacker und organisierte Kriminalität müssen beachtet werden
Agenten abweichen: Je komplexer die KI wird, desto wahrscheinlicher ist es, dass sie von den Anweisungen abweicht, aber es ist noch nicht so weit, dass sie völlig außer Kontrolle gerät
Sicherheitsmechanismen versagen: Die KI kann während des kontinuierlichen Lernens allmählich die sicheren Grenzen verlassen
Aber er weist auch darauf hin, dass der Markt selbst Schutzmaßnahmen bilden wird: Unternehmen werden keine unsicheren Agenten kaufen. Geschäftskunden werden von Ihnen verlangen, dass Sie die Zuverlässigkeit Ihrer KI nachweisen, und wenn etwas schief geht, werden sie den Anbieter wechseln. Die Geschäftslogik wird verantwortungsbewusste KI-Unternehmen belohnen.
Das Herzstück des Wettbewerbs um KI-Sicherheit ist das Vertrauen, wer es schafft, seinen Kunden zu vertrauen, wird überleben.
2. Chinesisch-amerikanischer Wettbewerb: Der Vorsprung liegt nur in wenigen Monaten
Beim Thema geopolitischer Technologiestand sagte Hassabis:
Der Westen hat derzeit immer noch einen Vorsprung in Algorithmen und Innovation, aber China ist nicht weit hinterher.
Er nennt die Modelle Qwen und DeepSeek aus China, die technologisch stark und schnell voranschreitend sind, besonders in der Umsetzung, der Iterationsgeschwindigkeit und der Größe der Modelle.
Der Unterschied beträgt nur wenige Monate, nicht Jahre.
Das Wettbewerbsfenster für die AGI wird immer enger, China und die USA sind nicht erster und zweiter Platz, sondern laufen auf zwei parallelen Bahnen nebeneinander.
Sicherheit ist die Voraussetzung, Geschwindigkeit ist der Schlüssel. Wer es schafft, im sicheren Bereich schneller und umfassender zu arbeiten, wird im Wettbewerb vorne liegen.
Abschnitt 5 | Wettbewerbsvorteil: Der echte Schutz ist die wissenschaftliche Methode
Technologische Fortschritte können eingeholt werden, GPU-Ressourcen können gekauft werden, Ingenieurteams können zusammengestellt werden.
Aber für Hassabis entscheidet nicht, was man kann, sondern wie man es macht, wer es tatsächlich bis zum Ziel der AGI schafft.
1. Die wissenschaftliche Methode ist ein Instrument auf Zivilisationsniveau
Der Moderator fragte ihn, warum er immer betont, dass er zunächst ein Wissenschaftler sei.
Er sagte:
"Die wissenschaftliche Methode ist vielleicht das mächtigste Instrument in der Geschichte der Menschheit. Sie hat die Aufklärung und die moderne Zivilisation hervorgebracht."
Die Entwicklung von KI funktioniert auf die gleiche Weise, es ist nicht einfach eine technologische Evolution, sondern die Annäherung an die Natur der menschlichen Intelligenz mit wissenschaftlichen Methoden.
2. Kein Glauben an eine einzige Route, umfassende Fehlersuche
DeepMind war in der Anfangsphase nicht überzeugt von Large Language Models. Sie haben gleichzeitig verstärktes Lernen (AlphaGo, AlphaZero), kognitive Architekturen und die Modellierung der Neurowissenschaften erforscht und die später weit verbreitete Chinchilla-Skalierungsregel entdeckt.
Während die Außenwelt noch darüber streitet, ob verstärktes Lernen oder Transformer besser seien, war die Strategie von DeepMind:
Umfassende Erforschung,
Strenge Überwachung der Datenleistung,
Beibehaltung mehrerer Möglichkeiten und ständige Validierung.
Dies ist das größte nicht-technologische Vermögen von DeepMind: Die Fähigkeit zur wissenschaftlichen Entscheidungsfindung.
3. Der echte Vorteil: Die Umwandlung von unbekannten Problemen in nutzbare Produkte
Als man ihn nach den Vorteilen von DeepMind fragte, fasste Hassabis so zusammen: Wir verbinden Weltklasse-Forschung, Ingenieurwesen und Infrastruktur, das ist unsere einzigartige Stärke.
Er betont nicht die Größe der Ressourcen, sondern die Zusammenarbeit dieser drei Bereiche:
Forschung hat die Fähigkeit zur Originalität und kann auch in der Praxis validiert werden
Ingenieurwesen ist nicht nur das Schreiben von Code, sondern das Entwerfen von vollständigen Lösungen
Infrastruktur ist nicht nur das Ausgeben von Geld, sondern das Umsetzen von Technologie auf die richtige Weise
Insgesamt ist der echte Schutz von DeepMind, wie man ein bisher ungelöstes Problem in ein tatsächlich nutzbares Produkt umwandeln kann.
Abschluss | Das Zeitfenster schließt sich
Hassabis gibt ein Zeitfenster von 5 bis 10 Jahren und ein bis zwei Durchbrüche an.
Dies ist keine Prognose, sondern eine auf der technologischen Entwicklung basierende technische Einschätzung. Das Wettbewerbsfenster schließt sich schnell, es bleibt nicht viel Zeit für alle.
Jede Entscheidung, die Sie heute treffen, wird Ihre Zukunftsposition bestimmen.