StartseiteArtikel

Google präsentiert den "Transformer-Killer", erstmaliger großer Durchbruch nach 8 Jahren, und der Chef markiert die "Todeslinie" für AGI.

新智元2025-12-08 08:56
Ist der Gemini 4 - Kern bereits installiert?

Der Chef von Google DeepMind behauptet, dass das AGI bis 2030 unweigerlich eintreffen wird! Bevor es soweit ist, fehlen aber noch ein bis zwei "Transformer-Level"-Durchbrüche von nuklearer Wucht. Gerade auf der NeurIPS-Konferenz hat Google die stärkste Nachfolgerin des nächsten Transformer-Generations - die Titans-Architektur - vorgestellt.

Das Jahr 2025 neigt sich dem Ende zu. Wohin wird die KI im nächsten Jahr gehen?

Kürzlich hat der CEO von Google DeepMind, Hassabis, in einem Interview gewichtige Vorhersagen über die "Schlüsseltrends" der nächsten 12 Monate gemacht.

Wichtigste Punkte! Es gibt hauptsächlich die folgenden fünf Kernpunkte -

  • Vollständige Durchdringung der multimodalen Fusion
  • Menschähnliche visuelle Intelligenz
  • Tiefe Fusion von Sprache und Video
  • Die Weltmodell wird zum Mainstream
  • Die Agenten erreichen ein zuverlässiges Anwendungsniveau

Hassabis betont, dass wir die bestehenden KI-Systeme so schnell wie möglich skalieren sollten, da sie zumindest zu den "Schlüsselkomponenten" des endgültigen AGI werden werden.

Es ist sogar möglich, dass es das ultimative AGI-System werden könnte.

Aber um ehrlich zu sein, brauchen wir mindestens noch ein bis zwei Durchbrüche auf der Ebene von Transformer und AlphaGo.

Vor acht Jahren ist das bahnbrechende Werk von Google Transformer erschienen und hat die KI-Branche komplett verändert.

Heute hat Google eine neue Architektur namens Titans, die großes Potenzial hat, den Transformer zu ersetzen, offiziell auf der NeurIPS 2025 vorgestellt.

Sie vereint perfekt die "schnelle Reaktion von RNN und die starke Leistung von Transformer" und vereint das Beste aus beiden Welten.

Selbst bei einem Kontext von 2 Millionen Tokens hat Titans die höchste Rückrufquote und Genauigkeit. Sobald der Blog veröffentlicht wurde, hat es eine gigantische Welle auf der ganzen Welt ausgelöst.

Wie Hassabis sagt, ist das "umwälzende" AGI schon in greifbarer Nähe!

Der Chef von DeepMind: Das AGI wird bis 2030 eintreffen

Früher in diesem Jahr hat Hassabis vorhergesagt, dass ein AGI, das menschliche Fähigkeiten besitzt oder übertrifft, möglicherweise vor 2030 realisiert werden könnte.

In einem öffentlichen Gespräch am Donnerstag hat Hassabis erneut betont:

Das AGI wird wahrscheinlich einer der umwälzendsten Momente in der Geschichte der Menschheit sein, und es nähert sich nun beschleunigt.

Wenn ich ein Datum nennen müsste, dann bleiben der Menschheit nur noch 5 bis 10 Jahre, um das AGI zu realisieren.

Als er über seine zukünftigen Visionen sprach, klang Hassabis voller Vorfreude:

Mein größter Traum und das Ziel meines ganzen Lebens ist es, eine ideale Gesellschaft in der "Zeit der Fülle" zu schaffen.

Eine Welt, in der die größten Probleme der Menschheit gelöst sind.

Zum Beispiel könnte es kostenloses, erneuerbares Energie sein. Vielleicht hat die Menschheit die Kernfusion gelöst oder bessere Batterien, Solarenergiematerialien und Halbleiter hergestellt und damit einen Durchbruch in der Materialwissenschaft erzielt. Die Menschheit hat auch viele Krankheiten besiegt.

In diesem Fall würde die Menschheit in eine neue Ära eintreten, eine Ära des Post-Scarcity. Die Menschheit würde wahrscheinlich gedeihen, in den Weltraum hinauswachsen und ihr Bewusstsein über die Milchstraße verbreiten.

Aber selbst in einer solchen utopischen Vision gibt es einige Probleme: Wenn diese Technologien alle Probleme lösen können, was ist dann der Zweck unseres Daseins? Welche Probleme bleiben dann noch für uns zu lösen?

Als Wissenschaftler macht Hassabis sich Sorgen, sogar über die wissenschaftliche Methode selbst. Das ist das eine.

Der Weg zum AGI wird sicherlich nicht reibungslos sein.

Hassabis weist darauf hin, dass das Risiko von Böswilligen und fehlerhafter Nutzung der KI real ist, und sogar "katastrophale Folgen" beginnen sich zu zeigen.

Zum Beispiel sind Netzangriffe auf Energie- oder Wassersysteme offensichtliche Angriffsziele.

Vielleicht wird noch keine sehr fortschrittliche KI eingesetzt, aber solche Dinge passieren bereits im Grunde genommen.

Die schwerwiegendsten Folgen der KI könnten ein Aussterberisiko sein. Er betont, dass niemand genau weiß, wie hoch die Wahrscheinlichkeit P(doom) des Aussterbens der Menschheit ist, aber sagt direkt:

Dieses Risiko ist nicht Null. Solange es nicht Null ist, muss man es ernst nehmen und Ressourcen darauf verwenden, es zu bewältigen.

Weniger als 10 % der Möglichkeiten von Gemini 3 wurden erforscht

Hassabis ist der Meinung, dass die am stärksten unterschätzte Fähigkeit von Gemini darin besteht, "Videos anzusehen" und zu dazu konzeptionelle Fragen zu beantworten.

Er gibt als Beispiel an, dass er Gemini einmal gefragt hat, was die Symbolik hinter der Handlung sei, dass der Hauptcharakter in dem Film "Fight Club" seinen Ring vor dem Kampf abnimmt.

Gemini hat geantwortet, dass dies ein Symbol dafür sei, dass der Hauptcharakter sich von seinem Alltag löse, eine Ablehnung der gesellschaftlichen Normen und eine Erklärung des "Aufgebens seiner Identität" sei.

Die "abstrakte Verständnis"-Fähigkeit von Gemini hat ihn überrascht. Hassabis glaubt, dass Gemini bereits eine Art "Metakognition" besitzt.

Ein weiteres Beispiel ist die Funktion Gemini Live. Er ist der Meinung, dass das Potenzial der multimodalen KI weit größer ist, als die meisten Menschen es heute verstehen.

Jedes Mal, wenn DeepMind ein neues Modell veröffentlicht, hat Hassabis ein starkes Gefühl der Traurigkeit: Er hat möglicherweise nicht einmal ein Zehntel dieses Systems gründlich getestet, bevor er bereits an der Entwicklung der nächsten Version arbeiten muss.

Die Benutzer entdecken oft schneller als die Entwickler von Gemini neue Funktionen und nutzen das Modell auf Weise, die selbst die Entwickler nicht gedacht hätten.

Die zentralste Meinung

Die zentralste Meinung von Hassabis betrifft möglicherweise den Weg zur Realisierung des AGI.

Er ist der Meinung, dass es noch etwa 5 bis 10 Jahre dauern wird, bis das echte AGI realisiert wird.

DeepMinds Definition des AGI ist sehr hoch: Um als "universell" bezeichnet zu werden, muss ein KI-System alle kognitiven Fähigkeiten des Menschen vollständig besitzen, einschließlich "Kreativität" und "Erfindungsfähigkeit".

Aktuelle LLMs sind in einigen Bereichen sehr beeindruckend, vergleichbar mit der Leistung eines Doktors oder sogar einem Olympischen Goldmedaillengewinner. Aber in anderen Bereichen weisen sie immer noch deutliche Mängel auf und zeigen ein "ungleichmäßiges" Intelligenzprofil.

Ein echtes AGI sollte eine stabile Intelligenz mit "ausgewogenen Fähigkeiten" besitzen.

Dies umfasst einige Schlüsselfähigkeiten, die aktuelle Modelle fehlen: kontinuierliches Lernen (continual learning), Online-Lernen (online learning), Langzeitplanung und Mehrschritt-Schlussfolgerung.

Aktuell verfügen große Sprachmodelle überhaupt nicht über diese Fähigkeiten.

Er gibt zu, dass es die Möglichkeit gibt, dass die Skalierung "vielleicht alles für ein AGI-System ist", obwohl er diese Möglichkeit für eher unwahrscheinlich hält.

Dafür müssen wir die Skalierung bis an die absolute Grenze treiben.

Im schlimmsten Fall wird die Skalierung zumindest zu einem "Schlüsselbauteil" des endgültigen AGI werden.

Hassabis glaubt, dass diese Systeme in Zukunft diese Fähigkeiten entwickeln werden, aber wir brauchen möglicherweise noch ein bis zwei bedeutende technologische Durchbrüche.

Und Google scheint bereits einen Transformer-Level-Durchbruch erzielt zu haben.

Der stärkste "Transformer" ist geboren

Vor einigen Tagen waren auf einer Diskussion auf der NeurIPS-Konferenz der Chefwissenschaftler von Google, Jeff Dean, und der "Vater der KI", Hinton, zusammen.

Bezüglich des LLMs und der Forschungsrichtung hat Hinton vor Ort eine scharfe Frage gestellt -

Regt es Google zu bedauern, dass es die Transformer-Publikation veröffentlicht hat?

Jeff Dean hat eine klare Antwort gegeben: "Nein! Diese Forschung hat eine große Auswirkung auf die Welt gehabt."

Fast zur gleichen Zeit hat Google eine neue Architektur namens Titans vorgestellt, die die stärkste Nachfolgerin des Transformers wird!

Darüber hinaus gibt es einen neuen MIRAS-Frameworks.

Die Kombination beider kann es einem KI-Modell ermöglichen, seinen Kernspeicher während des Betriebs dynamisch zu aktualisieren, schneller zu laufen und auch sehr lange Kontexte zu verarbeiten.

Es ist bekannt, dass die größte Einschränkung des Transformers darin besteht, dass die unbegrenzte Erweiterung des Kontexts die Rechenkosten sprunghaft steigen lässt.

Neben den von der Branche entwickelten Architekturen wie RNN und Mamba - 2 hat Google auch eine Lösung der neuen Generation vorgeschlagen -

Wie oben erwähnt, ist Titans + MIRAS eine Architektur und ein theoretischer Ansatz, der die Geschwindigkeit von RNN und die Genauigkeit von Transformer kombiniert.

Die Titans (MAC)-Architektur komprimiert historische Daten über ein Langzeitspeichermodul und fügt die generierte Zusammenfassung in den aktuellen Kontext ein, der dann von der Aufmerksamkeitsmechanismus verarbeitet wird.

Titans ist die konkrete Modellarchitektur (das Werkzeug), während MIRAS ein theoretischer Rahmen (die Blaupause) ist, um diese Methoden zu verallgemeinern.

Zusammen ermöglichen sie eine "Testzeit"-Speicherfähigkeit.

Während des Betriebs lernt das Modell nicht einfach nur, Informationen in einen statischen Zustand zu komprimieren, sondern lernt aktiv, wenn neue Daten eingehen, und aktualisiert seine Parameter sofort.

Dieser Schlüsselmechanismus ermöglicht es dem Modell, neue, konkrete Informationen sofort in sein Kernwissen aufzunehmen.

Es ist erwähnenswert, dass Zhong Peilin, ein ehemaliger Schüler der Yao - Klasse an der Tsinghua - Universität, an beiden Projekten beteiligt war. Er hat seinen Doktorgrad an der Columbia University gemacht