Einsicht in DeepMind: Die Skalierungsgesetze leben noch, und Rechenleistung ist alles.
Heute ist der letzte Tag des Jahres 2025. Viele Menschen führen an diesem Tag eine Rückschau und Zusammenfassung der KI-Entwicklung durch.
Nach einem Jahr voller Nachrichten über Modelle, Rechenleistung und Kapital: Wie weit ist die KI noch von der allgemeinen Künstlichen Intelligenz (AGI) entfernt?
Wenn man sagt, dass das Jahr 2024 das Jahr der Neugierde auf die KI war, dann war 2025 das Jahr, in dem die KI die menschliche Gesellschaft tiefgreifend beeinflusste.
In diesem Jahr voller Ungewissheiten haben wir ganz unterschiedliche Stimmen gehört:
Sam Altman hat in seinem Blogbeitrag „Die sanfte Singularität“ Mitte 2025 mutig vorhergesagt:
„Wir wissen bereits, wie man eine AGI baut. Im Jahr 2026 werden wir Systeme sehen, die originelle Einsichten entwickeln können.“ Er ist fest davon überzeugt, dass das Skalierungsgesetz (Scaling Law) noch lange nicht seine Grenzen erreicht hat und dass die Kosten für Intelligenz mit der automatisierten Stromerzeugung gegen Null gehen werden.
Weiterführende Lektüre: Altman: Die sanfte Singularität ist da! Die KI wird schließlich die physische Welt beherrschen, und 2030 wird sich das Schicksal der Menschheit grundlegend ändern.
Huang Renxun von NVIDIA hat seinen Fokus von der „Kult der Rechenleistung“ auf die „KI-Fabrik“ gelenkt.
Er hat in einer Rede Ende 2025 erwähnt:
„Die Engstelle der KI liegt nicht mehr an der Vorstellungskraft, sondern am Strom. Das zukünftige Skalierungsgesetz beinhaltet nicht nur das Stapeln von Modellen, sondern auch einen Sprung in der Inferenzeffizienz um das 100.000-fache.“
Weiterführende Lektüre: Die NVIDIA KI-Fabrik: Die absolute Notwendigkeit, die 12.000 Jahre in der menschlichen Geschichte gereift ist.
Im Vergleich dazu ist Yann LeCun, der ehemalige Chefwissenschaftler von Meta, immer noch sehr kritisch. Er hat sogar vor seiner Entlassung und Gründung eines neuen Unternehmens öffentlich erklärt:
„Large Language Models (LLM) sind eine Sackgasse auf dem Weg zur AGI. Sie haben kein Weltmodell und sind wie ein Luftschloss ohne Körper.“
Weiterführende Lektüre: LeCun setzt sein gesamtes Leben darauf, dass die Large Language Models scheitern werden! Hassabis ist entschlossen, das Skalierungsgesetz durchzusetzen.
Wird das Skalierungsgesetz im Jahr 2026 noch funktionieren?
Eine ausführliche Studie von einem chinesischen Forscher von DeepMind hat diese Frage auf den sozialen Netzwerken heiß diskutiert:
Das Skalierungsgesetz ist nicht tot! Rechenleistung ist immer noch die Macht, und die AGI steht erst am Anfang.
Link zum Artikel: https://zhengdongwang.com/2025/12/30/2025-letter.html
Dieser Artikel ist ein langes Jahrbrief von Zhengdong Wang, einem Forscher von Google DeepMind, aus dem Jahr 2025.
Der Autor nimmt aus einer einzigartigen persönlichen Perspektive Rückschau auf die radikalen Veränderungen im Bereich der KI seit 2015 und analysiert tiefgreifend die zentrale treibende Kraft hinter all diesen Veränderungen - die Rechenleistung.
Obwohl die Außenwelt Zweifel an den Skalierungsgesetzen hegt, hat die Geschichte immer wieder bewiesen, dass mit dem exponentiellen Wachstum der Rechenleistung die KI-Modelle immer wieder Fähigkeiten entwickeln, die über die menschlichen Erwartungen hinausgehen.
Der Autor verifiziert anhand seiner Erfahrungen bei DeepMind die These von Richard S. Sutton, dem „Gottvater des Reinforcement Learnings“: „Das bittere Lehrstück“
Allgemeine Rechenleistungsmethoden werden schließlich die spezifischen menschlichen Fertigkeiten besiegen.
Das ist auch unser stärkstes Gefühl in diesem Jahr!
Außer der Rechenleistung ist alles nur Rauschen
Am 30. Dezember 2025, als wir auf dieses aufregende Jahr zurückblicken, kommt uns die visuelle Revolution in den Sinn, die vor fünfzehn Jahren durch AlexNet ausgelöst wurde.
Die Konferenz, an der Hinton, Fei-Fei Li und Ilya teilnahmen, war vielleicht der wahre Beginn der heutigen KI-Ära.
Damals dachte die Mehrheit, dass die Künstliche Intelligenz nur ein Wettlauf zwischen „Feature Engineering“ und „menschlicher Intelligenz“ sei. Heute befinden wir uns in einer völlig anderen Dimension:
Eine Ära, die von der Rechenleistung dominiert wird, von den Skalierungsgesetzen angetrieben wird und in der die AGI (allgemeine Künstliche Intelligenz) erst am Anfang ihrer Reise steht.
Derzeit beschäftigt uns vor allem die Frage: Hat das Skalierungsgesetz seine Grenzen erreicht?
Der Glaube an die Rechenleistung: Warum das Skalierungsgesetz nie versagt hat
Ende 2024 gab es in der Branche heftige Bedenken, dass die Knappheit an vortrainierten Daten und die abnehmenden Grenznutzen das Ende des Skalierungsgesetzes markierten.
Jedoch können wir am Ende des Jahres 2025 verantwortungsvoll sagen:
Das Skalierungsgesetz ist nicht nur nicht tot, sondern es durchläuft eine tiefgreifende Evolution von der „blinden Parametererhöhung“ zur „Intelligenzdichte“.
Fünfzehnjährige Kontinuität
Um das Skalierungsgesetz zu verstehen, müssen wir zunächst seine historische Robustheit erkennen.
Studien zeigen, dass die Rechenleistung für das Training von KI-Modellen in den letzten fünfzehn Jahren jährlich um das Vier- bis Fünffache gewachsen ist.
Dieses exponentielle Wachstum ist in der menschlichen Technologiegeschichte selten.
Innerhalb von DeepMind wurde beobachtet, dass die mathematischen Operationen, die von Modellen während des Trainings verbraucht werden, die Anzahl der Sterne im beobachtbaren Universum übersteigen.
Dieses Wachstum basiert nicht auf Blindheit, sondern auf einem äußerst stabilen Erfahrungswert.
Nach empirischen Studien von Kaplan, Hoffmann und anderen besteht ein eindeutiges Potenzgesetz zwischen der Leistung und der Rechenleistung: Die Leistungssteigerung ist proportional zur 0,35-ten Potenz der Rechenleistung.
Link zum Artikel: https://fourweekmba.com/ai-compute-scaling-the-50000x-explosion-2020-2025/
Das bedeutet, dass eine zehnfache Erhöhung der Rechenleistung ungefähr eine dreifache Leistungssteigerung bringt. Wenn die Rechenleistung um das Tausendfache erhöht wird, kann man von einer zehnfachen Leistungssteigerung ausgehen.
Qualitative Sprünge und Emergenzfähigkeiten
Das faszinierendste an dem Skalierungsgesetz ist, dass es nicht nur eine quantitative Verbesserung bringt, sondern auch qualitative Sprünge auslöst.
In Experimenten von DeepMind haben Modelle plötzlich Emergenzfähigkeiten wie logisches Denken, die Befolgung komplexer Anweisungen und die Korrektur von Tatsachen gezeigt, wenn die Rechenleistung erhöht wurde.
Dies zeigt, dass die Rechenleistung nicht nur Brennstoff ist, sondern selbst eine physikalische Größe ist, die Intelligenz hervorrufen kann.
Das Jahr 2025 hat gezeigt, dass wir von der einfachen „Vortrainingsskalierung“ zur „Vierseitigen Skalierung“ übergegangen sind:
- Vortrainingsskalierung
Das Aufbauen einer grundlegenden Kognition durch eine riesige Menge an multimodalen Daten.
- Nachtrainingsskalierung
Das Anpassen und Optimieren von Präferenzen durch Reinforcement Learning (RL).
- Inferenzskalierung
Das heißt, dass das Modell länger über die Antwort nachdenkt.
- Kontextskalierung
Das Verbessern der Fähigkeiten bei End-to-End-Aufgaben durch ein sehr langes Gedächtnis.
Die Erfahrung von „tausendfacher Rechenleistung“ bei DeepMind
Wenn das Skalierungsgesetz eine makroskopische Philosophie ist, war das Experiment von Zhengdong Wang bei DeepMind im Jahr 2021 eine mikroskopische Offenbarung.
Diese Erfahrung hat Zhengdong Wangs Vorstellung von Intelligenz komplett verändert und ihm geholfen, zu verstehen, warum man sagt: „Rechenleistung ist Macht“.
Die Abwertung von algorithmischer Intelligenz
Damals versuchte das DeepMind-Team, das Problem der Navigation und Interaktion von Embodied AI in einer 3D-virtuellen Umgebung zu lösen.
Dies war eine typische „Hardcore-AI“-Herausforderung, die die Optimierung komplexer Reinforcement Learning-Algorithmen erforderte.
Damals war man sich einig, dass die Engstelle dieses Problems in der Raffinesse des Algorithmus lag, insbesondere in der Gestaltung einer effizienteren Sampling-Strategie und einer besseren Belohnungsfunktion.
Ein Kollege schlug jedoch ein fast „dummes“ Verfahren vor: Anstatt den Algorithmus zu verbessern, einfach die Rechenleistung um das Tausendfache zu erhöhen.
Nach dieser Explosion der Rechenleistung passierte ein Wunder!
Die logischen Probleme, die bisher als unlösbar galten, wurden einfach von der riesigen Menge an Matrixmultiplikationen gelöst.
Der Algorithmus wurde nicht klüger, aber die Größe verlieh ihm eine Art biologische Robustheit.
Der Schockwelle der Rechenleistung
Zhengdong Wang hat in diesem Moment das in „The Bitter Lesson“ von Richard Sutton beschriebene Prinzip verstanden:
Die sogenannten „genialen Ideen“ des Menschen in der KI-Branche sind im Vergleich zum exponentiellen Wachstum der Rechenleistung oft unbedeutend.
Diese Einsicht war wie eine gigantische Welle der Rechenleistung, die über ihn hinwegrollte und ihn bewusst machte, dass es sinnvoller ist, sich auf die tausendfache Erhöhung der Rechenleistung zu konzentrieren, anstatt sich um die Optimierung von 1 % der Algorithmusleistung zu kümmern.
Diese Sichtweise ist heute in DeepMind allgegenwärtig:
Wir fragen uns nicht mehr, ob ein Problem lösbar ist, sondern wie viel Rechenleistung es braucht, um es zu lösen.
Genau diese Einstellung hat uns dazu veranlasst, weitaus mehr Geld in die Datenzentren zu investieren als in den Apollo-Programm.
Die Grenzen und Herausforderungen der Infrastruktur: Das Zeitalter der 1 GW
Zhengdong Wang bietet zusätzliche Perspektiven.
Wenn man in DeepMind über Rechenleistung spricht, geht es inzwischen nicht mehr um „PFLOPS“, sondern um „GW“.
Im Jahr 2025 ist die KI nicht nur Code, sondern eine Schwerindustrie, die die ultimative Integration von Land, Energie und maß