StartseiteArtikel

Nach den Billionen-Betonungen im Bereich KI: Ilya Sutskever - Wie groß ist der Unterschied im Ergebnis, wenn man nur Rechenleistung akkumuliert und sich bereit ist, Forschung zu betreiben?

AI深度研究员2025-11-26 08:58
Ilya: Die Künstliche Intelligenz geht von der Phase der Rechenleistungsschwerpunktsetzung in die Forschungszeit über.

Eine Wette im Billionenbereich ist abgeschlossen.

Der Analystenhaus Gartner schätzt, dass die weltweiten Ausgaben für Künstliche Intelligenz (KI) allein im Jahr 2025 fast 1,5 Billionen US-Dollar betragen werden und im Jahr 2026 die Marke von 2 Billionen US-Dollar überschreiten werden. Huang Renxun, CEO von NVIDIA, geht davon aus, dass die Investitionen in die KI-Infrastruktur in diesem Jahrzehnt zwischen 3 und 4 Billionen US-Dollar liegen könnten und spricht von einer neuen industriellen Revolution.

Jeder bemüht sich um die Beschaffung von Grafikprozessoren (GPUs), den Bau von Rechenzentren und die Erweiterung des Stromnetzes. Die Frage scheint nun nur noch zu lauten: Wie viel Rechenleistung kann man noch hinzufügen?

Ilya Sutskever, der ehemalige Chefwissenschaftler von OpenAI und Gründer von Safe Superintelligence Inc. (SSI), hat in der neuesten Ausgabe des Podcasts „Dwarkesh Podcast“ am 25. November 2025 eine völlig andere Antwort gegeben:

Wir bewegen uns aus der Ära der Skalierung in die Ära der Forschung (Das Zeitalter der Expansion ist vorbei, das Zeitalter der Forschung beginnt).

Der Mann, der diese Worte spricht, war einer der Ersten, der die These der Rechenleistungskontrolle bis an die Grenzen getrieben hat. Nachdem er 2024 OpenAI verließ, gründete er SSI, ein Unternehmen, das sich auf eine einzige Aufgabe konzentriert: sichere Superintelligenz.

Weniger als ein Jahr später absolvierte SSI eine Finanzierung von 3 Milliarden US-Dollar mit einem Unternehmenswert von 32 Milliarden US-Dollar.

In diesem 90-minütigen Interview hat er drei Kernaussagen getroffen:

Die Übertragungsfähigkeit heutiger Großmodelle ist weit hinter der menschlichen Fähigkeit zurück.

Der Grenznutzen der Weiterinvestition in Parameter, Daten und Rechenleistung nimmt rapide ab.

Der entscheidende Faktor, der die Branche trennt, ist nicht, wer mehr Ressourcen hat, sondern wer besser versteht, wie man Forschung betreibt.

Wenn das Zeitalter der Rechenleistungskontrolle in das Zeitalter der Forschung übergeht, wird die zugrunde liegende Logik der KI-Branche neu geschrieben.

Abschnitt 1 | Das Zeitalter der Rechenleistungskontrolle neigt sich dem Ende zu

Ilya hat direkt zu Beginn seinen Standpunkt klar gemacht:

Wir bewegen uns aus der Ära der Expansion in die Ära der Forschung.

Das Zeitalter der Expansion bezieht sich auf die kontinuierliche Vergrößerung der drei Faktoren Parameter, Rechenleistung und Daten, wodurch die Fähigkeiten des Modells stetig steigen. Top-Labore wie OpenAI, Anthropic und Google DeepMind haben diese Methode angewandt, und sie war einst effektiv.

Aber Ilya ist der Ansicht, dass dieses Zeitalter seinem Ende neigt.

„Die Skalierung ist zur Branchenkonsens geworden: Man kauft mehr GPUs, baut größere Rechenzentren und trainiert größere Modelle. Solange die Methode gleich bleibt, hat derjenige, der schneller handelt und mehr Budget hat, die Nase vorn.“

Das Problem ist, dass dies nicht zu Innovationen führt, sondern zu einem Wettlauf um Ressourcen.

Ilya selbst war ein starker Befürworter der Expansionsstrategie. Die von ihm geleiteten Modelle GPT-2 und GPT-3 sind typische Produkte dieser Expansionsparadigmen. Aber seine heutige Ansicht ist: Die bloße Erhöhung der Parameter hat ihre Grenzen erreicht.

SSI setzt auf eine technologische Richtung: Der Unterschied bei zukünftigen Superintelligenzen liegt nicht darin, wer mehr GPUs hat, sondern darin, wer neue Trainingsmethoden finden kann.

Im Bereich KI gewinnt nicht derjenige, der mehr investiert, sondern derjenige, der weiß, in welche Richtung man sich durchbrechen muss.

Er sagt sogar direkt:

„Die heutigen Modelle haben zwar hohe Bewertungsnoten, aber der tatsächliche wirtschaftliche Nutzen ist begrenzt. Sie scheinen stark zu sein, aber wenn man sie tatsächlich arbeiten lässt, werden die Probleme sichtbar.“

Man denkt, die Modelle wären stark, aber es ist nur auf den Benchmarks gut zu sehen; man denkt, der Unterschied sei gering, aber beim tatsächlichen Einsatz merkt man, dass es überall Probleme gibt.

Der Grenznutzen nimmt ab, und die Fähigkeiten und die Leistung stimmen nicht überein. Der Kerngrund liegt darin: Rechenleistung und Parameter sind zwar immer noch wichtig, aber sie sind nicht mehr die entscheidenden Faktoren für das Modell.

Als nächstes werden wir uns ansehen, was Ilya mit dem Zeitalter der Forschung meint.

Abschnitt 2 | Die Modelle können Prüfungen bestehen, aber nicht arbeiten

Warum sehen die Benchmarks gut aus, aber es gibt in der Praxis so viele Probleme? Ilya gibt die Antwort: Das Problem liegt in der Generalisierungsfähigkeit der Modelle.

„Einerseits kann es Aufsätze schreiben und mathematische Probleme lösen, andererseits wiederholt es einen Satz zweimal.“

Dies ist kein einzelner Fehler, sondern ein systemisches Defizit: Die Modelle können Prüfungen bestehen, aber das bedeutet nicht, dass sie wirklich verstehen. Das Problem liegt nicht nur am Modell selbst, sondern auch an den Menschen, die es trainieren.

Ilya hat in seinem Interview ein Phänomen erwähnt:

„Unsere Art, Modelle zu trainieren, hängt zu sehr von Bewertungsmaßen ab. Forscherteams entwerfen speziell RL-Trainingsumgebungen, um die Ranglisten zu verbessern.“

Die Trainingsressourcen sind zu stark auf wenige Aufgaben konzentriert, wie z. B. Wettbewerbs-Programmierung und standardisierte Prüfungen. Die Modelle werden zwar immer stärker, aber sie werden auch immer mehr zu Übungsmaschinen, die nur wenige Dinge können.

Er sagt sogar:

Die echten Belohnungshacker sind nicht die Modelle, sondern die menschlichen Forscher, die die Benchmarks manipulieren.

Er vergleicht dies mit zwei Schülern:

  • Schüler A: Hat zehntausend Stunden in die Wettbewerbs-Programmierung investiert, hat alle Aufgaben gelöst und steht an der Spitze der Rangliste.
  • Schüler B: Hat nur hundert Stunden trainiert, aber hat ein eigenes System zum Verständnis der Probleme.

„Wer wird in seiner späteren Berufstätigkeit besser abschneiden? Zweifellos der zweite. Denn er hat nicht auswendig gelernt, sondern hat das Wesen des Problems erfasst. Die heutigen Großmodelle gleichen größtenteils dem ersten Schüler.“

Den heutigen Modellen fehlt nicht die Fähigkeit, sondern die Fähigkeit, zu beurteilen, was lohnenswert zu lernen ist.

Ilya leugnet nicht die Wissensfähigkeit der Großmodelle: In Mathematik, Sprache und Programmierung sind sie sogar stärker als Durchschnittsmenschen. Aber sie lernen langsamer und machen bei neuen Situationen eher Fehler. Menschen können intuitiv beurteilen, ob sie etwas wirklich verstehen, die Modelle können dies nicht.

Was er wissen möchte, ist die Frage der Trainingsmethode:

  1. Vorhersage-Training: Alle Daten werden hineingeschmissen, ohne Auswahl, und das Ergebnis ist, dass das Modell ein bisschen von allem kann.
  2. Stärkendes Lernen (RL): Menschen definieren Aufgaben und Belohnungen, und das Modell optimiert sich entsprechend. Aber es besteht die Gefahr, dass es die Belohnungsfunktion überanpasst.
  3. Generalisierungsfähigkeit: Kann das Modell Aufgaben lösen, für die es nicht trainiert wurde? Kann es bereits erworbenes Wissen übertragen? Kann es sich selbst korrigieren?

Das Problem, dass die Modelle Prüfungen bestehen können, aber nicht anwenden können, liegt daran, dass der Trainingsvorgang es ihnen nicht beibringen kann, zu generalisieren.

Deshalb ist der neue Durchbruch in der KI nicht, wer ein stärkeres Modell hat, sondern wer eine Trainingsmethode finden kann, die den Modellen wirklich beibringen kann, zu generalisieren und ihr Wissen auf neue Situationen anzuwenden.

Dafür ist es nicht ausreichend, ein paar RL-Umgebungen hinzuzufügen oder ein paar Übungsaufgaben zu lösen. Es ist erforderlich, die Trainingsstrategie selbst neu zu gestalten.

Abschnitt 3 | Warum die heutigen Trainingsmethoden nicht funktionieren

Im zweiten Abschnitt wurde das Problem der Generalisierung besprochen, aber warum ist dieses Problem so schwierig zu lösen? Ilya gibt die Antwort: Es liegt nicht an fehlenden Ressourcen, sondern an den grundlegenden Einschränkungen der Trainingsmethoden selbst. Die Schwierigkeiten beim Vorhersage-Training: Es sieht viel, aber versteht es nicht tief.

Dies leugnet nicht den Wert des Vorhersage-Trainings.

Ilya hat deutlich die zwei Vorteile des Vorhersage-Trainings benannt:

Es gibt viele Daten, die eine ausreichende Anzahl von Verhaltensmustern abdecken können.

Es ist nicht erforderlich, die Daten manuell auszuwählen, und der Trainingsablauf ist hochgradig automatisiert.

Aber er hat auch die grundlegende Einschränkung des Vorhersage-Trainings benannt: Es scheint wie die ersten 15 Jahre der menschlichen Erfahrungsakkumulation, aber Menschen lernen viel weniger, verstehen aber tiefer.

Menschen machen längst nicht die gleichen triviellen Fehler wie die Modelle. Das Vorhersage-Training lässt das Modell zehntausend Programmierbeispiele sehen, aber es kann nicht selbst feststellen, wann man Rekursion und wann Schleifen verwenden sollte. Es kopiert einfach, ohne wirklich zu schließen.

RL versucht, das Modell dazu zu bringen, zielgerichtetes Verhalten zu lernen, aber es bringt auch neue Probleme: Die Forscherteams müssen die Aufgaben manuell definieren und die Belohnungen festlegen. Dies führt zu zwei Problemen:

Erstens lernt das Modell nur die wenigen Aufgaben, aber nicht, wie man lernt.

Zweitens optimiert das Modell die Belohnungsfunktion zu stark und verliert dadurch das Verständnis für die Essenz der Aufgabe.

Ilya hat einen wichtigen Mangel erwähnt: Die „Wertfunktion“.

Wenn Menschen lernen, haben sie eine intuitive Einschätzung, wie gut sie es machen. Dies ermöglicht es uns, uns selbst zu korrigieren und Erfahrungen zu übertragen. Die heutigen RL-Methoden können das Modell diese Fähigkeit nicht verleihen.

Ilya hat mit einem Szenario die Einschränkungen der heutigen Methoden zusammengefasst:

„Du benutzt das Modell, um einen Fehler zu beheben. Es sagt: ‚Du hast absolut recht, ich werde es beheben.‘ Nachdem es es behoben hat, fügt es einen neuen Fehler ein. Wenn du ihn darauf hinweist, sagt es: ‚Du hast wieder recht.‘ Dann bringt es den ersten Fehler wieder zurück.“

Das liegt nicht daran, dass das Modell nicht intelligent ist, sondern daran, dass es kein Urteilsvermögen hat.

Es weiß nicht, ob es etwas verstanden hat oder nur geraten hat, ob diese Richtung weiterverfolgt werden sollte und wie es seinen Schlussfolgerungsprozess bewerten sollte.

Sowohl das Vorhersage-Training als auch das RL sind „Offline-Lernen“: Alle Lernprozesse werden während der Trainingsphase abgeschlossen, und dann wird das Modell eingesetzt. Dies führt dazu, dass das Modell nur bei bekannten Problemen gut abschneiden kann. Sobald es in unbekannte Situationen gerät, verhält es sich unvorhersehbar.

Noch wichtiger ist, dass diese Paradigmen das Modell nicht in der Lage machen, die wichtigste Fähigkeit zu erlernen: Zu beurteilen, was lohnenswert zu lernen ist, wann man etwas richtig gelernt hat und wie man bereits erworbenes Wissen übertragen kann.

Deshalb kann die bloße Vergrößerung der Parameter, der Datenmenge und der Rechenleistung das grundlegende Problem nicht lösen.

Man kann das Modell größer machen, aber wenn die Trainingsmethode gleich bleibt, bleibt es immer nur eine präzise Prüfungsmaschine, aber kein echter Lernender.

Abschnitt 4 | Ilyas neue Antwort: Lassen Sie das Modell kontinuierlich lernen

Wenn die ersten drei Abschnitte über die abnehmende Rendite der Expansionslogik diskutierten, dann möchte Ilya in diesem Interview tatsächlich ein tieferes Signal einer Wende vermitteln:

Die Sicherheit von KI ist nicht ein Problem, das erst vor der Markteinführung eines Produkts berücksichtigt wird, sondern es beginnt in dem Moment, in dem man beschließt, wie man das Modell trainiert.

Die Trainingsmethode selbst bestimmt, ob das Modell in unbekannten Situationen sicher und zuverlässig ist.

Viele Menschen denken, dass das Sicherheitsproblem darin besteht, dass das Modell sich an Regeln halten oder nicht lügen soll.

Aber Ilyas Ansicht ist: Das Problem der Ausrichtung (Alignment) ist im Wesentlichen ein Problem der mangelnden Generalisierungsfähigkeit. Wenn das Modell in die reale Welt tritt, versteht es nicht, welche Verhaltensweisen erlaubt sind und welche nicht versucht werden sollten.

Es ist nicht, dass das Modell böse ist und deshalb schädliche Dinge tut, sondern es versteht nicht den Kontext.

Es ist nicht, dass die Menschen die Belohnungen nicht richtig festgelegt haben, sondern das Modell hat nicht gelernt, die langfristigen Auswirkungen zu beurteilen.

Dies macht das Problem der Ausrichtung zu einem grundlegenderen Problem: Was hast du dem Modell tatsächlich beigebracht? Wie weiß es, dass es etwas gelernt hat? Wie schließt es bei unbekannten Aufgaben?

Wenn das Modell nur die Antworten auswendig lernt, ist es eine Zeitbombe. Aber wenn es die Prinzipien der Schlussfolgerung versteht, ist es eher wie eine Person, die die Grenzen versteht.

Ilya hat in seinem Interview klar gemacht, dass er nicht mehr an die Idee glaubt, dass das Vorhersage-Training in einem einzigen Schritt abgeschlossen werden kann:

Der Mensch unterscheidet sich von der künstlichen allgemeinen Intelligenz (AGI). Wir verlassen uns auf kontinuierliches Lernen.

Ein echter Intelligenz-Agent lernt nicht während der Trainingszeit, sondern lernt kontinuierlich nach der Implementierung.

Er hat es mit einer Metapher erklärt: Man kann einen superintelligenten 15-jährigen Jungen ausbilden, aber er kann nichts. Die echte Fähigkeit liegt darin, wie er in die Gesellschaft eintritt, Feedback erhält und schrittweise Fähigkeiten erlangt.

Dies ist nicht nur ein Fähigkeitsproblem, sondern auch ein Sicherheitsproblem. Denn so kann man vermeiden, dass das Modell in unbekannten Situationen außer Kontrolle gerät.

Ilya weiß genau, dass die Expansionsmethoden nicht für kontinuierliches Lernen geeignet sind:

Das Vorhersage-Training ist eine feste Lernphase und kann sich nicht in Echtzeit anpassen.

Das RL hängt stark von der Gestaltung der Belohnungen ab und kann leicht überoptimiert werden.

Das Bewertungsystem legt den Schwerpunkt auf gute Ergebnisse und achtet nicht darauf, ob der Prozess sinnvoll ist.

Deshalb betont er: Wir brauchen neue Methoden, die die Schlussfolgerungsfähigkeit des Modells während des Lernprozesses kontinuierlich korrigieren können. Der echte Durchbruch liegt nicht in