StartseiteArtikel

Nach seinem Austritt aus OpenAI hielt Sutskever ein 1,5-stündiges Gespräch: AGI könnte in nur 5 Jahren realisiert werden.

36氪的朋友们2025-11-27 13:40
Sutskever: AGI könnte in 5 bis 20 Jahren realisiert werden. Die Skalierung hat ihren Höhepunkt erreicht, und die Wertfunktion ist der Schlüssel.
  1. Ilya Sutskever prognostiziert, dass ein menschenähnliches künstliche allgemeine Intelligenz (AGI) in 5 bis 20 Jahren erreicht werden wird.
  2. Die reine "Skalisierung" durch Datensammlung und Rechenleistung hat ihr Maximum erreicht.
  3. Es gibt "zackige" Lücken in der Modellleistung: Das Modell schneidet in Evaluierungen hervorragend ab, macht aber in der praktischen Anwendung oft triviale Fehler.
  4. Die Wertfunktion kann, ähnlich wie menschliche Emotionen, das effizientere und robusteres Lernen von KI anleiten.
  5. Es wird keine Eile mit der Kommerzialisierung gemacht: Der Fokus liegt auf der Forschung zur "direkten Entwicklung einer Superintelligenz", wobei auch eine schrittweise Implementierung in Betracht gezogen wird.
  6. Das gegenseitige Konkurrieren und differenzierte Denken von KIs ist einer der Wege, um die "Modell-Homogenität" zu brechen.
  7. Gute Forschung sollte sowohl einfach und elegant sein als auch die richtige Inspiration aus dem Gehirnmechanismus ziehen.

Am frühen Morgen des 26. November wurde Ilya Sutskever, Mitbegründer von OpenAI und CEO der Safe Superintelligence (SSI), von dem bekannten Podcast-Host Devaksh Patel interviewt. Sie diskutierten über SSI's Strategie, die Probleme bei der Vorhersage und Training, wie die Generalisierungsfähigkeit von KI-Modellen verbessert werden kann und wie sichergestellt werden kann, dass die Entwicklung von AGI reibungslos verläuft.

Im Folgenden der vollständige Interview-Transkript von Ilya Sutskever:

01 Zackige Modellleistung: Höchste Punktzahl in Tests, aber Misserfolg in der Praxis?

Patel: Wo sollen wir anfangen?

Sutskever: Weißt du, was am unglaublichsten ist? All diese KI-Technologien sind tatsächlich Realität geworden. Fühlt sich das nicht wie aus einem Science-Fiction-Roman?

Patel: Das stimmt. Ein weiteres erstaunliches Phänomen ist, dass die schrittweise Entwicklung von KI so alltäglich wirkt. Stell dir vor, wir investieren 1 % des Bruttoinlandsprodukts in die KI-Branche. Das sollte eigentlich eine gewaltige Neuigkeit sein, aber jetzt scheint es normal zu sein.

Sutskever: Die Menschen gewöhnen sich an Dinge sehr schnell, und die KI-Entwicklung ist derzeit noch recht abstrakt. Du liest nur in den Nachrichten, dass ein Unternehmen enorme Investitionen vornimmt, aber in deinem Alltag spürst du noch keine wesentlichen Auswirkungen.

Patel: Glaubst du, dass sich diese Situation so weiter fortsetzen wird?

Sutskever: Ich denke nicht. Obwohl viele Investitionen in der KI-Branche derzeit noch unverständlich sind, wird die KI schließlich in alle Bereiche der Wirtschaft eindringen und eine starke wirtschaftliche Antriebskraft sein. Die Auswirkungen werden immer deutlicher werden.

Patel: Wann erwartest du, dass die tatsächlichen wirtschaftlichen Auswirkungen der KI sichtbar werden? Obwohl die aktuellen KI-Technologien sehr leistungsfähig erscheinen, schaffen sie in der praktischen Anwendung nicht so viel wirtschaftlichen Wert.

Sutskever: Das stimmt. Dies ist eines der verwirrendsten Phänomene in der gegenwärtigen KI-Branche. Wie kann man erklären, dass das Modell in Evaluierungstests hervorragend abschneidet, aber der wirtschaftliche Beitrag deutlich hinterherbleibt? Die Evaluierungsaufgaben sind ziemlich komplex, und das Modell löst sie gut, aber die praktische Anwendungsleistung ist stark eingeschränkt. Beispielsweise macht das Modell in bestimmten Situationen wiederholt die gleichen Fehler, was wirklich unverständlich ist.

Lass mich ein konkretes Beispiel geben: Angenommen, du hast bei der "Vibe Coding" einen Fehler gemacht und lässt das Modell ihn beheben. Es wird es tun, aber während des Reparaturprozesses führt es neue Fehler ein. Wenn du die neuen Fehler aufzeigst, gibt es erneut zu, aber bringt dann den ursprünglichen Fehler wieder hervor. Solche Zyklen treten häufig auf. Obwohl die genauen Gründe noch nicht geklärt sind, deutet dies darauf hin, dass das System tatsächlich gewisse Anomalien aufweist.

Ich habe zwei mögliche Erklärungen. Erstens könnte die Verstärkungslern-Training das Modell zu eng fokussiert und zu wenig "bewusst" machen. Aus diesem Grund können sie einige grundlegende Dinge nicht gut machen.

Eine andere Erklärung ist, dass das Vorhersage-Training alle Daten verwendet, während das Verstärkungslern-Training spezifische Trainingsumgebungen auswählen muss. Bei der Gestaltung dieser Umgebungen gibt es zu viele Variablen, was möglicherweise dazu führt, dass man versehentlich bestimmte Evaluierungsziele optimiert, aber die Anforderungen in der praktischen Anwendung vernachlässigt.

Dies kann auch erklären, warum wir einen Abstand zwischen der Evaluierungsleistung und der tatsächlichen Leistung beobachten, insbesondere die schlechte Generalisierungsfähigkeit des Modells. Einfach ausgedrückt, kann die hervorragende Leistung des Modells in der Evaluierung nicht immer in den praktischen Anwendungen zum Erfolg führen, hauptsächlich aufgrund der Abweichung zwischen der Trainingsumgebung und den Zielen.

Patel: Ich mag deine Idee: Die echten "Belohnungs-Hacker" sind tatsächlich die menschlichen Forscher, die zu sehr auf die Evaluierung achten.

Das von dir erwähnte Problem kann aus zwei Perspektiven betrachtet werden. Erstens, wenn ein Modell nur in Programmierwettbewerben gut abschneidet, bedeutet dies nicht, dass es in anderen Aufgaben bessere Urteile fällen oder "geschmackvollere" Verbesserungen vornehmen kann. Daher muss die Trainingsumgebung erweitert werden, um nicht nur die Leistung in Programmierwettbewerben, sondern auch in anderen Aufgaben wie X, Y, Z zu bewerten.

Eine andere Perspektive ist, warum eine starke Leistung in Programmierwettbewerben nicht unbedingt dazu führt, dass das Modell ein geschmackvollerer Programmierer wird. Vielleicht liegt das Problem nicht darin, die Anzahl der Trainingsumgebungen zu erhöhen, sondern darin, wie das Modell in einer Umgebung lernt und diese Erfahrungen auf andere Aufgaben anwenden kann.

Sutskever: Ich möchte ein menschliches Beispiel geben. Nehmen wir wieder den Programmierwettbewerb: Angenommen, es gibt zwei Studenten. Der eine beschließt, der beste Wettbewerbs-Programmierer zu werden und übt daher zehntausend Stunden lang, löst alle Probleme, merkt sich alle Tricks und implementiert alle Algorithmen schnell und reibungslos. Schließlich wird er ein Spitzenathlet. Der andere Student findet Wettbewerbs-Programmieren cool, übt aber nur hundert Stunden lang, viel weniger als der erste, und schneidet dennoch ziemlich gut ab. Wen denkst du, wird in seiner zukünftigen Karriere besser abschneiden?

Patel: Der zweite Student.

Sutskever: Richtig. Ich denke, das Modell ist eher wie der erste Student, sogar noch extremer. Die gegenwärtigen Modelle sind wie "Examen-Experten". Wir haben es versucht, sie für den Programmierwettbewerb zu perfektionieren und haben sie mit einer riesigen Anzahl von Aufgaben gefüttert. Als Ergebnis sind sie zwar gute Antwortgeber, aber es ist immer noch schwierig, das Gelernte auf andere Aufgaben flexibel anzuwenden.

Patel: Aber was ist die Entsprechung für den zweiten Studenten vor seiner Hundertstunden-Feinabstimmung?

Sutskever: Ich denke, sie haben "etwas Besonderes". Ich habe als Student solche Leute getroffen und weiß, dass es solche Menschen gibt.

Patel: Ich finde es interessant, "etwas Besonderes" von dem zu trennen, was das Vorhersage-Training macht. Eine Möglichkeit, deine Aussage darüber zu verstehen, dass man bei der Vorhersage keine Daten auswählen muss, ist, dass es eigentlich nicht so sehr von den zehntausend Stunden Übung verschieden ist, nur dass diese zehntausend Stunden Übung "kostenlos" sind, weil sie bereits irgendwo in der Verteilung der Vorhersagedaten vorhanden sind. Vielleicht aber implizierst du, dass die Generalisierung durch das Vorhersage-Training nicht so groß ist. Die Datenmenge im Vorhersage-Training ist zwar riesig, aber es generalisiert möglicherweise nicht besser als das Verstärkungslern.

Sutskever: Die Hauptvorteile des Vorhersage-Trainings liegen in zwei Punkten: Erstens ist die Datenmenge riesig; zweitens musst du dir keine Gedanken darüber machen, welche Daten für das Vorhersage-Training verwendet werden sollen. Dies sind sehr natürliche Daten, die alle Arten von menschlichen Verhaltensweisen, Gedanken und Merkmalen enthalten. Es ist, als würde die ganze Welt durch die Menschen auf den Text projiziert, und das Vorhersage-Training versucht, all dies mit einer riesigen Datenmenge einzufangen.

Das Vorhersage-Training ist schwer zu verstehen, weil es schwierig ist, wie das Modell sich auf die Vorhersagedaten stützt. Macht das Modell Fehler, weil bestimmte Dinge in den Vorhersagedaten nicht ausreichend unterstützt werden? "Unterstützt durch das Vorhersage-Training" ist vielleicht eine relativ lockere Formulierung, und ich weiß nicht, ob ich etwas Nützliches hinzufügen kann. Ich denke, es gibt keine perfekte menschliche Entsprechung für das Vorhersage-Training.

02 Wertfunktion: Kommt das "Emotionssystem" der KI?

Patel: Es wurden mehrere Analogien zwischen Menschen und Vorhersage-Training vorgeschlagen. Ich möchte wissen, warum du denkst, dass sie möglicherweise ungenau sind. Eine davon ist, die ersten 15 oder 18 Jahre eines Menschen als Vorhersage-Phase zu betrachten, in der sie noch nicht wirtschaftlich produktiv sind, aber lernen, um die Welt besser zu verstehen. Eine andere ist, die Evolution als eine Art von 3 Milliarden Jahren dauernder Suche zu betrachten, die schließlich zum Menschen führte. Ich bin neugierig, ob du denkst, dass eine dieser beiden Situationen mit dem Vorhersage-Training vergleichbar ist. Wenn nicht, wie siehst du den Prozess des lebenslangen Lernens des Menschen?

Sutskever: Ich denke, dass beide Situationen einige Ähnlichkeiten mit dem Vorhersage-Training haben, und das Vorhersage-Training versucht, beide Rollen zu spielen, aber es gibt auch große Unterschiede, da die Datenmenge beim Vorhersage-Training sehr, sehr groß ist.

Aber was seltsam ist, ist, dass ein Mensch, auch wenn er 15 Jahre lang gelebt hat, nur einen kleinen Teil der Vorhersagedaten kennengelernt hat. Er weiß viel weniger, aber was er weiß, scheint er viel tiefer zu verstehen. In diesem Alter machst du nicht mehr die Fehler, die unsere KI macht.

Es gibt noch etwas. Du könntest sagen, ist es wie die Evolution? Die Antwort ist vielleicht ja. Aber in diesem Fall denke ich, dass die Evolution möglicherweise einen Vorteil hat. Ich erinnere mich, dass ich einige Fälle gelesen habe, in denen Neurowissenschaftler Menschen mit Schäden an verschiedenen Teilen des Gehirns untersucht haben, um die Gehirnfunktionen zu verstehen. Manche Menschen haben die seltsamsten Symptome, was tatsächlich sehr interessant ist.

Ich denke an ein relevantes Beispiel. Ich habe von einem Menschen gelesen, der durch einen Schlaganfall oder einen Unfall ein Gehirnschaden erlitten hat, der seine Emotionsverarbeitung beeinträchtigt hat. Daher spürt er keine Emotionen mehr. Er ist immer noch redselig, kann kleine Probleme lösen und sieht in Tests völlig normal aus. Aber er spürt keine Emotionen: keine Traurigkeit, keine Wut, keine Lebensfreude. Infolgedessen wird er bei jeder Entscheidung extrem schlecht. Es kann ihm Stunden dauern, sich für eine Paar Socken zu entscheiden, und er trifft sehr schlechte finanzielle Entscheidungen.

Dies zeigt, dass unsere inneren Emotionen eine wichtige Rolle bei der Entwicklung zu einem funktionierenden Intelligenz-Agenten spielen.

Patel: Was ist "etwas Besonderes"? Offensichtlich sind es nicht direkt Emotionen. Es scheint eher etwas wie eine Wertfunktion zu sein, die dir sagt, was die endgültige Belohnung für jede Entscheidung sein sollte. Glaubst du, dass dies implizit aus dem Vorhersage-Training entstehen kann?

Sutskever: Ich denke, es ist möglich. Ich sage nur, dass es nicht 100 % offensichtlich ist.

Patel: Aber was ist es eigentlich? Wie siehst du Emotionen? Was ist die Maschinelles Lernen-Entsprechung für Emotionen?

Sutskever: Es sollte etwas wie eine Wertfunktion sein. Aber ich denke, es gibt derzeit keine gute Maschinelles Lernen-Entsprechung, da die Wertfunktion in der gegenwärtigen Arbeit der Menschen nicht eine sehr prominente Rolle spielt.

Patel: Vielleicht könntest du uns definieren, was eine Wertfunktion ist.

Sutskever: Sicher! In der Verstärkungslern ist die typische Vorgehensweise derzeit so: Du hast ein neuronales Netzwerk, gibst es eine Aufgabe und sagst dem Modell: "Löse es". Das Modell führt Tausende oder Zehntausende von Aktionen oder Denkschritten aus und erhält schließlich eine Lösung. Diese Lösung wird dann bewertet und mit einer Punktzahl versehen.

Diese Punktzahl wird dann verwendet, um das Modell bei jedem Schritt zu trainieren. Das heißt, wenn das Modell lange Zeit braucht, um die endgültige Lösung zu erhalten, lernt es in diesem Prozess keine nützlichen Informationen, bis die endgültige Antwort da ist. Diese Methode ist in der Verstärkungslern sehr verbreitet und ist auch die Strategie, die von Modellen wie OpenAI O1, DeepSeek R1 etc. grob angewandt wird.

Das Konzept der Wertfunktion ist ähnlich wie: "Ich kann dir möglicherweise nicht immer sofort sagen, ob du gut oder schlecht arbeitest, aber manchmal kann ich dich im Voraus warnen." Dieses Konzept ist in einigen Bereichen besonders nützlich. Beispielsweise beim Schachspiel, wenn du eine Figur verlierst, weißt du sofort, dass du einen Fehler gemacht hast. Du musst nicht bis zum Ende des gesamten Spiels warten, um zu wissen, welche Zug falsch war. Das bedeutet, dass du auch erkennen kannst, dass einige frühere Entscheidungen ebenfalls schlecht waren. Diese Rückmeldung kann dir helfen, deine Strategie schneller anzupassen und die Effizienz zu erhöhen.

Die Wertfunktion kann dir helfen, den Prozess der Suche nach der endgültigen Lösung zu beschleunigen. Angenommen, du löst eine Mathematikaufgabe oder eine Programmieraufgabe und versuchst eine bestimmte Lösung oder Richtung. Beispielsweise, nachdem du tausend Schritte gedacht hast, erkennst du, dass diese Richtung hoffnungslos ist. In diesem Moment erhältst du einen Rückmeldungssignal im Voraus, das dir sagt, dass dieser Weg nicht funktioniert, anstatt dass du erst nach tausend Schritten erfährst. Du kannst daraus schließen: "Das nächste Mal, wenn ich eine