Ex-Chef von OpenAI: Große Sprachmodelle brechen zusammen - Je mehr sie lernen, desto dümmer werden sie (auch Menschen!)

Kapasi: AGI braucht zehn Jahre, verstärkendes Lernen ist ineffizient, und die AI-Programmierung ist ein Chaos.

Die Gedächtniskraft von KI ist ein Fluch, das verstärkende Lernen ist dumm und verrückt, der Code ist ein Durcheinander, und die AGI muss noch etwa zehn Jahre warten...

Zhidongxi berichtete am 21. Oktober. In letzter Zeit gab der ehemalige Leiter der KI bei Tesla und Gründungsmitglied von OpenAI, Andrej Karpathy, ein ausführliches Interview über 2,5 Stunden, in dem er systematisch seine tiefgreifenden Einsichten in die gegenwärtige Situation und die Zukunft der KI teilte. Viele seiner Ansichten stellen die herrschende Meinung in Frage und sind äußerst aufschlussreich.

Während die Branche über das "Jahr der Agenten" diskutiert, stellte Karpathy ruhig fest, dass es eher "ein Jahrzehnt der Agenten" sein wird. Er wies darauf hin, dass es noch etwa zehn Jahre dauern wird, bis man wirklich KI - Agenten schaffen kann, die so zuverlässig arbeiten wie Praktikanten. Dazu müssen noch Kernprobleme wie Multimodularität, kontinuierliches Lernen und die Verwendung von Computern überwunden werden.

Karpathy nahm sein kürzlich opensourcetes Nanochat - Projekt als Beispiel, um die "kognitiven Defizite" großer Sprachmodelle aufzuzeigen. Bei innovativen Programmieraufgaben, die eine genaue Architektur erfordern, missverstehen KI - Assistenten aufgrund ihrer Überabhängigkeit von gängigen Mustern in den Trainingsdaten maßgeschneiderte Codes und erhöhen die unnötige Komplexität. Am Ende "quellen die Code - Bibliotheken an und sind ein wahres Durcheinander".

Was die herrschende Methode zur Iteration großer Modelle, nämlich verstärkendes Lernen, angeht, war Karpathy besonders scharf. Er verglich es bildhaft mit dem "Ansaugen von Überwachungssignalen mit einer Saugpipette", d. h. das mühsame Verteilen eines einzelnen Ergebnissignals auf den gesamten komplexen Handlungsprozess. Er hält diese Methode für ineffizient und absurd.

Im Vergleich mit der menschlichen Lernweise wies Karpathy zwei Schlüsselmängel bei der gegenwärtigen Training von großen Modellen auf: "Modellkollaps" führt zu einem Verlust der Vielfalt der generierten Inhalte, und "Übermäßiges Gedächtnis" verhindert, dass die Modelle wie Menschen allgemeine Muster entdecken können.

Das ist wie ein Teufelskreis: Das Training eines neuen Modells mit von Modellen generierten Daten führt nur zu engeren Ergebnissen. Interessanterweise glaubt Karpathy, dass Menschen ebenfalls in einen "Kollaps" geraten und an altbekannten Mustern festhalten können, und dass das Gehirn möglicherweise durch "Träumen" Zufall (Entropie) einfügt, um diesem Trend entgegenzuwirken.

Bei der Messung des Fortschritts der KI glaubt Karpathy, dass man sich eher auf die tatsächliche Leistung in konkreten wirtschaftlichen Aufgaben konzentrieren sollte, anstatt auf abstrakte Indikatoren. Er sagt voraus, dass die AGI die makroökonomische Wachstumsrate langsam und kontinuierlich fördern wird, ähnlich wie Computer und Mobiltelefone, und sich sanft in die bestehende jährliche Wachstumsrate von etwa 2 % des BIP einfügen wird.

Obwohl die Zukunft langwierig erscheint, ist Karpathy überzeugt, dass wir bereits mitten in einer "Intelligenzexplosion" sind. Er betrachtet die Sache aus einer größeren Perspektive: In der historischen Skala ist diese Veränderung wie ein "Feuerwerk", und wir erleben es im Zeitraffer.

Der Inhalt des Interviews wurde weitläufig im Internet verbreitet. Viele Nutzer auf der sozialen Plattform X bewerteten es als "unbedingt sehenswert", "jede Minute ist wertvoll" und "absolut sehenswert". Woher stammen diese umwerfenden Ansichten und wohin führen sie? Zhidongxi hat die Kernaussagen des 2,5 - Stunden - Interviews ausgewählt und ohne Änderung des ursprünglichen Sinns editiert.

01. Die AGI braucht noch etwa zehn Jahre, und Multimodularität und kontinuierliches Lernen sind die Engpässe

Während die Branche über das "Jahr der Agenten" diskutiert, stellte Karpathy fest, dass es eher ein "Jahrzehnt der Agenten" sei. Welche Engpässe müssen also zehn Jahre lang überwunden werden?

Die Hauptpunkte des Gesprächs lauten wie folgt:

Dwarkesh Patel: Andrej, warum sagst du, dass es ein Jahrzehnt der Agenten ist, und nicht ein Jahr der Agenten?

Andrej Karpathy: Das ist eigentlich eine Reaktion auf ein berühmtes Zitat. Ich weiß nicht, wer es gesagt hat, aber es wurde angedeutet, dass es nun ein Jahrzehnt der Agenten sei, was sich auf große Sprachmodelle und ihre zukünftige Entwicklung bezieht. Dieses Zitat hat mich getroffen, weil es in der Branche einige übertriebene Prognosen gibt.

Einige frühe Agenten, wie Claude und Codex, sind beeindruckend und werden bereits weit verbreitet genutzt. Aber ich denke immer noch, dass es noch viel Arbeit zu tun gibt, und wir werden mit diesen Dingen etwa zehn Jahre lang zusammenarbeiten.

Dwarkesh Patel: Welche Dinge glaubst du, werden zehn Jahre dauern, und was sind die Engpässe?

Andrej Karpathy: Wir müssen sie wirklich funktionieren lassen. Wir stellen uns Agenten als angestellte Mitarbeiter oder Praktikanten vor, aber derzeit können sie das offensichtlich nicht. Der Grund ist, dass sie einfach nicht ausreichen - nicht intelligent genug, nicht ausreichend multimodal, nicht in der Lage, Computer zu nutzen und fehlendes kontinuierliches Lernen usw. Ihre kognitiven Fähigkeiten sind unzureichend, also sind sie nutzlos. Es wird etwa zehn Jahre dauern, alle diese Probleme zu lösen.

Dwarkesh Patel: Warum zehn Jahre und nicht ein Jahr oder fünfzig Jahre?

Andrej Karpathy: Das hängt von meiner persönlichen Intuition ab und ist auch eine Schätzung auf der Grundlage meiner Erfahrungen in diesem Bereich. Ich beschäftige mich mit KI seit fast zwanzig Jahren, was nicht allzu lange ist. Meine bisherigen Erfahrungen lassen mich glauben, dass die gegenwärtigen Probleme lösbar sind, aber die Schwierigkeiten sind dennoch erheblich. Wenn ich alles abwäge, denke ich, dass es etwa zehn Jahre dauern wird, diese Probleme zu überwinden.

02. Große Sprachmodelle haben noch kognitive Defizite, und Programmier - Modelle funktionieren "total schlecht"

Am 14. Oktober veröffentlichte Karpathy Nanochat opensource. Es wird behauptet, dass man damit mit weniger als 100 US - Dollar (etwa 711,5 Yuan) ein "einfaches ChatGPT" trainieren kann. Sobald es auf GitHub veröffentlicht wurde, erhielt es 5.6k Sterne.

Aber beim Aufbau der Nanochat - Code - Bibliothek stellte Karpathy fest, dass die gegenwärtigen KI - Programmier - Assistenten deutliche Einschränkungen haben und fast keine Hilfe leisten. Warum ist das so?

Die Hauptpunkte des Gesprächs lauten wie folgt:

Dwarkesh Patel: Du hast auf Twitter gesagt, dass die Programmier - Modelle dir beim Aufbau der (Nanochat) - Code - Bibliothek fast keine Hilfe leisteten. Warum?

Andrej Karpathy: Ich habe etwa einen Monat lang an dieser Code - Bibliothek gearbeitet. Ich denke, dass die Art und Weise, wie Menschen derzeit mit Code interagieren, hauptsächlich in drei Kategorien unterteilt werden kann: die völlige Ablehnung großer Sprachmodelle, die Verwendung der automatischen Vervollständigungsfunktion in Modellen zur Unterstützung beim Schreiben (mein derzeitiger Zustand) und das "Atmosphären - Programmieren". Ich verwende sie in bestimmten Umgebungen. Aber das sind nur Werkzeuge, und du musst verstehen, was sie gut können, was nicht, und wann du sie einsetzen solltest.

Nanochat ist nicht der richtige Anwendungsfall, weil es eine ziemlich einzigartige Code - Bibliothek ist. Es ist fast geistig anspruchsvoller Code, und alles muss sehr präzise geschrieben werden. Diese Programmier - Modelle haben viele kognitive Defizite. Beispielsweise missverstehen sie den Code ständig, weil sie zu viele typische Vorgehensweisen im Internet auswendig gelernt haben, die ich überhaupt nicht verwende.

Dwarkesh Patel: Ein Beispiel?

Andrej Karpathy: Ich habe acht GPUs verwendet, die alle Vorwärts - und Rückwärtsberechnungen durchführen. Die Methode zur Synchronisierung der Gradienten zwischen ihnen besteht darin, den verteilten Datenparallel - Container von PyTorch zu verwenden. Wenn du eine Rückwärtsberechnung durchführst, beginnt er automatisch mit der Kommunikation und der Synchronisierung der Gradienten. Ich hielt es für unnötig, den DDP - Container zu verwenden und habe ihn weggelassen. Aber die Programmier - Modelle versuchten, mich dazu zu bringen, den DDP - Container zu verwenden, und haben ständig versucht, den Code - Stil durcheinander zu bringen.

Sie sind zu defensiv und versuchen ständig, eine Produktions - Code - Bibliothek aufzubauen, aber ich brauche diese zusätzlichen Dinge nicht. Also finde ich, dass sie die Code - Bibliothek quellen lassen und die Komplexität erhöhen, dass sie ständig missverstehen und viele veraltete APIs verwenden. Es ist ein wahres Durcheinander und völlig nutzlos.

03. Verstärkendes Lernen ist schlecht, wie das "Ansaugen von Überwachungssignalen mit einer Saugpipette", dumm und verrückt

Verstärkendes Lernen ist derzeit eine herrschende Methode zur Iteration großer Modelle. Karpathy wies jedoch scharf darauf hin, dass diese Methode im Wesentlichen darin besteht, "Überwachungssignale mit einer Saugpipette anzusaugen" - das mühsame Verteilen eines einzelnen Ergebnissignals auf den gesamten komplexen Handlungsprozess. Sie ist ineffizient und absurd und unterscheidet sich stark von der menschlichen Lernweise, die auf einer detaillierten Nachbesprechung beruht.

Die Hauptpunkte des Gesprächs lauten wie folgt:

Dwarkesh Patel: Lassen Sie uns über verstärkendes Lernen sprechen. Wie kann man verstehen, dass Menschen allein durch die Interaktion mit der Umwelt ein reiches Weltmodell aufbauen können, und dass dies fast unabhängig von den Belohnungen am Ende der Szene ist?

Andrej Karpathy: Menschen verwenden kein verstärkendes Lernen. Verstärkendes Lernen ist viel schlechter, als ich gedacht habe. Natürlich sind andere Methoden noch schlechter. Beim verstärkenden Lernen wird fast angenommen, dass jedes kleine Detail, das zur richtigen Lösung führt, richtig ist, aber das stimmt nicht. Man kann vor der richtigen Lösung viele falsche Wege gehen. Jedes Fehler, das man macht, wird, solange man am Ende die richtige Lösung findet, als "weiter so" gewichtet. Das ist schlecht, es ist nur Rauschen.

Man hat so viel Arbeit geleistet, aber am Ende bekommt man nur eine Zahl. Basierend auf dieser Zahl wird man das Gewicht der gesamten Handlungskette erhöhen oder verringern. Ich mag es so zu sagen, dass man "Überwachungssignale mit einer Saugpipette ansaugt". Man hat so viel Arbeit geleistet, die vielleicht nur eine Minute dauern würde, aber jetzt saugt man die Überwachungsinformationen des Endbelohnungssignals Stück für Stück auf und verteilt es auf die gesamte Handlungskette, um das Gewicht der Kette zu erhöhen oder zu verringern.

Das ist dumm und verrückt. Menschen würden das niemals tun.

Zunächst würden Menschen niemals hunderte Male deployen. Zweitens macht ein Mensch, wenn er eine Lösung findet, eine ziemlich detaillierte Nachbesprechung: "Nun, ich denke, dass ich in diesen Teilen gut gearbeitet habe, in diesen Teilen nicht so gut. Ich hätte das so oder so machen sollen." Sie überlegen es sich genau. Etwas Ähnliches gibt es derzeit beim Training großer Modelle nicht. Aber ich sehe tatsächlich einige Papers, die versuchen, dies zu tun.

Dwarkesh Patel: Da dies offensichtlich ist, warum hat die auf dem Prozess basierende Überwachung als Alternative nicht erfolgreich die Fähigkeiten der Modelle verbessern können? Was hindert uns daran, dieses alternative Paradigma zu verwenden?

Andrej Karpathy: Die auf dem Prozess basierende Überwachung bedeutet, dass wir nicht erst am Ende eine Belohnungsmechanik einrichten. Wenn du zehn Minuten lang gearbeitet hast, werde ich dir nicht sagen, ob du gut oder schlecht gearbeitet hast. Ich werde dir bei jedem Schritt sagen, wie gut du gearbeitet hast. Der Grund, warum wir das nicht tun, ist, dass es schwierig ist, dies richtig zu tun. Man hat nur einen Teil der Lösung und weiß nicht, wie man die Anerkennung verteilen soll.

Tatsächlich können diese riesigen Modelle mit Milliarden von Parametern leicht manipuliert werden, wenn man sie zur Verteilung von Belohnungen verwendet. Wenn man sie mit verstärkendem Lernen trainiert, wird man fast sicher Gegenbeispiele als Bewertungsmaßstab für das Modell finden. Also kann man das nicht lange machen. Man kann vielleicht 10 oder 20 Schritte machen und vielleicht erfolgreich sein, aber man kann nicht 100 oder 1000 Schritte machen. Das Modell wird in jedem Winkel und jeder Ecke all diese falschen Dinge finden und Wege, es zu täuschen.

04. Im Vergleich zur menschlichen Lernweise steht die KI vor der Gefahr des "versteckten Kollaps", und ein perfektes Gedächtnis wird zum Problem

Im Vergleich zur menschlichen Lernweise sprach Karpathy über zwei wichtige Mängel beim Lernen großer Modelle.

Der erste ist das Problem des Modellkollaps. Die gegenwärtige KI macht nur passive Vorhersagen über Daten und fehlt die akt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der ehemalige Chef von OpenAI hat "extreme Äußerungen" gemacht: Große Sprachmodelle werden schließlich zusammenbrechen, je mehr sie lernen, desto dümmer werden sie, und dasselbe gilt für Menschen.

01. Die AGI braucht noch etwa zehn Jahre, und Multimodularität und kontinuierliches Lernen sind die Engpässe

02. Große Sprachmodelle haben noch kognitive Defizite, und Programmier - Modelle funktionieren "total schlecht"

03. Verstärkendes Lernen ist schlecht, wie das "Ansaugen von Überwachungssignalen mit einer Saugpipette", dumm und verrückt

04. Im Vergleich zur menschlichen Lernweise steht die KI vor der Gefahr des "versteckten Kollaps", und ein perfektes Gedächtnis wird zum Problem