Der Countdown für AGI läuft: Leitender OpenAI - Forscher macht gewichtige Aussage: Zeitfenster für die Menschheit "sehr klein"

Der Chefwissenschaftler von OpenAI, Mark Chen, sendete ein klares Signal: OpenAI ist nicht der Ansicht, dass die Scaling Laws bereits ihre Gültigkeit verloren haben. Ganz im Gegenteil – vortrainierte Modelle, Datenengineering, Inference-Training und längere Aufgabenketten stellen nach wie vor den zentralen Weg in Richtung AGI dar.

Die allgemeine Künstliche Intelligenz (AGI) ist bald da.

Gerade jetzt hat Mark Chen, der Chef-Forscher von OpenAI, behauptet:

In gewisser Weise, wie Sie es vielleicht spüren können, ist die AGI (allgemeine Künstliche Intelligenz) bald da...

Wir nähern uns immer mehr einer Welt, in der Modelle autonom mehr Innovationen entwickeln können – sie können eigenständige Forschungen betreiben.

Es geht nicht nur um eine Effizienzsteigerung, sondern die „Evolution“ selbst wird an die siliziumbasierte Lebensform ausgelagert.

Als Mark Chen vor der Kamera geschickt Pilze und Zwiebeln schneidet, spricht er nicht nur über eine Suppe, sondern über das letzte Bastion der menschlichen Zivilisation.

Wenn die KI sich selbst erforschen kann, welche Rolle soll der Mensch am Vorabend des Kommens der AGI spielen?

Jedes Gebiet erlebt seine eigene „göttliche Zug“

Um die Wichtigkeit dieses Satzes zu verstehen, müssen wir zunächst zum Zeitpunkt zurückkehren, als Mark in die Branche eintrat.

Im Jahr 2016 absolvierte AlphaGo ein Duell gegen Lee Sedol.

Im zweiten Spiel gab es einen Zug, den „37. Zug“. In dem Moment, als der Stein auf das Brett fiel, verstanden ihn alle menschlichen Schachspieler nicht.

Später wurde klar, dass es ein Zug des Computers war, den der Mensch niemals hätte erdacht. In diesem Moment wurden unzählige Menschen angestoßen, und Mark Chen wurde auch in dieses Gebiet hineingezogen.

Und was ist heute?

„Das Verrückteste ist“, sagt Mark, „dass Sie jetzt in fast jedem Gebiet eine ‚göttliche Zug‘ sehen können.“

Es gibt sie in der Mathematik, in der Informatik und beim Programmieren.

Er beschrieb einen sehr subtilen Zeitpunkt: Viele Menschen haben sich Anfang dieses Jahres „aufgewacht“ und plötzlich gemerkt, dass die KI-Agenten in ihrer Branche tatsächlich arbeiten können.

Es sind keine Spielzeuge. Keine Demos. Sie können für Sie sinnvolle, langfristige echte Arbeiten (long-horizon work) erledigen.

Das bedeutet, dass das „Modell selber Forschen“ nicht länger ein Szenario aus einem Science-Fiction-Film ist.

Es ist der natürliche nächste Schritt, der aus einer Reihe von bereits geschehenen „göttlichen Zügen“ abgeleitet wird.

Wenn Sie sich entlang dieser Linie vorwärtssehen, steht am Ende das Modell, das selber Forschen kann.

Scaling endet nicht, das Pre-Training ist nicht tot

Aber worauf stützt sich diese Optimismus eigentlich?

Auf einem Glauben: Die Scaling-Kurve ist noch nicht am Ende.

In den letzten zwei Jahren tauchen immer wieder die Argumente auf, dass „das Pre-Training tot ist“ und „die Sprachmodelle nie zur AGI kommen können“.

Mark Chen widerspricht diesen Pessimismus „ziemlich heftig“.

Er hat das Muster aufgedeckt.

Das „Pre-Training ist tot“ klingt neu, ist aber eigentlich ein altmodisches Drehbuch, das in den letzten Jahren immer wieder abgespielt wurde.

Jedes Mal zeigt jemand auf eine Schwierigkeit und sagt: „Das ist das Limit, man kann nicht weiter.“ Und jedes Mal kann OpenAI eine neue Ingenieursweise oder eine neue Erkenntnis in der Forschung hervorbringen, um diese Wand zu durchbrechen.

Mark Chen ist überzeugt, dass „wir auf einer Exponentialkurve sind. Sie hat fast 10 Größenordnungen überstanden, und es gibt keinen Grund, warum sie nicht weiter überstehen sollte.“

Und das überzeugendste Argument ist, dass OpenAI einmal selbst erfolgreich gewettet hat.

Das Wetten war auf das Schließen von logischen Schlüssen (reasoning).

Als das Projekt o1 angelegt wurde, glaubten selbst einige Leute innerhalb von OpenAI nicht daran.

Damals war das Paradigma von „Pre-Training + Post-Training“ so erfolgreich, dass man sich natürlich fragte: Wenn die Maschine schon gut funktioniert, warum sollte man sich noch um andere Dinge kümmern?

Es waren Jakub Pachocki, Ilya Sutskever und einige andere Menschen mit Überzeugung und Urteilsvermögen, die es durchsetzten, und so wurde es allmählich die grundlegende Wette des gesamten Unternehmens.

Einen Jahr später kam o1 auf den Markt, und das Paradigma des Schließens von logischen Schlüssen hat die gesamte Branche erobert.

Die Kurve ist noch nicht am Ende, und die größten Durchbrüche kommen oft von Wetten, an die am Anfang niemand glaubte. Zusammen sind das die Gründe, warum Mark Chen sagen kann, dass das „selbstständige Forschen der Modelle“ nicht mehr weit ist.

Wenn das Modell über Wochen oder sogar Monate an einer Aufgabe nachdenkt, können die Innovationen, die es hervorbringt, möglicherweise bereits außerhalb des Wissensbereichs menschlicher Experten liegen.

Das ist der Grundstein für das „selbstständige Forschen“: Wenn es mathematische Formeln ableiten kann, die der Mensch noch nie gesehen hat, kann es natürlich auch bessere Algorithmen schreiben als der Mensch.

Vibe Researcher: Wenn die Durchführung billig wird

Wir haben bereits den Vibe Coder – man sagt einfach etwas, und die KI schreibt den Code.

Die Forschung bewegt sich auch in diese Richtung.

In einem Interview wurde wiederholt ein sehr umstrittener Begriff erwähnt: Vibe Researcher (Stimmungsforscher).

Dies ist eine etwas selbstironische, aber überlegte Berufsprognose.

Mark ist der Meinung, dass die zukünftigen Spitzenforscher nicht mehr diejenigen sein werden, die jede Zeile PyTorch-Code schreiben, sondern diejenigen, die das „Gefühl“ verstehen.

Ob in OpenAI oder in anderen Labors, man beginnt zu sehen, dass eine große Menge an Arbeit sich auf die „Orchestrierung“ (orchestration) konzentriert.

Übersetzt in einfache Sprache: Der Mensch gibt die Ideen, und das Modell erledigt die Arbeit.

Der Forscher denkt die Ideen aus, und das Modell kümmert sich um die Umsetzung, Durchführung und Planung.

Das dreijährige Roadmap von OpenAI hat ein klares Ziel: Das Modell soll End-to-End-Forschung betreiben, von der Idee bis zum Ergebnis ganz alleine.

Aber auf diesem Weg gibt es noch viele unbefriedigte Löcher

Da die KI in der Lage ist, Aufgaben autonom auszuführen und zu orchestrieren (Orchestration), wird die menschliche Arbeit auf zwei Enden reduziert:

1. Stellen Sie echte Fragen.

2. Beurteilen Sie, ob die Antworten der KI eine „Seele“ haben.

Dies ist das sogenannte „Geschmack“ (Taste).

Da die Maschine kein „Leben“ hat, hat sie auch kein „Gemeinsinn“ und kann daher keinen „Geschmack“ entwickeln.

Aber wenn man sich beruhigt und nachdenkt, weiß Mark Chen besser als alle anderen, dass dieser Weg noch lange nicht glatt ist.

Das erste Loch: Die Bewertung ist gescheitert.

Er benutzt ein internes Wort, „Benchmaxxing“ (Ranglistenoptimierung) – man sucht eine Menge von Fragen, die fast identisch mit den Testfragen sind, und trainiert die Modelle so stark, dass die Punktzahl sehr gut ist, aber die Generalisierungsfähigkeit überhaupt nicht verbessert wird.

Was noch schlimmer ist, ist die Anzahl der anerkannten Goldstandards für die Bewertung zu gering.

„Wir befinden uns wirklich in einer Bewertungskrise“, sagt er. Die klassischen Tests wie der SAT sind für die heutigen Modelle alle gesättigt.

Sogar wenn eine Bewertung an die Welt veröffentlicht wird, ist sie bereits keine gute Bewertung mehr, wie ein Testblatt, das sofort ungültig wird, sobald es gedruckt wird.

Zwei Strategien, um dieses Problem zu lösen:

1. Trennen Sie das Team für die Bewertungsentwicklung vom Team für die Modelloptimierung, um eine gegenläufige Motivation zu schaffen.

2. Setzen Sie die Modelle in großem Maßstab ein und beobachten Sie die Fehlermuster in der praktischen Anwendung.

Er hat auch darauf hingewiesen, dass mit jedem neuen Vermögen auch die entsprechende Bewertungsbedürfnis entsteht, und die Führung der Bewertungsrichtung ist ein ziemlich wichtiger Teil seiner Arbeit.

Das zweite Loch: Der unebene Forschungsrand (jagged frontier).

Das Modell kann schwierige Probleme auf Olympiadeebene in Mathematik und Informatik lösen, aber es kann möglicherweise nicht die alltäglichen Dinge erledigen, die der Mensch leicht bewerkstelligen kann. Es ist wie ein Genie, das Differentialrechnung im Kopf rechnen kann, aber nicht seine Schuhe binden kann.

Wo liegt der Unterschied? Der Unterschied liegt im „Kontext“ und im kontinuierlichen Lernen (continual learning) – das heißt, die Lehren, die man aus einer

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Countdown für AGI läuft: Der leitende Forscher von OpenAI macht eine gewichtige Aussage – das Zeitfenster für die Menschheit ist „sehr klein“

Jedes Gebiet erlebt seine eigene „göttliche Zug“

Scaling endet nicht, das Pre-Training ist nicht tot

Vibe Researcher: Wenn die Durchführung billig wird

Aber auf diesem Weg gibt es noch viele unbefriedigte Löcher