OpenAIs Ansatz wird in Frage gestellt. Ein Forscher von Meta: Es ist schlicht unmöglich, Superintelligenz zu erschaffen.
Superintelligenz ist eine höhere Dimension der künstlichen Intelligenz (KI), die über der AGI (Künstliche Allgemeine Intelligenz) liegt und sogar übermenschliche allgemeine Fähigkeiten aufweist.
Hinter Mark Zuckerbergs Bemühungen, mit einem Jahresgehalt von einer Milliarde US - Dollar Talente von Konkurrenten wie OpenAI zu gewinnen, verbirgt sich das enorme Streben von Top - Spielern wie Meta nach "Superintelligenz".
Wie wird die Superintelligenz realisiert? Ist der aktuelle Forschungsansatz der großen Sprachmodelle (LLM) richtig? Können die Skalierungsgesetze (Scaling Laws) auch in diesem Prozess weiterhin wirksam sein?
Schon im Jahr 2023 erklärte Sam Altman, der Chef von OpenAI, dass das Aufbauen einer AGI ein wissenschaftliches Problem sei, während das Schaffen einer Superintelligenz ein engineering - Problem darstelle. Dies scheint darauf hinzuweisen, dass sie einen machbaren Weg zum Aufbau der Superintelligenz kennen.
Nach Ansicht von Jack Morris, einem Forscher bei Meta AI, besteht das "Engineering - Problem" der Superintelligenz, das Altman erwähnt, darin, "eine Vielzahl von RL - Umgebungen für verschiedene Aufgaben zu erstellen und das LLM so zu trainieren, dass es alle diese Aufgaben gleichzeitig bewältigen kann". Er meint, dass der von OpenAI und anderen Unternehmen derzeit stark vorangetriebene Ansatz - RL basierend auf LLM - überhaupt nicht in der Lage ist, eine Superintelligenz aufzubauen.
"Meine bescheidene Prognose ist: LLMs werden weiterhin besser in Aufgaben innerhalb des Trainingsdatensatzes. Je mehr Arten von Aufgaben wir sammeln und trainieren, desto nützlicher werden die LLMs für eine breite Palette von Aufgaben. Aber es wird kein einzelnes Superintelligenzmodell werden."
In einem Blogbeitrag mit dem Titel "Superintelligence, from First Principles" untersucht Morris drei mögliche Wege zum Aufbau einer Superintelligenz: ausschließlich durch überwachtes Lernen (SL), durch Reinforcement Learning (RL) von menschlichen Validatoren und durch RL von automatischen Validatoren.
Darüber hinaus ist er der Meinung, dass die Integration von nicht - textuellen Daten in das Modell keine Verbesserung der Gesamtleistung des Modells bringt. "Von echten Menschen geschriebener Text trägt einen gewissen inneren Wert, den die reinen Sinneswahrnehmungen unserer Umgebung niemals haben können."
Academic Headlines hat den gesamten Inhalt unter Beibehaltung der ursprünglichen Bedeutung zusammengefasst, wie folgt:
Original - Link:
https://blog.jxmo.io/p/superintelligence-from-first-principles
Viele diskutieren, wie man mit der aktuellen Technologie eine AGI (Künstliche Allgemeine Intelligenz) oder eine ASI (Künstliche Superintelligenz) realisieren kann. Meta hat kürzlich angekündigt, dass es ein geheimes "Superintelligenz" - Labor gründet und Milliarden von Dollar in die Forschung investiert. OpenAI, Anthropic und Google DeepMind haben auf verschiedene Weise das Ziel formuliert, Superintelligenzmaschinen zu bauen.
Sam Altman hat speziell erklärt, dass die Superintelligenz nur ein Engineering - Problem sei:
Dies deutet darauf hin, dass die Forscher von OpenAI wissen, wie man eine Superintelligenz aufbaut und nur Zeit und Energie investieren müssen, um das erforderliche System zu erstellen.
Als KI - Forscher weiß ich nicht, wie man eine Superintelligenz aufbaut - ich bin nicht einmal sicher, ob dies möglich ist. Daher möchte ich in diesem Artikel einige Details untersuchen und spekulieren, ob jemand versuchen könnte, eine Superintelligenz aus ersten Prinzipien heraus zu konstruieren.
Wir gehen davon aus, dass die grundlegenden Bausteine für diese Technologie festgelegt sind: Die Verwendung von neuronalen Netzen als Basisarchitektur und das Training durch den Rückpropagationsalgorithmus und eine Form des maschinellen Lernens.
Ich denke, dass die Architektur (die Struktur des neuronalen Netzes) nicht der entscheidende Faktor ist. Daher überspringen wir die Details zur Architektur und machen eine kühne Annahme: Die Superintelligenz wird mit Transformern aufgebaut, der derzeit beliebtesten Architektur für das Training solcher Systeme auf großen Datensätzen.
Wir wissen also schon viel: Die Superintelligenz wird ein Transformer - neuronales Netz sein, das durch eine maschinelle Lernzielfunktion und gradientenbasierte Rückpropagation trainiert wird. Es bleiben noch zwei Hauptfragen offen. Welches Lernverfahren verwenden wir und welche Daten nutzen wir?
Beginnen wir mit den Daten.
Daten: Es muss Text sein
Viele der großen Durchbrüche, die zu ChatGPT geführt haben, stammen weitgehend aus dem Lernen aus dem riesigen Schatz an menschlichem Wissen im Internet. Obwohl der Großteil seiner Komplexität durch moderne Engineering - Techniken geschickt verborgen wird, nehmen wir uns doch einen Moment Zeit, um alles zu verstehen.
Die besten derzeitigen Systeme basieren auf dem Lernen aus Textdaten im Internet. Zum Zeitpunkt der Verfassung dieses Artikels (Juni 2025) denke ich, dass die Integration von nicht - textuellen Daten in das Modell keine Verbesserung der Gesamtleistung gebracht hat. Dies umfasst Bilder, Videos, Audio und ultrasensorische Daten aus der Robotik - wir wissen noch nicht, wie wir diese Modalitäten nutzen können, um die Intelligenz von ChatGPT zu verbessern.
Warum ist das so? Dies könnte einfach eine wissenschaftliche oder engineering - Herausforderung sein, vielleicht nutzen wir die falsche Methode; aber es ist auch möglich, dass Text etwas Besonderes hat. Schließlich war jeder Text im Internet (vor der Entstehung von LLMs) ein Spiegelbild des menschlichen Denkprozesses. In gewisser Weise ist von Menschen geschriebener Text vorverarbeitet und hat einen sehr hohen Informationsgehalt.
Im Vergleich dazu sind Bilder nur ein ursprünglicher Blick auf die Welt um uns herum ohne menschliche Intervention. Es ist durchaus möglich, dass von Menschen geschriebener Text einen gewissen inneren Wert trägt, den die reinen Sinneswahrnehmungen unserer Umgebung niemals haben können.
Deshalb gehen wir vorerst davon aus, dass nur Textdaten wichtig sind, bis jemand das Gegenteil beweist.
Wie viel Textdaten haben wir also?
Die nächste Frage ist, wie groß dieser Datensatz möglicherweise sein könnte.
Viele haben bereits darüber diskutiert, was wir tun sollten, wenn wir die Textdaten aufgebraucht haben. Dieser Fall wird als "Datenwand" oder "Token - Krise" bezeichnet, und es wurde untersucht, was wir tun sollten, wenn wir tatsächlich keine Daten mehr haben, und wie wir unsere Modelle erweitern können.
Und es scheint, dass sich dieser Fall tatsächlich ereignet. Ingenieure vieler großer KI - Labore haben unzählige Stunden damit verbracht, jedes nützliche Textstück aus allen Ecken des Internets zu sammeln, sogar Millionen von Stunden von YouTube - Videos transkribiert und eine große Anzahl von Nachrichtenartikeln für das Training gekauft.
Glücklicherweise könnte es hier noch eine andere Datenquelle geben (verifizierbare Umgebungen!), aber dazu sprechen wir später.
Lernverfahren
Wir haben oben ein wichtiges Prinzip festgestellt: Der beste Weg zur Superintelligenz liegt in den Textdaten. Mit anderen Worten, AGI wird wahrscheinlich ein LLM sein oder es existiert überhaupt nicht. Andere vielversprechende Bereiche umfassen das Lernen aus Videos und Robotik, aber diese Bereiche scheinen noch weit davon entfernt zu sein, bis 2030 ein unabhängiges Intelligenzsystem zu produzieren. Sie benötigen auch eine große Menge an Daten; das Lernen aus Text ist natürlich sehr effizient.
Jetzt müssen wir uns der wichtigsten Frage stellen. Welches ist das Lernverfahren für die Superintelligenz?
Im Bereich des maschinellen Lernens gibt es zwei bewährte Grundmethoden, um aus großen Datensätzen zu lernen. Eine ist SL, das Training eines Modells, um die Wahrscheinlichkeit bestimmter Beispieldaten zu erhöhen. Die andere ist RL, bei dem Daten aus dem Modell generiert werden und es für "gute" Handlungen (definiert durch den Benutzer) belohnt wird.
Da wir diese Klassifizierung kennen, ist klar, dass jedes potenzielle Superintelligenzsystem durch SL oder RL (oder eine Kombination beider) trainiert werden muss.
Bild | Yann LeCun hat einmal gesagt, dass er das Geheimnis zur Intelligenz kennt. Tatsächlich ist Intelligenz wie ein Kuchen, und RL ist nur eine kleine Kirsche darauf.
Untersuchen wir diese beiden Ansätze separat.
1. Annahme 1: Die Superintelligenz kommt aus SL
Erinnern Sie sich an das Jahr 2023? Damals begannen die Menschen, sich über die Skalierungsgesetze zu begeistern; nach der Veröffentlichung von GPT - 4 befürchteten die Menschen, dass die Modelle gefährlich werden könnten, wenn sie weiter skaliert würden.
Bild | Um 2023 begannen viele Menschen zu befürchten, dass LLMs durch einfaches überwachtes Lernen schnell zu Superintelligenz evolvieren würden.
Für eine Zeit war es allgemein angenommen, dass eine große Menge an SL, insbesondere in Form der "Next - Token - Vorhersage", möglicherweise zur Entstehung einer Superintelligenz - KI führen könnte. Bemerkenswerterweise hielt Ilya Sutskeve in einem Vortrag fest, dass die Next - Token - Vorhersage im Wesentlichen darin besteht, das "Universum" (der Information) zu komprimieren, denn um dies gut zu machen, muss man alle möglichen Programme simulieren (oder so ähnlich).
Ich denke, dass sein Argument ungefähr so lautet:
Genaues Next - Token - Vorhersagen erfordert die Modellierung dessen, was jeder Mensch in jeder Situation schreiben würde.
Je genauer Sie ein Menschen modellieren, desto näher kommen Sie seiner Intelligenz.
Da das Internet viele von Menschen geschriebene Texte enthält, erfordert das Training auf einem großen Textdatensatz für das Vortraining die genaue Modellierung der Intelligenz vieler Menschen.
Genaues Modellieren der Intelligenz vieler Menschen ist Superintelligenz.
(1) Die "Stimmung" - These: Können wir Superintelligenz durch die Simulation von Menschen erreichen?
Ich persönlich denke, dass dieser Logik einige Mängel unterliegen. Zunächst haben wir scheinbar Systeme geschaffen, die in der Next - Token - Vorhersage weit übermenschliche Fähigkeiten aufweisen, aber dennoch keine allgemeine menschliche Intelligenz zeigen können. In gewisser Weise haben die von uns konstruierten Systeme gelernt, was wir sie lernen lassen wollten (Next - Token - Vorhersage), können aber immer noch nicht die Aufgaben erfüllen, die wir von ihnen erwarten (z. B. Fragen ohne Erfindungen zu beantworten, Anweisungen perfekt zu befolgen usw.).
Dies könnte einfach ein Misserfolg des maschinellen Lernens sein. Wir trainieren ständig ein Modell, um das menschliche Durchschnittsresultat in jeder Situation vorherzusagen. Dieses Lernziel ermutigt das Modell, keine zu niedrige Wahrscheinlichkeit für irgendein mögliches Ergebnis zu vergeben. Dieser Ansatz führt oft zu dem sogenannten "Mode Collapse", bei dem das Modell sehr gut darin ist, das Durchschnittsresultat vorherzusagen, aber die Schwänze der Verteilung nicht lernt.
Diese Probleme könnten nach der Skalierung verschwinden. Modelle mit Milliarden von Parametern wie Llama erzeugen Halluzinationen, aber haben nur 10^9 Parameter. Was passiert, wenn wir ein Modell mit 10^19 Parametern trainieren? Vielleicht reicht dies aus, um ein einzelnes LLM in der Lage zu machen, die 8 Milliarden Menschen auf der Welt unabhängig zu modellieren und für jeden einzelnen datengesteuerte Vorhersagen zu treffen.
(2) Die Infra - These: Wir können das Modell und die Daten nicht skalieren
Aber es stellt sich heraus, dass dies egal ist, denn wir werden wahrscheinlich niemals auf 10^19 Parameter skalieren können. Diese Annahme basiert im Wesentlichen auf der Deep - Learning - Schule um 2022 herum, die von dem großen Erfolg der Skalierungsgesetze für Sprachmodelle angetrieben wurde und glaubte, dass die kontinuierliche Skalierung von Modell und Datenmenge zur perfekten Intelligenz führen würde.
Jetzt ist es 2025. Dieses theoretische Argument wurde noch nicht in Frage gestellt, und die Skalierungsgesetze funktionieren immer noch. Aber es stellt sich heraus, dass es sehr schwierig wird, das Modell über einen bestimmten Schwellenwert hinaus zu skalieren (und schon 2022 waren wir sehr nahe an der Grenze, was wir effektiv verarbeiten konnten). Unternehmen haben weit über das hinausgegangen, was wir mit einer einzigen Maschine tun können - alle neuesten Modelle werden auf riesigen Netzwerken aus Hunderten von Maschinen trainiert.
Das weitere Skalieren des Modells auf Billionen von Parametern führt zu einem Mangel an Hardware und Strom. Größere Modelle werden so viel Strom verbrauchen, dass sie nicht an einem einzigen Ort zentral platziert werden können; Unternehmen forschen daran, wie man das Modelltraining auf mehrere entfernte Rechenzentren verteilen kann und kaufen sogar verlassene Kernkraftwerke, um sie zu reparieren und für das Training der nächstgrößeren KI - Modelle zu nutzen. Wir leben in einer verrückten Zeit.
Außer der Modellgröße haben wir möglicherweise auch ein Problem mit zu wenig Daten. Niemand weiß, wie viel Internetdaten jedes Modell während des Trainings verwendet, aber man kann sicher sein, dass es eine ziemlich große Menge ist. In den letzten Jahren haben große KI - Labore enorme engineering - Anstrengungen unternommen, um den letzten Wert aus den Internet - Textdaten herauszuholen: Beispielsweise scheint OpenAI das gesamte YouTube transkribiert zu haben, und hochwertige Informationsseiten wie Reddit werden wiederholt abgesucht.
Das Skalieren des Mod