Der Autor von Transformer enthüllt Geheimnisse über GPT-5.1. Die interne Benennungsregel von OpenAI ist in Unordnung geraten.
Wir erleben derzeit eine stille, aber grundlegende Umstellung des KI - Paradigmas.
Ihre Bedeutung ist nicht geringer als die des Transformers selbst.
In den letzten 12 Monaten hat sich eine Spaltung in zwei Meinungen über die Entwicklung der KI ergeben:
- Eine Seite vertritt die Ansicht, dass das Wachstum der KI verlangsamt, die Modelle ihre Grenzen erreicht haben und das Pre - Training wirkungslos sei.
- Die andere Seite erlebt in regelmäßigen Abständen "große KI - Wochen": GPT - 5.1, Gemini 3, Grok 4.1.
Der Co - Autor des Transformers und derzeitige Forschungsingenieur bei OpenAI, Łukasz Kaiser, hat kürzlich in einem Interview seine erste - Person - Perspektive dargelegt.
Das Interview ist reich an Informationen, einschließlich der grundlegenden Paradigmenwechsel in der KI, der Benennungsregeln von GPT - 5.1, den zukünftigen Trends in der KI - Entwicklung... sowie ein paar Hintergründe zur Entstehung des Transformers.
Die KI hat nicht verlangsamt, sondern ein neues Zeitalter begonnen.
GPT - 5.1 ist keine einfache kleine Version - Iteration. Die interne Benennungsregelung von OpenAI hat sich geändert.
Multimodale Inferenz wird der nächste Durchbruch sein.
Die KI wird nicht dazu führen, dass Menschen vollständig arbeitslos werden.
Der Haushaltsroboter wird nach ChatGPT die nächste sichtbarste KI - Revolution sein.
Schauen wir uns nun die Details an:
Die Entwicklung der KI verlangsamt nicht, sondern wächst stetig
In den letzten 12 Monaten gab es viele Stimmen, die behaupteten, dass der Fortschritt der Modelle verlangsamt sei. Aber Łukasz hält diese Ansicht für falsch.
Seine Erklärung ist sehr direkt:
Aus der internen Perspektive ist das Wachstum der Fähigkeiten der KI eine sehr glatte Exponentialkurve.
Dies ähnelt dem Mooreschen Gesetz. Das Mooresche Gesetz hat seit Jahrzehnten Gültigkeit und wird sogar durch die GPU beschleunigt. Letztendlich liegt das daran, dass es mehrere Generationen von Technologie - Iterationen durchlaufen hat.
Deshalb scheint die KI von außen betrachtet eine stetige Tendenz zu haben. Innerhalb der KI ist der Fortschritt jedoch auch auf die gemeinsame Wirkung neuer Technologien, der Verbesserung der Computerleistung und der Optimierung der Engineering - Prozesse zurückzuführen.
Warum einige Menschen das Gefühl haben, dass die KI "verlangsamt" hat, liegt einfach daran: Das grundlegende Paradigma der KI hat sich still von Pre - Training auf Inferenzmodelle verlagert.
Dies ist der nächste entscheidende Wendepunkt nach der Entstehung des Transformers.
Wenn man den Prozess der technologischen Entwicklung als eine S - Kurve beschreibt (Anfang → schnelles Wachstum → Stagnationsphase), dann befindet sich das Pre - Training in der späten Phase des Anstiegs der S - Kurve, während die Inferenzmodelle noch in der Anfangsphase sind.
Das bedeutet jedoch nicht, dass die Scaling Laws des Pre - Trainings ungültig sind. Sie sind immer noch wirksam, aber im Vergleich zum neuen Inferenz - Paradigma erfordern sie mehr finanzielle Mittel.
Aus wirtschaftlichen Überlegungen heraus beginnen die Branchenmitglieder zunehmend, sich auf kleinere und billigere Modelle mit gleicher Qualität zu konzentrieren. Dies ist einer der Gründe, warum die Außenwelt denkt, dass das Pre - Training aufgehört hat.
Was die Inferenzmodelle betrifft, da dieses Paradigma noch in der Neuphase ist, wird der Fortschritt sehr schnell sein.
Nehmen wir ChatGPT als Beispiel. GPT - 3.5 gibt direkt basierend auf den Trainingsdaten eine Antwort, ohne irgendein externes Werkzeug oder Inferenz zu nutzen. Im Gegensatz dazu durchsucht das neueste ChatGPT aktiv Websites, führt eine Inferenzanalyse durch und gibt dann eine genaue Antwort.
Für normale Benutzer mag es auf den ersten Blick so aussehen, als gäbe es zwischen den beiden Versionen keinen großen Unterschied. Tatsächlich liegt jedoch dahinter ein qualitativer Sprung in der Leistung.
Nehmen wir beispielsweise Codex. Die Arbeitsweise der Programmierer hat sich in den letzten Monaten in ein Modell von "Codex zuerst bearbeitet, dann manuelle Feinabstimmung" gewandelt. Diese Veränderung ist ziemlich grundlegend, aber wenn man nicht beruflich in der Programmierung tätig ist, wird man diese fundamentale Veränderung kaum bemerken.
Insgesamt geschieht all diese Veränderungen so schnell, dass die Menschen die Veränderungen noch nicht bemerkt haben.
Die Essenz der Inferenzmodelle ist ähnlich der der großen Basis - Modelle. Allerdings wird vor der endgültigen Antwort zuerst nachgedacht, d. h. die sogenannte Denkkette.
Während des Denkprozesses ist das Modell berechtigt, Werkzeuge wie das Durchsuchen von Websites zu nutzen, um genauere Antworten zu geben. Der Inferenzprozess wird auch als Teil des Modells betrachtet und trainiert.
Im Vergleich zur traditionellen Gradientenabstiegs - Training von tiefen neuronalen Netzen wird bei den Inferenzmodellen eher Reinforcement Learning eingesetzt.
Genauer gesagt wird durch das Reinforcement Learning das Modell durch ein Belohnungssystem dazu gebracht, bessere Antworten zu finden. Die Forscher müssen auch detailliertere Datenvorbereitungen leisten, um die Parameter des Reinforcement Learning einzustellen.
Durch das Reinforcement Learning kann das Modell lernen, seine eigenen Fehler zu korrigieren.
Später wird die Branche sich weiter auf komplexeres Reinforcement Learning konzentrieren, z. B. indem ein großes Modell verwendet wird, um die Richtigkeit oder Präferenz der Antworten zu beurteilen, oder indem mehr menschliche Präferenzen integriert werden.
Zusammenfassend wird das Anwendungsgebiet des Reinforcement Learning in Zukunft breiter werden. Es ist nicht nur auf bestimmte Bereiche beschränkt, sondern kann auch mehr allgemeine Daten verarbeiten. Beispielsweise kann Gemini jetzt Bilder während des Inferenzprozesses generieren, aber insgesamt ist es noch in der Anfangsphase. Man kann davon ausgehen, dass es mit der Hilfe des Reinforcement Learning weiter verbessert wird.
GPT - 5.1 ist keine einfache kleine Version - Aktualisierung
Łukasz hat auch mehr Details über die kürzlich veröffentlichte GPT - 5.1 preisgegeben.
GPT - 5.1 scheint nur eine kleine Version - Aktualisierung zu sein, aber intern ist es eine enorme Stabilitäts - Iteration.
Zuerst betrachten wir die Entwicklung von GPT - 4 zu GPT - 5. Kurz gesagt hat GPT - 5 dank der Anwendung des Reinforcement Learning und synthetischer Daten eine deutlich verbesserte Inferenzfähigkeit.
Die Verbesserungen von GPT - 5 auf GPT - 5.1 konzentrieren sich eher auf die Nach - Training - Phase, wie die Verbesserung der Sicherheit, die Reduzierung von Halluzinationen und die Hinzufügung verschiedener Stile wie Nerd und professionell.
Die Benennungsweise der Versionen hängt nicht mehr mit den technischen Details zusammen, sondern ist nutzererfahrungsorientiert. Beispielsweise ist GPT - 5 ein Modell mit stärkeren Grundfähigkeiten, GPT - 5.1 ist eine Version mit besseren Fähigkeiten, Mini ist ein kleineres, schnelleres und billigeres, aber etwas schwächeres Modell, und das Inferenzmodell konzentriert sich auf komplexe Aufgaben.
Diese Änderung der Benennungsweise bringt auch mehr Flexibilität für OpenAI. Jetzt laufen mehrere Projekte wie Reinforcement Learning, Pre - Training und Slide - Optimierung parallel. Durch die Destillationstechnologie können die Ergebnisse dieser Projekte in ein Modell integriert werden.
Dies verkürzt erheblich die Iterationszeit der Modelle und kann die Bedürfnisse der Nutzererfahrung besser erfüllen. Deshalb scheint GPT - 5.1 nur eine kleine Version - Aktualisierung zu sein, aber hinter der Kulisse ist es eine strategische Anpassung von OpenAI basierend auf den Erwartungen der Nutzer an die Fähigkeiten und Ziele.
Ehrlich gesagt hat GPT - 5.1 immer noch Schwächen in einigen Fähigkeiten.
Łukasz hat beispielsweise ein Beispiel mit seiner 5 - jährigen Tochter gegeben -
GPT - 5.1 kann Olympiadeaufgaben problemlos lösen, aber bei Aufgaben zur Bestimmung von geraden und ungeraden Zahlen für Erstklässler macht es viele Fehler.
Die Aufgabe ist, dass es in einem Bild zwei Gruppen von Punkten gibt, mit einem gemeinsamen Punkt in der Mitte. Die Frage ist, ob die Gesamtzahl der Punkte gerade oder ungerade ist.
Ein 5 - jähriges Kind kann die Antwort in 10 Sekunden berechnen (weil die Existenz des gemeinsamen Punktes die Gesamtzahl der Punkte ungerade macht). Aber sowohl GPT - 5.1 als auch Gemini 3 ignorieren automatisch diesen gemeinsamen Punkt und beurteilen es fälschlicherweise als gerade.
Das liegt hauptsächlich daran, dass das Modell nicht genügend multimodale Fähigkeiten hat und die Inferenzerfahrung aus einem Problem nicht auf ähnliche Szenarien übertragen kann. Deshalb werden sie in der Zukunft die multimodale Inferenz und die Fähigkeit zur Übertragung von Inferenz im Kontext stärker trainieren.
Vom Google Transformer zu OpenAI
Als Co - Autor des Transformers hat Łukasz auch viele Details zur Entstehung des Transformers in einem Interview ergänzt.
Łukasz war ursprünglich ein Wissenschaftler, der sich auf die theoretische Informatik konzentrierte. Schon in der High School war er interessiert an Mathematik und Informatik und hat in Deutschland einen Doktorgrad in theoretischer Informatik und Mathematik erworben.
Er war immer neugierig auf Fragen wie "Wie funktioniert das Denken?" und "Was ist die Essenz der Intelligenz?". Er hat auch in Frankreich eine Lebenszeitstelle erhalten und an der Forschung in Logik und Programmierung gearbeitet.
Bis die Deep Learning - Revolution begann, trat er Google bei.
Zuerst wurde er Mitglied des Teams von Ray Kurzweil und wechselte dann zu Google Brain, wo er mit Ilya Sutskever und anderen zusammenarbeitete.
Bei der Entwicklung des Transformers war Łukasz hauptsächlich für die Codierung und das System verantwortlich und beteiligte sich an der Entwicklung des TensorFlow - Frameworks.
Interessanterweise erinnert er sich, dass die acht Mitautoren des Transformer - Papers niemals in demselben physischen Raum zusammen waren.
Obwohl sie sich nie persönlich getroffen haben, haben sie das Modell aus verschiedenen Perspektiven gemeinsam aufgebaut: Einige konzentrieren sich