StartseiteArtikel

Hat die KI ihr Limit erreicht? Der Chefwissenschaftler von OpenAI leugnet dies. Die Branche wandelt sich von der reinen Rechenleistung hin zum Streben nach Intelligenzdichte.

硅基观察Pro2025-12-01 08:12
Die KI hat nicht langsamer gemacht, du hast einfach nicht verstanden.

Hat die künstliche Intelligenz ihr Limit erreicht? Die These von der verlangsamten Entwicklung der KI ist im vergangenen Jahr immer wieder aufgetaucht.

Lukasz Kaiser – Mitautor der Transformer - Studie, leitender Forschungswissenschaftler bei OpenAI und einer der Kernbegründer von Inferenzmodellen – hat kürzlich im Podcast "Mad" eine völlig entgegengesetzte Meinung geäußert.

Er sagte, dass die Entwicklung der KI nicht verlangsamt, sondern weiterhin entlang einer stabilen und kontinuierlichen exponentiellen Kurve beschleunigt. Die von außen wahrgenommene "Stagnation" beruht eigentlich auf einer Veränderung der Art von Durchbrüchen. Die Branche wandelt sich von der bloßen Entwicklung von "Großmodellen" hin zu der Konstruktion von intelligenteren und denkfähigeren Modellen.

Nach seiner Ansicht ist das Pre - Training immer noch von entscheidender Bedeutung, aber es ist nicht mehr der einzige Motor. Die Entstehung von Inferenzmodellen ist wie das Hinzufügen eines "zweiten Gehirns" zu Basismodellen, sodass sie lernen, Ableitungen zu ziehen, Ergebnisse zu verifizieren und sich selbst zu korrigieren, anstatt nur das nächste Wort zu vorhersagen. Dies bedeutet, dass bei gleichen Kosten die Fähigkeiten der Modelle stärker verbessert werden und die Zuverlässigkeit der Antworten höher ist.

Aber die "Intelligenzkarte" der KI ist immer noch äußerst ungleichmäßig. Lukasz gestand, dass das stärkste Modell Olympiadeaufgaben lösen kann, aber möglicherweise nicht in einem Kinderpuzzle die Gegenstände zählen kann; es kann Code schreiben, der über den Leistungen von professionellen Programmierern liegt, aber immer noch die räumlichen Beziehungen auf einem Foto fehlurteilen kann.

Gleichzeitig bringt das neue Paradigma auch neue Geschäftsmöglichkeiten mit sich. Bei Hunderten von Millionen von Benutzern hat die Kosteneffizienz die Rechenleistungsschichtung übertroffen. Das Modell - Distilling ist von einer "Option" zu einer "Notwendigkeit" geworden. Ob kleine Modelle die Weisheit von Großmodellen reproduzieren können, entscheidet darüber, ob die KI wirklich verbreitet werden kann.

In diesem Interview hat Lukasz nicht nur die These von der verlangsamten Entwicklung der KI widerlegt, sondern auch eine zukünftige Welt beschrieben, die feiner, intelligenter und auf mehreren Ebenen voranschreitet: Die Basismodelle werden weiter erweitert, die Inferenzschicht entwickelt sich kontinuierlich, die Multimodalität wartet auf Durchbrüche, und der Effizienzkampf auf der Produktseite hat gerade erst begonnen.

Nachfolgend ist der vollständige Text des Interviews. Viel Spaß!

/ 01 / Die KI entwickelt sich nicht langsamer, du verstehst es nur nicht

Moderator: Seit Anfang dieses Jahres gibt es immer wieder die Meinung, dass die Entwicklung der KI verlangsamt, das Pre - Training seine Grenzen erreicht hat und die Skalierungsregeln scheinbar an ihrem Ende angelangt sind.

Aber gerade als wir diese Sendung aufnahmen, gab es in der Branche eine Reihe von wichtigen Veröffentlichungen. Modelle wie GPT - 5.1, Codex Max, GPT - 5.1 Pro, Gemini Nano Pro und Grok - 4.1 sind fast gleichzeitig aufgetaucht, was die These von der "Stagnation der KI" zu widerlegen scheint. Welche Fortschrittssignale haben Sie als Experten in den führenden KI - Labors gesehen, die von außen nicht erfasst werden können?

Lukasz: Der Fortschritt der KI - Technologie hat sich immer sehr gleichmäßig in Form einer exponentiellen Fähigkeitssteigerung entwickelt, und das ist der allgemeine Trend. Neue Technologien tauchen ständig auf, und der Fortschritt kommt von neuen Entdeckungen, verbesserter Rechenleistung und besseren technischen Umsetzungen.

Bei Sprachmodellen waren die Entstehung des Transformers und die Inferenzmodelle zwei Wendepunkte, und ihre Entwicklung folgt einer S - Kurve. Das Pre - Training befindet sich im oberen Teil der S - Kurve, aber die Skalierungsregeln sind nicht ungültig geworden. Der Verlust nimmt logarithmisch linear mit der Rechenleistung ab, was von Google und anderen Labors bestätigt wurde. Die Frage ist, wie viel Geld man investieren muss und ob es im Verhältnis zu den Erträgen lohnt.

Das neue Inferenzparadigma befindet sich im unteren Teil der S - Kurve. Bei gleichen Kosten kann man mehr Nutzen erzielen, da es noch viele Entdeckungen zu machen gibt.

Seit ChatGPT 3.5 hat sich der Kern der Veränderung darin geäußert, dass Modelle nicht mehr nur auf die gespeicherten Gewichte verlassen, um Antworten auszugeben, sondern auch das Internet durchsuchen, analysieren und dann die richtigen Antworten geben können.

Zum Beispiel würde die alte Version auf Fragen wie "Wann öffnet der Zoo morgen?" aus ihrem Gedächtnis etwas erfinden. Sie könnte die Öffnungszeiten lesen, die vor fünf Jahren auf der Zoo - Website standen, und veraltete Informationen liefern. Die neue Version kann jedoch die Zoo - Website in Echtzeit besuchen und die Informationen kreuzverifizieren.

ChatGPT oder Gemini haben selbst viele Fähigkeiten, die noch nicht vollständig erkannt wurden. Sie können ein beschädigtes Ding fotografieren und fragen, wie man es repariert, und es wird Ihnen sagen, was Sie tun müssen; Sie können ihm Hausaufgaben auf Hochschulniveau geben, und es wird sie auch erledigen.

Moderator: Ich stimme tatsächlich dieser Meinung zu. Es gibt derzeit viele offensichtliche Verbesserungsmöglichkeiten, wie "niedrig hängende Früchte", die leicht zu sehen und zu lösen sind. Beispielsweise macht das Modell manchmal logische Widersprüche oder macht Fehler beim Aufrufen von Tools, und es kann auch lange Gespräche nicht richtig behalten. Dies sind Probleme, die die Branche bereits erkannt hat und an denen sie arbeitet, um sie zu lösen.

Lukasz: Ja, es gibt viele offensichtliche Verbesserungsmöglichkeiten. Die meisten sind technische Probleme: die Infrastruktur der Labors und die Optimierung des Codes. Python - Code funktioniert normalerweise, aber eine geringe Effizienz kann die Qualität der Ergebnisse beeinträchtigen; Bei den Trainingsmethoden ist das Reinforcement Learning (RL) schwieriger und schwieriger zu beherrschen als das Pre - Training; Darüber hinaus ist die Qualität der Daten auch ein Engpass.

In der Vergangenheit haben wir Internet - Datensätze wie Common Crawl verwendet, und es war erforderlich, eine Menge Arbeit zu investieren, um die Rohdaten zu bereinigen und zu verfeinern. Heute haben große Unternehmen spezielle Teams, um die Datenqualität zu verbessern, aber es ist immer noch sehr zeitaufwändig und schwierig, wirklich hochwertige Daten zu extrahieren. Synthetische Daten werden immer beliebter, aber wie man sie generiert, welches Modell man wählt und wie die konkrete technische Umsetzung aussieht, ist bei jedem Schritt von entscheidender Bedeutung.

Andererseits stehen auch die Entwicklung der Multimodalität vor Herausforderungen. Derzeit sind die Modelle bei der Verarbeitung von Bildern und Ton noch weit hinter der Verarbeitung von Text zurück. Obwohl die Verbesserungsrichtung klar ist, kann es möglicherweise erforderlich sein, von Grund auf neue Basismodelle zu trainieren, was Monate Zeit und enorme Ressourcen erfordert.

Ich frage mich immer, wie stark die Modelle durch diese Fortschritte werden. Vielleicht ist dies eine unterschätzte Frage.

/ 02 / Die KI lernt, "sich selbst zu zweifeln", und GPT beginnt, seine eigenen Fehler im Voraus zu korrigieren

Moderator: Ich möchte nochmal über Inferenzmodelle sprechen, denn sie sind wirklich neu. Viele Leute verstehen noch nicht ganz, was der Unterschied zwischen ihnen und Basismodellen ist. Können Sie es in den einfachsten Worten erklären, worin der Unterschied liegt?

Lukasz: Bevor ein Inferenzmodell die endgültige Antwort gibt, überlegt es sich zuerst, bildet eine "Denkkette" und kann auch externe Tools wie Suchmaschinen nutzen, um seine Gedanken zu ordnen. So kann es während des Denkprozesses aktiv Informationen suchen und Ihnen zuverlässigere Antworten geben. Dies ist die offensichtliche Fähigkeit.

Das Bessere daran ist, dass das Modell hauptsächlich lernt, "wie man denkt". Das Ziel ist es, den besten Inferenzpfad zu finden. Frühere Modelle wurden hauptsächlich darauf trainiert, das nächste Wort zu vorhersagen, aber diese Methode funktioniert bei der "Inferenz" nicht gut, da die Inferenzschritte nicht direkt zur Berechnung des Gradienten verwendet werden können.

Deshalb trainieren wir es jetzt mit Reinforcement Learning. Es ist wie das Setzen eines Belohnungsziels, sodass das Modell selbst wiederholt versucht, herauszufinden, welche Denkweisen zu besseren Ergebnissen führen. Diese Trainingsmethode ist viel schwieriger als die frühere.

Das traditionelle Training ist nicht so anspruchsvoll in Bezug auf die Datenqualität und funktioniert im Großen und Ganzen. Aber beim Reinforcement Learning muss man besonders vorsichtig sein und die Parameter sorgfältig einstellen und die Daten vorbereiten. Derzeit ist eine grundlegende Methode die Verwendung von Daten, bei denen man eindeutig sagen kann, ob sie richtig oder falsch sind, wie bei der Lösung von Mathematikaufgaben oder beim Schreiben von Code. Deshalb ist es in diesen Bereichen besonders beeindruckend. In anderen Bereichen gibt es auch Fortschritte, aber sie sind nicht so beeindruckend.

Wie kann man in der Multimodalität inferieren? Ich denke, dass dies erst im Anfangsstadium ist. Gemini kann während des Inferenzprozesses Bilder generieren, was sehr aufregend ist, aber es ist noch sehr primitiv.

Moderator: Es gibt derzeit die allgemeine Ansicht, dass Pre - Training und Post - Training getrennt sind und dass Post - Training fast gleichbedeutend mit Reinforcement Learning ist. Tatsächlich ist Reinforcement Learning bereits im Pre - Training - Stadium beteiligt, aber wir haben dies in der Vergangenheit nicht erkannt.

Lukasz: Vor der Entstehung von ChatGPT gab es bereits Pre - Training - Modelle, aber es war nicht möglich, echte Gespräche zu führen. Der entscheidende Durchbruch von ChatGPT war die Anwendung von RLHF auf Pre - Training - Modelle. RLHF ist ein auf menschlichen Präferenzen basierendes Reinforcement Learning, bei dem das Modell verschiedene Antworten vergleicht und lernt, welche Optionen von Menschen bevorzugt werden.

Wenn man jedoch RLHF zu stark trainiert, kann das Modell übermäßig "befolgsam" werden, was dazu führt, dass sein Kern sehr anfällig erscheint. Trotzdem ist es der Kern für die Fähigkeit, Gespräche zu führen.

Der aktuelle Trend geht hin zu einem größeren Maßstab von Reinforcement Learning. Obwohl die Datenmenge immer noch geringer als beim Pre - Training ist, kann man Modelle aufbauen, die die Richtigkeit oder Präferenzen beurteilen können. Diese Methode eignet sich derzeit für Bereiche, die klar bewertet werden können, und kann in Kombination mit menschlichen Präferenzen für ein stabileres langfristiges Training eingesetzt werden, um zu vermeiden, dass das Bewertungssystem versagt.

In Zukunft kann Reinforcement Learning auf allgemeinere Daten und breitere Bereiche erweitert werden. Die Frage ist: Braucht man wirklich viel Denken, um bestimmte Dinge zu tun? Vielleicht schon, oder vielleicht brauchen wir noch mehr Denken und Inferenz als jetzt.

Moderator: Ist die Schlüssel zur Verbesserung der Generalisierungsfähigkeit von Reinforcement Learning eine bessere Bewertungsweise? Beispielsweise Ihre frühere Querevaluierung in verschiedenen Wirtschaftsgebieten, um seine Leistung in verschiedenen Szenarien zu testen. Ist eine solche systematische Messung wirklich notwendig?

Lukasz: Menschen denken normalerweise vor dem Schreiben nach, obwohl es nicht so streng wie bei der Lösung von Mathematikaufgaben ist, aber es gibt immer einen groben Gedankengang. Derzeit können die Modelle diesen Prozess nicht vollständig nachahmen, aber sie beginnen es zu versuchen. Die Inferenzfähigkeit kann übertragen werden. Wenn ein Modell lernt, das Internet zu durchsuchen, um Informationen zu erhalten, kann diese Strategie auch auf andere Aufgaben angewendet werden. Aber bei der visuellen Denkfähigkeit sind die Modelle noch weit davon entfernt, ausreichend trainiert zu sein.

Moderator: Wie funktioniert die Denkkette genau? Wie entscheidet das Modell, welche Denkschritte zu generieren sind? Sind die Zwischeninferenzen, die wir auf dem Bildschirm sehen, der echte und vollständige Denkprozess des Modells? Oder versteckt sich dahinter ein noch komplexerer und längerer Inferenzpfad?

Lukasz: Die Zusammenfassung der Denkkette, die Sie in ChatGPT sehen, ist eigentlich die Verfeinerung des vollständigen Denkprozesses durch ein anderes Modell. Die ursprüngliche Denkkette ist normalerweise recht langatmig. Wenn man das Modell einfach nach dem Pre - Training dazu bringt, schrittweise zu denken, kann es tatsächlich einige Inferenzschritte generieren, aber das ist nicht alles.

Wir können es so trainieren: Zuerst lässt man das Modell verschiedene Denkweisen ausprobieren. Einige führen zu richtigen Ergebnissen, andere zu Fehlern. Dann wählen wir die Denkpfade aus, die zu richtigen Antworten führen, und sagen dem Modell: "Das ist die Denkweise, die du lernen sollst." Dies ist die Rolle des Reinforcement Learnings.

Dieses Training verändert wirklich das Denkverhalten des Modells, und dies ist in den Bereichen Mathematik und Programmierung bereits sichtbar. Die größere Hoffnung ist, dass es sich auf andere Bereiche ausdehnen kann. Selbst bei der Lösung von Mathematikaufgaben beginnt das Modell, seine eigenen Fehler im Voraus zu korrigieren. Diese Fähigkeit zur Selbstverifizierung entsteht natürlich aus dem Reinforcement Learning. Im Wesentlichen lernt das Modell, seine eigenen Ausgaben in Frage zu stellen und zu überdenken, wenn es denkt, dass es möglicherweise falsch liegt.

/ 03 / Pre - Training ist immer noch ein Stromfresser, und RL und Videomodelle konkurrieren wild um GPU - Ressourcen

Moderator: Sprechen Sie über den Wechsel von Google zu OpenAI und die Unterschiede zwischen den beiden Kulturen.

Lukasz: Ilya Sutskever war früher mein Vorgesetzter bei Google Brain. Später hat er OpenAI gegründet. Er hat mich in den letzten Jahren mehrmals gefragt, ob ich dazustoßen möchte. Dann wurde der Transformer veröffentlicht, und dann kam die Pandemie. Google war komplett geschlossen und hat sich sehr langsam wiedereröffnet.

Google Brain als kleine Gruppe in einem großen Unternehmen hat eine sehr andere Arbeitsatmosphäre als ein Startup.

Ilya hat mir gesagt, dass OpenAI zwar noch in der frühen Phase ist, aber an Sprachmodellen arbeitet, was möglicherweise gut zu meiner Arbeitsrichtung passt. Ich dachte: "Okay, dann probieren wir es mal aus." Vorher habe ich außer bei Google und an der Universität in keinem anderen Unternehmen gearbeitet. Also war es wirklich eine große Veränderung, in ein kleines Startup zu gehen.

Insgesamt denke ich, dass die Ähnlichkeiten zwischen verschiedenen Tech - Labors größer sind, als die Leute denken. Natürlich gibt es Unterschiede, aber wenn man von der Perspektive einer französischen Universität betrachtet, ist der Unterschied zwischen einer Universität und einem Tech - Labor viel größer als der Unterschied zwischen den Labors selbst. Ob es sich um ein großes Unternehmen oder ein Startup handelt, alle müssen "ergebnisse liefern".

Moderator: Wie ist das interne Forschungsunternehmen bei OpenAI organisiert?

Lukasz: Die meisten Labors arbeiten an ähnlichen Aufgaben, wie der Verbesserung von Multimodalmodelle, der Steigerung der Inferenzfähigkeit, der Optimierung des Pre - Trainings oder der Infrastruktur. Normalerweise gibt es spezielle Teams für diese Richtungen. Die Mitarbeiter können sich bewegen, und es werden auch neue Projekte gestartet, wie Diffusionsmodelle. Einige Forschungsprojekte werden größer, wie Videomodelle, die mehr Mitarbeiter erfordern.

Die Zuweisung von GPUs basiert hauptsächlich auf technischen Anforderungen. Derzeit verbraucht das Pre - Training die meisten GPUs, also werden die Ressourcen vorrangig hierfür zu