StartseiteArtikel

"Grundsatzdenken bei Large Language Modellen" - Transkript eines Gesprächs zwischen Li Jianzhong, GPT-5 und Lukasz Kaiser, Erfinder von Transformer

CSDN2025-10-13 18:43
Li Jianzhong spricht mit Lukasz Kaiser über große Modelle, Inferenzparadigmen und die Zukunft der KI.

Diskussionsgäste | Li Jianzhong, Lukasz Kaiser

Die Entwicklung von großen KI - Systemen ist so rasant, dass es fast unmöglich ist, mitzuhalten. Neue Architekturen und Modelle tauchen ständig auf, und jede Iteration hat das Potenzial, die Branche grundlegend zu verändern. Das kürzlich von OpenAI veröffentlichte Sora 2 ist das neueste Beispiel für diese schnelle Entwicklung – es zeigt nicht nur die Verbesserung der Modellfähigkeiten, sondern spiegelt auch die Schnelligkeit und Komplexität der Iteration von KI - Systemen wider.

Im Laufe dieser technologischen Welle hat CSDN die tiefe Diskussionsreihe "AI - Evolution" ins Leben gerufen, die darauf abzielt, die Essenz und die Entwicklung von Spitzentechnologien zu analysieren und die Branchendenken und -praxis der Öffentlichkeit zugänglich zu machen. Kürzlich führte Li Jianzhong, Direktor des Singularity Intelligence Research Institute und stellvertretender Generaldirektor von CSDN, eine tiefe Diskussion mit Lukasz Kaiser, einem erfahrenen Forschungsingenieur bei OpenAI über "die erste Prinzipien des großen Modells" in dieser Reihe durch.

Lukasz Kaiser ist einer der einflussreichsten Wissenschaftler im Bereich KI. Im Jahr 2017 schrieb er gemeinsam mit sieben anderen Google - Kollegen (später als die "Transformer - Acht" bekannt) den bahnbrechenden Artikel "Attention Is All You Need", in dem er die Transformer - Architektur erstmals vorgestellt hat, die heute die Grundlage für große Sprachmodelle bildet. Später wechselte er zu OpenAI, wo er die Forschungsprojekte zu GPT - 5, GPT - 4 sowie den Inferenzmodellen mit den Codenamen "o1" und "o3" leitete. Als KI - Forscher, der die Welt verändert hat, hat seine Arbeit direkt die Technologie der großen Sprachmodelle, wie wir sie heute kennen, geprägt. Deshalb hat er ein tiefes Verständnis von der technologischen Architektur von großen Modellen, den Grenzen des Skalierungsgesetzes und den neuen Paradigmen auf dem Weg zur Künstlichen Allgemeinintelligenz (AGI), insbesondere der Inferenzmodelle.

Angesichts eines solchen Technologieführers stellte Li Jianzhong mit tiefem Einblick und Überlegung in die Modellarchitektur, Agenten, das Skalierungsgesetz und zukünftige Paradigmen scharfe und durchdringende Fragen. Der Austausch zwischen den beiden war nicht nur eine Analyse technischer Details, sondern auch eine mutige Vorhersage der zukünftigen Entwicklung.

Hier sind die zehn wichtigsten Themen dieser Diskussion:

  1. Diskussion 1: Was bedeutet Sprache für Intelligenz?
  2. Diskussion 2: Die Herausforderungen von Multimodalität und Weltmodellen
  3. Diskussion 3: KI - Programmierung: Ist natürliche Sprache das ultimative Ziel oder ein neues "Babel - Turm"?
  4. Diskussion 4: Das Generalisierungsproblem von Agenten: Ist es ein methodisches Problem oder eine grundlegende Einschränkung?
  5. Diskussion 5: Rechenleistung und Algorithmen: Ist das Skalierungsgesetz ein Glaube oder eine Pfadabhängigkeit?
  6. Diskussion 6: Die Herausforderungen der eingebetteten Intelligenz: Ist es ein Datenproblem oder liegt es an den grundlegenden Unterschieden zwischen Bits und Atomen?
  7. Diskussion 7: Reinforcement Learning: Ist es ein Super - Optimierer oder ein Motor für wissenschaftliche Entdeckungen?
  8. Diskussion 8: Der organisatorische Sprung der KI: Wie kann man die Zusammenarbeit von großen Mengen von Agenten realisieren?
  9. Diskussion 9: Die Engpässe der KI - Gedächtnis: Wie weit ist das Modell von einem echten "eingebauten Gedächtnis" entfernt?
  10. Diskussion 10: Wie können große Modelle das Momentanlernen überwinden und wie Menschen kontinuierlich lernen?

Zu diesem kritischen Zeitpunkt in der Entwicklung der KI glauben wir, dass die tiefe Auseinandersetzung mit Spitzenthemen in dieser Diskussion wichtige Referenzen und Anregungen für unser Verständnis der nächsten Entwicklungsphase der KI liefern wird.

Diskussion 1 | Was bedeutet Sprache für Intelligenz?

Li Jianzhong: Ich möchte zunächst über die Rolle von Sprache und Vision in der KI sprechen. In der Branche gibt es Ansichten, vertreten beispielsweise von Yann LeCun, die meinen, dass der Weg zur AGI über Sprachmodelle eine Sackgasse ist. Der Grund dafür ist, dass Sprache eine niederbandige und verlustbehaftete Beschreibung der physischen Welt ist. KI muss aus hochbandigen Daten wie Bildern lernen. Wenn wir jedoch die Entwicklung der KI betrachten, hatten Neuronale Netze in der Vision schon vor der Entstehung von großen Sprachmodellen viele Anwendungen, aber die Intelligenz der KI war damals noch sehr gering. Erst mit der Entstehung von großen Sprachmodellen wie ChatGPT hat die Intelligenz der KI richtig losgeschlagen. Wie bewerten Sie die Rolle von Sprache und Vision beim Aufbau von Intelligenz?

Lukasz Kaiser: Ich denke, es ist sehr nützlich, Sprache aus der zeitlichen Perspektive zu verstehen. Es gibt eine bekannte Geschichte, deren Wahrheit ich nie überprüft habe: Es gibt ein Meerestiermchen (Tunicaten), das ein Gehirn hat. Wenn es sich an einem Felsen festsetzt und nicht mehr bewegt, frisst es zuerst sein Gehirn, weil das Gehirn für ein unbewegliches Lebewesen nutzlos ist. Diese Geschichte zeigt, dass Intelligenz ohne Handlungen nicht viel bringt.

Die meisten Vision - Modelle, über die wir in der Vergangenheit gesprochen haben, waren statisch, z. B. für die Frage "Ist in diesem Bild eine Katze?" Es gab damals keine echten Videomodelle. Ich glaube daher, dass die Existenz in der Zeitdimension – was Handlungen bedeuten kann, auch wenn es nur die Interpretation von zeitlichen Veränderungen ist – für Intelligenz von entscheidender Bedeutung ist. Sprache hat offensichtlich eine Zeitdimension, da sie ständig das nächste Wort, dann das übernächste Wort erzeugt und so weiter.

Die Modelle, die wir heute Sprachmodelle nennen, wurden bei der Entwicklung des Transformers als Sequenzmodelle bezeichnet. Es spielt keine Rolle, welche Sequenzen verarbeitet werden. Selbst heute können sie "Proteinsequenzen" oder "Audiosequenzen" verarbeiten. Die Zeitsequenz ist also ein wichtiger Bestandteil der Ausdrucksweise von Intelligenz.

Li Jianzhong: Ich persönlich bin der Meinung, dass Sprache durch die Kodierung und Komprimierung durch Menschen effizienter in der Repräsentation von Intelligenz ist als Vision. Selbst Videos mit Zeitsequenzen repräsentieren Intelligenz oft weniger effizient als Sprache. Yuval Noah Harari schreibt in seinem Buch "Sapiens: Eine kurze Geschichte der Menschheit", dass der größte Unterschied zwischen Menschen und Tieren darin besteht, dass wir mit Sprache Dinge beschreiben können, die in der Welt nicht existieren. Der berühmte Philosoph Ludwig Wittgenstein sagte auch: "Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt." Ich habe schon einmal gesagt, dass die bahnbrechenden Entwicklungen in der KI in den letzten zehn Jahren darauf zurückzuführen sind, dass wir endlich die zentrale Rolle von Sprache in der Intelligenz erkannt haben. Der Erfolg von ChatGPT und des Transformers beruht darauf.

Lukasz Kaiser: Ich glaube auch, dass Sprache der Schlüssel zur besonderen Stärke von Intelligenz ist. Viele Tiere ohne Sprache haben auch einen gewissen Grad an Intelligenz, und Intelligenz kann auch ohne Sprache entwickelt werden. Technisch gesehen ist es auch sehr bequem, mit Sprache zu trainieren. Wir haben auf dem Internet unzählige Sprachdaten, und das Training mit Sprache ist viel billiger als mit Videos. Einige dieser Vorteile liegen auf der praktischen Ebene. In Zukunft müssen wir jedoch auch weiterhin auf der Grundlage von Videos und Audios trainieren, um bessere Intelligenzmodelle zu erhalten. Technisch wird dies sich von reinen Sprachmodellen unterscheiden, aber die Sequenzverarbeitung und die Attention - Mechanismen sind auch bei der Verarbeitung solcher Daten anwendbar.

Li Jianzhong: Einige Leute meinen, dass heutige große Sprachmodelle nur "Papageien" sind, die nicht wirklich verstehen, was sie lernen und generieren. Wenn wir jedoch die Lernmechanismen von großen Modellen genauer betrachten, sind sie dem menschlichen Lernprozess sehr ähnlich. Beispielsweise zeigt ein Artikel von Anthropic im März, dass Modelle beim Training in Sprache "abstrakte Konzepte" bilden. Der Artikel beschreibt, wie ein Modell Wörter in verschiedenen Sprachen lernt, z. B. "Apfel". Im Inneren des neuronalen Netzwerks wird ein unabhängiges, nicht an eine bestimmte Sprache gebundenes "abstraktes Apfel - Konzept" erstellt. Das Modell wurde dabei nie explizit mit einem "abstrakten Apfel - Konzept" gefüttert. Dies scheint dem Prozess sehr ähnlich zu sein, wie Menschen beim Lernen von Sprache ein komplexes System abstrakter Konzepte im Gehirn aufbauen.

Lukasz Kaiser: Wir können jetzt praktisch beweisen, dass Sprachmodelle Konzepte bilden, insbesondere wenn die Modelle parallel in mehreren Sprachen trainiert werden, ist dies leicht zu beobachten. Sie können einem Modell ein mathematisches Problem geben und es in fünf verschiedenen Sprachen neu formulieren. Obwohl das Modell die Antwort token - für - token generiert und die Token in verschiedenen Sprachen völlig unterschiedlich sind und nichts gemeinsam haben, ist die Antwort im Wesentlichen dieselbe. Wenn das Modell in Englisch einen Fehler macht, wird es auch in Chinesisch denselben Fehler machen. Wenn das Modell eine bestimmte Lösungsmethode wählt, ist die Antwort in der anderen Sprache im Wesentlichen eine Übersetzung der ersten Antwort.

Dies zeigt deutlich, dass das Modell an einer Stelle im Netzwerk in einem sehr abstrakten Raum Probleme löst und Konzepte denkt und es dann in der oberen Schicht des Netzwerks in einer bestimmten Sprache ausdrückt. In diesem Sinne gibt es im Modell offensichtlich sprachunabhängige abstrakte Konzepte, und es wurden bereits Studien dazu durchgeführt. Man kann sogar Konzepte für bestimmte Themen oder Verhaltensweisen beobachten.

Aber wir müssen auch bedenken, dass zumindest für Modelle, die nicht mit einer großen Menge an multimodalen Daten trainiert wurden, es möglicherweise keine Konzepte für physische Entitäten gibt, die unseren menschlichen Konzepten ähneln. Zum Beispiel Konzepte wie "Schmerz" (pain) oder "Liebe" (love). Das Modell kennt diese Wörter und kann Ihnen schöne Geschichten erzählen, aber diese Konzepte unterscheiden sich von unseren in der physischen Welt verwurzelten Empfindungen.

Also haben die Modelle tatsächlich Konzepte, aber wir sollten auch verstehen, dass zumindest einige dieser Konzepte sich von unseren menschlichen Konzepten unterscheiden können. Obwohl die Wörter, die das Modell verwendet, ähnlich erscheinen, da sie aus unserer Sprache und dem Internet stammen, bedeutet dies nicht, dass ihre Bedeutung genau dieselbe ist. In vielen Bereichen wie der Mathematik mag dieser Unterschied unbedeutend sein. Denn auch für uns Menschen ist die Mathematik sehr abstrakt, und wir lernen hauptsächlich durch Symbole und Bilder, genauso wie das Modell. Aber in Dingen, die eng mit unserem Körper und der physischen Welt verbunden sind, ist die Situation etwas anders. Wir können von den Worten des Modells täuschen lassen, weil es dieselben Wörter wie wir verwendet, aber ihre Bedeutung ist nicht genau dieselbe.

Diskussion 2 | Die Herausforderungen von Multimodalität und Weltmodellen

Li Jianzhong: Die Entwicklung der Multimodalität ist sehr rasant. In der Branche gibt es einen Trend, ein "einheitliches Modell und eine einheitliche Modalität" anzustreben – d. h. eine allgemeine Architektur zu verwenden, um alle Modalitäten und Aufgaben zu verarbeiten. Aber verschiedene Modalitäten scheinen verschiedenen Modellen zu entsprechen. Beispielsweise eignen sich autoregressive Modelle für Sprache, während Diffusionsmodelle für Vision geeignet sind. Ich habe bemerkt, dass Sie und Ihre sieben Kollegen (die "Transformer - Acht") im Juni 2017, als Sie den Artikel "Attention Is All You Need" veröffentlicht haben, auch einen Artikel namens "One Model to Learn Them All" veröffentlicht haben. Wie bewerten Sie heute, acht Jahre später, das Verhältnis zwischen "einheitlicher Modalität" und "einheitlichem Modell"? Was sind die größten Herausforderungen hier?

Lukasz Kaiser: Aus praktischer Sicht sind moderne große Sprachmodelle wie GPT - 4 bereits multimodale Modelle. Sie können Bilder und Audios als Eingabe aufnehmen und auch Bilder und Audios generieren. In gewisser Weise könnte ich sagen, dass wir dieses Problem bereits gelöst haben. Aber ich muss auch zugeben, dass das Niveau der Übertragung zwischen Modalitäten noch nicht zufriedenstellend ist.

Wenn die Modelle groß genug und die Daten ausreichend sind, können sie multimodale Aufgaben bewältigen. Sie können in ChatGPT den Sprachmodus aktivieren, und es wird mit Ihnen sprechen, wenn nötig, die Sprache in Text umwandeln, nachdenken und antworten, und sogar singen. Aus praktischer Sicht hat sich dieses Problem also bereits stark verbessert.

Aber ich muss zugeben, dass es beim Betrachten von Videos noch einige unbefriedigende Aspekte gibt. Die heutige Art und Weise, wie Sprachmodelle Multimodalität verarbeiten, ist in der Regel über VQ - VAE. Jeder Teil eines Bildes oder Audios wird durch einen Encoder in einen speziellen Code umgewandelt. Dieser Encoder ist in der Regel vortrainiert und festgelegt, manchmal kann er auch zusammen mit dem großen Sprachmodell trainiert werden, aber die Trainingsmenge ist in der Regel gering und mit einer festen Frequenz. Bei Audios entspricht möglicherweise alle paar Sekunden ein Symbol; bei Bildern entspricht eine bestimmte Anzahl von Pixeln einem Symbol. Diese Methode funktioniert, und wir haben es erfolgreich in Betrieb genommen. Aber es fühlt sich nicht ganz befriedigend an, denn unser Auge ist kein Sensor mit fester Auflösung. Natürlich hat es in gewisser Weise eine Auflösung, aber ich kann mein Auge bewegen, um dynamisch Informationen zu erhalten.

Ich denke daher, dass wir Multimodalität tiefer in das Modell integrieren können. Dazu müssen die von uns derzeit verwendeten VQ - VAE - Codes besser trainierbar werden und mehr mit der Sprache interagieren können. Es gibt bereits großartige Forschungen auf diesem Gebiet, und mit der zunehmenden Akzeptanz von Modellen, die multimodale Aufgaben bewältigen, wird die weitere Integration dieser Forschungen in große Sprachmodelle vorangetrieben.

Li Jianzhong: Ich verstehe nicht, warum viele Forscher aus der Vision - Richtung die Wichtigkeit von Sprache so oft leugnen. Tatsächlich ist, wie Sie gesagt haben, die Interaktion mit Sprache für Multimodalität sehr wichtig. Ohne Sprache sind Bilder nur Pixel - Signale. Sprache ist unersetzlich, um jedem Objekt in einem Bild eine semantische Bedeutung zu geben. Ich persönlich denke, dass einige Forscher aus der Vision - Richtung, wenn sie weiterhin die Bedeutung von Sprache in der Intelligenz leugnen, möglicherweise wieder in die falsche Richtung geraten, wie es vor der Veröffentlichung von ChatGPT im Jahr 2022 der Fall war. Damals waren die Forscher aus der Vision - Richtung sehr aktiv, aber die Erkennungsfähigkeit ist eine sehr niedrige Stufe der Intelligenz. Wahre Kognition und Verständnis scheinen ohne Sprache nicht möglich zu sein.

Jetzt sprechen wir über Weltmodelle. Einige Wissenschaftler wie Yann LeCun und Fei - Fei Li meinen, dass es nicht möglich ist, über große Sprachmodelle zur AGI zu gelangen, weil sie glauben, dass Weltmodelle der Kern der AGI sind. Sie