Wie sollten AI - Trainer ihre Arbeit neu verstehen bei der Ankunft von Weltmodellen?

Es sind einige grundlegende Veränderungen im Bereich der KI im Gange.

Von der "Bibliothek-Intelligenz" großer Sprachmodelle über die "visuelle Abbildung" multimodaler Modelle bis hin zur Fähigkeit von Weltmodellen, KI die Vorhersage physikalischer Gesetze zu ermöglichen – diese Paradigmenwende verändert nicht nur die technischen Wege, sondern verschiebt auch die Rolle der Trainer von Datenannotatoren hin zu "Weltregeldesignern". Dieser Artikel analysiert aus der einzigartigen Perspektive eines ersten Linien-AI-Trainers die hinter Sora verborgenen Logik und die geheimen Fronten der Konzernstrategien.

Ehrlich gesagt hatte ich am Anfang meiner Karriere als AI-Trainer eine sehr vage Vorstellung von dieser Position.

Daten zu annotieren, Prompts zu schreiben, RLHF-Feedback zu geben, die Qualität der Modellausgaben zu bewerten … Die täglichen Aufgaben scheinen wie lose Einzelteile, und es ist schwer zu sagen, was genau man trainiert und wohin man geht.

Das änderte sich erst, als das Konzept des Weltmodells immer häufiger in mein Blickfeld rutschte. Das war das erste Mal, dass ich wirklich spürte, dass an der KI etwas grundlegendes passiert. Es ging nicht darum, dass sie klüger oder schneller wurde, sondern dass sie begann, die Welt zu verstehen.

In diesem Artikel möchte ich aus der Perspektive eines AI-Trainers darüber sprechen, was ein Weltmodell eigentlich ist, wie es sich zu den uns bereits bekannten großen Sprachmodellen und multimodalen Modellen verhält und was diese Paradigmenwende für uns, die an der Frontlinie der AI-Trainings arbeiten, bedeutet.

LLM hat uns das Verständnis von "Intelligenz" verzerrt

Vor dem Thema Weltmodell möchte ich auf einen wichtigen Irrtum eingehen, den uns die großen Sprachmodelle eingebracht haben.

Nach der Entstehung von ChatGPT glaubten viele – ich eingeschlossen – für eine Zeitlang wirklich, dass die allgemeine Künstliche Intelligenz (AGI) bald hier sein würde. GPT-4 kann Juraproben bestehen, Artikel schreiben, die mit menschlichen Werken mithalten, Quantenmechanik erklären und Ihnen beim Debuggen von Code helfen … Diese Fähigkeiten zusammen lassen es schwer vermeiden, den Eindruck zu gewinnen, dass dieses Ding schon ziemlich "versteht".

Aber in der praktischen Arbeit werden Sie allmählich merken, dass es seltsame Lücken gibt.

Als ich RLHF-Annotationen machte, stellte ich einmal dem Modell eine sehr einfache räumliche Schlussfolgerungsaufgabe: Auf einem Tisch liegt ein Apfel. Neben dem Apfel liegt ein Buch. Links vom Buch steht ein Glas Wasser. Frage: Wie steht der Apfel zum Wasser?

Die Antworten des Modells waren instabil, manchmal richtig, manchmal falsch. Und wenn man es danach fragte, warum es so entschied, konnte es eine scheinbar völlig logische Erklärung geben – egal, ob die Antwort richtig oder falsch war.

Das hat mich darauf aufmerksam gemacht, dass LLM "sprachliche Beschreibungen der Welt" beherrscht, nicht aber "die Arbeitsweise der Welt selbst".

Dieser Unterschied klingt zwar subtil, ist aber sehr grundlegend.

Stellen Sie sich vor: Ein Mensch hat nie die Bibliothek verlassen, hat alle Bücher über Schwimmen gelesen, kann die Techniken des Schwimmens auswendig, kann die Bewegungsdetails von Michael Phelps analysieren und kann einen professionellen Schwimmunterrichtsartikel schreiben. Aber wenn man ihn ins Schwimmbecken wirft, wird er wahrscheinlich sinken.

LLM ist dieser Mensch in der Bibliothek.

Ziel des Trainings ist es, bei gegebenen vorherigen Wörtern die Wahrscheinlichkeitsverteilung des nächsten Wortes vorherzusagen. In mathematischer Sprache heißt das, P(token_t | alle vorherigen Token) zu maximieren. Dieses Ziel lässt es die statistischen Muster der menschlichen Sprache lernen, aber die statistischen Muster der Sprache sind nicht gleichbedeutend mit den kausalen Gesetzen der Welt.

Das Feuer ist heiß. Diese Aussage kommt in den Trainingsdaten unzählige Male vor, also "weiß" LLM, dass Feuer heiß ist. Aber es weiß nicht, wie die Temperatur nach physikalischen Gesetzen auf die Haut übertragen wird, wenn man die Hand in das Feuer hält, bei welcher Temperatur das Protein in der Haut denaturiert und ob dieser Prozess reversibel ist oder nicht.

Das "Warum" hinter diesen "Wissenswerten" fehlt LLM immer noch.

Multimodale Modelle lassen die KI "sehen", aber nicht "erleben"

Das Auftauchen multimodaler Modelle ist ein wichtiger Fortschritt.

Als Modelle wie GPT-4V und Gemini Bilder verstehen können, haben wir eine neue Fähigkeitsdimension gewonnen: Die KI beginnt, die visuelle Welt wahrzunehmen. OCR, Bildbeschreibung, visuelle Fragen und Antworten … Diese Fähigkeiten haben in vielen praktischen Anwendungsfällen großen Wert.

Aber das Wesen multimodaler Modelle besteht darin, eine Abbildungsbeziehung zwischen visuellen Merkmalen und sprachlichen Beschreibungen herzustellen.

Es lernt, dass ein bestimmtes visuelles Muster einer bestimmten sprachlichen Beschreibung entspricht. Ein Bild einer Katze entspricht dem Wort "Katze" und allem, was man über Katzen in der Sprache weiß. Je genauer diese Korrespondenz gelernt wird, desto stärker ist die multimodale Fähigkeit des Modells.

Das Problem ist, dass dies immer noch ein statisches, oberflächliches Verständnis ist.

Nehmen wir als Beispiel: Zeigen Sie einem multimodalen Modell ein Foto eines Billardtisches und dann ein Foto des Moments, in dem der Billardstock den Ball trifft. Es kann Ihnen sagen, dass es sich um Billard handelt und kann die Farbe und die Position der Bälle beschreiben. Aber wenn Sie es fragen, wohin der Ball nach dem Schlag fliegen wird, ob er an der Kante abprallen wird und wo er schließlich stehen bleiben wird – diese Fragen betreffen die Vorhersage der physikalischen Bahn, und hier wird die Leistung des multimodalen Modells sehr instabil.

Der Grund ist einfach: Das multimodale Modell hat unzählige Bilder von Billard gesehen, aber es hat nie in der Welt des Billards "gehandelt".

Sehen und Erleben sind zwei grundlegend verschiedene Quellen von Intelligenz.

Wir Menschen haben Intuition und physikalisches Allgemeinwissen, weil wir seit unserer Kindheit in der realen Welt herumgestoßen sind und uns durch unzählige Handlungen und Rückmeldungen ein Modell der Arbeitsweise der Welt in unserem Gehirn aufgebaut haben. Wenn Sie einen Becher am Tischrand sehen, werden Sie unwillkürlich besorgt – diese Intuition stammt nicht aus Büchern, sondern aus der Erfahrung, als Sie einmal versehentlich einen Becher umgeworfen haben.

LLM hat es nicht erlebt, und auch multimodale Modelle haben es nicht erlebt.

Und das Weltmodell soll genau dieses Fehlen an "Erfahrung" beheben.

Weltmodelle: Die KI beginnt erstmals, die Welt vorherzusagen

Das Konzept des Weltmodells ist nicht neu.

Im Jahr 2018 veröffentlichten die AI-Forscher David Ha und der Deep-Learning-Pionier Jürgen Schmidhuber eine Studie mit dem Titel "World Models", in der sie dieses Framework systematisch vorgestellt haben. Ihre zentrale Idee war: Ein Agent muss in der Welt handeln können, indem er ein internes Modell der Welt aufbaut, um die Konsequenzen seiner Handlungen vorherzusagen und dann zu entscheiden, welche Handlung er ausführt.

Diese Idee ist der menschlichen Kognition sehr ähnlich.

Wenn Sie Auto fahren, verarbeiten Sie nicht alle Sensorinformationen in Echtzeit, sondern Sie basieren auf Ihrem Verständnis der Straßenregeln und prognostizieren ständig, was vor Ihnen passieren wird, und treffen auf dieser Grundlage Entscheidungen. Dieses "Verständnis der Straßenregeln" ist das Weltmodell in Ihrem Gehirn.

In technischer Sprache ausgedrückt, lautet das zentrale Trainingsziel des Weltmodells:

Bei gegebenem aktuellen Zustand S und ausgeführter Aktion A wird der nächste Zustand S' vorhergesagt.

Diese einfache Formel unterscheidet sich in drei grundlegenden Punkten vom Trainingsziel von LLM:

Erstens wird die Dimension der "Aktion" eingeführt. LLM prognostiziert Wörter, multimodale Modelle prognostizieren Inhalte, während Weltmodelle vorhersagen, "wie die Welt nach einer Aktion aussehen wird". Dies bedeutet, dass die KI erstmals wirklich "Tun" und "Verstehen" miteinander verbindet.

Zweitens wird eine kausale Beziehung anstelle einer statistischen Beziehung hergestellt. Wenn ich diesen Becher stoße, wird er umfallen – das ist Kausalität. LLM weiß, dass "Becher umfallen" und "stoßen" oft in der Sprache zusammen auftreten, aber es versteht nicht die kausale Kette zwischen Schubkraft, Schwerpunkt und Reibungskraft. Das ist es, was das Weltmodell lernen muss.

Drittens unterstützt es "kontrafaktisches Denken". Dies ist der Punkt, der mich am meisten begeistert. Kontrafaktisches Denken bedeutet: Was wäre, wenn ich nicht so handeln würde, sondern anders? Diese Fähigkeit, "im Kopf" zu testen, ist die Grundlage für Planung und Entscheidung und ein wichtiger Bestandteil menschlicher Weisheit. Ein echtes Weltmodell sollte in der Lage sein, verschiedene mögliche Zukünfte intern zu simulieren und den besten Handlungsweg auszuwählen.

Warum hat Sora die Branche so erschüttert?

Im Januar 2024, als OpenAI Sora veröffentlichte, wurde das Konzept des Weltmodells erstmals in einer von allen verständlichen Weise dargestellt.

Anscheinend ist Sora ein Videogenerierungsmodell. Was die Fachleute wirklich erschüttert hat, ist nicht die Schönheit der generierten Videos, sondern die physikalische Konsistenz, die in ihnen dargestellt wird.

Wasser fließt nach unten, nicht willkürlich herum. Bei Kollisionen verformt sich das Objekt in der Richtung, die der Kraftanalyse entspricht. Wenn die Kamera von einem Winkel auf einen anderen wechselt, bleibt die Beleuchtungsverhältnisse in der Szene korrekt. Wenn ein Ball getreten wird, folgt seine Flugbahn einer Parabel, nicht einer willkürlichen Bewegung.

Diese Details wurden Sora nicht explizit beigebracht. Niemand hat in den Trainingsdaten markiert, "hier sollte das Wasser nach links fließen", und niemand hat Code geschrieben, der festlegt, wie die Beleuchtung berechnet werden soll. Diese physikalischen Gesetze sind aus dem Training mit einer riesigen Anzahl von Videos spontan entstanden.

In der technischen Studie von OpenAI zu Sora gibt es einen Absatz, den ich für den wichtigsten Teil des gesamten Artikels halte:

"Wir glauben, dass Videogenerierungsmodelle ein vielversprechender Weg zu einem universellen Simulator der physikalischen Welt sind."

Diese Aussage ist sehr informativ. Sie bedeutet, dass, wenn Sie ein großes genug Modell trainieren, um das nächste Video-Frame vorherzusagen, es gezwungen wird, die physikalischen Gesetze der Welt zu lernen – denn nur wenn es diese Gesetze versteht, kann es korrekt vorhersagen, wie das nächste Frame aussehen sollte.

Dies ist ein sehr eleganter Entwurf des Trainingssignals. Ein Video ist an sich eine kausale Sequenz – jedes Frame ist das Ergebnis der physikalischen Entwicklung des vorherigen Frames. Indem das Modell diese Sequenz vorhersagt, lernt es auch im Laufe des Sprachlernens heimlich Physik.

Natürlich ist Sora noch lange kein perfektes Weltmodell. Manchmal generiert es physikalisch absurde Inhalte: Ein Mensch steht von einem Stuhl auf, aber der Stuhl verschwindet einfach. Die Reflexion auf der Wasseroberfläche weicht von der Lichtquelle ab. In langen Videos widersprechen sich die Eigenschaften der Objekte. Diese Fehler zeigen genau, dass sein Weltmodell unvollständig und fragmentarisch ist.

Aber es zeigt einen machbaren Weg auf.

Die wesentlichen Unterschiede der drei Ansätze: Die Sicht eines Trainers

In meiner Arbeit habe ich allmählich ein Verständnis für diese drei Arten von Modellen entwickelt, das ich am besten mit "Kognitionsniveau" beschreiben würde.

Große Sprachmodelle lösen das Problem des "Wissens".

Ihre Kernfähigkeiten sind die Speicherung und Abfrage von Wissen sowie die Generierung und das Verständnis von Sprache. Sie wissen, was in der Geschichte passiert ist, kennen die Formulierungen wissenschaftlicher Gesetze und können Dinge klar erklären. Dies ist eine sehr wertvolle Fähigkeit, aber ihre Einschränkung besteht darin, dass sie "Beschreibungen der Welt" kennen, nicht aber "die Welt selbst".

Multimodale Modelle lösen das Problem des "Sehens".

Ihre Kernfähigkeit ist die Wahrnehmung, die Umwandlung von visuellen, auditiven und anderen sensorischen Signalen in semantisches Verständnis. Sie können Bilder verstehen, verstehen, was in Videos passiert, und können Informationen aus verschiedenen Modalitäten verknüpfen. Dies erweitert die Kognition der KI von der Sprache auf die Wahrnehmung. Aber es bleibt ein statisches, wie aus einem Foto stammendes Verständnis, ohne die Modellierung von zeitlicher Dynamik und Handlungskonsequenzen.

Weltmodelle lösen das Problem des "Was passiert" und des "Wie man es macht".

Ihre Kernfähigkeiten sind die Vorhersage und Planung. Sie müssen nicht die statischen Eigenschaften von Dingen verstehen, sondern die dynamischen kausalen Ketten. Sie müssen in der Lage sein zu antworten: Was würde passieren, wenn ich so handeln würde? Welcher Weg würde mich zum Ziel bringen? Was würde passieren, wenn dieses Ding auf jenes trifft?

Aus der Sicht eines Trainers unterscheiden sich die Datenanforderungen dieser drei Modelle erheblich.

LLM benötigt eine große Menge an hochwertigen Texten, wobei es darauf ankommt, dass die Daten breit gefächert und sprachlich korrekt sind. Multimodale Modelle benötigen hochwertige Paare aus Bildern und Texten oder Videos und Texten, wobei die genaue Übereinstimmung zwischen den Modalitäten entscheidend ist. Weltmodelle hingegen benötigen interaktive Sequenzen mit Handlungsannotationen – nicht nur "was passiert ist", sondern auch "was dazu geführt hat, dass es passiert ist".

Dies stellt eine ganz andere Größenordnung an Anforderungen an die Datenerfassung und -annotation dar.

Warum hat das Weltmodell jetzt seinen Durchbruch?

Diese Frage habe ich lange überlegt, denn das Konzept des Weltmodells ist nicht neu – bereits 2018 gab es grundlegende Studien. Warum ist es aber gerade um 2024 herum plötzlich das heißeste Thema in der Branche?

Ich denke, dass mehrere Faktoren zusammengekommen sind und diesen Durchbruch verursacht haben.

Der erste Faktor ist, dass die Skalierungsgesetze von LLM an ihre Grenzen stoßen.

Von GPT-3 zu GPT-4 hat jede deutliche Erhöhung der Parameteranzahl zu erstaunlichen Fähigkeitssprüngen geführt. Aber nach GPT-4 hat die Amplitude dieser Sprünge deutlich abgenommen. Die Trainingskosten sind von einigen Millionen Dollar auf mehrere hundert Millionen Dollar gestiegen, aber die Verbesserung der Fähigkeiten lässt sich für die Nutzer immer weniger als revolutionär empfinden.

Noch problematischer ist das Datenproblem. Einige Forschungsinstitute schätzen, dass die verfügbaren hochwertigen Textd