HomeArticle

xAI, ein Unternehmen von Elon Musk, tritt in den "Weltmodell"-Wettlauf ein. Wird das "Visuelles Modell" das nächste "Große Sprachmodell"?

36氪的朋友们2025-10-14 07:59
Das nächste Schlachtfeld des KI-Wettbewerbs ist bereits klar: Vom Textwelt in die physische Welt.

Das nächste Schlachtfeld im Bereich der KI-Wettbewerbe ist bereits klar: Vom Textreich in die physische Welt. In diesem Wettbewerb namens "Weltmodelle" hat xAI, das von Elon Musk gegründet wurde, sich heimlich mit Experten von Nvidia in das Rennen eingeschaltet und tritt mit Techriesen wie Google und Meta auf gleicher Ebene an. xAI plant, diese Technologie zunächst für die Generierung von KI-Spielen einzusetzen und deren Anwendung in Robotersystemen zu erkunden. Google geht davon aus, dass zukünftige Videomodelle genauso intelligent wie Sprachmodelle werden.

Das Feuer im Bereich der künstlichen Intelligenz breitet sich von den großen Sprachmodellen in ein noch weiter vorausliegendes Feld aus - die "Weltmodelle" (World Models), die in der Lage sind, die reale physische Welt zu verstehen und zu simulieren. Und xAI hat sich heimlich in diesen Wettbewerb eingeschaltet und tritt mit Techriesen wie Google und Meta auf gleicher Ebene an.

Laut einer Meldung der britischen "Financial Times" vom 12. Oktober hat Musk's Startup xAI im Sommer dieses Jahres KI-Experten von der Chip-Riesen Nvidia eingestellt, die sich speziell auf die Entwicklung von Weltmodellen konzentrieren. Im Gegensatz zu den auf Texten basierenden großen Sprachmodellen werden Weltmodelle anhand einer riesigen Menge an Videodaten und Roboterdaten trainiert, um die physikalischen Gesetze der realen Welt zu verstehen.

"Zukünftige Videomodelle werden genauso intelligent wie Sprachmodelle", so Google-Forscher in einer Studie. Nvidia hat auch im vergangenen Monat angegeben, dass das potenzielle Marktvolumen der Weltmodelle möglicherweise nahe am Gesamtwert der gegenwärtigen Weltwirtschaft liegt.

01

Vorausplanung:

xAIs "Überraschungsangriff" im Spielbereich und seine Ambitionen in der Robotik

Um in diesem Wettbewerb eine Stelle einzunehmen, rekrutiert xAI aktiv Personal.

Das Unternehmen hat zwei KI-Forscher von Nvidia, Zeeshan Patel und Ethan He, eingestellt, die im Bereich der Weltmodelle reichliche Erfahrung haben. Nvidia ist dank seiner Omniverse-Plattform, die zur Erstellung und zum Betrieb von Simulationen verwendet wird, seit langem der Marktführer in dieser Technologie.

Personen, die mit den internen Vorgängen vertraut sind, haben angegeben, dass xAI den ersten kommerziellen Anwendungsfall für seine Weltmodelle im Spielbereich sieht, um interaktive 3D-Umgebungen zu generieren. Diese Entwicklung hat schnell die Aufmerksamkeit des Marktes erregt, da sie nicht nur ein klares Signal für xAIs kommerzielle Strategie ist, sondern auch das enorme Potenzial der Weltmodelle als nächste Generation der KI-Technologie unterstreicht.

Selbst Musk hat auf der sozialen Plattform X bestätigt, dass xAI "bis Ende nächsten Jahres ein hervorragendes KI-generiertes Spiel" veröffentlichen wird. Langfristig könnten diese Technologien schließlich in die künstlichen Intelligenzsysteme von Robotern integriert werden.

xAIs Stellenausschreibungen bestätigen auch seine Entwicklungsrichtung. Das Unternehmen sucht für sein "omni-Team" Techniker im Bereich der Bild- und Videogenerierung mit einem Gehalt zwischen 180.000 und 440.000 US-Dollar. Dieses Team ist darauf spezialisiert, "wunderbare KI-Erlebnisse jenseits von Texten zu schaffen".

Darüber hinaus rekrutiert das Unternehmen "Videospieltrainer" mit einer Stundensatz zwischen 45 und 100 US-Dollar, um sein KI-Modell Grok für die Erstellung von Videospielen zu trainieren.

02

Paradigmenwechsel:

Der "GPT-Moment" der visuellen Modelle

xAIs aufsehenerregender Eintritt in den Markt fällt mit einer wichtigen Branchenprognose zusammen: Zukünftige Videomodelle werden genauso intelligent wie Sprachmodelle. Eine kürzlich veröffentlichte Studie von Google zeigt, dass sein Videomodell Veo 3 ähnliche "Emergenzeigenschaften" wie die großen Sprachmodelle (LLM) aufweist.

Genauso wie die LLM durch die einfache Aufgabe der "Vorhersage des nächsten Tokens" schließlich zusätzliche Fähigkeiten wie Mathematik und kreatives Schreiben erlernt haben, beginnen Videomodelle durch die "Vorhersage des nächsten Frames" auch, eine Reihe von überraschenden Fähigkeiten wie Objektsegmentierung, Kantendetektion und die Simulation des Werkzeuggebrauchs in Null-Shot-Szenarien zu entwickeln, ohne dass sie speziell darauf trainiert wurden.

Der Google-Forscher Jack Clark schreibt in der Studie: "Wir glauben, dass, ähnlich wie in der natürlichen Sprachverarbeitung (NLP), wo es einen Übergang von auf spezifische Aufgaben zugeschnittenen Modellen zu allgemeinen Modellen gab, auch im Bereich der maschinellen Bildverarbeitung ein ähnlicher Wandel durch Videomodelle stattfinden könnte - ein 'GPT-3-Moment für das visuelle Feld'."

Sie vergleichen den Prozess der frameweisen Videogenerierung mit der "Denk- Kette" (chain-of-thought) in Sprachmodellen und nennen es "Frame-Kette" (chain-of-frames), da es Videomodellen ermöglicht, über Zeit und Raum hinweg zu schließen.

Diese Entdeckung ist von großer Bedeutung, da sie darauf hindeutet, dass durch die Entwicklung von intelligenteren Videomodellen möglicherweise äußerst leistungsfähige Roboter-"Agenten" geschaffen werden können.

03

Chancen und Realität:

Hohe Kosten und das Fehlen einer "Vision"

Obwohl die Aussichten vielversprechend sind, ist der Weg zu den Weltmodellen kein rosiger Pfad. Derzeit stehen der Technologie noch enorme Herausforderungen entgegen, wobei die teuersten Kosten in der Suche und Verarbeitung von ausreichenden Trainingsdaten für die Simulation der realen Welt liegen.

Zur gleichen Zeit gibt es auch eine nüchterne Betrachtung der Rolle der KI in der Branche. Michael Douse, der Vertriebsleiter von Larian Studios, dem Entwickler des erfolgreichen Spiels "Baldur's Gate 3", hat diese Woche auf X angegeben, dass die KI die "großen Probleme" der Spieleindustrie, nämlich "Führungskraft und Vision", nicht lösen kann.

Er fügt hinzu, dass die Branche nicht "mehr mathematisch produzierte, psychologisch trainierte Spielzyklen" braucht, sondern eine vielfältigere Darstellung der Welt. Dies repräsentiert eine weit verbreitete Meinung: Ein reiner technologischer Durchbruch allein garantiert nicht die Schaffung eines kommerziellen Produkts, das wirklich die Menschen berührt.

Trotz all dieser Herausforderungen hat xAIs Eintritt in den Wettbewerb definitiv das Feuer im Bereich der Weltmodelle noch weiter angeheizt.

Der Fokus der KI verschiebt sich unaufhaltsam von der reinen Verarbeitung digitaler Informationen hin zur Simulation und Interaktion mit der komplexen physischen Realität. Ob die visuellen Modelle die Erfolge der großen Sprachmodelle wiederholen und ihren eigenen "GPT-Moment" erleben können, wird nicht nur über die nächste Generation von KI-Riesen entscheiden, sondern möglicherweise auch unsere grundlegenden Beziehungen zu der digitalen und physischen Welt neu gestalten.

Dieser Artikel stammt aus dem WeChat-Account "Hard AI", geschrieben von Long Yue und wurde von 36Kr mit Genehmigung veröffentlicht.