StartseiteArtikel

Feifei Li enthüllt die "Achillesferse" von Large Language Models: Ohne räumliche Intelligenz ist alles Reden und kein Tun.

亿欧网2025-11-12 19:45
Sprachmodelle zeichnen die intellektuelle Gestalt, räumliche Intelligenz sorgt für die praktische Umsetzung!

Während die Technologiebranche immer noch in der "Parameter-Rennerei" von großen Modellen steckt, weist die Professorin Fei-Fei Li von der Stanford University und Mitbegründerin von World Labs auf eine wesentlichere Schwierigkeit hin: Derzeit ist die KI in einer "flachen Welt", die aus Texten und zweidimensionalen Bildern besteht, gefangen, und sie steht in starkem Widerspruch zu unserer realen, dreidimensionalen Welt, die von physikalischen Gesetzen bestimmt wird.

Am 11. November hat Fei-Fei Li in einem viral verbreiteten Artikel deutlich gemacht, dass räumliche Intelligenz der Schlüssel ist, um diese kognitive Kluft zu überwinden. Sie repräsentiert nicht nur die nächste Frontierschicht in der Entwicklung der Künstlichen Intelligenz, sondern auch den Wendepunkt, an dem die KI wirklich in die physische Welt integriert wird und sich von einem "Dialogwerkzeug" zu einem "Handlungspartner" verwandelt.

Dieser Artikel fasst Fei-Fei Lis systematische Erläuterung der technologischen Wege und Anwendungsmöglichkeiten der räumlichen Intelligenz in diesem Artikel zusammen und blickt gemeinsam mit den Einsichten mehrerer Branchenpraktiker in die Zukunft, wie diese transformatorische Kraft die Mensch-Maschine-Beziehung und die Branchenökologie neu gestalten wird.

Von der Sprache zur Welt – Räumliche Intelligenz ist das Morgenrot der KI

Die gegenwärtige Künstliche Intelligenz, insbesondere die generative KI, hat die Welt in Bezug auf Kreativität, Effizienz und Kommunikation tiefgreifend verändert.

Dennoch hat Fei-Fei Li darauf hingewiesen, dass die großartigen Visionen für die Anwendung der KI in vielen Schlüsselbereichen noch lange nicht verwirklicht sind. Autonome Roboter haben die Laboratorien und speziellen Szenarien noch nicht verlassen, und die Vision ihrer "Integration in den Alltag" bleibt noch immer auf der Ebene von Konzeptüberlegungen;

In der wissenschaftlichen Forschung hat die KI zwar Potential gezeigt, aber es ist noch ein erheblicher Weg bis zur tatsächlichen Verwirklichung eines Effizienzrevoluts in der Krankheitsdiagnose und -behandlung, der Entwicklung neuer Materialien und der Erforschung der Grundlagen der Physik;

Und im Bereich der Kreativitätsförderung, ob es darum geht, Studenten beim Verständnis komplexer und abstrakter Konzepte zu helfen, Architekten bei der räumlichen Konzeption zu unterstützen oder Künstlern bei der Schaffung virtueller Welten zu helfen, fehlt der KI immer noch ein tiefes Verständnis von menschlichen Absichten und Szenarien, so dass eine echte kognitive Zusammenarbeit schwer zu erreichen ist.

Sie hat weiter betont, dass im Grunde genommen die KI die von Menschen angeborene räumliche Intelligenz fehlt.

Räumliche Intelligenz ist das Fundament menschlicher Kognition und Zivilisation. Sie ist keine hoch entwickelte Fähigkeit, sondern die grundlegende Fähigkeit, über den "Wahrnehmungs-Handlungs"-Zyklus mit der physischen Welt zu interagieren, die unser alltägliches Verhalten, unsere nonverbale Kommunikation, unsere Vorstellungskraft und Kreativität antreibt. Von der historischen Messung des Erdumfangs durch Eratosthenes bis zur Entdeckung der DNA-Doppelhelix durch Watson und Crick – die großen Durchbrüche der Zivilisation stammen oft von der Fähigkeit, Raum zu manipulieren, zu visualisieren und zu schließen, was reine Texte nicht leisten können.

Leider liegen bei der räumlichen Fähigkeit der gegenwärtigen KI grundlegende Beschränkungen vor.

Obwohl multimodale große Sprachmodelle (MLLMs) durch das Training mit einer riesigen Menge an Multimedia-Daten über grundlegende räumliche Wahrnehmungsfähigkeiten verfügen, können Bilder analysieren, auf entsprechende Fragen antworten und auch ultraschlüssige Bilder und Kurzvideos generieren; gleichzeitig können die fortschrittlichsten Roboter dank der Fortschritte bei Sensoren und taktilen Technologien in stark eingeschränkten Umgebungen Gegenstände und Werkzeuge manipulieren.

Aber die räumlichen Fähigkeiten der KI sind immer noch weit hinter dem menschlichen Niveau zurück. Die fortschrittlichsten multimodalen großen Sprachmodelle zeigen bei Aufgaben wie der Schätzung von Entfernungen, Richtungen, Größen oder der "psychologischen Drehung" von Objekten durch die Rekonstruktion aus neuen Perspektiven fast dieselben Ergebnisse wie zufällige Vermutungen. Sie können kein Labyrinth verlassen, keine Abkürzungen erkennen und auch nicht die grundlegenden physikalischen Gesetze vorhersagen. Die von der KI generierten Videos verlieren oft nach wenigen Sekunden ihre Kohärenz.

Sie hat analysiert, dass das Verständnis dieser Modelle von der Welt oberflächlich und zerrissen ist und fehlt an der ganzheitlichen, zusammenhängenden und intuitiven Kognition wie beim Menschen. Die menschliche Kognition der Welt ist ganzheitlich und umfasst nicht nur die Dinge, die wir sehen, sondern auch die räumlichen Beziehungen zwischen den Dingen, ihre innere Bedeutung und Wichtigkeit.

Ohne diese Fähigkeit ist die KI von der physischen Realität, die sie verstehen will, getrennt und kann uns nicht effektiv Autos fahren lassen, Roboter im Haushalt und in Krankenhäusern manipulieren, neue immersive Interaktionserlebnisse für Lernen und Unterhaltung bieten oder die Erforschungsprozesse in den Bereichen Materialwissenschaft und Medizin beschleunigen.

Und genau darin liegt die Stärke der räumlichen Intelligenz, die Welt durch Vorstellungskraft, Schlussfolgerung, Schaffung und Interaktion (nicht nur durch Beschreibung) zu verstehen.

Deshalb hat Fei-Fei Li zusammengefasst, dass die Zukunft der KI darin besteht, die Grenzen der Sprache zu überschreiten und eine starke räumliche Intelligenz zu entwickeln, was der Schlüssel für den nächsten Sprung sein wird.

Der Schlüssel für die nächste Generation KI liegt in der Entwicklung eines "Weltmodells"

Fei-Fei Li hat darauf hingewiesen, dass die Schaffung einer Künstlichen Intelligenz mit räumlicher Intelligenz die aktuelle Paradigma der großen Sprachmodelle übersteigen und sich der Entwicklung eines wesentlicheren "Weltmodells" zuwenden muss, dessen Kern darin besteht, dass es in der Lage ist, eine komplexe Welt zu verstehen, zu schließen und zu generieren, die in Bezug auf Semantik, Geometrie, Physik und dynamische Regeln konsistent ist.

Sie hat weiter erklärt, dass zur Erreichung dieses Ziels das Weltmodell drei grundlegende Fähigkeiten besitzen muss: Erstens die generative Fähigkeit, das heißt, es kann eine simulierte Welt schaffen, die in Bezug auf Wahrnehmung, Geometrie und physikalische Dynamik vollständig konsistent ist, und das kontinuierliche Zustandsänderungen der Welt im Laufe der Zeit tiefgehend verstehen;

Zweitens die multimodale Fähigkeit, die in der Lage ist, Eingaben und Ausgaben in verschiedenen Formen wie Bildern, Videos, Texten und Bewegungen auf natürliche Weise zu verarbeiten;

Drittens die interaktive Fähigkeit, die in der Lage ist, den nächsten Zustand der Welt auf der Grundlage der eingegebenen Aktionen vorherzusagen, um so den Zyklus zwischen Wahrnehmung und Handlung zu verbinden.

Dennoch stellt die Schaffung eines solchen Weltmodells weit größere Herausforderungen dar als die von Sprachmodellen. Sprache ist ein rein generatives Phänomen in der menschlichen Kognition, während die "Welt" von viel komplexeren Regeln bestimmt wird, und die Dimensionen und Komplexität ihrer Repräsentation sind weit über die einer eindimensionalen Sequenz wie der Sprache hinaus.

An der World Labs ist Fei-Fei Li und ihr Forschungs-team darauf verpflichtet, grundlegende Fortschritte in Richtung der folgenden Ziele zu erzielen:

Erstens die Definition einer neuen allgemeinen Trainingszielfunktion, deren Stellung ähnlich der "Vorhersage des nächsten Wortes" in Sprachmodellen sein sollte. Da der Eingabe- und Ausgabe-Raum des Weltmodells jedoch extrem komplex ist, ist die Definition einer solchen Zielfunktion an sich eine enorme Herausforderung. Obwohl der Weg noch nicht klar ist, muss diese Zielfunktion und ihre innere Repräsentation die geometrischen und physikalischen Gesetze genau widerspiegeln, um die Natur des Weltmodells als einheitlichen Träger von Realität und Vorstellungskraft widerzuspiegeln;

Zweitens die Lösung des Problems der großen Menge an Trainingsdaten. Obwohl die Internet-Bilder und -Videos eine riesige Datenquelle bilden, liegt die Kernherausforderung darin, wie man effektiv dreidimensionale räumliche Informationen aus diesen zweidimensionalen Signalen extrahiert. Der Schlüssel der Forschung liegt in der Konstruktion eines Modell-Architektur, die diese Menge an visuellen Daten optimal nutzen kann. Gleichzeitig sind hochwertige synthetische Daten und multimodale Daten wie Tiefen- und taktile Daten ebenfalls unverzichtbar. Die zukünftige Entwicklung hängt von fortschrittlicheren Sensorsystemen, robusteren Signalextraktionsalgorithmen und stärkeren neuronalen Simulationsmethoden ab;

Drittens eine neue Modell- und Repräsentationsarchitektur. Die bestehenden Paradigmen (wie MLLM und Videodiffusionsmodelle) markieren die Daten als eindimensionale oder zweidimensionale Sequenzen und sind für grundlegende räumliche Aufgaben wie das Zählen und das Langzeitgedächtnis kaum geeignet. Der Durchbruch hängt von der Anwendung neuer Architekturen wie 3D/4D-Wahrnehmung und Gedächtnismechanismen ab. Beispielsweise zeigt das von der World Labs entwickelte RTFM-Modell durch die Einführung von raumbezogenen Frames als Gedächtniseinheiten die Richtung der Architekturinnovation auf, indem es eine effiziente Echtzeitgenerierung bei gleichzeitiger Wahrung der Kontinuität der Welt ermöglicht.

Fei-Fei Li ist der Meinung, dass obwohl die Herausforderungen enorm sind, dies der Schlüsselweg für den Durchbruch der räumlichen Intelligenz der Künstlichen Intelligenz ist. Diese Forschung wird eine neue Generation von kreativen und produktiven Werkzeugen hervorbringen und schließlich der Künstlichen Intelligenz die Kernfähigkeit vermitteln, in die physische Welt tiefgreifend und effektiv zu interagieren.

Von kreativen Werkzeugen zu wissenschaftlichen Partnern – Der dreistufige Weg der Stärkung durch räumliche Intelligenz

Fei-Fei Li hat ihre Kernmotivation für die Förderung der Entwicklung der Künstlichen Intelligenz und die Anwendungsvision der räumlichen Intelligenz dargelegt. Sie ist überzeugt, dass der grundlegende Zweck der Künstlichen Intelligenz darin bestehen muss, die menschlichen Fähigkeiten zu stärken, nicht zu ersetzen. Die KI sollte die menschliche Kreativität, die Verbindungseffizienz und das Lebensgefühl erweitern und immer die Autonomie und Würde des Menschen respektieren. Unter der Führung dieses menschenzentrierten Konzepts wird die räumliche Intelligenz als die Schlüsselfrontierschicht für die Verwirklichung dieser Vision angesehen.

Sie hat darauf hingewiesen, dass die Anwendung der räumlichen Intelligenz in mehreren Bereichen schrittweise vertieft werden wird.

Kurzfristig befähigen kreative Werkzeuge wie die Marble-Plattform der World Labs die Kreativen, schnell erkundbare 3D-Welten zu erstellen und zu verbessern, wodurch die Art der Geschichtenerzählung und der räumlichen Erzählung in Bereichen wie Film, Spiel, Architektur und industrieller Design verändert wird und neue immersive Interaktionserlebnisse entstehen.

Mittelfristig ist die Robotik die Kernpraxis für die Verleiblichung der räumlichen Intelligenz. In Bezug auf das zentrale Problem der Knappheit von Trainingsdaten für gegenwärtige Roboter ist Fei-Fei Li der Meinung, dass das Weltmodell durch die Generierung von hochwertigen simulierten Daten die Lerngrenzen der Roboter erheblich erweitern kann, die Lücke zwischen Simulation und Realität schnell schließen kann und die Roboter in einer riesigen Menge von Zuständen und Umgebungen lernen lassen kann, um so generalisierbare Verständnis-, Schlussfolgerungs- und Interaktionsfähigkeiten zu entwickeln.

Darauf aufbauend müssen Roboter, um echte Mensch-Maschine-Kooperationspartner zu werden, nicht nur über räumliche Intelligenz in Bezug auf Wahrnehmung, Planung und Handlung verfügen, sondern auch mit den Zielen und Verhaltensweisen der Menschen emphatisch übereinstimmen, um in Laboratorien, Haushalten und anderen Szenarien effektiv den Menschen zu helfen und gleichzeitig ihre Autonomie zu respektieren.

Außerdem hat Fei-Fei Li darauf hingewiesen, dass das Weltmodell die Roboter dazu befähigen wird, die menschliche Gestalt zu überwinden und sich in vielfältige Formen wie Nanoroboter und weiche Roboter zu entwickeln. Durch die integrierte Modellierung der Wahrnehmung, Bewegung und Umgebung der Roboter kann es die entscheidende Simulations- und Bewertungsunterstützung bieten und das volle Potenzial der Roboter in speziellen Szenarien freisetzen.

Aus langfristiger Perspektive wird der weitreichende Einfluss der räumlichen Intelligenz auf Schlüsselbereiche wie Wissenschaft, Gesundheitswesen und Bildung sich auswirken.

In der Wissenschaft kann es Experimente simulieren, Hypothes