StartseiteArtikel

Sind LLMs nur "Schriftkünstler im Dunkeln"? Fei-Fei Li: Das nächste Schlachtfeld der KI ist "räumliche Intelligenz"

36氪的朋友们2025-11-11 18:19
Feifei Li: Das nächste Schlachtfeld der KI ist die räumliche Intelligenz, die die Entwicklung von Weltmodellen vorantreiben wird.

Am 10. November Ortszeit in den Vereinigten Staaten hat Fei-Fei Li, die sogenannte "Mutter der KI", selbst einen Artikel verfasst, in dem sie feststellt, dass das nächste Schlachtfeld für generative Künstliche Intelligenz die "räumliche Intelligenz" (Spatial Intelligence) sei. Sie hat erstmals systematisch erklärt, was räumliche Intelligenz ist, warum sie so wichtig ist und wie man ein Weltmodell aufbauen kann, das diese räumliche Intelligenz freisetzt.

Fei-Fei Li hat treffend auf die "tödlichen Mängel" der gegenwärtigen KI hingewiesen: Sie seien nur "Schriftkünstler im Dunkeln", die nur Sprache verstehen, aber nicht die Welt. Die gegenwärtige KI verfügt über eine riesige Menge an abstrakten Kenntnissen, weiß aber nahezu nichts über Alltagswissen und räumliche Regeln der physischen Welt, wie etwa "Wie sieht ein Gegenstand aus?", "Mit wie viel Kraft wird eine Tasse umgestoßen?" oder "Wird man beim Abbiegen an einer Wand anstoßen?"

Diese Mängel blockieren direkt die "Hauptarterie" für die Weiterentwicklung der KI! Dies ist auch der Grund, warum sich autonome Roboter noch wie lernende Gehkindchen verhalten und warum die von uns gewünschten immersiven Metaverse-Erlebnisse noch weit entfernt sind.

Professorin Fei-Fei Li hat eine Warnung ausgesprochen: Der wahre Durchbruch für die KI in den nächsten zehn Jahren liegt nicht mehr im Anhäufen von Wörtern, sondern in der Freisetzung der "räumlichen Intelligenz"! Dies ist die ultimative Fähigkeit, die Wahrnehmung, Vorstellungskraft und Handeln verbindet.

Nach der Veröffentlichung von Fei-Fei Lis Artikel hat es sofort auf sozialen Plattformen für heftige Debatten gesorgt:

Ich freue mich sehr darauf, zu sehen, wie das Weltmodell unsere Art und Weise, Geschichten zu erzählen, virtuelle Welten zu erschaffen und sogar die digitale Wirtschaft zu entwickeln, verändern wird.

Die KI hat bereits gelernt zu "sehen" und zu "sagen", und im nächsten Schritt lernen wir sie, die reale Welt, in der wir leben, zu verstehen und sich an sie anzupassen.

Räumliche Intelligenz ist der fehlende Teil im Weltmodell. Sie wird die Fähigkeiten von Large Language Models (LLMs) um ein Vielfaches steigern. Sobald die Fähigkeiten der kausalen Inferenz und die Energieeffizienz das erforderliche Niveau erreichen, befinden wir uns am Wendepunkt auf dem Weg zur Künstlichen Allgemeinintelligenz (AGI).

Im Folgenden der vollständige Artikel von Fei-Fei Li:

Von Wörtern zur Welt: Räumliche Intelligenz ist die nächste Frontiers der KI

Im Jahr 1950, als Computer noch nur automatisierte arithmetische und einfache logische Operationen ausführen konnten, stellte Alan Turing eine Frage, die bis heute die Zeit herausfordert: Können Maschinen denken?

Um seine damalige Voraussicht zu verstehen, bedarf es einer außergewöhnlichen Vorstellungskraft: Intelligenz wird vielleicht schließlich vom Menschen geschaffen, nicht von oben herabgeschenkt. Diese Erkenntnis hat später die kontinuierliche Erforschung namens "Künstliche Intelligenz" angestoßen. Fünfundzwanzig Jahre nach meinem Eintritt in die KI-Forschung motiviert mich Turings Vision immer noch. Aber wie weit sind wir von unserem Ziel entfernt? Die Antwort ist nicht einfach.

Heute beginnen Spitzen-KI-Technologien, wie etwa Large Language Models (LLMs), unsere Art und Weise, abstrakte Kenntnisse zu erwerben und anzuwenden, zu verändern. Dennoch sind sie letztendlich wie "Schriftkünstler im Dunkeln", mit prachtvollen Worten, aber ohne Erfahrung, und mit umfangreichen Kenntnissen, aber abgekoppelt von der Realität. Räumliche Intelligenz wird unsere Art und Weise, die reale Welt und virtuelle Welten zu erschaffen, neu gestalten und revolutionäre Fortschritte in Bereichen wie der Erzählkunst, der kreativen Industrie, der Robotik und der wissenschaftlichen Erforschung vorantreiben. Dies ist die neue Frontiers, die die KI noch zu erschließen hat.

Seit ich in diesem Bereich tätig bin, war die Suche nach visueller und räumlicher Intelligenz immer mein Kompass. Aus diesem Grund habe ich über mehrere Jahre hinweg ImageNet aufgebaut, das erste umfangreiche Datensatz für visuelles Lernen und Benchmarking. Zusammen mit neuronalen Netzwerkalgorithmen und moderner Rechenleistung wie GPUs bilden sie die drei Säulen für die Entstehung der modernen KI.

Aus diesem Grund hat mein Labor an der Stanford University in den letzten zehn Jahren ständig daran gearbeitet, Computervision und Robotik zu integrieren. Und aus diesem Grund habe ich gemeinsam mit Justin Johnson, Christoph Lassner und Ben Mildenhall World Labs gegründet, in der Hoffnung, diese Vision erstmals vollständig umzusetzen.

In diesem Artikel wird der Inhalt und der Wert der räumlichen Intelligenz erläutert, und gezeigt, wie wir durch das Aufbauen eines Weltmodells ihr Potenzial freisetzen können. Diese Veränderung wird die Kreativität, die eingebaute Intelligenz und sogar den Verlauf der menschlichen Zivilisation neu gestalten.

Räumliche Intelligenz: Die Grundlage menschlicher Kognition

Die KI hat nie zuvor so aufregend sein können wie heute. Generative KI, repräsentiert durch Large Language Models, ist aus dem Labor in den Alltag gelangt und wird von Milliarden Menschen als Werkzeug für Schaffensarbeit, Produktion und Kommunikation genutzt. Sie zeigen Fähigkeiten, die früher kaum vorstellbar waren: flüssiges Schreiben, Massencodierung, Erzeugung von realistischen Bildern und sogar Kurzfilmen. Ob die KI die Welt verändern kann, ist nicht mehr strittig; nach jeder vernünftigen Definition hat die Veränderung bereits begonnen.

Dennoch stehen uns immer noch unzählige Herausforderungen entgegen. Die Vision von autonomen Robotern bleibt noch immer auf der Konzeptstufe und ist weit davon entfernt, zur alltäglichen Realität zu werden, wie es von Zukunftsforschern vorhergesagt wurde. Die Träume von einer Beschleunigung der Forschung in Bereichen wie der Krankheitsbehandlung, der Entdeckung neuer Materialien und der Teilchenphysik sind größtenteils noch nicht erfüllt. Eine KI, die wirklich Menschen schaffenden Fähigkeiten verstehen und unterstützen kann, wie etwa Studenten, die Molekülchemie lernen, Designer, die Räume planen, Filmemacher, die Welten erschaffen, oder normale Menschen, die nach immersiven Erfahrungen suchen, ist immer noch weit entfernt.

Um zu verstehen, warum diese Fähigkeiten so schwer zu erreichen sind, müssen wir uns die Entwicklung der räumlichen Intelligenz ansehen und betrachten, wie sie unsere Wahrnehmung der Welt geprägt hat.

Das Sehen wird seit langem als die Grundlage menschlicher Intelligenz angesehen, aber seine Stärke stammt aus einer noch grundlegenderen Quelle. Lange bevor Tiere Nester bauen, Nachwuchs erzogen, sich mit Sprache kommunizieren oder Zivilisationen gründen konnten, hat einfache Wahrnehmungsfähigkeit bereits den Funken der Intelligenzentwicklung entfacht.

Diese Fähigkeit, Informationen aus der Umgebung zu erhalten, sei es das Fangen eines Lichtstrahls oder das Wahrnehmen der Textur eines Gegenstands, hat eine Brücke zwischen Wahrnehmung und Überleben geschlagen. Mit der Zeit ist diese Brücke immer stärker und komplexer geworden. Schichten von Neuronen sind daraus gewachsen, die ein Nervensystem bilden, das die Welt interpretieren und die Interaktion zwischen Lebewesen und Umgebung koordinieren kann. Viele Wissenschaftler vermuten daher, dass der Kreislauf von Wahrnehmung und Handlung die Entwicklung der Intelligenz antreibt und auch die grundlegende Grundlage ist, auf der die Natur den Menschen – ein Wesen, das über Wahrnehmung, Lernen, Denken und Handlungsfähigkeit verfügt – geformt hat.

Räumliche Intelligenz definiert unsere Interaktion mit der physischen Welt. Im Alltag nutzen wir sie, um die gewöhnlichsten Handlungen auszuführen: Wir parken unser Auto, indem wir uns den Abstand zwischen Stoßstange und Bordstein vorstellen; wir fangen ein geworfenes Schlüsselbund; wir bewegen uns mühelos durch eine überfüllte Straße; oder wir gießen im halbschlafenden Zustand genau Kaffee in eine Tasse. In extremen Situationen können Feuerwehrleute in einem verrauchten, zusammengebrochenen Gebäude navigieren, die Stabilität der Struktur intuitiv beurteilen und sich durch Gesten, Körpersprache und professionelles Instinkt kommunizieren, was nicht durch Sprache ersetzt werden kann. Kleinkinder lernen die Welt kennen, bevor sie sprechen können, indem sie mit ihrer Umgebung interagieren. All dies geschieht ganz natürlich, und diese flüssige Fähigkeit ist noch etwas, das Maschinen nicht beherrschen.

Räumliche Intelligenz ist auch die Grundlage für Vorstellungskraft und Kreativität. Von prähistorischen Felszeichnungen über moderne Audio- und Videomaterialien bis hin zu immersiven Spielen erschaffen Künstler einzigartige Welten in ihrem Kopf und präsentieren sie dann mithilfe visueller Medien. Ob Kinder Sandburgen bauen oder "Minecraft" spielen, die raumbezogene Vorstellungskraft bildet die Grundlage für die Interaktion zwischen realer und virtueller Welt. In der Industrie treibt die Simulation von Gegenständen, Szenen und dynamischen Umgebungen Schlüsselanwendungen von der industriellen Gestaltung über digitale Zwillinge bis hin zur Robotertraining an.

An entscheidenden Momenten in der Geschichte der Menschheit war immer die räumliche Intelligenz beteiligt: Eratosthenes aus Griechenland hat Schatten in geometrische Messungen umgewandelt und den Erdumfang anhand des Sonnenwinkels zwischen Alexandria und Syene berechnet; James Hargreaves hat die "Spinnjenny" erfunden, die durch die räumliche Anordnung von Spindeln die Arbeitseffizienz eines einzelnen Arbeiters um das Achtfache gesteigert und die Textilindustrie revolutioniert; James Watson und Francis Crick haben durch das Manipulieren von dreidimensionalen Molekülmodellen die räumliche Anordnung von Basenpaaren aufgedeckt und damit das Geheimnis der DNA-Struktur gelüftet. Diese Durchbrüche zeigen, dass, wenn es darum geht, Gegenstände zu manipulieren, Strukturen zu visualisieren und räumliche Beziehungen zu erschließen, dies nicht nur mit Worten möglich ist, sondern dass räumliche Intelligenz den Fortschritt der Zivilisation antreibt.

Räumliche Intelligenz ist das unsichtbare Gerüst, das unsere menschliche Kognition stützt. Ob wir passiv beobachten oder aktiv schaffen, arbeitet sie stumm im Hintergrund. Selbst wenn wir die abstraktesten Themen behandeln, treibt sie unser Denken und Planen an. Sie ist unerlässlich, sei es in der sprachlichen Kommunikation, der physischen Interaktion oder der Interaktion mit der Umgebung. Auch wenn der Durchschnittliche nicht in der Lage ist, wie Eratosthenes die Geheimnisse des Universums aufzudecken, denkt er dennoch auf die gleiche Weise: Er nimmt die komplexe Welt mit seinen Sinnen wahr und versteht die Realität anhand seiner Intuition über die Funktionsweise der physischen Welt. Leider ist die gegenwärtige KI noch nicht in der Lage, so zu denken.

In den letzten Jahren wurden zwar bemerkenswerte Fortschritte erzielt. Multimodale Large Models, die mit einer riesigen Menge an Multimedia-Daten trainiert wurden, verfügen über eine grundlegende räumliche Wahrnehmung und können Bilder analysieren, Fragen beantworten und hyperrealistische Bilder und Kurzfilme generieren. Mit Hilfe von Sensoren und taktilen Technologien können die fortschrittlichsten Roboter in eingeschränkten Umgebungen Werkzeuge bedienen.

Ehrlich gesagt ist die räumliche Fähigkeit der KI jedoch immer noch weit hinter der menschlichen Fähigkeit zurück. Die Einschränkungen sind offensichtlich: Spitzenmultimodale Modelle schneiden bei der Schätzung von Entfernungen, Richtungen, Größen oder der "geistigen Drehung" von Gegenständen fast so schlecht ab wie zufällige Vermutungen. Sie können nicht durch ein Labyrinth navigieren, Kurzzustände erkennen oder einfache physikalische Phänomene vorhersagen. KI-generierte Videos verlieren oft bereits nach wenigen Sekunden ihre Kohärenz.

Die gegenwärtig erfolgreichen KI-Systeme zeichnen sich durch hervorragende Leistung bei Lesen, Schreiben, Forschung und Mustererkennung in Daten aus. Dennoch haben diese Modelle grundlegende Mängel, wenn es darum geht, die physische Welt zu repräsentieren oder mit der Realität zu interagieren. Die menschliche Wahrnehmung der Welt ist ganzheitlich; wir achten nicht nur auf das, was wir sehen, sondern verstehen auch die räumlichen Beziehungen, die innere Bedeutung und den Wert der Dinge. Die Welt zu verstehen, indem wir uns vorstellen, schließen, schaffen und interagieren (nicht nur beschreiben), ist das Wesen der räumlichen Intelligenz. Ohne diese Fähigkeit ist die KI von der physischen Realität, die sie verstehen will, getrennt und kann Aufgaben wie das Fahren eines Autos, die Leitung eines haushaltsnahen medizinischen Roboters, die Schaffung neuer immersiver Lern- und Unterhaltungs-Erlebnisse oder die Beschleunigung der Materialwissenschaft und der medizinischen Erforschung nicht bewältigen.

Der Philosoph Ludwig Wittgenstein hat einmal gesagt: "Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt." Ich bin zwar kein Philosoph, aber ich weiß, dass für die KI die Welt nicht nur aus Wörtern besteht. Räumliche Intelligenz repräsentiert eine neue Frontiers jenseits der Sprache. Diese Fähigkeit, Vorstellungskraft, Wahrnehmung und Handlung zu verbinden, wird für Maschinen unendliche Möglichkeiten eröffnen, um das menschliche Leben wirklich zu bereichern.

Die nächsten zehn Jahre für die KI: Das Bauen von Maschinen mit echter räumlicher Intelligenz

Wie können wir eine KI mit räumlicher Intelligenz bauen? Welcher Weg führt uns dahin, dass Maschinen wie Eratosthenes die Zeit und den Raum verstehen, wie ein Industriedesigner präzise planen, wie ein Geschichtenerzähler frei schaffen und wie ein Rettungssanitäter flexibel reagieren können?

Um räumliche Intelligenz zu erreichen, bedarf es eines noch größeren Konzepts als Large Language Models: Weltmodel