Li Feifeis Artikel mit zehntausenden von Wörtern hat die Runde gemacht und definiert das nächste Jahrzehnt der KI.
Die nächste Frontiere der KI ist die „räumliche Intelligenz“.
Es handelt sich um eine Technologie, die es ermöglicht, dass „Sehen“ sich zu „Schlussfolgern“ steigert, „Wahrnehmen“ sich zu „Handeln“ verwandelt und „Vorstellen“ in „Schaffen“ umgesetzt wird.
Aber was genau ist die „räumliche Intelligenz“? Warum ist sie so wichtig? Wie lässt sie sich aufbauen? Und wie lässt sie sich anwenden?
Heute hat Fei-Fei Li einen Artikel mit zehntausend Wörtern geschrieben, in dem sie ihre Überlegungen zur Schaffung und Nutzung eines „Weltmodells“ zur Freischaltung der räumlichen Intelligenz teilt.
In ihrem neuen Artikel skizziert sie einen Rahmen für die Ziele, die ein wirklich räumlich intelligentes „Weltmodell“ erreichen muss.
Konkret müssen für die Schaffung einer solchen KI drei Kernfähigkeiten vorhanden sein:
Die KI muss die Vorstellungskraft eines Geschichtenerzählers haben, um zu schaffen,
die Schnelligkeit eines Rettungssanitärers haben, um sich zu navigieren,
und die Genauigkeit eines Wissenschaftlers haben, um räumlich zu schließen.
Fei-Fei Li und LeCun sind sich einig, dass das „Weltmodell“ der Schlüssel zur Freischaltung der räumlichen Intelligenz ist.
Es muss in der Lage sein, Welten zu generieren, die den physikalischen Gesetzen folgen und räumlich konsistent sind, multimodale Eingaben von Bildern bis hin zu Aktionen verarbeiten zu können und vorherzusagen, wie sich diese Welten entwickeln oder wie man mit ihnen interagieren kann.
Das Anwendungsgebiet der räumlichen Intelligenz entwickelt sich entlang eines klaren Pfads.
Zurzeit verleiht es Kreativität. Das World Labs Marble-Projekt hat diese Fähigkeiten bereits in die Hände von Künstlern und Geschichtenerzählern gelegt.
Als nächstes wird es die physische Welt beherrschen, und Roboter werden die Schleife zwischen Wahrnehmung und Handlung schließen.
Die umfassendsten wissenschaftlichen Anwendungen erfordern zwar mehr Zeit, aber sie haben das Potenzial, die menschliche Wohlergehen nachhaltig zu verbessern.
Der Philosoph Ludwig Wittgenstein schrieb einst: „Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt.“
Fei-Fei Li sagt: „Ich bin kein Philosoph, aber ich weiß, dass zumindest für die KI die Welt weit über Worte hinausgeht.“
Die räumliche Intelligenz repräsentiert die Frontiere jenseits der Sprache – es ist eine Fähigkeit, die Vorstellungskraft, Wahrnehmung und Handlung miteinander verbindet und für Maschinen unendliche Möglichkeiten eröffnet, das menschliche Leben tatsächlich zu verbessern, von der Gesundheitsversorgung bis hin zur Kreativität, von der wissenschaftlichen Erforschung bis hin zur alltäglichen Unterstützung.
Viele Internetnutzer haben kommentiert, dass dies ein sehr wichtiger Artikel von Fei-Fei Li ist und ein Muss-Lesen für die räumliche Intelligenz!
Hier ist die vollständige Übersetzung des Artikels. Lassen Sie uns es gemeinsam lesen.
Von der Sprache zur Welt: Räumliche Intelligenz ist die nächste Frontiere der KI
1950, als das Rechnen noch Synonym für automatisierte Arithmetik und einfache Logik war, stellte Alan Turing eine Frage, die bis heute noch in die Welt hallt: Können Maschinen denken? Es brauchte eine außergewöhnliche Vorstellungskraft, um alles zu erfassen, was er vorhersah: Eines Tages könnte Intelligenz künstlich geschaffen werden, anstatt von Natur aus vorhanden zu sein.
Diese Erkenntnis hat später eine unermüdliche wissenschaftliche Erforschung namens „Künstliche Intelligenz“ (KI) in Gang gesetzt.
In meinem 25. Jahr in der KI-Branche motiviert mich Turings Voraussicht immer noch. Aber wie nah sind wir an diesem Ziel? Die Antwort ist nicht einfach.
Heute beginnen Spitzen-KI-Technologien, wie die großen Sprachmodelle (LLM), die Art und Weise zu verändern, wie wir abstraktes Wissen erwerben und anwenden.
Dennoch sind sie immer noch Meister der Worte im Dunkeln; sie können eloquent sprechen, aber haben wenig Erfahrung, und sie sind wissensreich, aber entkoppelt von der Realität.
Die räumliche Intelligenz wird die Art und Weise verändern, wie wir schaffen und mit der realen und virtuellen Welt interagieren – sie wird revolutionäre Veränderungen in Bereichen wie Geschichtenerzählung, Kreativität, Robotik und wissenschaftlicher Entdeckung bringen. Dies ist die nächste Frontiere der KI.
Die Verfolgung der visuellen und räumlichen Intelligenz war seit meinem Eintritt in dieses Gebiet wie der Polstern für mich.
Deshalb habe ich über Jahre hinweg ImageNet aufgebaut – das erste Datenset für maschinelles Lernen und Benchmarking auf Sichtbasis. Zusammen mit neuronalen Netzalgorithmen und Grafikprozessoren (GPU) und anderen modernen Rechengeräten ist es einer der drei Schlüsselfaktoren für die Entstehung der modernen KI.
Deshalb hat mein akademisches Labor an der Stanford University in den letzten zehn Jahren immer darauf geachtet, Computervision und Robotik zu verbinden.
Und deshalb gründete ich vor über einem Jahr zusammen mit meinen Mitbegründern Justin Johnson, Christoph Lassner und Ben Mildenhall World Labs: um diese Möglichkeit erstmals wirklich umzusetzen.
Das Gründerteam von World Labs, von links nach rechts: Ben Mildenhall, Justin Johnson, Christoph Lassner und Fei-Fei Li
In diesem Artikel werde ich erklären, was räumliche Intelligenz ist, warum sie wichtig ist und wie wir ein „Weltmodell“ erstellen können, das sie freischaltet – dessen weitreichende Auswirkungen Kreativität, körperliche Intelligenz und menschlichen Fortschritt neu gestalten werden.
Räumliche Intelligenz: Das Fundament menschlicher Kognition
Die Entwicklung der Künstlichen Intelligenz war noch nie so aufregend wie heute. Generative KI-Systeme wie die großen Sprachmodelle haben den Laborbetrieb verlassen und sind in den Alltag von Milliarden Menschen eingezogen, wo sie als Werkzeuge für Kreativität, Produktivität und Kommunikation dienen.
Sie haben Fähigkeiten gezeigt, die einst als unerreichbar galten. Sie können mühelos kohärenten Text, gigantische Mengen an Code, realistische Bilder und sogar kurze Videoclips generieren. Es ist kein Zweifel mehr, dass die KI die Welt verändern wird.
Nach jedem vernünftigen Maßstab hat sie dies bereits getan.
Dennoch gibt es noch viele Bereiche, in denen wir an unseren Grenzen stoßen. Die Vision autonomer Roboter ist zwar faszinierend, aber sie bleibt noch immer auf der theoretischen Ebene und ist weit davon entfernt, ein alltägliches Muss zu werden, wie es die Zukunftsforscher seit langem versprochen haben.
Die Träume von einem großen Durchbruch in der Krankheitsbehandlung, der Entdeckung neuer Materialien und der Teilchenphysik bleiben größtenteils unerfüllt.
Und das Versprechen der KI, menschliche Kreativität wirklich zu verstehen und zu fördern – ob es sich um das Verständnis komplexer Konzepte der Molekülchemie durch Schüler, die Vorstellung von Räumen durch Architekten, die Schaffung von Welten durch Filmemacher oder die Unterstützung von Menschen handelt, die ein vollständig immersives virtuelles Erlebnis suchen – bleibt immer noch weit entfernt.
Um zu verstehen, warum diese Fähigkeiten noch immer schwer zu erreichen sind, müssen wir uns die Entwicklung der räumlichen Intelligenz ansehen und wie sie unsere Wahrnehmung der Welt formt.
Das Sehen war seit jeher das Fundament menschlicher Intelligenz, aber seine Stärke beruht auf einer noch grundlegenderen Fähigkeit. Lange bevor Tiere lernten, Nester zu bauen, ihre Jungen zu füttern, sich mit Sprache zu kommunizieren oder Zivilisationen zu gründen, hatte das einfache Handeln der Wahrnehmung bereits den evolutionären Funken für die Intelligenz entfacht.
Diese scheinbar isolierte Fähigkeit, Informationen aus der Außenwelt (ob es sich um ein winziges Licht oder ein leises Gefühl handelt) zu sammeln, hat eine Brücke zwischen Wahrnehmung und Überleben geschlagen und sich über Generationen hinweg immer stärker und raffinierter entwickelt. Schichten von Neuronen sind von dieser Brücke ausgegangen und haben ein Nervensystem gebildet, das in der Lage ist, die Welt zu interpretieren und die Interaktion zwischen Organismus und Umwelt zu koordinieren.
Deshalb folgern viele Wissenschaftler, dass der Zyklus von Wahrnehmung und Handlung der Kernmotor für die Evolution der Intelligenz wurde und auch die Grundlage dafür ist, dass die Natur uns Menschen – das ultimative Geschöpf, das Wahrnehmen, Lernen, Denken und Handeln in sich vereint – geschaffen hat.
Die räumliche Intelligenz spielt eine entscheidende Rolle bei der Definition unserer Interaktion mit der physischen Welt.
Jeden Tag verlassen wir uns darauf, um die alltäglichsten Handlungen auszuführen: Wir parken unser Auto, indem wir uns den immer kleiner werdenden Abstand zwischen Stoßstange und Bordstein vorstellen, fangen einen Bündel Schlüssel, der über den Raum geworfen wird, gehen durch einen überfüllten Bürgersteig, ohne zu kollidieren, oder gießen Kaffee in eine Tasse, ohne einen Blick hinzuerwerfen, wenn wir noch müde von Schlaf sind.
In extremeren Situationen navigieren Feuerwehrleute in einem brennenden, wackeligen Gebäude, treffen sofortige Entscheidungen über die Stabilität der Struktur und ihr eigenes Überleben und kommunizieren über Gesten, Körpersprache und eine unverzichtbare berufliche Intuition.
Und Kleinkinder lernen die Welt kennen, indem sie mit ihrer Umgebung spielen, lange bevor sie sprechen können. All dies geschieht so intuitiv und natürlich – etwas, das Maschinen noch nicht einmal annähernd erreichen können.
Die räumliche Intelligenz ist auch das Fundament unserer