StartseiteArtikel

Li Feifeis Gegenkonsens-Urteil: Große Sprachmodelle können nicht zum künstlichen allgemeinen Intelligenz (AGI) führen, sondern räumliche Intelligenz ist der beste Weg.

划重点2026-02-06 07:32
Sprache ist nicht das Ganze der Intelligenz, und sie ist nicht einmal das Fundament der Intelligenz.

Am 4. Februar hat Fei-Fei Li auf dem Cisco AI Summit als Gründerin von World Labs die technischen Details des ersten Raumintelligenzprodukts der Firma, Marble, enthüllt.

Als eine der Kernpioniere in der aktuellen Welle der generativen KI hat Fei-Fei Li nicht blindlings dem Hype um große Sprachmodelle gefolgt. Stattdessen hat sie erneut klare Gegenansichten vertreten: Ein reines großes Sprachmodell kann nicht zum AGI führen.

Nach Ansicht von Fei-Fei Li ist Sprache in der biologischen Evolutionsgeschichte erst ein Produkt der letzten 500.000 Jahre, während die Raumintelligenz, die durch Sehen und Fühlen repräsentiert wird, bereits vor 500 Millionen Jahren im Kambrium den Evolutionswettlauf des Nervensystems eingeleitet hat. Wenn KI die dreidimensionale physische Welt nicht verstehen und keine physische Intuition besitzen kann, bleibt sie für immer in den digitalen Pixeln gefangen.

Mit dieser Einschätzung versucht die von Fei-Fei Li gegründete World Labs, einen anderen Weg als OpenAI zu gehen: Durch die Schaffung eines Weltmodells mit physikalischer Konsistenz soll die KI in Bezug auf die Wahrnehmung aufgewertet werden.

Wir haben die wichtigsten Informationen dieses Interviews zusammengefasst. Hier sind die Schwerpunkte:

1. Der Streit um den Weg zum AGI: Sprache ist nicht das gesamte Wesen der Intelligenz, und sie ist nicht einmal die Grundlage der Intelligenz.

Fei-Fei Li hat den Entwicklungspfad der KI aus einer makroskopischen Perspektive der biologischen Evolution neu betrachtet: Sprache hat in der menschlichen Evolutionsgeschichte nur eine Geschichte von etwa 500.000 Jahren und ist somit ein sehr junges Produkt. Im Vergleich dazu haben Wahrnehmungsfähigkeiten wie Sehen und Fühlen bereits vor 500 Millionen Jahren im Kambrium den Evolutionswettlauf eingeleitet.

Die Schlussfolgerung lautet: Wenn KI nur über Sprachfähigkeiten verfügt, bleibt sie für immer in der digitalen Welt gefangen. Erst wenn die ältere und grundlegendere Raumintelligenz ergänzt wird und die Maschine die Fähigkeit erhält, die dreidimensionale physische Welt zu verstehen, daraus zu schließen und mit ihr zu interagieren, kann die KI wirklich auf dem Weg zum AGI sein.

2. Die Neudefinition des Weltmodells: Physikalische Konsistenz ist der Schlüssel.

Fei-Fei Li hat erklärt, dass Marble als ein fortschrittliches Raumintelligenzmodell multimodale Eingaben aufnehmen kann, sei es in Form von Sätzen, Bildern, Videos oder einfachen 3D-Eingaben, und diese Eingaben in eine vollständig navigierbare, interaktive und dauerhaft konsistente 3D-Welt umwandeln kann.

Im Gegensatz zu Videomodellen wie Sora, die auf visuelle Effekte setzen, hat die von Marble erzeugte Umgebung eine geometrische Struktur und physikalische Konsistenz. Dies bedeutet, dass nicht einfach nur eine Pixelanimation erzeugt wird, sondern ein virtueller Raum mit physikalischen Eigenschaften, in dem der Benutzer frei herumlaufen kann.

Marble wird derzeit in der Spieleentwicklung, in der Film- und Fernsehspezialeffekten (VFX), in der Robotertraining, in der Innenarchitektur und anderen Bereichen eingesetzt. Klinische Forscher verwenden Marble zur Behandlung von Zwangsstörungen, indem sie spezifische Auslöseumgebungen (z. B. ein unordentlicher Waschraum) generieren, um Expositionstherapie bei Patienten anzuwenden.

3. Mit der Reife der Synthetischen Datentechnologie steht das Weltmodell kurz vor einem Ausbruch wie beim Scaling Law der LLM.

Warum entwickelt sich die KI für die physische Welt langsamer als die Sprachmodelle? Der Kern des Problems liegt in dem Signal-Rausch-Verhältnis der Daten. Textdaten sind klar und semantisch eindeutig, während die Pixel und Voxel der physischen Welt voller Rauschen sind und schwer in großem Maßstab zu erhalten sind.

Um dieses Problem zu lösen, hat World Labs eine Hybrid-Datenstrategie verfolgt: Die bestehenden Texte, Bilder und Videos im Internet werden genutzt, synthetische Daten werden kombiniert, und Daten aus der realen Welt werden hinzugefügt.

Fei-Fei Li geht davon aus, dass mit der Reife der Synthetischen Datentechnologie das Gebiet der Weltmodelle kurz vor einem Ausbruch wie beim Scaling Law der LLM steht.

4. Der universelle Roboter ist die Krone der KI-Technologie, denn das Prinzip der autonomen Fahrzeuge und des universellen Roboters ist völlig entgegengesetzt.

Die Öffentlichkeit hält oft die autonome Fahrweise für die Krone der KI-Technologie, aber nach Ansicht von Fei-Fei Li hat der universelle Roboter eine viel höhere Dimension.

Die autonome Fahrweise basiert auf einer 2D-Logik: Ein Auto ist im Wesentlichen ein Quadrat, das sich auf einer zweidimensionalen Ebene bewegt. Seine Kernaufgabe ist es, Hindernisse zu vermeiden. Solange es keine Kollisionen hat, ist es erfolgreich.

Der universelle Roboter basiert auf einer 3D-Logik: Die Kernaufgabe des Roboters ist genau das Gegenteil, nämlich Kontakt aufzunehmen. Er muss in einem dreidimensionalen Raum präzise agieren, ohne die Gegenstände zu beschädigen.

5. Das Endziel der KI-Technologie ist es, die neue Elektrizität zu werden und eine Infrastruktur zu sein, die die Zivilisation stärkt.

Angesichts der gegenwärtigen polarisierten Debatten darüber, ob die KI die Menschheit vernichten oder eine technologische Utopie schaffen wird, zeigt Fei-Fei Li die Vorsicht eines Wissenschaftlers und menschliche Fürsorge.

Sie vergleicht die KI mit der Elektrizität vor mehr als einem Jahrhundert. Der Erfolg der Elektrizität lag nicht darin, ein riesiges Stromnetz aufzubauen, sondern darin, dass es die Lampen in Schulen anzündete, die Maschinen in Fabriken antrieb und die Lebenserwartung der Menschen verlängerte. Ebenso liegt der Erfolg der KI nicht darin, wie groß die Modellparameter sind, sondern darin, ob sie wie die Elektrizität eine Infrastruktur sein kann, die die Zivilisation stärkt und jedem Menschen Würde und Glück bringt.

Fei-Fei Li hat am Ende des Interviews angegeben, dass das Ziel von World Labs darin besteht, die Raumintelligenztechnologie tatsächlich in verschiedene Branchen wie Gesundheitswesen, Landwirtschaft und Fertigung einzubringen. Sie hofft, dass wir 2026 eine KI mit Raumintelligenz sehen können, die tatsächlich aus dem Bildschirm herauskommt und wunderbare Interaktionen mit der physischen Welt eingeht.

Im Folgenden ist die Transkription des Interviews mit Fei-Fei Li:

1. Raumintelligenz ist das nächste Vorzeigefeld der KI

Moderator: Ich bin froh, die Fortschritte von World Labs in den letzten Jahren miterlebt zu haben. Lassen Sie uns zunächst darüber sprechen, was Sie tun und warum es so wichtig ist.

Fei-Fei Li: Jeden Morgen wache ich mit nur einem Gedanken im Kopf auf, nämlich Raumintelligenz. Vor etwa zwei Jahren gründete ich gemeinsam mit einer Gruppe junger Technologen World Labs. Warum ist Raumintelligenz so wichtig? Ich denke, es ist das nächste Vorzeigefeld der KI. Wenn man die Entwicklung der Intelligenz aus einer evolutionären Perspektive betrachtet, geht diese Geschichte auf vor mehr als 500 Millionen Jahren zurück. Die Wahrnehmung, nicht die Sprache, hat zunächst den Evolutionswettlauf des Nervensystems eingeleitet. Im Vergleich dazu ist Sprache eine sehr neue Form der Intelligenz mit einer Geschichte von nur etwa 500.000 Jahren. Aber vor 1,5 Milliarden Jahren begannen die Tiere, Licht zu wahrnehmen und die Umgebung zu berühren, was zu Tastempfindungen, Sehvermögen, Instinkt und Wahrnehmung führte.

Das Wort "Instinkt" mag etwas vage sein, aber es ist unbestreitbar, dass es durch den physischen Kontakt mit der Welt über Tastempfindungen und Sehvermögen war, der die Entwicklung des Nervensystems in Gang setzte und den Wettrüsten der Tierentwicklung auslöste. Dies hat dazu geführt, dass die Organismen bei der Interaktion mit der Umwelt immer aktiver und immer intelligenter wurden. Was ich sagen will, ist, dass die Fähigkeit, in der realen dreidimensionalen und vierdimensionalen physischen Welt zu verstehen, daraus zu schließen, zu interagieren und zu navigieren, grundlegend ist und genauso wichtig wie die Sprachintelligenz. Diese Schlüsseltechnologie ist die Raumintelligenz. Das ist der Grund, warum ich denke, dass es das nächste Vorzeigefeld der KI ist und das, was World Labs seit langem zu schaffen versucht.

Moderator: Bitte erzählen Sie uns etwas über Marble, das kürzlich von Ihnen veröffentlichte Produkt. Was genau ist Marble?

Fei-Fei Li: Marble ist unser erstes Raumintelligenzmodell. Obwohl wir es oft einfach als Weltmodell bezeichnen, ist die Bezeichnung nicht so wichtig, da es derzeit viele Definitionen von Weltmodellen gibt. Im Wesentlichen ist es ein fortschrittliches Raumintelligenzmodell. Marble kann multimodale Eingaben aufnehmen, sei es in Form von Sätzen, Bildern, Videos oder einfachen 3D-Eingaben, und diese Eingaben in eine vollständig navigierbare, interaktive und dauerhaft konsistente 3D-Welt umwandeln. Dies unterscheidet sich stark von den derzeitigen Videomodellen. Die von Marble erzeugte Umgebung hat eine geometrische Struktur und unterstützt Operationen wie die Simulation von Roboterbewegungen oder das Schreiben von Spielcode.

Fei-Fei Li: Wir haben Marble vor etwa zwei Monaten veröffentlicht. Obwohl es noch in den Anfangsstufen ist und ein erstes Produkt ist, sind wir als führendes 3D-generatives Weltmodell sehr aufgeregt, diese Reise zu beginnen.

Moderator: Es gibt die Meinung, dass wir nur dann zum AGI gelangen können, wenn wir uns nicht nur auf Sprachmodelle verlassen, sondern auch unsere eigene Physik erweitern müssen. Sie sind offensichtlich von dieser Überzeugung überzeugt. Bitte sprechen Sie über diese Dimension. Was werden in den nächsten fünf Jahren die wichtigsten Durchbrüche sein? Welche Anwendungen können wir heute noch nicht vorstellen, außer der offensichtlichen Anwendung in der Robotik?

Fei-Fei Li: Man muss nicht einmal fünf Jahre warten. Unsere Benutzer und Kunden haben bereits mit frühen Versionen des Modells experimentiert. Wir sehen, dass Benutzer es zur Spieleentwicklung nutzen; Kunden aus der Branche der visuellen Effekte (VFX) verwenden es für kommerzielle virtuelle Produktionsszenarien; Partner wie große Unternehmen wie Nvidia, Start-ups und akademische Labore nutzen Marble als Trainingsumgebung für Roboter; Architekten und Designer verwenden es für die Innenarchitektur.

Wir haben auch einige unerwartete Anwendungen entdeckt. Beispielsweise haben klinische Forscher großes Interesse an Marble gezeigt. Viele psychiatrische und psychologische Studien und Interventionen erfordern immersive Umgebungen, die auf bestimmte Situationen zugeschnitten sein müssen. Nehmen wir die Zwangsstörung (OCD) als Beispiel. Patienten werden von sehr spezifischen Szenarien ausgelöst. Ich persönlich werde von einem Haufen dreckiger Kleidung gestört, aber jeder hat seine eigenen Auslöser. Forscher haben festgestellt, dass es sehr schwierig ist, physische Umgebungen aufzubauen, während Marble mit nur wenigen Eingaben in wenigen Minuten verschiedene Umgebungen generieren kann.

Außerdem wird es von einigen Menschen für Fitness-Training verwendet, wie z. B. für personalisierte Yoga-Umgebungen. Da Marble sich ständig verbessert und wir noch in der Anfangsphase sind, bin ich sicher, dass es in Zukunft immer mehr Anwendungen geben wird.

2. Der soziale Wert der KI

Moderator: Sie sind schon seit langem in der KI-Branche tätig.

Fei-Fei Li: Sie diskutieren diskret über mein Alter.

Moderator: Nein, ich meine, dass Sie nicht einfach jemand sind, der drei Jahre lang mit der Forschung beschäftigt war, sondern dass Sie Ihr ganzes Leben der KI gewidmet haben. Was hat Sie am meisten überrascht, als Sie diese Firma gegründet und die Raumintelligenz entwickelt haben?

Fei-Fei Li: Das ist eine gute Frage. Wie wir schon diskutiert haben, ist es auch in unserem Alter am wichtigsten, neugierig zu bleiben und zu lernen. Ich bin seit vielen Jahren in der KI-Branche tätig. Ursprünglich war ich von starker Neugier angetrieben. Ich wollte erkunden, was Intelligenz ist und wie man Maschinen intelligent machen kann. Damals war die KI ein wenig bekannter Bereich, und viele Menschen wussten nicht einmal, wie man "AI" schreibt. Es war eine sehr interessante Zeit. Aber in den letzten zehn Jahren hat sich alles verändert. Die KI ist für mich nicht mehr nur eine persönliche Leidenschaft, sondern auch eine zivilisatorische Aufgabe. Dies bringt mir als Pädagogin und Unternehmerin eine zusätzliche Verantwortung mit sich, nicht nur technisch beizutragen, sondern auch die gesunde Entwicklung der KI zu fördern.

Als Unternehmerin hat mich vor allem die Entwicklung der KI in den letzten Jahren überrascht. Unabhängig davon, wie ruhig wir uns außen verhalten, fühlen wir uns im Inneren oft besorgt, weil es so viele Artikel zu lesen, so viele Blogs, Nachrichten und Modellveröffentlichungen gibt. Diese Sorge ist ein Spiegelbild unserer Zeit, in der die Technologie uns mit einer erstaunlichen Geschwindigkeit voranbringt. Dies macht mich sowohl aufgeregt als auch besonnen. Wie Sokrates sagte: "Ich weiß nichts." Ich hoffe, dass niemand aufhört zu lernen und neugierig bleibt.

Ein weiteres überraschendes und sogar beunruhigendes Phänomen ist die polarisierte Debatte über die KI. Die Diskussionen im Internet sind oft schwarz-weiß: Entweder ist es eine völlige technologische Utopie, die die Tatsache ignoriert, dass Technologie ein Doppelscharfes Schwert ist, oder es ist eine Apokalypse, als ob die Menschheit ständig in einer Existenzkrise stehe. Für eine Technologie, die so tiefgreifend für die menschliche Zivilisation ist, ist diese Art der Diskussion unverantwortlich. Die Initiative liegt in den Händen jedes Unternehmers, Produktmanagers, Ingenieurs und Bürgers. Wir müssen die Fähigkeit haben, die Entwicklung der Technologie zu lenken. Ich hoffe wirklich, dass wir in Richtung 2026 und darüber hinaus die KI objektiv, feinfühlig und mit Menschlichkeit betrachten können, uns optimistisch bleiben und die Verantwortung übernehmen, anstatt extreme Äußerungen zu machen, um Aufmerksamkeit zu erregen.

Moderator: Was würde für Sie in den nächsten Jahren als Erfolg der KI gelten? Ich mag Ihre Beschreibung der polarisierten Ansichten sehr: Entweder verschwinden alle Jobs und man starrt aufs Meer, oder die Technologie ist völlig nutzlos.

Fei-Fei Li: Wenn wir die Zeit um mehr als ein Jahrhundert zurückdrehen und uns vorstellen, wie die Menschen damals den Erfolg der Elektrizität definiert hätten. Es ist schwer vorstellbar, dass wir damals die heutige Welt vorausgesehen hätten. Aber ich hoffe, dass das damalige Ziel war, dass Schulen hell erleuchtet seien, Häuser warm seien, Maschinen angetrieben würden, um die Industrialisierung zu ermöglichen und die Lebenserwartung der Menschen zu verlängern, damit mehr Kinder Bildung erhalten können. Das ist der Sinn der Technologie und der KI, ein dauerhafter Wert. Der Erfolg sollte