Von Spülkraft zur "Künstlichen-Intelligenz-Mutter": Vorhersagen für die nächsten zehn Jahre!

Woher stammt und wie hat sich der für Fei-Fei Li entscheidende "Nordstern" der Raumintelligenz entwickelt?

Als die „Mutter der Künstlichen Intelligenz“ wird jede Einschätzung von Fei-Fei Li über die KI zu einem wichtigen Leitfaden für die globale Technologiebranche. Ende 2025 veröffentlichte Fei-Fei Li einen Artikel mit mehr als zehntausend Wörtern, der erneut heftige Debatten in Silicon Valley auslöste.

Sie ist überzeugt, dass die nächste Dekade der KI von der „räumlichen Intelligenz“ geprägt sein wird. Wenn die KI nicht in der Lage ist, die Tiefe, den Abstand, die Verdeckung und die Schwerkraft von Objekten zu verstehen, kann sie niemals wirklich „eingebettet“ sein. Sie sagte, dass Sprache ein Werkzeug zur Beschreibung der Welt ist, aber nicht die Welt selbst.

Am 6. Januar stand Fei-Fei Li auf der Bühne der CES 2026 und betonte erneut die Beschränkung, dass „große Sprachmodelle letztendlich an die Sprache selbst gebunden sind“.

„Eine Fliege hat keine Billionen von Parametern, kann aber in einem ungeordneten Raum rasch Hindernisse ausweichen und präzise landen.“ Über die räumliche Intelligenz kursiert im Internet ein solcher beliebter Spruch. Am Ende des von Fei-Fei Li veröffentlichten Artikels mit mehr als zehntausend Wörtern steht: „Ohne räumliche Intelligenz wird unser Traum von einem wirklich intelligenten Maschinen nie vollständig sein. Diese Erkundung ist mein Polstern.“

Dieser Stern hat für Fei-Fei Li eine besondere Bedeutung. Es war ihre Einsicht in die natürliche Welt während einer Wanderung im Freien, als sie noch Teenagerin war. Während ihrer Promotion an der California Institute of Technology begann sie, von der kognitiven Neurowissenschaft inspiriert, an der Entwicklung von Methoden zur Lehre von Computern, Objekte zu erkennen, zu arbeiten. Später gründete sie das ImageNet-Datenset, das den Sprungfortschritt im Bereich des maschinellen Sehens vorantrieb, und diese Inspiration gewann sie aus dem Kambrium-Explosion und der Entstehung des biologischen Sehens.

Ende 2025 veröffentlichte das von Fei-Fei Li gegründete World Labs das erste kommerzielle „Weltmodell“ namens Marble. Das Labor wurde Anfang 2024 gegründet und trat im September offiziell auf. Es hat über 230 Millionen US-Dollar an Kapital beschafft und hat einen Schätzwert von über einer Milliarde US-Dollar.

Heute, im Alter von 50 Jahren, hat Fei-Fei Li bereits über zwei Jahrzehnte lang in der Künstlichen Intelligenz geforscht. Die Erkundung der räumlichen Intelligenz ist ihr neues „Polstern“. Wenn man jedoch ihre Entwicklung nachvollzieht, von der Computergrafik, dem ImageNet-Datenset bis zur eingebetteten Intelligenz, kann man verstehen, warum sie sich so fest für die räumliche Intelligenz einsetzt.

Im April 2024 erschien in China Fei-Fei Lis erstes Autobiografieband „Die Welt, die ich sehe“. Dieses Buch ist ein von ihr persönlich mitgestaltetes und bisher vollständigstes Dokument ihrer Gedanken und ihres Lebenslaufs. Es beschreibt detailliert die schwierigen Zeiten, in denen sie als Teenagerin in den USA als Spülkraft arbeitete, sowie ihre Euphorie, als sie zum ersten Mal in die Welt der Wissenschaft trat.

Noch wichtiger ist, dass Fei-Fei Lis Berufsleben die gesamte Entwicklung der KI von der Laborphase bis zum industriellen Aufbruch begleitet hat. Daher kann man dieses Buch als eine Geschichte der Künstlichen Intelligenz betrachten. Wir haben das Buch „Die Welt, die ich sehe“ zerlegt. Es besteht aus 12 Kapiteln. Nachdem Sie diesen Artikel gelesen haben, werden Sie aus Fei-Fei Lis Perspektive folgendes sehen:

1. Wie war die Umwelt, in der diese legendäre Wissenschaftlerin aufwuchs? Was half ihr, aus der schwierigen Situation herauszukommen?

2. Wie hat Fei-Fei Li in der Wissenschaft des maschinellen Sehens die Lücken in der Branche entdeckt und wie hat sie sie gelöst?

3. Wie wurde ImageNet aufgebaut und wie hat es die Künstliche Intelligenz in Gang gesetzt?

4. Was hat Fei-Fei Li auf ihrem Weg von der Wissenschaft zur Industrie erlebt und wie hat sie die Anpassungsprobleme bewältigt?

5. Woher stammt das für Fei-Fei Li so wichtige „Polstern“ der räumlichen Intelligenz und wie hat es sich entwickelt?

6. Warum definiert Fei-Fei Li die nächste Ära der KI als die Ära der „räumlichen Intelligenz“ und wann stammt diese Einschätzung?

Schwierige Familienverhältnisse, die den puresten Glauben begründeten

Fei-Fei Li wurde in Peking geboren und in Chengdu aufgewachsen. Sie war von klein auf der Physik verbunden und verbrachte fast alle ihre Freizeit mit der Erforschung und dem Lernen der Physik. Doch diese Leidenschaft musste sie 1992, im Alter von 16 Jahren, vorübergehend aufgeben.

1992 kam Fei-Fei Li mit ihren Eltern in die USA, um zu leben. Als das Flugzeug landete, waren die 20 Dollar in ihrer Mütters Tasche das gesamte Vermögen der Familie. Zu dieser Zeit war der künftige Chefwissenschaftler von Facebooks KI, Yann LeCun, gerade erst mit seiner Promotion in Holmdel, New Jersey, begonnen, und die Anwendungsforschung des „Neuralen Netzwerks“ befand sich noch in den Kinderschuhen. All das hatte jedoch nichts mit Fei-Fei Li zu tun. Ihre Familie musste sich zunächst um die Grundbedürfnisse der Kommunikation und der Nahrung bemühen.

Die Familie von drei lebte in einer kleinen Ein-Zimmer-Wohnung. Fei-Fei Lis Schlafzimmer war ein Gang in der Küche. Ihr Vater arbeitete als Kamerareparateur, ihre Mutter als Kassenärztin in einem Supermarkt. Nach der Schule arbeitete Fei-Fei Li in einem chinesischen Restaurant. Mit einem Stundenlohn von 2 Dollar war ihr Arbeitsumfang sehr vielfältig: Spülen, Möppen, Fensterputzen, Bestellungen aufnehmen und servieren. Zu dieser Zeit sagte Fei-Fei Li am häufigsten das Wort „Sorry“. Tagsüber entschuldigte sie sich, dass sie die Englischreden ihrer Lehrer und Klassenkameraden nicht verstand, und abends senkte sie den Kopf, wenn sie die Bestellungen der Gäste nicht verstehen konnte.

Mit nur zwei Jahren bis zur Bewerbung an die Universität musste Fei-Fei Li ihre Schlafzeit einschränken, um zu lernen. In ihren Erinnerungen schlief sie in dieser Zeit fast nur vier Stunden am Tag. Schließlich wurde sie mit einer SAT-Note von 1250 Punkten und einer vollen Punktzahl in Mathematik in das Physikstudium an der Princeton University aufgenommen und erhielt ein Vollstipendium.

„American dream come true!“ war die Schlagzeile der lokalen Zeitung in Feis Gemeinde, als die Zulassungsergebnisse bekannt wurden. Ein Foto von ihr mit kurzen Haaren befand sich an der prominentesten Stelle des Berichts.

Das Studentenleben an der Princeton University war für Fei-Fei Li sehr „gespalten“. Einerseits war dies der „intellektuelle Himmel“, den sie seit langem erstrebt hatte, und sie konnte täglich die Wahrheiten der physikalischen Welt lernen. Andererseits musste sie ständig mit der prekären finanziellen Situation ihrer Familie fertig werden. Die schwere Herzerkrankung ihrer Mutter war ein schwerer Stein auf ihrem Herzen.

Diese finanziellen Schwierigkeiten hielten viele Jahre an. Selbst nachdem Fei-Fei Li eine bekannte Professorin an der Stanford University geworden war, musste sie sich noch um die hohen Operationskosten ihrer Mutter kümmern.

Zu dieser Zeit riet viele Menschen Fei-Fei Li, „realistisch zu werden“. Selbst sie selbst zweifelte manchmal, ob sie ihr Studium als Türöffner für eine finanzielle Sicherheit nutzen sollte. Sollte sie nach Abschluss ihres Studiums in einem lukrativen Bereich wie Medizin, Finanz oder Technik arbeiten, um die schwierige Lebenssituation zu überwinden?

Aber in Feis Herzen gab es immer eine Stimme, die dagegen sprach. Sie war nicht bereit, diese einzige Chance, in die Welt der Wissenschaft einzusteigen, zu verpassen. Die aufgeschlossenen Einstellungen ihrer Eltern gaben ihr Mut. Sie unterstützten sie bei ihrer Entscheidung, sich der Physik zu widmen. Nach ihrem Abschluss an der Princeton University ging sie nicht in die Wall Street, sondern in einen anderen „intellektuellen Himmel“ – die California Institute of Technology.

Fei-Fei Lis Promotionsrichtung war die Forschung im Bereich des maschinellen Sehens. Vereinfacht gesagt, ging es darum, Maschinen beizubringen, Dinge zu „sehen“. Zu dieser Zeit entschieden sich die meisten Studenten in diesem Bereich entweder für die Neurowissenschaft oder die Informatik. Fei-Fei Li dagegen studierte beide Gebiete gleichzeitig, was ein erster Fall in einem Masterprogramm war.

ImageNet: Die Öffnung der goldenen Ära der Künstlichen Intelligenz

„Wir beschlossen, etwas zu tun, das noch nie dagewesen war. Unser Forschungsgegenstand (die maschinelle Bilderkennung) waren die Objekte der ganzen Welt.“ Diese Worte klangen damals wie eine Phantasie.

2005 war Fei-Fei Li Assistentin an der Abteilung für Elektrotechnik und Informatik der University of Illinois at Urbana-Champaign und wechselte später als Assistentin an die Abteilung für Informatik der Princeton University. In ihrem Buch „Die Welt, die ich sehe“ nannte Fei-Fei Li ihre Zeit in den USA zunächst „die dunkelste Zeit“ und die Zeit zwischen 2005 und 2009 „den Winter der Künstlichen Intelligenz“.

Zu jener Zeit war die Künstliche Intelligenz in Misskredit geraten, und die Forschung in der „maschinellen Bilderkennung“ fand kaum Unterstützung. Fei-Fei Li musste täglich die Ratschläge ihrer Umgebung anhören: „Fei, wähle einen anderen Weg. Dieser führt nirgendwo hin.“

Heute sind Daten der Schlüssel, um den Wettbewerb zwischen den Modellunternehmen zu gewinnen. Aber um die Jahrtausendwende herum waren die akademische Welt und die KI-Branche auf die Verbesserung der Algorithmen fokussiert und vernachlässigten die Bedeutung der Daten. In Feis Ansicht waren viele Menschen an der KI interessiert, aber niemand hatte sich wirklich mit den Daten befasst.

Anfang des 21. Jahrhunderts war Fei-Fei Li überzeugt, dass der Schlüssel für einen qualitativen Sprung in der KI die Erstellung einer riesigen Datenbank war, die alle Objekte der Welt enthielt. Dies ähnelt der heutigen Situation. Sie ist nun überzeugt, dass der Schlüssel für einen qualitativen Sprung in der generativen KI darin liegt, ob die großen Sprachmodelle die Grenzen der Modalität überwinden und die physische Welt wirklich erkennen können.

Die damalige Hauptforschung im Bereich des maschinellen Sehens basierte auf sorgfältig entworfenen manuellen Merkmalen und begrenzten kleinen Datensätzen. Die Maschinen konnten nur wenige Dutzend Arten von Objekten erkennen. Fei-Fei Li dagegen wollte ein Millionen-Einträge umfassendes, vollständig annotiertes und die Objekte der ganzen Welt abdeckendes Bilduniversum schaffen – dies war der Anfang von ImageNet.

In Feis Vorstellung war ImageNet eine Bilderkennungsdatenbank, die es Computern ermöglichen würde, Gegenstände und Menschen direkt zu erkennen. Aber die Realität war hart. Sie engagierte Studenten, um die Bilddaten manuell einzugeben und zahlte sogar einen Stundenlohn von 10 Dollar. Aber nach dieser Geschwindigkeit würde die Fertigstellung von ImageNet 90 Jahre dauern. Danach versuchte sie, die Daten mit Algorithmen zu verarbeiten, aber es traten immer mehr Probleme auf: Das Geld war knapp, und das Modell erreichte seine Grenzen.

Der Crowdsourcing-Dienst von Amazon war schließlich der Schlüssel zur Fertigstellung des Projekts. Dieser Dienst ermöglichte es, Markierungsaufgaben auf der Plattform zu veröffentlichen und weltweit Internetnutzer mit geringem Kostenaufwand zu beteiligen – genau dieses Modell löste das Problem der Effizienz bei der Markierung von Massenbildern. „Als ich die Website sah, wusste ich, dass ImageNet geschafft war.“

2009 wurde nach zweieinhalb Jahren eine Studie mit 3,2 Millionen markierten Bildern aus 5247 Kategorien und 12 Unterbäumen auf der CVPR (International Conference on Computer Vision and Pattern Recognition) vorgestellt. Das Team stand damals in einer kleinen Ecke der Messe. Später arbeitete Fei-Fei Li mit dem renommiertesten Bilderkennungswettbewerb, dem PASCAL VOC, zusammen. Diese Zusammenarbeit war sowohl ein Wendepunkt als auch ein neuer Anfang.

2012 präsentierten Alex Krizhevsky und andere den tiefen Faltungsneuronale Netzwerkmodell AlexNet, der im ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in diesem Jahr mit einer überwältigenden 41%-Vorsprung vor dem Zweiten gewann. AlexNet reduzierte die Top-5-Fehlerrate von 26% im Vorjahr auf 15%, was die Menschen schließlich überzeugen musste, dass eine hochwertige KI unbedingt mit ImageNet vorausgerichtet werden muss.

Als Gründerin von ImageNet machte Fei-Fei Li die Datenbank öffentlich zugänglich und bot sie kostenlos an, damit Forschungsteams weltweit sie für die maschinelle Bilderkennungstraining nutzen können. Dieser Moment wird von vielen Branchenvertretern als einer der „Singularitäten“ in der Geschichte der KI bezeichnet. Es wird als das Ende des Winters der Künstlichen Intelligenz und der Beginn der goldenen Ära der KI angesehen.

In den folgenden zehn Jahren forschte Fei-Fei Li weiterhin in der KI und der eingebetteten Intelligenz, sowohl in der Forschung als auch in der Industrie. 2013 übernahm sie die Leitung des Stanford Artificial Intelligence Laboratory (SAIL). 2015 gründete sie zusammen mit anderen AI4ALL. 2017 verließ sie vorübergehend die Stanford University und arbeitete als Chefwissenschaftlerin und Vizepräsidentin für KI/Maschinelles Lernen bei Google Cloud, wo sie an der Strategieentwicklung von Google Cloud in Bezug auf Künstliche Intelligenz und maschinelles Lernen beteiligt war.

Räumliche Intelligenz: Das Gerüst für das menschliche Verständnis

„Fei-Fei Li war die erste Forscherin im Bereich des maschinellen Sehens, die die Macht der Big Data wirklich verstand. Ihre Arbeit öffnete die Pforten der Deep Learning und trug zur Entstehung der Künstlichen Intelligenztechnologie bei.“ Jeffrey Hinton, der Preisträger des Nobelpreises für Physik 2024, hat Feis Errungenschaften am besten zusammengefasst.

Ende 2022 hat das große Sprachmodell ChatGPT die KI-Branche in Aufruhr versetzt und das Konzept, dass „Sprache die Welt ist“, zum „Branche Konsens“ gemacht. Aber 2024, im Alter von 48 Jahren, begab sich Fei-Fei Li auf eine neue Reise, um ihr „Polstern“ zu finden.

Fei-Fei Li ist besonders gut darin, die Lücken in der Branche zu entdecken. Sie meint, dass visuelle Modelle, räumliche Intelligenz und Robotermodelle digitalisiert werden können, aber es ist ein „Begriffswechsel“, wenn man „Digitales“ mit „Sprache“ gleichsetzt. In ihrer Ansicht gibt es nicht nur sprachliche Informationen, sondern auch räumliche Informationen.

„Das Niveau der sprachlichen Ausdrucksfähigkeit der Algorithmen nähert sich bereits dem menschlichen Niveau.“ Obwohl ihr Buch „Die Welt, die ich sehe“ 2023 fertiggestellt wurde, sagte sie damals, dass die Fähigkeiten der großen Sprachmodelle wie ChatGPT nicht weiter erläutert werden müssen und dass Roboter allmählich lernen, mit der realen Welt umzugehen.

Sie ist überzeugt, dass visuelle Modelle nicht nur mit Fotos trainiert werden können, sondern auch in einer vollständigen dreidimensionalen Welt. Wenn das Weltmodell fertiggestellt ist, kann die Künstliche Intelligenz Inhalte so flüssig generieren wie sie Inhalte erkennen kann. Kurz gesagt, will sie ein neues „ImageNet“ für eine neue Ära schaffen.

Als ihr Buch „Die Welt, die ich sehe“ in China erschien, gründete Fei-Fei Li ihr neues Projekt – World Labs – und begann mit der Forschung zur räumlichen Intelligenz. Sie glaubt, dass die Zeit reif ist.

„Die

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Von Spülkraft zur "Künstlichen-Intelligenz-Mutter": Sie hat wieder die nächsten zehn Jahre vorhergesagt.

Schwierige Familienverhältnisse, die den puresten Glauben begründeten

ImageNet: Die Öffnung der goldenen Ära der Künstlichen Intelligenz

Räumliche Intelligenz: Das Gerüst für das menschliche Verständnis