Yann LeCun arbeitet erneut mit XIE Saining zusammen. NVIDIA beteiligt sich an der Investition. Ein neues Unternehmen setzt auf die Zeit „nach den LLMs“.
Am 10. März hat APPSO exklusiv in deutscher Sprache erfahren, dass das Weltmodell-Institut/ das Startup AMI eine Finanzierung in Höhe von 1,03 Milliarden US-Dollar abgeschlossen hat. Der Vorfinanzierungs-Wert des Unternehmens beträgt 3,5 Milliarden US-Dollar. Das Unternehmen wurde vom Turing-Preisträger und ehemaligen Chef-AI-Wissenschaftler von Meta, Yann LeCun, gegründet.
AMI steht für Advanced Machine Intelligence, was auf Deutsch „Fortgeschrittene Maschinenintelligenz“ bedeutet. Das Unternehmen konzentriert sich auf die Forschung und Entwicklung von Weltmodellen (world models) und strebt an, Weltmodelle zu entwickeln, die abstrakte Repräsentationen aus der realen Welt lernen können.
Es ist erwähnenswert, dass Xiesaining, ein Top-Experte auf dem Gebiet der AI-Grundlagenforschung und ein alter Freund sowie Kollege von Yann LeCun, AMI als Chief Science Officer beigetreten ist.
Xiesaining ist ein absoluter Autorität auf dem Gebiet des visuellen Repräsentationslernens und Mitautor von diffusion transformers (DiT). Die Einführung der DiT-Architektur hat es ermöglicht, dass visuelle Modelle wie große Sprachmodelle von der Skalierungsregel (Scaling Law) profitieren können. Indem Xiesaining und seine Kollegen die bisher zehn Jahre lang verwendete U-Net-Struktur durch eine Transformer-Hauptstruktur ersetzten, konnten sie die Simulation komplexer, hochauflösender Bilder und Videos ermöglichen, was die Grundlage für die Einführung von Spitzen-Visuellerzeugungsmodellen und -Tools wie Sora und SeeDance legte.
Laut einem Finanzierungsdokument, das APPSO erhalten hat, wird die Finanzierung von AMI in dieser Runde für die Unterstützung langfristiger Forschung, die Rekrutierung von Mitarbeitern auf globaler Ebene und die Entwicklung zuverlässiger Produkte im Bereich der Weltmodelle verwendet.
Die offizielle Website von AMI
Yann LeCun hat bereits ausgedrückt, dass er die Hoffnung hat, Europa als die „dritte Stange“ der globalen Künstlichen Intelligenz neben China und den Vereinigten Staaten zu etablieren. Das Hauptquartier von AMI befindet sich in Paris, und es werden Büros in New York, Montreal und Singapur eingerichtet.
Vier der sechs Kerngründer von AMI stammen direkt aus dem Meta FAIR (Foundation AI Research)-Team, und die anderen beiden haben ebenfalls enge Verbindungen zu Meta. Yann LeCun ist Vorsitzender des Unternehmens, und der CEO ist ein anderer Person.
AMI bedeutet auf Französisch „Freund“. Yann LeCun hat darauf hingewiesen, dass man es „mit französischem Akzent aussprechen“ soll.
Anfang dieses Jahres hat Yann LeCun in seiner Pariser Wohnung ein Interview für die „MIT Technology Review“ gegeben. Zu der Zeit war er erst kürzlich von Meta gegangen. Als er gefragt wurde, wie er die AI-Strategie von Meta einschätzt, antwortete er: „Ich stimme möglicherweise nicht allen Entscheidungen von ihm (Mark Zuckerberg) zu. Aber Menschen treffen Entscheidungen aus Gründen, und es gibt nichts zu ärgern.“
Er sagte damals: „Meta könnte unser erster Kunde werden.“
Der „Gegner“ von LLM bekommt 1 Milliarde US-Dollar
APPSO hat erfahren, dass die Finanzierung von AMI in dieser Runde von mehreren äußerst wichtigen Investoren unterstützt wird.
In dieser Runde werden die Finanzierung von Cathay Innovation, Greycroft, Hiro Capital, HV Capital und Bezos Expeditions gemeinsam geleitet. Zu den strategischen Investoren gehören Nvidia, Toyota Ventures, Temasek, SoftBank, Mark Cuban, die Muriel-Familie und andere. Zu den Mitinvestoren gehören Eric Schmidt, Publicis Groupe, Samsung, Tim Berners-Lee und andere.
Cathay Innovation wurde von Cai Mingpo, einem bekannten Personen aus der chinesisch-französischen Wirtschaftsbranche, gegründet. Er hat in mehrere Unternehmen wie Pinduoduo, Yuanqi Forest und JD Logistics investiert.
Bezos Expeditions ist das Familienbüro des Amazon-Gründers Jeff Bezos.
Die führenden Investoren sind hauptsächlich Spitzenfonds, die in Europa ansässig sind.
Mark Cuban ist ein bekannter Investor und ehemaliger Besitzer einer NBA-Mannschaft.
Die Muriel-Familie ist eine französische Spitzenhandelsfamilie, die Marken wie Decathlon und Auchan in ihrem Besitz hat.
Eric Schmidt ist der ehemalige CEO und Vorsitzende von Google/Alphabet.
Tim Berners-Lee ist der Erfinder des World Wide Web (www).
Nach dem Aufstieg von ChatGPT im Jahr 2023 ist das große Sprachmodell (LLM) fast zum Synonym für „AI“ geworden. Yann LeCun ist einer der wenigen Spitzenforscher, die seitdem kontinuierlich öffentlich gegen LLM argumentieren.
Seine Kritik basiert auf einer Strategiebeurteilung. Das Wesen von LLM ist die statistische Regel von Texten. Es kann Sprache gut manipulieren, aber es versteht die physische Welt nicht und kann nicht wirklich „schließen und planen“ (zur damaligen Zeit).
In dem Interview für die „MIT Technology Review“ hat Yann LeCun gesagt: „Warum haben wir keinen Haushaltsroboter, der so agil ist wie eine Hauskatze“ – hinter diesem Satz verbirgt sich das „Moravec-Paradoxon“: Wahrnehmung, motorische Koordination und physikalische Intuition, diese Fähigkeiten, die für Menschen keine Überlegung erfordern, sind für AI gerade die schwierigsten Teile, und LLM umgeht diese vollständig.
Einfach ausgedrückt, wie ein Baby die Schwerkraft lernt: Niemand erklärt einem Baby die Schwerkraftgleichung, aber das Baby weiß, dass ein losgelassenes Objekt fällt. Dies ist eine aus Beobachtungen abgeleitete Regel, nicht eine erschöpfende Auflistung von physikalischen Details. JEPA soll AI dasselbe tun.
Laut den von APPSO erhaltenen Informationen hat Yann LeCun gesagt:
Die Künstliche Intelligenz hat in den letzten zehn Jahren bemerkenswerte Fortschritte erzielt. Vorhersage- und Generierungssysteme haben auf globaler Ebene die Art und Weise verändert, wie wir Daten analysieren, Wissen extrahieren und Inhalte erstellen. Jetzt, wenn die AI die Grenzen des Bildschirms überschreitet, darf die Intelligenz nicht auf die einfache Generierung von Ergebnissen beschränkt bleiben. Sie muss die Situation verstehen, den Kontext speichern, Ergebnisse vorhersagen und im Laufe der Zeit zuverlässiger handeln.
Um dieses Ziel zu erreichen, wird AMI eine neue Generation von AI-Systemen entwickeln, die die Welt verstehen, ein langfristiges Gedächtnis haben, echte Schlussfolgerungen und Pläne anstellen können und end-to-end sicher und kontrollierbar sind.
Yann LeCun, Jeff Hinton und Yoshua Bengio erhalten gemeinsam den Turing-Preis
Yann LeCuns Lösung ist die JEPA-Architektur: Joint Embedding Predictive Architecture, ein Lernframework, das während seiner Zeit bei Meta entwickelt wurde.
Der Kerngedanke besteht darin, dass das Modell die „abstrakten Repräsentationen“ der Welt lernt und in diesem abstrakten Raum Vorhersagen trifft, anstatt alle Details wiederherzustellen.
Die V-JEPA-Serie ist derzeit die am besten entwickelte technische Umsetzung dieses Konzepts. Ihr Leiter, der Weltmodell-Experte Michael Rabbat, ist jetzt Vizepräsident für Weltmodelle bei AMI.
Xiesaining hat in letzter Zeit an der New York University in einem verwandten Bereich geforscht. Seine Gruppe hat „Solaris“ veröffentlicht, ein Mehrspieler-Videoweltmodell, das mit Minecraft erstellt wurde, um die Vorhersage- und Planungsfähigkeiten von AI in dynamischen Umgebungen zu testen.
„Wir werden AI-Systeme haben, die ein menschliches Niveau an Intelligenz erreichen“, hat Yann LeCun gesagt. „Aber sie werden nicht auf LLM basieren. Dies wird nicht im nächsten oder übernächsten Jahr passieren. Es braucht Zeit und bedeutende konzeptionelle Durchbrüche. Und das ist genau, woran ich arbeite und was AMI anstrebt.“
Er hat auch eine Nachricht an die akademische Welt hinterlassen:
„Machen Sie nicht LLM. Es macht keinen Sinn, Sie können der Branche nicht hinterherlaufen. Erfinden Sie neue Technologien und lösen Sie Probleme außerhalb der aktuellen Systeme. Der Durchbruch wird nicht dadurch kommen, dass Sie LLM noch größer machen.“
Von den Convolutional Neural Networks (CNN) über JEPA bis hin zu FAIR, das während der Zeit von Facebook gegründet wurde, hat Yann LeCun immer an schwierigen Projekten gearbeitet, deren Validierung lange dauern würde. Diesmal hat er 1 Milliarde US-Dollar, ein Team aus alten Kollegen und Freunden – und noch wichtiger, Autonomie.
Xiesaining
Xiesaining hat einen Doktorgrad in Informatik an der Universität von Kalifornien, San Diego, erworben. Anschließend arbeitete er vier Jahre bei Meta FAIR (Silicon Valley-Hauptquartier), bevor er als Forschungsingenieur im GenAI/nano-Team bei Google DeepMind arbeitete und gleichzeitig als Assistentprofessor am Courant Institute of Mathematical Sciences der NYU fungierte. Seine Zitate auf Google Scholar überschreiten 96.000.
Xiesainings bekannteste Arbeit ist, wie bereits erwähnt, die Publikation „Scalable Diffusion Models with Transformers“ im Jahr 2022 in Zusammenarbeit mit seinem Schüler William Peebles, also DiT.
Dieser Artikel wechselte das Rückgrat des Diffusionsmodells von U-Net zu einer Transformer-Architektur. Vorher wurden in der Bildgenerierung allgemein U-Net als Diffusionsmodelle verwendet, eine visuelle Segmentierungsarchitektur, die bereits fast zehn Jahre lang eingesetzt wurde. Nach der Veröffentlichung von DiT haben sich sowohl die Qualität als auch die Skalierbarkeit verbessert, und es ist zum Standard für neue Architekturen von Generierungsmodellen geworden. Die späteren Versionen von Sora, Stable Diffusion und das heute weltweite beliebte SeeDance-Visuelles Modell basieren alle auf der Weiterentwicklung dieses Frameworks.
Es ist erwähnenswert, dass Peebles, der den DiT geschrieben hat, heute einer der Kernleiter des OpenAI Sora-Teams ist. Ein anderer Schüler von ihm, Guo Wenjing (Demi Guo), ist der Gründer des bekannten AI-Video-Startups Pika.
Zu Xiesainings hervorragenden Schülern gehören auch Eric Mintun (OpenAI Sora), Zihan Zheng (OpenAI Technical Staff), Liu Zhuang (Professor an der Princeton University), You Jiaxuan (Professor an der UIUC) und andere.
Xiesaining hat seinen Fokus auf Weltmodelle gelegt. Laut der von APPSO erhaltenen Liste der Mitgründer von AMI steht in Xiesainings Abschnitt nur eine kurze Beschreibung:
Training world models over word models. Weltmodelle statt Sprachmodelle trainieren.
Xiesainings frühere Highlights umfassen:
ConvNeXt: Im Jahr 2022 hat er in Zusammenarbeit mit Kollegen von Meta FAIR das Convolutional Network wieder auf das Niveau eines direkten Wettbewerbs mit Vision Transformer gebracht und bewiesen, dass Architekturinnovationen eine vermeintlich „veraltete“ Strategie retten können.
MAE: Masked Autoencoders, in Zusammenarbeit mit He Kaiming, CVPR 2022 Oral. Es hat die BERT-ähnliche selbstüberwachte Lernmethode in den visuellen Bereich übertragen und hat sich auf viele nachfolgende visuelle Vortrainingsmethoden ausgewirkt.
MoCo: Momentum Contrast, ebenfalls in Zusammenarbeit mit He Kaiming, ist eine der bahnbrechenden Arbeiten im Bereich des selbstüberwachten visuellen Repräsentationslernens.
Bevor die Nachricht über seinen Eintritt in AMI publik wurde, stand auf seiner persönlichen Website der Satz: „Ich werde im Frühjahr und Sommer 2026 Urlaub nehmen.“
Als Yann LeCun in dem Interview für die „MIT Technology Review“ gefragt wurde, ob Xiesaining beitreten würde, bestätigte er dies nicht direkt. Er sagte: „Ich habe ihn bereits zweimal eingestellt. Ich habe ihn bei FAIR eingestellt und auch die Kollegen an der NYU überzeugt, ihn einzustellen. Ich halte ihn in hohem Ansehen.“
Die beiden haben viele gemeinsam verfasste Artikel veröffentlicht,