首页文章详情

LeCun hat Hinton scharf kritisiert: Er akzeptiert Large Language Models (LLMs) nur, weil er einfach faul ist und in den Ruhestand gehen will.

量子位2026-05-18 20:11
Innerhalb von fünf Jahren wird JEPA die Künstliche-Intelligenz-Szene dominieren.

Diesmal hat Lecun wirklich mit Hinton in Streit geraten...

Hinton hat sich bisher nie besonders mit LLMs befasst. Dann kam 2023 GPT - 4 heraus, und plötzlich war es, als hätte er einen Eureka - Moment:

„Mein Gott, diese Modelle sind der menschlichen Intelligenz schon sehr nahe, vielleicht haben sie sogar subjektive Erfahrungen...“

Was diese Veränderung angeht, so meint Lecun –

Ich stimme überhaupt nicht zu und verstehe es nicht.

Ich habe das Gefühl, er will einfach Faulheit betreiben: „Okay, das ist es, was wir brauchen, ich kann den Sieg erklären.“

„Ja, ich kann in Rente gehen. Und dann kann ich überallhin gehen und Vorträge über die Gefahren der KI halten.“

Unmittelbar darauf wendet er den Blick um und richtet die Kritik gegen einen anderen Turing - Preisträger.

Tatsächlich habe ich viele Dinge schon vor einigen Jahren gesagt, die Hinton erst kürzlich erkannt hat.

Ähnlich verhält es sich bei Bengio.

Deshalb antwortete Lecun, als der Moderator ihn fragte, warum er so „anders“ sei:

Es gab nie eine Spaltung zwischen mir, Hinton und Bengio. Sie haben sich verändert.

Wenn man über die großen Themen in der KI - Welt spricht, kann man natürlich nicht umhin, über seine frühere Firma zu sprechen.

Ab Anfang 2024, insbesondere 2025, erfüllte FAIR nicht mehr die Bedingungen, die ich für Innovation, Forschung und Durchbrüche halte.

Viele gute Leute sind gegangen.

Was die Gründe betrifft, so meint Lecun, dass Zuckerberg eigentlich ein guter Kerl ist und die Führungsebene ihn auch unterstützt hat. Aber nachdem Meta in den LLMs - Wettlauf involviert war, konnte man nicht mehr nur sich auf die Forschung konzentrieren.

Für Lecun ist das sehr bedauerlich.

Nach seiner Meinung ist es „einfach“, um bahnbrechende Forschung zu betreiben.

Man soll einfach die besten Leute einstellen. Diese Leute haben ein Gespür dafür, was zu tun ist. Man gibt ihnen die nötigen Ressourcen, und dann...

Geht weg und macht Platz.

Aber der Moderator war nicht ganz zufrieden und drängte weiter: Warum? Warum? Warum?

Das Hauptverdächtige – Alexandr Wang.

Moderator:

War der Kauf von Scale AI einer der Katalysatoren für die reine LLMs - Fokussierung?

LeCuns Antwort war sehr ehrlich, er sagte einfach, was er dachte.

Sicherlich war es einer. Aber ich bin nicht sicher, ob ich genug interne Informationen habe, um darüber zu kommentieren.

Vielleicht sieht Zuckerberg in Alexandr Wang eine Art Nachfolger, eine jüngere Version von sich selbst.

Außerdem gab es natürlich auch das klassische Programm.

Lecun forderte erneut die LLMs - Seite heraus, mit einer etwas spöttischen Stimme.

JEPA - ähnliche Weltmodelle werden in fünf Jahren die KI - Szene dominieren. (Lacht)

Dies ist das neueste Podcast - Interview mit Lecun. Er hat mit dem Moderator fast eineinhalb Stunden lang über Weltmodelle, JEPA, warum er Meta verlassen hat, warum LLMs nicht zu AGI führen können... gesprochen.

Es ist schon lange her, dass ich so ein Interview Wort für Wort gehört habe. Ich bin ziemlich erschöpft.

Ich habe den ganzen Zeit nicht überspringen können, es war spannend von Anfang bis Ende. Lecun hat den ganzen Zeit wild seine Meinung ausgebrüllt:

Anthropic versucht, mit Angst die Regulierung der KI voranzutreiben. Ich stimme dieser Vorgehensweise überhaupt nicht zu.

LLMs können nie zuverlässig sein. Nicht alles ist Programmieren.

Imitationslernen funktioniert einfach nicht, es kann nicht einmal die Aufgabe des autonomen Fahrens bewältigen.

Das Ziel der Weltmodelle ist es, neue Aufgaben ohne Vorhersage zu lösen.

Wenn du einen Doktoranden bist, mach nicht an LLMs. Es macht keinen Sinn, du kannst keinen Beitrag leisten.

Es gibt noch einige wenige Orte, an denen wirklich Forschung betrieben wird, wie DeepMind. Aber die Branche wird immer geschlossener.

Im Folgenden finden Sie den vollen Text des Interviews.

Um die Lesbarkeit zu gewährleisten, hat QbitAI den Inhalt teilweise angepasst, ohne die ursprüngliche Bedeutung zu verändern.

Genießen Sie!

Warum LLMs kein Weg zur Intelligenz sind

Moderator: Damals hast du auf Neuronale Netze gesetzt, und alle haben dich bezweifelt, aber du hattest recht.

Jetzt machst du wieder etwas Ähnliches, du setzt gegen LLMs und die herrschende generative Architektur.

Du hast kürzlich ein neues Unternehmen namens AMI gegründet. Was macht AMI?

LeCun: Zunächst einmal möchte ich klarstellen, dass es mit LLMs nichts falsch ist.

LLMs sind die Grundlage für viele nützliche KI - Produkte. Ich benutze sie selbst auch, und sie tun, was sie sollen.

Aber LLMs sind kein Weg zur menschlichen Intelligenz, noch nicht einmal zur tierischen Intelligenz.

Moderator: Du hast selbst bei den ersten großen Open - Source - LLMs mitgewirkt.

LeCun: Richtig. Also, was ist AMI? AMI steht für Advanced Machine Intelligence, und unser Ziel ist KI für die reale Welt.

Die heute bekannten KI - Techniken sind gut darin, mit Sprache umzugehen.

Sprache ist etwas Besonderes, und sie eignet sich besonders gut für die derzeit erfolgreichen Architekturen.

Aber die reale Welt ist hochdimensional, kontinuierlich, verrauscht und chaotisch. Die Schwierigkeit liegt auf einer ganz anderen Ebene.

Dies ist auch, was ich in meinem Berufsleben hauptsächlich gemacht habe. In den letzten fünf oder sechs Jahren habe ich diesen Prozess beschleunigt, und in den letzten zwei Jahren habe ich wesentliche Fortschritte erzielt.

Ende vergangenen Jahres war es klar, dass Meta nicht mehr der richtige Ort war, um dieses Projekt voranzutreiben. Deshalb habe ich es verlassen und AMI gegründet.

Moderator: Dies scheint ein Branchentrend zu sein. Immer mehr Leute verlassen große Unternehmen oder Forschungsinstitute und gründen mit ihrem aufregenden Forschungsvorhaben eigene Unternehmen.

LeCun: Dies ist tatsächlich ein seltsamer Trade - off.

Es gibt zwei Modelle. Ein Modell ist die umfangreiche explorative Forschung, bei der viele Richtungen parallel verfolgt werden. Dann scheint etwas zu funktionieren, und man muss es weiter vorantreiben, aber es ist dann keine Forschung mehr.

Die Leute, die diese Arbeiten tun, werden von den Medien als Forscher bezeichnet, aber eigentlich sind es schon eher Ingenieure und Produzenten.

So etwas ist in Meta mehrmals passiert.

Anfang 2023 war das von FAIR entwickelte Llama 1 sehr vielversprechend. Meta hat speziell eine Gen AI - Organisation gegründet, um es in ein echtes Produkt zu verwandeln. Später kamen Llama 2, Llama 3 und Llama 4.

Llama 4 war etwas enttäuschend, und Zuckerberg war damit nicht zufrieden. Er hat die gesamte Organisation neu strukturiert und neue Leute eingesetzt.

Aber was letztendlich in diesem Jahr passiert ist, dass Meta festgestellt hat, dass es hinterher ist, und hat seine Strategie erneut auf das Einholen der Branche fokussiert.

Als Nebeneffekt wurde die explorative Forschung stark zurückgedrängt.

Meine Arbeit an JEPA und Weltmodellen wurde nicht betroffen, aber der Rest des Unternehmens fokussierte sich vollständig auf LLMs.

Das hat mir klar gemacht, dass Meta nicht mehr der richtige Ort ist, um dieses Projekt voranzutreiben.

Wir haben erste Ergebnisse erzielt und müssen von der Forschung zur echten Technologieentwicklung, Skalierung und Produktherstellung übergehen.

Wir haben auch festgestellt, dass Meta an den meisten Anwendungsgebieten, wie der Fertigungsindustrie, nicht wirklich interessiert ist.

Weltmodelle

Moderator: Du strebst das Ziel an, Weltmodelle zu entwickeln. Aber es gibt auch andere, die von einer generativeren Perspektive auf Weltmodelle zugreifen, wie Google Genie, verschiedene Videomodelle, VLA und das von Fei - Fei Li entwickelte 3D - Raummodell... Wie bewertest du das JEPA - Modell im Vergleich zu diesen Ansätzen?

LeCun: Weltmodelle werden schnell zu einem Buzzword, sowohl in der Forschung als auch in der Industrie.

Über VLA will ich nicht viel sagen. Dieser Ansatz wird heute allgemein als gescheitert angesehen. Er ist nicht zuverlässig und erfordert zu viele Trainingsdaten.

Was ist also ein Weltmodell? Im Grunde genommen ermöglicht ein Weltmodell es einem Intelligenzsystem, die Konsequenzen seiner Handlungen vorherzusagen.

Ich kann mir nicht vorstellen, wie man ein Agentensystem aufbauen kann, das nicht in der Lage ist, die Konsequenzen seiner Handlungen vorherzusagen. Wenn Menschen ohne Rücksicht auf die Konsequenzen handeln, werden sie von anderen als Dummköpfe angesehen.

Also ist ein Weltmodell genau das: Die Fähigkeit, die Konsequenzen eigener Handlungen vorherzusagen, ermöglicht es, eine Reihe von Handlungen zu planen, um eine Aufgabe zu erfüllen und ein Ziel zu erreichen.

Dies geschieht durch Planung, Schlussfolgerung, Suche und Optimierung, und nicht wie bei LLMs, die tokenweise autoregressiv vorhersagen. Man sucht nach einer optimalen Handlungssequenz, um die Aufgabe zu erfüllen.

LLMs haben keine Fähigkeit, die Konsequenzen ihrer Handlungen vorherzusagen, und keine echte Planungsfähigkeit, denn die Schlussfolgerung besteht darin, das nächste Token vorherzusagen, nicht in der Suche.

Also benötigt intelligentes Verhalten drei Merkmale.

Erstens die Fähigkeit, die Konsequenzen von Handlungen vorherzusagen.

Zweitens die Fähigkeit, durch Optimierung und Suche zu planen, um eine Handlungssequenz zu finden, die das richtige Ergebnis erzielt.

Drittens die Frage, wie man die Konsequenzen von Handlungen vorhersagt.

Angenommen, ich habe eine offene Flasche Wasser vor mir. Wenn ich an der Unterseite der Flasche drücke, wird sie auf dem Tisch gleiten. Wenn ich an der Oberseite drücke, wird sie wahrscheinlich umfallen.

Aber wir können nicht genau vorhersagen, in welche Richtung die Flasche fallen wird. Wir können das nicht auf Pixel - Ebene vorhersagen.

Unser Weltmodell im Gehirn sagt auf einer abstrakten Ebene voraus.

JEPA

Moderator: Die Architektur von JEPA ist weitgehend vom menschlichen Gehirn inspiriert?

LeCun: Mindestens von der Kognitionswissenschaft inspiriert. Ob man das direkt in eine konkrete neuronale Netzwerkarchitektur übersetzen kann, ist eine große Herausforderung.

Die Kognitionswissenschaft war tatsächlich ein Motiv. Das System 2 in der Psychologie meint genau das. Wenn du überlegte, reflektierte Handlungen ausführst, stellst du dir die Konsequenzen deiner Handlungen vor und planst dann daraufhin. Im Gegensatz zu System 1, das instinktiv und reaktiv handelt.

Es gibt also eine Inspiration, aber es gibt auch viele empirische Beweise dafür, dass man nicht Pixel generieren sollte.

Ich interessiere mich schon lange für die Erstellung von Weltmodellen durch Vorhersage.

Vor etwa fünf Jahren hatte ich einen Eureka - Moment und erkannte, dass alle Architekturen, die gute Bild - und Videorepräsentationen gelernt hatten, nicht generativ waren.

VAE, Variational Autoencoder, oder allgemeiner Autoencoder, scheinen intuitiv eine natürliche Möglichkeit zu sein, abstrakte Repräsentationen von Eingaben zu lernen. Man gibt ein Bild in ein neuronales Netzwerk ein und trainiert es, die Eingabe am Ausgang wiederherzustellen.

Aber wenn man dies mit einem großen neuronalen Netzwerk direkt macht, passiert nichts Interessantes. Es lernt nur die Identitätsfunktion, was völlig sinnlos ist.

Wenn man mit VAE Bildrepräsentationen lernt, kann man etwas erreichen, aber die Ergebnisse sind nicht gut. Das gleiche gilt für sparse Autoencoder.

Es gibt auch eine Technologie namens Denoising Autoencoder, von der MAE eine Variante ist. BERT in der NLP basiert auf einem ähnlichen Ansatz. Man beschädigt ein Bild teilweise und trainiert dann ein neuronales Netzwerk, das ursprüngliche Bild wiederherzustellen.

FAIR hat einst ein großes Projekt in diese Richtung unternommen und enorme Rechenressourcen eingesetzt. Die Ergebnisse waren sehr enttäuschend.

Zur gleichen Zeit haben einige der gleichen Leute und andere in Paris und New York eine andere Technologie entwickelt, die auf einer nicht - generativen Architektur basiert.

Man nimmt ein Bild, beschädigt es, gibt die beiden Versionen jeweils in einen Encoder ein und benutzt dann einen Prädiktor, um aus der Repräsentation der beschädigten Version die Repräsentation der ursprünglichen Version vorherzusagen.

Das ist JEPA. Ein Encoder kodiert eine Beobachtung, ein anderer Encoder kodiert eine andere Beobachtung, und dann benutzt ein Prädiktor die Repräsentation der zweiten Beobachtung, um die Repräsentation der ersten vorherzusagen.

Probleme bei aktuellen Embodied Modellen

Moderator: Viele Robotikunternehmen veröffentlichen immer beeindruckendere Demos, die scheinbar Planungs - und Schlussfolgerungsfähigkeiten zeigen, auch wenn sie in unbekannten Räumen oder bei unbekannten Aufgaben eingesetzt werden. Was hältst du