StartseiteArtikel

Evangelium für die Armen, MIT-Studie: Keine Grafikkarten stapeln, einfach von Top-Modellen abschreiben

新智元2026-01-09 21:15
Warum werden die Spitzenmodelle immer ähnlicher?

Hochwertige Modelle verstehen möglicherweise nicht unbedingt die Wissenschaft, sondern können lediglich "auswendig lernen"! Die MIT enthüllt: Je intelligenter das Modell, desto ähnlicher wird sein Verständnis von Materie. Da der Weg zur Wahrheit bereits klar ist, warum sollten wir uns noch in einem teuren Rechenleistungskonkurrenzkampf verfangen lassen?

Das heutige KI für Wissenschaft ist wie ein "Multinationaler Gipfel", bei dem alle dasselbe Ereignis in verschiedenen Sprachen beschreiben.

Manche lassen die KI SMILES-Zeichenketten lesen, andere zeigen der KI 3D-Koordinaten von Atomen. Sie befinden sich auf verschiedenen Laufbahnen und konkurrieren darum, wer die genaueren Vorhersagen trifft.

Es gibt jedoch ein Problem: Finden diese KIs "Muster" oder verstehen sie wirklich die dahinter liegende physikalische Wahrheit?

In einer Studie der MIT haben die Forscher 59 Modelle mit unterschiedlichem "Hintergrund" zusammengestellt und beobachtet, ob ihre Repräsentationen in den verborgenen Schichten übereinstimmen, wenn sie Materie verstehen.

Link zur Studie: https://arxiv.org/abs/2512.03750

Das Ergebnis war sehr überraschend: Obwohl diese Modelle die Daten völlig unterschiedlich betrachten, werden ihre Verständnisse von Materie extrem ähnlich, sobald sie stark genug werden.

Noch erstaunlicher ist, dass ein Code-Modell, das Texte liest, in der "Kognition" stark mit einem physikalischen Modell übereinstimmt, das Kräfte berechnet.

Sie sind auf verschiedenen Wegen an die Spitze desselben Berges geklettert und beginnen gemeinsam, die "ultimative Karte" von Physik und Realität zu zeichnen.

Zusammenfluss der Wahrheit: Warum gleichen sich Spitzenmodelle immer mehr?

Um zu überprüfen, ob diese Modelle wirklich der Wahrheit näher kommen, haben die Forscher einen Schlüsselindikator eingeführt: den Grad der Repräsentationsausrichtung.

Einfach ausgedrückt, es wird untersucht, wie ähnlich die Denkweisen zweier Modelle sind, wenn sie dasselbe Molekül verarbeiten.

Es wurde festgestellt, dass Modelle mit besserer Leistung ähnlichere Denkweisen haben.

In einem Experiment nähern sich diese Modelle in ihrem Repräsentationsraum automatisch in dieselbe Richtung, wenn ihre Genauigkeit bei der Vorhersage der Energie von Materie steigt.

Parallelität von Leistung und Kognition: Je genauer die Energievorhersage, desto ähnlicher werden die Denkweisen des Modells denen des Spitzenmodells. Jeder Punkt repräsentiert ein Modell; die Größe des Punktes entspricht der Größe des Modells.

Obwohl die Architekturen dieser KIs sehr unterschiedlich sind, wird die Komplexität ihres Merkmalsraums bei der Verarbeitung derselben Moleküldaten auf einen sehr engen Bereich reduziert.

Egal wie komplex die Hülle des Modells ist, es erfasst am Ende die am meisten zentralen und am einfachstenstenen physikalischen Informationen.

Vereinfachung: Obwohl die KI-Architekturen unterschiedlich sind, "kommen sie auf verschiedenen Wegen zum selben Ziel" in der mathematischen Komplexität der extrahierten Materiemerkmale.

Dieses Merkmal ist bei Modellen wie Orb V3 noch deutlicher.

Repräsentationsausrichtung über Architekturen hinweg: Die dunklen Bereiche in der Matrix zeigen eine starke Übereinstimmung zwischen Hochleistungsmodellen wie Orb V3 und anderen strengen physikalischen Modellen (wie MACE, EqV2).

Durch freiere Trainingsprozesse können sie sich genauer an die physikalischen Gesetze anpassen.

Dies zeigt auch, dass, wenn man der KI genug Daten gibt und die Trainingsmethode richtig ist, sie sogar über die bestehenden menschlichen Formeln hinausgehen kann und die wesentlichen Gesetze des Materiebetriebs selbst herausfinden kann.

Dieses Konvergenzphänomen zeigt, dass die KIs nicht willkürlich denken, sondern gemeinsam die einzig wahre und objektive zugrunde liegende Logik der materiellen Welt ausgraben.

Nicht nur bei Molekülen, sondern sogar bei "Katzen" ist es dasselbe!

Meinst du, dass dieses "Gute Köpfe denken gleich" nur bei wissenschaftlichen KIs passiert? Ganz falsch!

Einige Forscher haben reine Textsprachenmodelle (z. B. die GPT-Serie) und reine Bildvisuellenmodelle (z. B. das Modell hinter CLIP oder DALL·E) verglichen und festgestellt, dass ihre Verständnisse von "Katzen" immer ähnlicher werden!

In Sprachenmodellen nähert sich die Vektorrepräsentation von "Katzen" stark den Wörtern "flauschig", "miauend", "Haustier", "Mausfänger".

In visuellen Modellen nähert sich der Vektor von "Katzen" visuellen Merkmalen wie Schnurrhaare, runde Augen, weiche Haare, eleganten Schwänzen.

Anfangs hatten die beiden Modelle, eines für Texte und eines für Bilder, überhaupt keine Überschneidungen.

Aber je größer und leistungsfähiger die Modelle werden, desto näher kommen die Repräsentationen von "Katzen" in diesen beiden völlig unterschiedlichen Modalitäten in einem linearen Raum zusammen, als ob sie dieselbe "Wesenheit der Katze" teilen würden!

Dies bedeutet, dass KIs, unabhängig davon, ob sie von Texten, Bildern, Molekülstrukturen oder 3D-Koordinaten ausgehen, sich, wenn sie stark genug sind, innerlich einer gemeinsamen "inneren Vorstellung" der Realität annähern.

Nicht nur bei Molekülen, sondern sogar bei "Katzen" ist es dasselbe!

Denkst du, dass diese Übereinstimmung nur bei wissenschaftlichen KIs auftritt? Ganz falsch!

Einige Forscher haben reine Textsprachenmodelle (wie die GPT-Serie) und reine Bildvisuellemodelle (wie das Modell hinter CLIP oder DALL·E) verglichen und festgestellt, dass ihre Verständnisse von "Katzen" immer ähnlicher werden!

In Sprachenmodellen nähert sich die Vektorrepräsentation von "Katzen" stark den Wörtern "flauschig", "miauend", "Haustier", "Mausfänger".

In visuellen Modellen nähert sich der Vektor von "Katzen" visuellen Merkmalen wie Schnurrhaare, runde Augen, weiche Haare, eleganten Schwänzen.

Anfangs hatten die beiden Modelle, eines für Texte und eines für Bilder, überhaupt keine Überschneidungen.

Aber je größer und leistungsfähiger die Modelle werden, desto näher kommen die Repräsentationen von "Katzen" in diesen beiden völlig unterschiedlichen Modalitäten in einem linearen Raum zusammen, als ob sie dieselbe "Wesenheit der Katze" teilen würden!

Dies bedeutet, dass KIs, unabhängig davon, ob sie von Texten, Bildern, Molekülstrukturen oder 3D-Koordinaten ausgehen, sich, wenn sie stark genug sind, innerlich einer gemeinsamen "inneren Vorstellung" der Realität annähern.

Hochleistungsbewertungen sind keine Wahrheit, achtung vor "verirrten" KIs!

Wenn alle Hochleistungsmodelle am Gipfel zusammenkommen, was tun dann die anderen Modelle?

Die Forscher haben festgestellt, dass Modelle mit schlechter Leistung auf zwei Arten scheitern können: Entweder denken sie alle unterschiedlich und entfernen sich immer weiter von dem richtigen Weg; oder sie werden alle dümmer, denken zwar gleich, aber verpassen alle die wichtigsten Informationen.

Einige Modelle haben zwar gute Testwerte, aber ihre Denkweisen sind sehr eigenwillig.

Zum Beispiel MACE-OFF. Es zeigt eine starke Leistung bei der Bearbeitung bestimmter Molekülaufgaben, aber sein Grad der Repräsentationsausrichtung ist sehr niedrig und es kann sich überhaupt nicht in die Hochleistungsmodelle einfügen.

Es hat möglicherweise nur in einem bestimmten Bereich eine gewisse Regel gefunden. Sobald es diesen Komfortbereich verlässt, ist es schwierig, seine Erfahrungen auf andere wissenschaftliche Aufgaben zu übertragen.

Die weißen Punkte in der Abbildung repräsentieren Molekülstrukturen, die das Modell nie gesehen hat. Man kann sehen, dass der Fehler (MAE) des Modells bei der Bearbeitung dieser Strukturen sprunghaft ansteigt und die Repräsentation vollständig von der normalen physikalischen Verteilung abweicht.

Wenn KIs auf Materien stoßen, die in den Trainingsdaten nie aufgetaucht sind, geben sie oft das Denken auf und machen es schlampig oder gehen alle in die "Komfortzone", die der Algorithmusentwickler hinterlassen hat, und verlieren die wichtigsten chemischen Merkmale der Materie.

Daraus ist ersichtlich, dass die Trainingsdaten nicht nur das Nahrungsmittel für das Modell sind, sondern auch die Grundlage dafür, ob das Modell die Wahrheit erreichen kann.

Wenn die Daten nicht vielfältig genug sind, kann das Modell auch mit der feinsten Architektur nur auf der Stelle bleiben und wird nie zu einem echten universellen Basismodell evolvieren.

Die Wahrheit ist einzigartig, wie weit sind wir noch von der Rechenleistungsfreiheit entfernt?

Da die Experimente gezeigt haben, dass verschiedene KIs sich einem gleichen physikalischen Verständnis annähern, müssen wir noch teure Grafikkarten stapeln und ein riesiges Supermodell von Grund auf trainieren?

Offensichtlich nicht. Und die KI hat bereits einen Kurzweg für uns gefunden - "Modell-Destillation".

Die Forschung hat gezeigt, dass kleinere Modelle auch ein erstaunliches Potenzial entfalten können, indem sie die "Denkweise" der Hochleistungsbasismodelle imitieren.

Wir müssen nicht mehr blind nach einer hohen Anzahl von Parametern streben, sondern nutzen die Eigenschaft der "Wahrheitskonvergenz", um das Wissen der großen Modelle auf kleinere, leistungsfähigere Modelle zu übertragen.

Die Größe der Punkte in der Abbildung repräsentiert die Anzahl der Parameter des Modells. Man kann sehen, dass selbst kleinere Modelle, solange ihre Repräsentationen mit denen der besten Modelle übereinstimmen, eine sehr hohe Genauigkeit bei der Vorhersage der Molekülenergie erreichen können.

Dies hat weitreichende Bedeutung für die zukünftige Entwicklung von Modellen.

Orb V3 zeigt uns eine andere Lösung für die "bittere Lehre": Durch umfangreiches Training und clevere Regularisierungsmethoden kann auch eine einfache Architektur dasselbe Verständnis erlernen wie die teuren Modelle mit starken physikalischen Einschränkungen.