StartseiteArtikel

Kaum hatte Ilya seine Vorhersage getroffen, da tauchte die weltweit erste native multimodale Architektur NEO auf: Vision und Sprache sind nun endgültig miteinander verbunden.

量子位2025-12-05 15:04
1/10 der Daten erreichen das Niveau von GPT-4V.

Als Ilya Sutskever kürzlich öffentlich erklärte: "Die Zeit des reinen 'Scaling Law' ist vorbei", und behauptete, dass "die Zukunft der großen Modelle nicht in der bloßen Vergrößerung der Größe liegt, sondern darin, dass die Architektur klüger wird", wurde in der gesamten KI-Branche bewusst, dass ein Paradigmenwechsel stattfindet.

In den letzten Jahren schien die Branche sich darauf zu konzentrieren, stärkere Modelle mit mehr Daten, mehr Parametern und stärkerer Rechenleistung zu entwickeln. Doch dieser Weg nähert sich dem Punkt der abnehmenden Rendite.

Top-KI-Experten wie Ilya und LeCun haben übereinstimmend darauf hingewiesen, dass echte Durchbrüche von grundlegenden Innovationen auf der Architekturebene stammen müssen, nicht von Anpassungen an der bestehenden Transformer-Pipeline.

Gerade an diesem entscheidenden Punkt tauchte ein neue Spezies aus einem chinesischen Forschungsunternehmen auf:

Das erste weltweit Open-Source-Native-VLM (Native Visual Language Model), das in großem Maßstab umsetzbar ist, heißt NEO.

Die meisten gängigen Multimodal-Modellen, wie GPT-4V und Claude 3.5, basieren im Wesentlichen auf Zusammensetzungen.

Was heißt das?

Ein vortrainiertes visuelles Encoder-Modell (z. B. ViT) wird über eine kleine Projektionsschicht an ein starkes Sprachmodell angehängt.

Diese modulare Methode ermöglicht zwar Multimodalität, doch bleiben Vision und Sprache immer parallel zueinander und werden nur auf Datenebene zusammengeführt.

Die gemeinsame Studie von SenseTime und der Nanyang Technischen Universität und anderen Universitäten will diesen Ansatz grundlegend überdenken.

Bei NEO versteht das Modell von Anfang an, dass Vision und Sprache zwei Seiten einer Medaille sind.

Was noch beeindruckender ist, erreicht NEO mit nur einem Zehntel der Trainingsdaten anderer Modelle in vielen wichtigen Tests die Leistung von Spitzenmodellen oder übertrifft sie sogar!

Wie NEO das schafft, erfahren wir im Folgenden.

Warum eine native Architektur?

Bevor wir uns mit dem Prinzip von NEO befassen, müssen wir die aktuelle Situation der Multimodalität verstehen.

Wie wir bereits erwähnt haben, gibt es bei der gängigen modularen Architektur drei unüberwindliche technische Kluft:

Zunächst die Effizienzkluft.

Das Training von modularen Modellen ist sehr komplex und besteht normalerweise aus drei Schritten: Zunächst werden das visuelle Encoder-Modell und das Sprachmodell separat vortrainiert, dann wird eine Ausrichtungsstufe durchgeführt, um die Kommunikation zwischen beiden zu ermöglichen, und schließlich wird möglicherweise eine Befehlsfeinabstimmung durchgeführt.

Dieser Prozess ist zeit- und kostenintensiv und kann in jeder Stufe neue Fehler und Inkonsistenzen einführen. Visuelle und sprachliche Informationen werden in verschiedenen "Räumen" getrennt gehalten und müssen ständig "Notizzettel" austauschen, um zusammenzuarbeiten.

Zweitens die Fähigkeitskluft.

Visuelle Encoder-Modelle haben von Anfang an eine starke induktive Vorstellung. Beispielsweise erfordern sie normalerweise, dass das Eingabebild eine feste Auflösung (z. B. 224x224) hat oder in eine eindimensionale Token-Sequenz umgewandelt wird.

Diese Vorgehensweise kann für das Verständnis der Gesamtkomposition eines Bildes ausreichen, aber bei der Erfassung von feinen Texturen, komplexen räumlichen Beziehungen oder beliebigen Seitenverhältnissen (z. B. einem langen Bild oder einem technischen Zeichnung) ist sie unzureichend.

Das Modell sieht nur ein übermäßig vereinfachtes und strukturiertes Gerüst.

Drittens die Fusionskluft.

Die Abbildung zwischen Vision und Sprache bleibt fast immer auf einer einfachen Oberfläche und kann keine tiefe semantische Ausrichtung erreichen. Dies führt dazu, dass das Modell bei der Bearbeitung von Aufgaben, die eine feingranulierte visuelle Verständnis erfordern, oft an seine Grenzen stößt.

Beispielsweise kann es bei der Beschreibung eines komplexen Diagramms die Legende und die Daten verwechseln oder bei der Ausführung eines Befehls mit räumlicher Angabe, wie "Lege den zweiten roten Apfel von links in den Korb rechts", die Richtung oder die Anzahl falsch zuordnen.

Der Grund dafür ist, dass visuelle und sprachliche Informationen im Modell nie in demselben semantischen Raum für eine echte, tiefgreifende Fusionsinferenz verwendet werden.

Aus diesem Grund hat das Forschungsunternehmen hinter NEO von ersten Prinzipien ausgehend ein einheitliches Modell entwickelt, in dem Vision und Sprache von Anfang an miteinander verbunden sind -

Dieses Modell hat keine Unterscheidung zwischen visuellem und sprachlichem Modul, sondern nur ein einheitliches, speziell für Multimodalität entwickeltes "Gehirn".

Wenn wir die Geschichte der KI betrachten, so hat jeder echte Sprung von der RNN- zur Transformer-Architektur von grundlegenden Innovationen auf der Architekturebene stammte.

In den letzten Jahren war die Branche von der "Größenwahn" geprägt. Erst jetzt haben Top-Forscher wie Ilya gewarnt, dass die inhärenten Grenzen der Transformer-Architektur immer deutlicher werden und dass es nicht möglich ist, echte allgemeine Intelligenz nur durch das Anhäufen von Rechenleistung und Daten zu erreichen.

Die Entstehung von NEO kommt daher zur rechten Zeit. Mit seiner einfachen und einheitlichen nativen Architektur beweist es, dass die Wettbewerbsfähigkeit der nächsten Generation von KI von der Intelligenz der Architektur abhängt.

Drei native Technologien hinter NEO

Die Kerninnovation von NEO zeigt sich in drei unterliegenden Technologiedimensionen, die zusammen die nativen Fähigkeiten des Modells bilden.

Erstens die Native Patch Embedding.

Herkömmliche Modelle verwenden normalerweise einen diskreten Tokenizer oder verbinden ein Vision-Encoder-Modell, um Bildinformationen oder semantische Token zu komprimieren.

NEO verzichtet darauf und entwickelt stattdessen eine leichte Patch-Embedding-Schicht, die über eine zweischichtige Convolutional Neural Network direkt von den Pixeln ausgehend eine kontinuierliche, hochwertige visuelle Repräsentation erstellt.

Das ist wie ein KI-System, das lernt, wie ein Mensch direkt die Licht- und Schattenverhältnisse und Details wahrzunehmen, anstatt zunächst ein abstraktes, pixelisiertes Bild zu betrachten.

Diese Design ermöglicht es dem Modell, Texturen, Kanten und lokale Merkmale im Bild genauer zu erfassen und überwindet somit die Grenzen der gängigen Bildmodellierung.

Zweitens die Native-RoPE (Native Rotational Position Encoding).

Positionsinformationen sind für das Verständnis von Sequenzen von entscheidender Bedeutung. Texte sind eindimensional, Bilder sind zweidimensional und Videos sind dreidimensional (Raum-Zeit). Herkömmliche Modelle verwenden entweder die gleiche eindimensionale Positionskodierung für alle Modalitäten oder fügen einfach zusammen, was offensichtlich nicht den natürlichen Strukturen der verschiedenen Modalitäten entspricht.

Das Native-RoPE von NEO weist den drei Dimensionen Zeit (T), Höhe (H) und Breite (W) unterschiedliche Frequenzen zu: Die visuellen Dimensionen (H, W) verwenden hohe Frequenzen, um lokale Details und räumliche Strukturen präzise zu beschreiben; die Textdimension (T) berücksichtigt sowohl hohe als auch niedrige Frequenzen, um sowohl lokale als auch langfristige Abhängigkeiten zu verarbeiten.

Besonders geschickt ist, dass bei reinem Texteingang die Indizes von H und W auf Null gesetzt werden, was die Leistung des bestehenden Sprachmodells überhaupt nicht beeinträchtigt.

Das entspricht einem intelligenten, adaptiven Raum-Zeit-Koordinatensystem für die KI, das nicht nur jedes Pixel im Bild präzise lokalisiert, sondern auch den Weg für die nahtlose Erweiterung auf die Videoerfassung und 3D-Interaktion in komplexen Szenarien ebnet.

Drittens die Native Multi-Head Attention.

Die Attention-Mechanismus ist die Denkweise von großen Modellen. In herkömmlichen modularen Modellen ist die Attention des Sprachmodells kausal (es kann nur die vorherigen Wörter sehen), während die Attention des visuellen Encoder-Modells bidirektional ist (es kann alle Pixel sehen).

NEO ermöglicht es, dass beide Modi in einem einheitlichen Attention-Framework nebeneinander existieren.

Bei der Verarbeitung von Text-Tokens folgt es der standardmäßigen autoregressiven kausalen Attention, während es bei der Verarbeitung von visuellen Tokens die vollständige bidirektionale Attention verwendet, um alle Bildpatches frei miteinander interagieren und verknüpfen zu lassen.

Dieses "synergistische Zusammenwirken der linken und rechten Gehirnhälften" verbessert das Verständnis der räumlichen Struktur innerhalb eines Bildes erheblich und unterstützt somit komplexe Bild-Text-Inferenzen, wie das Unterscheiden der feinen Unterschiede zwischen "Die Katze ist über der Box" und "Die Katze ist in der Box".

Neben diesen drei Kernkomponenten hat NEO auch eine Zwei-Stufen-Fusions-Trainingsstrategie namens Pre-Buffer & Post-LLM.

Zu Beginn des Vortrainings wird das Modell vorübergehend in zwei Teile aufgeteilt: Ein Pre-Buffer, der sich auf die tiefe Fusion von Vision und Sprache konzentriert, und ein Post-LLM, das die starke Sprachfähigkeit erbt.

Der erste lernt unter der Leitung des zweiten effizient visuelle Informationen von Grund auf und bildet eine erste Pixel-Wort-Ausrichtung. Mit fortschreitendem Training verschwindet diese Aufteilung allmählich, und das gesamte Modell wird zu einem unteilbaren, End-to-End-System.

Diese Strategie löst auf geschickte Weise das Problem, wie man in einem nativen Modell visuelle Informationen lernt, ohne die Sprachfähigkeit zu beeinträchtigen.

Mit einem Zehntel der Daten auf Augenhöhe mit Spitzenmodellen

Theorie ist gut, aber Praxis ist besser. Lassen Sie uns nun die tatsächlichen Leistungen von NEO betrachten.

Das auffälligste Ergebnis ist die Dateneffizienz.

NEO wurde nur mit 390 Millionen Bild-Text-Paaren trainiert, was nur ein Zehntel der Datenmenge ist, die von anderen Spitzenmodellen benötigt wird!

Ohne die Abhängigkeit von einem großen visuellen Encoder-Modell oder einer riesigen Menge an Ausrichtungsdaten hat es in vielen visuellen Verständnistests die Leistung von Spitzenmodellen wie Qwen2-VL und InternVL3 erreicht.

Auf autoritativen Testlisten hat NEO ebenfalls beeindruckende Ergebnisse erzielt.

In mehreren wichtigen Benchmark-Tests wie MMMU (Multidisciplinary Multimodal Understanding), MMBench (Comprehensive Multimodal Benchmark), MMStar (Spatial and Scientific Reasoning), SEED-I (Visual Perception) und POPE (Model Hallucination Assessment) hat NEO hohe Punktzahlen erzielt und eine bessere Gesamtleistung als andere Native-VLM-Modellen gezeigt, ohne die Genauigkeit zu beeinträchtigen.

Insbesondere in der Bereich von 2B bis 8B Parametern zeigt NEO ein hohes Verhältnis von Genauigkeit zu Rechenleistung.

Für Modelle mit Hunderten von Milliarden von Parametern scheinen diese kleinen und mittleren Modelle wie Spielzeug zu sein. Doch genau diese Modelle sind die Schlüssel für die Umsetzung auf Edge-Geräten wie Mobiltelefonen, Robotern und intelligenten Autos in der Zukunft.

NEO hat nicht nur eine doppelte Verbesserung in Genauigkeit und Effizienz in diesen Größenbereichen erreicht, sondern auch die Rechenkosten erheblich gesenkt.

Das bedeutet, dass die starke Multimodalität nicht mehr nur für Cloud-Modelle reserviert ist, sondern auch auf jedem Endgerät verfügbar sein kann.

Wie beurteilt man NEO?

Abschließend müssen wir uns die Frage stellen: Was bringt NEO?

Aus dem oben Gesagten ist ersichtlich, dass der wahre Wert von NEO nicht nur in der Leistungserhöhung liegt, sondern auch darin, dass es einen neuen Weg für die Entwicklung der Multimodalität weist.

Se