Die wunderbare Magie der bösen Daten - Magier: Vortrainieren eines multimodalen Large Language Models mit nur Text

Es ist nicht nur kostengünstig, sondern kann auch die Basislinie übertreffen.

Kann man ein multimodales Großmodell auch ohne Bilder vortrainieren?

Bei der Entwicklung von multimodalen Großmodellen (MLLM) herrscht in der Branche seit langem ein kostspieliges Konsens: Ohne Bild-Text-Paare (Image-Text Pairs) gibt es keine multimodalen Fähigkeiten.

Um das Modell dazu zu bringen, Bilder zu verstehen, muss man enorme Summen ausgeben, um eine riesige Anzahl von Bildern zu sammeln und für jedes Bild eine hochwertige Bildbeschreibung zu generieren. Diese eins-zu-eins korrespondierenden stark überwachten Daten werden seit jeher als Brennstoff für die multimodale Schulung angesehen.

Aber die neueste Studie ReVision von Institutionen wie der Hong Kong University of Science and Technology (Guangzhou) und der NUS kommt zu einem gegenintuitiven Schluss: Tatsächlich sind in der Vorhersagephase (Pretraining), in der multimodale Großmodelle am stärksten auf umfangreiche Bild-Text-Paare angewiesen sind, diese teuren Paarungen nicht unbedingt erforderlich.

Theoretische Grundlage: Warum kann die "Repräsentationsausrichtung" die "Paarung" ersetzen?

Bevor wir uns mit den geometrischen Details befassen, müssen wir die grundlegenden Beschränkungen klären, unter denen ReVision funktionieren kann. Die Methode in diesem Artikel gilt nicht für beliebige zwei unabhängige Featureextraktoren, sondern basiert strikt auf dem gemeinsamen Repräsentationsraum (Joint Representation Space), der durch multimodales kontrastives Lernen (Multimodal Contrastive Learning) hergestellt wird.

1. Die Vorhersage hat die "semantische topologische Konsistenz" hergestellt: Zwei-Turm-Modelle (wie CLIP, SigLIP), die mit einer riesigen Datenmenge vortrainiert wurden, haben durch die InfoNCE-Verlustfunktion bereits die Bilder und Texte in denselben hochdimensionalen Einbettungsraum abgebildet. In diesem Raum stimmen die Merkmalsverteilungen der verschiedenen Modalitäten zwar noch nicht vollständig überein, aber sie haben bereits eine hochsensible semantische Topologie (Semantic Topology). Das heißt: Die visuellen und textuellen Einbettungen, die dieselbe Semantik ausdrücken, haben zwar einen Abstand in der absoluten Raumposition, aber ihre relativen Abstandsbeziehungen zu anderen semantischen Konzepten bleiben gleich.

2. Die Natur der Modalitätenschlucht: Wie in der Studie festgestellt wurde, ist diese Nichtübereinstimmung kein zufälliges Durcheinander, sondern eine systematische Verschiebung (Systematically Offset). Das bedeutet, dass es zwischen der Bildverteilung und der Textverteilung nur geometrische Unterschiede in Rotation, Skalierung und Translation gibt.

Schlussfolgerung: Da das kontrastive Lernen bereits das Problem der semantischen Korrelation gelöst hat, bleibt uns nur die unausgerichtete geometrische Verteilung. Daher müssen wir uns nicht erneut auf teure Paardaten verlassen, um die semantische Korrespondenz neu zu lernen. Stattdessen können wir einfach die statistischen Informationen von nicht gepaarten Daten (Statistics of Unpaired Data) nutzen, um das erste Moment (Mittelwert) und das zweite Moment (Kovarianz) der Textrepräsentation zu korrigieren, sodass ihre Verteilungseigenschaften mit der Bildrepräsentation übereinstimmen und so die Intermodalität erreicht werden kann.

Tief in die Tiefe graben: Wie sieht die Modalitätenschlucht eigentlich aus?

Da wir nun wissen, dass wir nur die geometrische Verschiebung lösen müssen, wie sieht diese Verschiebung aus? Warum brauchen wir keine Paardaten? Denn die Studie hat festgestellt, dass die bisherige Forschung einen großen geometrischen Irrtum in Bezug auf die Modalitätenschlucht (Modality Gap) gehabt hat.

Um die Schlucht zu überwinden, müssen wir zuerst ihre Form erkennen.

Frühere Missverständnisse: Der Isotropie-Irrtum

Obwohl frühere Methoden anerkennen, dass es in dem gemeinsamen Repräsentationsraum des kontrastiven Lernens zwischen Bildern und Texten einen Abstand gibt, gingen sie einfach davon aus, dass diese Abweichung gleichmäßig ist. Sie nahmen an, dass das Rauschen in der Schlucht wie eine perfekte Kugel (isotrop) in alle Richtungen gleichmäßig verbreitet ist.

Bei der Ausrichtung auf der Grundlage dieser Annahme wurde oft nur die Verschiebung des Mittelpunkts korrigiert, während die Unterschiede in der internen Struktur ignoriert wurden, was dazu führte, dass die feingranularen Semantikinformationen in den Merkmalen verdünnt wurden.

Entdeckung: Anisotropie in einem festen Rahmen

Das ReVision-Team hat dieses Phänomen auf mikroskopischer Ebene neu dekonstruiert, indem es die Theorie der Modalitätenschlucht in einem festen Rahmen anwendete. In einem gefrorenen Bezugssystem kann die Schlucht in zwei präzise geometrische Teile zerlegt werden:

Stabile Abweichung (Stable Bias): Dies ist nicht nur eine Positionsverschiebung, sondern auch eine passive, systematische Drift, die durch die Rotation des Teilraums verursacht wird.

Anisotrope Residuen (Anisotropic Residuals): Dies ist die wichtigste Entdeckung. Die Schwankungen in der Schlucht sind nicht kugelförmig, sondern gestreckt wie eine Ellipse (anisotrop).

In dem semantischen Teilraum sind diese Schwankungen stark mit der Gradientenrichtung verknüpft und tragen die Kernsemantikinformationen.

In dem orthogonalen Teilraum ist das Rauschen senkrecht zur Abweichung verteilt. Wenn man versucht, das Rauschen mit einer Kugel zu simulieren, entsteht eine Phantomdrift (Phantom Drift), die dazu führt, dass die Richtung der Merkmale nach der Projektion auf die Kugeloberfläche falsch ist.

Schlussfolgerung: In dem gemeinsamen Repräsentationsraum des kontrastiven Lernens ist die Modalitätenschlucht kein Wirrwarr, sondern eine geometrische Struktur mit einer bestimmten Seitenverhältnis und einer bestimmten Ausrichtung. Wenn man diese anisotrope Form präzise nachbilden kann, kann man die visuellen Merkmale perfekt simulieren.

Schlüsselbrüche: Die Datenkette der "eins-zu-eins-Korrespondenz" brechen

Basierend auf der genauen Kontrolle der Form der Modalitätenschlucht (Modality Gap) hat das Forschungs-Team einen Weg gefunden, um in der Vorhersagephase teure Paardaten zu umgehen.

Der Kernlogik ist: Das Modell mit geometrisch ausgerichteten Repräsentationen trainieren. Die Voraussetzung der Studie ist sehr kühne, aber geometrisch intuitiv: Ein Großmodell "sieht" nicht wirklich Bilder, sondern die Verteilungsform der Merkmale. Wenn wir durch mathematische Methoden die geometrischen Merkmale der Bilddaten extrahieren und diese statistischen Regeln reinem Text zuweisen, wird dieser Text im Merkmalsraum wie ein Bild erscheinen.

Voraussetzung: Statistik ersetzt Paarung. Wenn diese Logik stimmt, sind die entsprechenden stark überwachten Bild-Text-Paare (Image-Text Pairs) nicht mehr unbedingt erforderlich für die Vorhersage. Wir müssen nur zwei kostengünstige Voraussetzungen erfüllen:

1. Eine riesige Menge an nicht gepaarten Texten: Dies bietet reichhaltiges semantisches Wissen.

2. Die statistische Verteilung von nicht gepaarten Bildern (Statistics of Unpaired Images): Dies bietet die geometrische Form des "visuellen Raums".

Schlussfolgerung: Wenn wir die statistischen Verteilungsregeln der Bilder kennen, können wir jeden beliebigen Text in der Welt mathematisch in ein visuelles Signal umwandeln und dem Modell geben. Dies ermöglicht es uns, billige Textdaten zu nutzen, um den teuren visuellen Trainingsvorgang zu simulieren.

Wie wurde es gemacht? Die Modalsubstitution "mit Form kompensiert Form"

Das Forschungs-Team hat eine Strategie namens ReAlign vorgeschlagen, die eine datenausrichtung auf der Grundlage geometrischer Prinzipien ist:

Erster Schritt: Ankerausrichtung (Anchor Alignment)

Zuerst wird das grundlegende Positions Problem gelöst. Das System berechnet den Schwerpunkt der Bilddaten im Raum und verschiebt den Mittelpunkt der Textdaten dorthin. Dies beseitigt die erste Ordnung Abweichung.

Zweiter Schritt: Spurausrichtung (Trace Alignment)

Dies ist der Schlüssel-Schritt für die Anisotropie. Anstatt wie in traditionellen Methoden kugelförmiges Rauschen hinzuzufügen, werden die Textmerkmale durch lineare affine Transformationen gestreckt und rotiert, um die globale Spur der Bilddaten zu erfassen.

Dieser Schritt stellt sicher, dass die Textmerkmale bei Beibehaltung ihrer eigenen semantischen Struktur die anisotropen Residuen der visuellen Merkmale in geometrischer Skala und Form perfekt nachbilden.

Dritter Schritt: Schwerpunktausrichtung (Centroid Alignment)

Schließlich führt das Team eine explizite sekundäre Korrektur durch, um die Phantomdrift zu beseitigen, die beim Projektieren auf die Einheits-Hyperebene entsteht. Dies stellt sicher, dass die Merkmale auf der endgültigen Mannigfaltigkeit präzise ausgerichtet sind.

Ergebnis: Nach diesem Kombinationsansatz nähern sich die Merkmale eines reinen Texts in mathematischer Hinsicht bereits fast den echten Bildmerkmalen an. Der gesamte Prozess erfordert keine echten Bilder und keine manuell annotierten Paardaten.

Warum sind "nicht gepaarte Texte" eigentlich stärker?

Sie fragen sich vielleicht: Wenn das Ziel ist, Bilder zu verstehen, warum nicht direkt Bild-Text-Paare verwenden, sondern umständlich reine Texte nutzen?

Das ist genau die subversivste Entdeckung von ReVision: Vor der Datenmenge spielt die Paarung der Daten keine Rolle mehr, sondern die Wissensdichte der Daten ist das Entscheidende.

1. Überwindung der Datenknappheit

Hohe Qualität Bild-Text-Paare sind begrenzt und die Reinigungskosten sind sehr hoch. Aber nicht gepaarte Texte sind fast unbegrenzt. Jede Buch und jede Studie im Internet kann jetzt durch ReVision in Brennstoff für die Schulung von multimodalen Modellen umgewandelt werden.

2. Die Überlegenheit in der Wissensdichte

Traditionelle Bild-Text-Paare enthalten oft nur begrenzte semantische Informationen.

Die in dieser Studie verwendeten nicht gepaarten langen Texte können ganze Abschnitte mit reichhaltiger Semantik sein, die nicht durch explizite Bilder eingeschränkt sind. Wenn das Modell durch diese langen Texte visuelle Konzepte lernt, lernt es nicht nur die Merkmale der Bilder, sondern auch das komplexe Weltwissen und die logischen Schlussfolgerungen dahinter.

3. Höchster Kosteneffizienz

Die experimentellen Daten sind ermutigend: Ein Modell, das mit 2 Millionen reinen Texten (nach der ReAlign geometrischen Transformation) vortrainiert wurde, hat sogar eine bessere Leistung als das Basismodell, das mit 1 Million echten Bild-Text-Paaren vortrainiert wurde.

Das Wichtigste ist, dass die Vorhersagedatenkosten des ersteren nur 74% der des letzteren betragen.

Fazit

Das Auftauchen von ReVision hat eine neue Tür für die Schulung von multimodalen Großmodellen geöffnet.

Es hat bewiesen, dass wir uns nicht von Paardaten blockieren lassen müssen. Wenn wir die geometrische Form der Modalitätenschlucht verstehen und die Magie der Statistik nutzen, sind die riesigen Mengen an reinen Textressourcen das beste visuelle Lehrbuch. Ohne teure Annotationen, ohne die Bindung der eins-zu-eins-Korrespondenz, kann die KI die Welt verstehen, solange es Texte gibt.

Arxiv:

https://arxiv.org/abs/2602.07026 Github:

https://github.com/Yu-xm/ReVision.git H

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die Magie der bösen Daten-Magier ist wunderbar: Mit nur Text-Daten kann man ein multimodales Large Language Model vortrainieren.