Auf den Schultern von DeepSeek stehend hat Xiaohongshu sein erstes multimodales Modell open source gemacht: Es kann Emojis verstehen und Mathematikaufgaben lösen, eine eigene Praxis-Testbericht.
Zhidongxi berichtete am 7. August, dass gestern das hi lab (Humanities Intelligence Laboratory) von Xiaohongshu sein erstes multimodales Großmodell dots.vlm1 open source gemacht hat. Dieses Modell basiert auf DeepSeek V3 und ist mit dem von Xiaohongshu selbst entwickelten visuellen Encoder NaViT mit 1,2 Milliarden Parametern ausgestattet. Es verfügt über Fähigkeiten zur multimodalen Verständnis und Inferenz.
Das hi lab hat angegeben, dass dots.vlm1 auf den wichtigsten visuellen Testdatensätzen insgesamt nahe an die derzeit führenden Modelle wie Gemini 2.5 Pro und Seed-VL1.5 thinking herangekommen ist. Insbesondere in mehreren Benchmark-Tests wie MMMU, MathVision und OCR Reasoning hat es starke Fähigkeiten zur Verständnis und Inferenz von Texten und Bildern gezeigt.
Dieses Modell kann komplexe Diagramme mit gemischten Texten und Bildern verstehen, die Bedeutung hinter Emojis verstehen, die Unterschiede in den Zutatenlisten von zwei Produkten analysieren und auch den Namen und die Hintergrundinformationen von Antiquitäten und Gemälden in Museen bestimmen.
Einige offizielle Beispiele (Quelle: Xiaohongshu Technology)
Bei typischen Text-Inferenzaufgaben (wie AIME, GPQA, LiveCodeBench) leistet dots.vlm1 ungefähr so gut wie DeepSeek-R1-0528. Es hat bereits eine gewisse Allgemeingültigkeit in der mathematischen und codierenden Fähigkeit, aber es gibt immer noch Lücken bei vielfältigeren Inferenzaufgaben wie GPQA.
Ergebnisse des Benchmark-Tests von dots.vlm1 (Quelle: Xiaohongshu Technology)
Insgesamt gesehen ist dots.vlm1 in der visuellen multimodalen Fähigkeit nahe am SOTA (State-of-the-Art)-Niveau und erreicht in der Text-Inferenz die Leistung der gängigen Modelle. Das hi lab hat jedoch auch betont, dass dots.vlm1 bei einigen speziellen Aufgaben immer noch einen gewissen Abstand zu den besten Ergebnissen hat und dass es bei der Architekturgestaltung und den Trainingsdaten noch weiter optimiert werden muss.
Derzeit wurde dots.vlm1 auf die open source Plattform Hugging Face hochgeladen. Benutzer können dieses Modell auch kostenlos über den Erfahrungslink auf Hugging Face nutzen.
Am 6. Juni dieses Jahres hat Xiaohongshu sein erstes Großsprachmodell open source gemacht und danach auch ein spezielles Modell für OCR sowie Forschungsergebnisse in führenden Bereichen wie visuellen und Belohnungsmodellen open source gemacht. Die weiteren Schritte dieses neuen Spielers in der Welt der Großmodelle sind weiterhin aufmerksam zu verfolgen.
Open source Adresse:
https://huggingface.co/rednote-hilab/dots.vlm1.inst
Erfahrungslink:
https://huggingface.co/spaces/rednote-hilab/dots-vlm1-demo
01.
Komplizierte englische Diagramme interpretieren
Visuelle Rätsel lösen
Zhidongxi hat die multimodale Verständnisfähigkeit von dots.vlm1 getestet. Wir haben einen Screenshot der Erfahrungsseite des von OpenAI gestern open source gemachten Modells an dots.vlm1 übermittelt und es darum gebeten, die Kerninformationen des Bildes zu interpretieren.
Man kann sehen, dass dots.vlm1 die meisten Informationen im Bild korrekt erkannt hat und auch durch das Lesen des Codes auf der rechten Seite die visualisierte Wirkung dieses Codes vorstellen konnte. Vielleicht aufgrund eines Problems im OCR-Schritt hat es jedoch die Anzahl der Parameter eines der Modelle falsch erkannt.
Dots.vlm1 verfügt über gewisse Fähigkeiten zur Inferenz von komplexen Diagrammen. In den offiziellen Demo-Beispielen hat dots.vlm1 englische Diagramme mit gemischten Texten verstanden, die Beziehungen zwischen den Diagrammelementen korrekt erkannt und die von den Benutzern gefragten Daten berechnet.
Wenn man eine Preisliste eines Tourismusorts hochlädt und zusätzlich Text-Hinweise zur Gruppeninformation angibt, kann dots.vlm1 für die Benutzer ein Ticketkaufplan erstellen.
In Bezug auf die mathematische Fähigkeit kann dots.vlm1 die Grafiken in geometrischen Aufgaben verstehen, Informationen wie Farben verstehen und basierend auf diesen Informationen die Aufgaben lösen und die richtigen Antworten erhalten.
Dots.vlm1 kann auch visuelle Informationen wie Emojis inferieren. Beispielsweise hat es anhand der von mehreren Emojis repräsentierten Bilder erraten, dass diese Information für "The Ballad of Songbirds and Snakes" steht.
02.
Basierend auf DeepSeek V3 entwickelt
1,2 Milliarden visueller Encoder für multimodale Wahrnehmung
Dots.vlm1 besteht aus drei Kernkomponenten: einem visuellen Encoder NaViT mit 1,2 Milliarden Parametern, einem leichten MLP-Adapter und dem DeepSeek V3 MoE Großsprachmodell. Diese Architektur wird durch einen dreistufigen Prozess trainiert:
(1) Vorhersage des visuellen Encoders
Der NaViT-Encoder wurde vom hi lab von Grund auf trainiert, um die Wahrnehmungsfähigkeit für vielfältige visuelle Daten zu maximieren. Dieser Encoder enthält 42 Transformer-Schichten und nutzt Technologien wie RMSNorm, SwiGLU und zweidimensionale rotierende Positionskodierung (2D RoPE).
Während des Vorhersageprozesses verwendet der NaViT-Encoder eine doppelte Überwachungsstrategie, einschließlich der Vorhersage des nächsten Tokens (NTP) und der Generierung des nächsten Patches (NPG). Die erste Methode trainiert die Wahrnehmungsfähigkeit des Modells durch eine große Anzahl von Text-Bild-Paaren, während die zweite Methode reine Bilddaten nutzt und durch ein Diffusionsmodell die Bildpatches vorhersagt, um die räumliche und semantische Wahrnehmungsfähigkeit zu verbessern. Bei der Vorhersage wurden eine große Anzahl von Text-Bild-Paaren verwendet.
In der zweiten Phase der Vorhersage hat das hi lab schrittweise die Bildauflösung erhöht, beginnend mit Eingaben im Millionenpixelbereich, trainiert auf einer großen Anzahl von Tokens und später auf der Stufe von Zehnmillionenpixeln. Um die Generalisierungsfähigkeit weiter zu verbessern, wurden auch reichhaltigere Datenquellen eingeführt, einschließlich Bilder aus OCR-Szenarien, Grounding-Daten und Videoframes.
(2) Vorhersage des VLM
In dieser Phase hat das hi lab den visuellen Encoder zusammen mit DeepSeek V3 trainiert und ein großes, vielfältiges multimodales Datensatz verwendet, hauptsächlich bestehend aus Cross-Modal-Übersetzungsdaten und Cross-Modal-Fusionsdaten.
Die Cross-Modal-Übersetzungsdaten werden verwendet, um das Modell zu trainieren, die Bildinhalte in Texten zu beschreiben, zusammenzufassen oder neu zu gestalten, einschließlich gewöhnlichen Bildern, komplexen Diagrammen, Tabellen, Formeln, Grafiken, OCR-Szenarien, Videoframes und den entsprechenden Textanmerkungen.
Die Cross-Modal-Fusionsdaten werden verwendet, um das Modell zu trainieren, die Vorhersage des nächsten Tokens in gemischten Text-Bild-Kontexten auszuführen, um zu vermeiden, dass das Modell übermäßig auf eine einzelne Modalität angewiesen ist.
Das hi lab hat angegeben, dass das Team für verschiedene Arten von Fusionsdaten spezielle Reinigungs-Pipelines entwickelt hat, von denen die folgenden beiden Arten besonders effektiv sind:
Webseiten-Daten: Die Webseiten-Daten mit Texten und Bildern sind sehr vielfältig, aber die Qualität der Ausrichtung von Bildern und Texten ist nicht gut. Das hi lab hat ein internes, selbst entwickeltes VLM-Modell verwendet, um die Daten neu zu schreiben und zu reinigen und die Bilder von geringer Qualität und die schwach relevanten Texte zu entfernen.
PDF-Daten: Die Qualität der PDF-Inhalte ist im Allgemeinen hoch. Um diese Daten voll auszunutzen, hat das hi lab ein spezielles Analysemodell dots.ocr entwickelt (dieses Modell ist ebenfalls open source), um die PDF-Dokumente in eine Darstellung mit gemischten Texten und Bildern umzuwandeln. Gleichzeitig wird die gesamte PDF-Seite in ein Bild gerendert und ein Teil der Textbereiche zufällig verdeckt, um das Modell anzuleiten, die verdeckten Inhalte anhand der Layout- und Kontextinformationen vorherzusagen und so seine Fähigkeit zur Verständnis von visuellen Formatdokumenten zu verbessern.
(3) Nachhersage des VLM
Das hi lab hat die Generalisierungsfähigkeit des dots.vlm1-Modells durch überwachtes Feintuning (SFT) verbessert und nur Daten mit vielfältigen Aufgaben für das Training verwendet, ohne auf die Verstärkungslernmethode zurückzugreifen.
03.
Abschluss: Es gibt noch Raum für Verbesserungen in der Wahrnehmungs- und Inferenzfähigkeit
Als nächstes wird die Verstärkungslernmethode erforscht
Das hi lab hat angegeben, dass das Team bei der Evaluierung festgestellt hat, dass dots.vlm1 immer noch Mängel in der visuellen Wahrnehmungs- und Inferenzfähigkeit hat.
In Bezug auf die visuelle Wahrnehmung plant das hi lab, die Größe und Vielfalt der Cross-Modal-Übersetzungsdaten zu erweitern und die Struktur des visuellen Encoders weiter zu verbessern, um eine effektivere neuronale Netzwerkarchitektur und Verlustfunktion zu finden und so die Trainingsleistung zu verbessern.
In Bezug auf die visuelle Inferenz wird das hi lab die Verstärkungslernmethode anwenden, um die Lücke in der Inferenzfähigkeit zwischen Texten und multimodalen Hinweisen zu verringern. Gleichzeitig wird es auch die Möglichkeit erforschen, mehr Inferenzfähigkeiten in die Vorhersagephase zu verlagern, um die Generalisierungsfähigkeit und Effizienz zu verbessern.
Dieser Artikel stammt aus dem WeChat-Account "Zhidongxi" (ID: zhidxcom), geschrieben von Chen Junda und redigiert von Li Shuiqing. Dieser Artikel wurde von 36Kr mit Genehmigung veröffentlicht.