Hat das amtierende stärkste chinesische Multimodal-Modell schon wieder seinen Thron abgegeben? Mit 67,1 Milliarden Parametern entwickelt es ein "feinsinniges Auge" und basiert auf DeepSeek.
Nach einer Meldung von Zhidongxi vom 28. November hat Kuaishou gerade sein neues Flaggschiff-Multimodal-Großmodell Keye-VL-671B-A37B open source gemacht. Das Modell basiert auf DeepSeek-V3-Terminus und verfügt über 671 Milliarden Parameter. Unter Beibehaltung der allgemeinen Fähigkeiten des Basis-Modells wurden die visuelle Wahrnehmung, die Quer-Modalität-Ausrichtung und die komplexen Inferenzketten verbessert, wodurch eine starke multimodale Verständnis- und komplexe Inferenzfähigkeit erreicht wurde.
Wie stark ist Keye-VL-671B-A37B? Lassen Sie uns zunächst einige Beispiele betrachten. Wie viele Kinokarten sind auf dem folgenden Bild? Viele Menschen würden vielleicht sofort antworten: "Drei."
Keye-VL-671B-A37B beobachtet jedoch genauer. Unter Berücksichtigung der Texte auf den Tickets kann es feststellen, dass es tatsächlich nur zwei Kinokarten auf dem Bild gibt. Das oberste Ticket ist ein Gutschein für Popcorn-Snacks. Nach Betrachtung des Denkprozesses kann man feststellen, dass es nicht nur die Texte, Markierungen und Layoutunterschiede jeder Karte auf dem Bild genau erkennt, sondern auch weiter schließen kann: Die Karten links und in der Mitte entsprechen den Kernmerkmalen von Kinokarten, während die Karte rechts keine Sitzplatzinformationen und keine Angabe zur Kinovorführung hat und tatsächlich ein gestapeltes Lebensmittel-Gutschrift ist, keine Kinokarte.
Neben der Fähigkeit, Bilder zu verstehen, verfügt Keye-VL-671B-A37B ebenfalls über eine starke Fähigkeit, Videos zu verstehen und daraus zu schließen. Wenn man es nach den Änderungen der Aufnahmen im folgenden Video fragt, kann es Kern-Elemente wie "blaue Doppeldecker-Straßenbahn", "Louis Vuitton", "Tiffany & Co" erkennen und Details über die Änderungen der Aufnahmen ausgeben.
Kuaishou hat einen Vergleich der Leistung von Keye-VL-671B-A37B mit anderen VL-Modellen veröffentlicht. In den beiden Kernbereichen des allgemeinen visuellen Verständnisses und des Video-Verständnisses übertraf Keye-VL-671B-A37B führende VL-Modelle wie Seed1.5-VL think von ByteDance und Qwen3-VL 235B-A22B von Alibaba.
Bei 26 gängigen Benchmark-Tests, die Fähigkeiten wie STEM, Inferenz, allgemeine Fragenbeantwortung, Video-Verständnis, OCR und reinen Text umfassen, erzielte Keye-VL-671B-A37B in 18 Tests die höchsten Punktzahlen.
Derzeit ist Keye-VL-671B-A37B offiziell open source und kann auf Hugging Face und GitHub heruntergeladen und getestet werden.
Github:
https://github.com/Kwai-Keye/Keye
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
01. Vorabtraining in drei Phasen mit nur 300 Milliarden hochwertigen Daten
Keye-VL-671B-A37B verwendet DeepSeek-V3-Terminus als Basis für das Large Language Model, was ihm eine stärkere Fähigkeit zur Text-Inferenz verleiht. Das visuelle Modell wird mit Keye-ViT initialisiert, eine Komponente aus Keye-VL-1.5. Beide werden über eine MLP-Schicht verbunden. Keye-VL-1.5 ist ein multimodales Großmodell, das Kuaishou Anfang September dieses Jahres open source gemacht hat. Es verfügt über 8 Milliarden Parameter und unterstützt eine erweiterte Kontextlänge von 128.000 Tokens.
Das Vorabtraining von Keye-VL-671B-A37B umfasst drei Phasen, um systematisch die multimodale Verständnis- und Inferenzfähigkeit des Modells aufzubauen. Das Modell nutzt den visuellen Encoder von Keye-VL-1.5, der bereits durch ein Modell der Größe 8 Milliarden auf 1 Billion Tokens multimodaler Vorabtrainingsdaten ausgerichtet wurde und somit eine starke grundlegende Wahrnehmungsfähigkeit aufweist.
Kuaishou hat etwa 300 Milliarden hochwertige Vorabtrainingsdaten ausgewählt, was sich stark von den Trainingsdaten anderer Großmodelle unterscheidet, die oft in "T (Billionen)" gemessen werden. Kuaishou sagt, dass es das Ziel hat, mit begrenzten Rechenressourcen effizient die Kernwahrnehmungsgrundlagen des Modells aufzubauen, um sicherzustellen, dass die Fähigkeit zum visuellen Verständnis solide ist und die Rechenkosten kontrollierbar bleiben.
Das Vorabtraining von Keye-VL-671B-A37B erfolgt in drei Schritten:
Erste Phase: Das ViT und das LLM werden eingefroren, und nur der zufällig initialisierte Projektor wird trainiert, um sicherzustellen, dass die visuellen und sprachlichen Merkmale zunächst ausgerichtet werden können.
Zweite Phase: Alle Parameter werden für das Vorabtraining freigegeben.
Dritte Phase: Das Modell wird auf höherwertigen Daten mit einem Annealing-Verfahren trainiert, um die feinere Wahrnehmungsfähigkeit des Modells zu verbessern.
Die multimodalen Vorabtrainingsdaten von Keye werden durch eine automatisierte Datenpipeline erstellt. Kuaishou hat die Daten streng gefiltert, neu gesampelt und VQA-Datenaugmentation hinzugefügt, um sicherzustellen, dass die Daten häufige und komplexe visuelle Formate wie OCR, Diagramme und Tabellen abdecken und somit die Wahrnehmungsqualität und die Generalisierungsfähigkeit des Modells verbessern.
In der Annealing-Phase hat Kuaishou Denkprozess-Daten, die von DeepSeek-V3-Terminus generiert wurden, hinzugefügt, damit das Modell seine starke Inferenzfähigkeit behält, während es die visuelle Wahrnehmung weiter verbessert.
02. Mehrphasige Nachtraining-Strategie: Gemischte CoT-Daten ergeben bessere Ergebnisse
Das Nachtraining von Keye-VL-671B-A37B besteht aus drei Schritten: Supervised Fine-Tuning (SFT), Cold Start und Reinforcement Learning. Die Trainingsaufgaben umfassen visuelle Fragenbeantwortung, Diagramm-Verständnis, Rich-Text-OCR, Mathematik, Code und logische Inferenz.
In der SFT-Phase verwendete das Entwicklungsteam von Keye-VL-671B-A37B mehr multimodale und reine Text-Denkketten-Daten, um die Fähigkeit des Modells für reinen Text zu verbessern und die multimodalen Fähigkeiten zu stärken. In der Cold-Start-Phase wurde die Inferenzfähigkeit des Modells durch Inferenz-Datenaugmentation verbessert. In der Reinforcement-Learning-Phase wurden komplexe Inferenzdaten verwendet, um die "Denk-" und "Nicht-Denk-"Fähigkeiten des Modells zu verbessern, und es wurden Videodaten hinzugefügt, um die Fähigkeit des Modells, Videos zu verstehen, zu verbessern.
Das Entwicklungsteam von Keye-VL-671B-A37B hat wiederholt Experimente mit dem Verhältnis von Anweisungsdaten (Instruct) und langen Denkkettendaten (Long-CoT) in der Datensammlung durchgeführt, um die Einschränkungen des bisherigen Supervised Fine-Tuning-Paradigmas, das ausschließlich auf Anweisungsdaten setzt, zu überwinden.
Während dieses Prozesses hat Kuaishou die Überlegenheit des gemischten Modells (Instruct + Long-CoT) gegenüber dem Einzelschema (Instruct) bestätigt. Das heißt, dass das Hinzufügen von mehr langen Denkkettendaten in die SFT-Datensammlung die Gesamtleistung des Modells verbessert und die Stabilität des nachfolgenden Trainings verbessert.
Die Loss-Kurve zeigt, dass das Hinzufügen von mehr CoT-Daten in der SFT-Phase den Trainingsverlust in der Cold-Start-Phase deutlich verringern kann.
Der Vergleich der Leistung auf mehreren Benchmarks zeigt auch, dass das Modell, das mit gemischten CoT-Daten trainiert wurde, im Vergleich zu dem Modell, das nur mit Anweisungs-Fine-Tuning trainiert wurde, eine deutliche Leistungssteigerung erzielt hat.
In der Cold-Start-Phase ist die Qualität der CoT-Daten für die Verbesserung der Inferenzfähigkeit des Modells von entscheidender Bedeutung. Der Inferenzprozess von reinen Textmodellen ist oft langwierig und enthält viele Wiederholungen. Um das Problem des Überdenkens zu lindern, hat das Entwicklungsteam von Keye-VL-671B-A37B einen strengen Datenauswahlprozess entwickelt, um Denkketten mit überflüssigen Rückbesinnungen zu filtern.
Die Experimente auf Keye-VL-1.5-8B zeigen, dass das Filtern von überflüssigen Daten sowohl die Inferenzfähigkeit als auch die Wahrnehmungsfähigkeit des Modells verbessert.
03. Reinforcement Learning: Gleiches Algorithmus wie Qwen3 und spezielles Verifier-Modell
In der Reinforcement-Learning-Phase hat Kuaishou den herkömmlichen GRPO-Reinforcement-Learning-Algorithmus nicht verwendet. GRPO ist eine Token-Ebene-Modellierung und ist instabil beim Training von MoE-Modellen.
Beim Training von Keye-VL-671B-A37B hat Kuaishou GSPO (Group Sequence Policy Optimization) als Basis-Reinforcement-Learning-Algorithmus eingesetzt, um eine Sequenz-Ebene-Modellierung durchzuführen und die Stabilität des Reward-verifizierten Reinforcement Learnings (RLVR) zu verbessern. Bemerkenswerterweise ist dieser Algorithmus einer der Kernalgorithmen des Qwen3-Serienmodells von Alibaba.
Für das Reinforcement Learning ist die Qualität des Belohnungssignals von entscheidender Bedeutung. In der Reinforcement-Learning-System von Keye-VL-671B-A37B hat Kuaishou zunächst ein spezielles Verifier-Modell trainiert, um die Logik des Denkprozesses der Modellausgabe und die Übereinstimmung der endgültigen Antwort mit der Standardantwort zu überprüfen. Das Verifier-Modell verwendet Keye-VL-1.5 8B als Basis, und der Trainingsvorgang umfasst die SFT- und RL-Phase.
In der SFT-Phase gibt es sowohl einfache binäre Klassifizierungsaufgaben, bei denen direkt entschieden wird, ob die generierte Antwort mit der Referenzantwort übereinstimmt, als auch komplexere Analyseaufgaben, bei denen das Verifier-Modell die Logik und Richtigkeit der vom Modell generierten Antwort in einem "Denk-Antwort"-Format analysieren muss.
In der RL-Phase trainiert das Entwicklungsteam zunächst auf einer großen Menge an Präferenzdaten und führt dann ein Annealing mit einer hochwertigen Datensammlung aus manuellen Annotationen durch, um die Genauigkeit des Verifier-Modells zu verbessern.
Um die Detektionsgenauigkeit des Verifier-Modells für die generierten Ergebnisse zu untersuchen, hat das Entwicklungsteam 10.000 Trainingsdaten und die vom Modell generierten Antworten extrahiert und die Detektionsgenauigkeit des Verifier-Modells mit der von Qwen-2.5-VL 72B Instruct verglichen. Unter 150 manuell ausgewählten Daten, bei denen die Entscheidungen von Keye-Verifier und Qwen unterschiedlich waren, war Keye in 128 Fällen richtig, Qwen in 22 Fällen.
Vorversuche auf Keye-VL-preview zeigen, dass das Belohnungssignal von Keye-Verifier im Vergleich zu einem auf Regelmatching basierenden Belohnungssignal die durchschnittliche Genauigkeit von Keye-VL-preview auf mehreren offenen Wahrnehmungsbenchmarks um 1,45 % und auf drei multimodalen mathematischen Datensammlungen um 1,33 % verbessert.
Um hochschwere Beispiele auszuwählen, hat Kuaishou Keye-VL-1.5-8B als Filter verwendet, um aus der Kandidaten-Datensammlung zu samplen und die Genauigkeit mit dem Verifier-Modell zu berechnen. Nur Daten mit einer Gen