StartseiteArtikel

Multimodale Large Language Model (LLM) erreicht erstmals Pixel-level Inferenz. Ein Modell mit 3 Milliarden Parametern übertrifft traditionelle Modelle mit 72 Milliarden Parametern. Akzeptiert von NeurIPS 2025.

量子位2025-10-16 15:38
Die drei Hauptaufgaben der Referenzsegmentierung und -inferenz werden alle bewältigt.

Ein multimodelles Großmodell erreicht erstmals eine pixelgenaue Inferenz und erledigt die drei Aufgaben der Referenzierung, Segmentierung und Inferenz auf einmal!

Es ist inzwischen so einfach, dass KI "Bilder beschreibt". Doch selbst GPT-5 und Gemini 2.5 Pro können nur "eine grobe Vorstellung" gewinnen und haben Schwierigkeiten, präzisere Zielobjekte zu identifizieren und zu inferieren.

Daher hat ein Forschungsteam aus der Hong Kong Polytechnic University und dem Tencent ARC Lab das erste einheitliche pixelgenaue multimodelle Großmodell namens UniPixel vorgeschlagen.

Ohne weitere Umschweife, schauen wir uns zuerst die Leistungen von UniPixel an:

Mit nur einem einzigen Modell, UniPixel, können die drei Aufgaben der Zielreferenzierung (Referring), pixelgenauen Segmentierung (Segmentation) und Regionalinferenz (Reasoning) erledigt werden. Dabei zeichnet es sich durch Flexibilität, Präzision und Skalierbarkeit aus.

Derzeit wurde der Artikel von NeurIPS 2025 akzeptiert, und der Code, die Daten und die Demo sind vollständig Open Source!

Hier sind weitere detaillierte Informationen.

UniPixel neu definiert die visuelle Inferenz

Die meisten traditionellen Systeme zur visuellen Frage-Antwort oder -Beschreibung inferieren auf der Grundlage ganzer Bild- oder Videoinformationen und haben eine fehlende präzise Wahrnehmung für "konkrete Regionen" oder "angegebene Ziele" in Bildern.

Dies schränkt nicht nur ihre praktische Anwendung in Szenarien wie medizinischer Diagnose, automatisiertem Fahren und Mensch-Maschine-Interaktion ein, sondern erfüllt auch schwer die höheren Anforderungen der Benutzer an "Kontrollierbarkeit" und "Erklärbarkeit".

Nehmen wir als Beispiel eine alltägliche Aufgabe: "Bitte zeigen Sie die Person links im Bild an und beschreiben Sie, was sie tut." Für Menschen richten wir uns schnell auf das linke Ziel aus und treffen Entscheidungen und Beschreibungen anhand von Perspektive, Verhalten und Kontext. Doch für traditionelle LMM sind solche Fragen oft schwer zu beantworten, da es an Regionalhinweisen und Signifikanzmodellierung fehlt.

UniPixel ermöglicht die gesamte Prozessunterstützung von "Wahrnehmung - Gedächtnis - Inferenz" für Benutzerhinweise, indem es einen "Objektgedächtnismechanismus (Object Memory Bank)" und eine einheitliche visuelle Codierungsmethode für drei Arten von visuellen Hinweisen (Punkte, Rahmen, Masken) einführt.

Im Gegensatz zu bestehenden einfachen Segmentierungs- und Regionalverständnis-Modellen kann UniPixel nicht nur das vom Benutzer angegebene Ziel identifizieren, sondern auch dieses Ziel als Kontext explizit in nachfolgende Gespräche aufnehmen und stark damit verbundene Segmentierungsergebnisse, sprachliche Antworten oder Beschreibungen ausgeben.

Um dieses Ziel zu erreichen, hat UniPixel in der Architekturgestaltung eine systematische Neuerung vorgenommen.

Wie in der folgenden Abbildung gezeigt, basiert sein gesamtes Framework auf dem Qwen2.5-VL-Modell, das die Eingabe von Bildern und Videos unterstützt und die Fähigkeit zur Wahrnehmung und Verarbeitung von verschiedenen Hinweisen wie Text, Punkten, Rahmen und Masken aufweist.

Der Benutzer kann ein Bild oder Video, einen Text hinweis und mehrere optionale visuelle Hinweise eingeben. Das Modell gibt dann eine natürliche sprachliche Antwort und eine optionale raumzeitliche Maske (spatial-temporal mask) aus, um eine Interaktion auf der Grundlage visueller Detailinformationen zu ermöglichen.

Um diesem Framework die eigentliche Fähigkeit zur "pixelgenauen Inferenz" zu verleihen, hat UniPixel drei Schlüsselmodule eingeführt:

  • Prompt-Codierer: Unterstützt drei Arten von visuellen Hinweisen: Punkte, Rahmen, Masken;
  • Objektgedächtnis: Speichert die vom Benutzer angegebenen Ziele und ermöglicht mehrfache Referenzen;
  • Masken-Decodierer: Erzeugt präzise raumzeitliche Masken.

Darüber hinaus hat UniPixel das Vokabular des Sprachmodells erweitert und spezielle Token wie <REF>, <MEM> und <SEG> hinzugefügt, um die Einfügung visueller Hinweise, den Aufruf des Objektgedächtnisses und den Maskenerzeugungsprozess zu steuern und so eine enge Verbindung zwischen sprachlicher Erzeugung und Pixelwahrnehmung herzustellen.

Insbesondere können drei technische Highlights genannt werden:

Einheitliche Codierung von drei Arten von visuellen Hinweisen

Um ein möglichst freies Interaktionsniveau zu erreichen, hat UniPixel ein Prompt Encoder-Modul entwickelt, um die drei Arten von visuellen Hinweisen einheitlich zu codieren.

Ob Punkte, Rahmen oder Masken, alle können einheitlich als hoherdimensionale Vektoren im selben Raum codiert werden.

Diese Codierungsmethode integriert Informationen wie Raumkoordinaten, Zeitposition und Hinweistyp und stimmt sie mit den visuellen Token über eine Codierungsprojektionsschicht ab.

Im Vergleich zu früheren Modellen, die nur Text hinweise oder vereinfachte Bildregionen akzeptieren, kann UniPixel komplexere Benutzereingaben verarbeiten. Beispielsweise kann es die Eingabe eines Klicks auf ein Zielobjekt in der 5. Sekunde eines Videos und die anschließende Frage zu den davor und danach stattfindenden Ereignissen genau analysieren und verarbeiten. Solche Szenarien können durch die Kombination von Punkt hinweis und Zeitmarkierung genau interpretiert und verarbeitet werden.

Objektgedächtnismechanismus verleiht dem Modell die Fähigkeit, Ziele zu merken

Eines der zentralen Merkmale von UniPixel ist sein Objektgedächtnis (Object Memory Bank)-Modul, eine dynamisch aktualisierbare Hash-Struktur, die dazu dient, die vom Benutzer angegebenen Zielregionen während des Inferenzprozesses zu speichern und zu verwalten. Sein Funktionsprinzip ist in der folgenden Abbildung dargestellt.

Genauer gesagt wird, wenn der Benutzer in der Eingabe Markierungen wie etc. verwendet, um ein Ziel zu referenzieren, automatisch ein "Vorfüllen des Gedächtnisses (memory pre-filling)"-Prozess ausgelöst. Das Modell erkennt intelligenterweise das Ziel und erzeugt die entsprechende raumzeitliche Maske, die dann als Objektinformation in das Gedächtnis geschrieben wird.

Dieser Mechanismus ermöglicht es dem Modell, diese Gedächtnisobjekte in mehrfachen Gesprächen wiederzuverwenden und eine echte "kontextgesteuerte Inferenz" zu erreichen.

Wenn der Benutzer später erneut ein Ziel erwähnt, muss er nur die zuvor definierte Nummer verwenden, um die entsprechende Region automatisch zu aktivieren. Über den "Gedächtniseinbau (memory injection)"-Mechanismus werden die Merkmale in den Prompt eingefügt, damit das LLM inferieren kann.

Dieser Mechanismus bricht die Beschränkungen der einmaligen "Hinweis-Antwort"-Interaktion in traditionellen Methoden und verleiht dem Modell eine ähnliche Fähigkeit wie der Mensch zur "Aufmerksamkeit - Gedächtnis - Induktion".

Beispielsweise kann das Modell, wenn der Benutzer fragt: "Was für eine Interaktion gibt es zwischen [1] und [2]?", die Verhaltenspfade beider durch die Maske abstrahieren und aus dem ursprünglichen Bild oder Video erneut wahrnehmen, um eine sinnvolle Antwort zu generieren.

Masken-gesteuerte Inferenz führt Verständnis und Segmentierung tiefgreifend zusammen

Außer der präzisen Identifizierung von Zielregionen integriert UniPixel auch den Maskenerzeugungsprozess in den Inferenzprozess des Sprachmodells und erreicht eine bidirektionale Schleife von "Sprachgesteuerte Segmentierung, Segmentierung fürdert das Verständnis".

Genauer gesagt erzeugt das Modell während des Inferenzprozesses das <SEG> Token als Maskenauslöser. Jedes <SEG> Token wird in den Masken-Decodierer eingegeben, der auf der Grundlage des Kontexts und bekannter Hinweise die entsprechende Zielmaske erzeugt.

Diese Masken werden dann durch Pooling des ursprünglichen Bildes oder Videos in Merkmale von Objekten umgewandelt, die vom LLM erkannt werden können, um komplexere semantische Fragen zu beantworten.

Dieser Mechanismus verbessert erheblich die Leistung des Modells bei der Videoverständnisaufgabe. Nehmen wir als Beispiel eine tatsächliche Aufgabe: "Was sind die Unterschiede im Verhalten zwischen [1] und [2]?" Durch die Modellierung der Verhaltensregionen von [1] und [2] und den Vergleich der Maskenmerkmale kann UniPixel eine genaue Antwort geben und die entsprechende Region in jedem Frame anzeigen.

Außerdem wendet UniPixel bei der Trainingsstrategie eine modulare und stufenweise Trainingsstrategie an.

Das Modell pretrainiert zunächst den visuellen Encoder und das Sprachmodell und führt dann schrittweise Komponenten wie Prompt Encoder, Object Memory Bank und Mask Decoder für das gemeinsame Training ein, damit die Module zusammenarbeiten können, ohne an eine bestimmte Aufgabe zu overfitten.

Darüber hinaus hat der Autor mehrere Datensätze erstellt und integriert, die Text, Bilder und Videos sowie verschiedene Arten von visuellen Hinweisen (Punkte, Rahmen, Masken) umfassen.

Die gesamte Trainingsdatenmenge beträgt etwa 1 Million Samples (siehe die folgende Tabelle). Sie unterstützt verschiedene Arten von Aufgaben, von der statischen Objektreferenzierung bis zur Erzeugung von zeitlichen Masken. Diese Daten bieten dem Modell eine einheitliche und vielfältige Trainingsumgebung und verbessern seine Anpassungsfähigkeit bei verschiedenen Aufgaben.

Experimente und Bewertungen

Um die Wirksamkeit des UniPixel-Frameworks zu validieren, hat der Autor umfassende Experimente an 10 öffentlichen Benchmark-Datensätzen durchgeführt, die 9 visuelle Sprachverständnisaufgaben umfassen. Die genauen Aufgaben und die Einstellungen der Datensätze sind