Übersteigt Nvidias Describe Anything, das von der chinesischen Akademie der Wissenschaften und ByteDance gemeinsam vorgeschlagene "GAR" trägt zum DeepSeek-OCR bei.
In jüngster Zeit hat DeepSeek-OCR einen neuen Ansatz namens "Vision as Context Compression" vorgeschlagen. Es konzentriert sich jedoch hauptsächlich darauf, Dokumente mithilfe der OCR-Fähigkeit des Modells und Bildkompression zu verarbeiten.
Kann also auch ein natürliches Bild als Komprimierung von Text dienen? Das von der chinesischen Akademie der Wissenschaften und ByteDance gemeinsam vorgeschlagene "Grasp Any Region" bietet einen neuen Ansatz.
Das Team glaubt, dass die präzise Fähigkeit zur regionellen Beschreibung, die von ihrer neuesten Arbeit "Grasp Any Region" (GAR) erreicht wird, einen potenziellen Weg zur Erstellung einer dichten Beschreibung von natürlichen Bildern bietet.
Konkret gesagt, verfügt GAR über drei Fähigkeiten:
1. Präzise Beschreibung einer vom Benutzer angegebenen Region.
2. Modellierung der Beziehungen zwischen mehreren Regionen.
3. Durchführung komplexer kombinatorischer Schlussfolgerungen (z. B. die Diskriminierung von Nicht-Entitäten in einem Bild).
△
Schauen wir uns das genauer an.
Der Kompromiss zwischen lokalen Details und globalen Informationen
Zunächst: Was sind Region MLLMs?
Im Gegensatz zu traditionellen MLLMs zielen Region MLLMs auf ein feingranulares und interaktives Verständnis von Bild- oder Videoinhalten ab.
Konkret kann der Benutzer verschiedene visuelle Hinweise (Regionen) und Anweisungen geben. Das Modell muss dann auf der Grundlage dieser Informationen eine genaue Einschätzung der spezifischen Region treffen.
Beispielsweise "Beschreiben Sie diese Region", "Was ist die Beziehung zwischen Region 1 und Region 2" oder sogar die Beurteilung, "Ob Region 1 und Region 2 in einem Spiegel erscheinen".
Zweitens: Warum sollten wir Region MLLMs untersuchen?
Das Wesen von DeepSeek-OCR liegt in der Fähigkeit von Multimodal-Large-Language-Modellen, Bilder präzise zu beschreiben. Es hat auch erste Schritte unternommen, um die Möglichkeit der Informationskompression auf der Grundlage von Beschreibungen ganzer natürlicher Bilder zu erkunden.
Allerdings ist es oft schwierig, die Beschreibungen ganzer Bilder zu evaluieren.
Bei Region Captions ist es anders. Für eine vom Benutzer angegebene Region kann man leicht die Beschreibung des Modells objektiv anhand von Farbe, Textur, Form, Material usw. evaluieren, ähnlich wie bei der DLC-Bench von NVIDIA Describe-Anything.
Wenn ein Modell über eine präzise Fähigkeit zur Region Caption verfügt, kann man in Kombination mit SAM die präzisen Region Captions zu einer detaillierten und genauen Beschreibung des gesamten Bildes zusammenführen, was wiederum zur Informationskompression führt.
Was noch wichtiger ist, kann diese detaillierte Beschreibung nicht nur die Vorhersage von MLLMs verbessern, sondern auch die Generierungsmodelle bei der Verarbeitung komplexer Benutzeranweisungen unterstützen.
Darüber hinaus kann die Region Caption selbst als wichtige Datenquelle für Bearbeitungs- und Szenariogenerierungsmodelle in AIGC dienen.
Seit vielen Jahren befinden sich Region MLLMs in einer schwierigen Situation zwischen lokalen Details und globalen Informationen.
Das von Forschern der Zhejiang-Universität vorgeschlagene Osprey gewinnt lokale Merkmale durch maskiertes Pooling, was jedoch zum Verlust von lokalen Details führt.
Das von NVIDIA vorgeschlagene DAM (Describe Anything Model) gibt zusätzlich ein zugeschnittenes Teilbild ein, was zum Verlust von globalen Informationen führt.
△ Abbildung 2: Vergleich der Beschreibungen einer Region zwischen GAR-1B und DAM-3B
Beispielsweise zeigt das obige Beispiel den Verlust von globalen Informationen bei DAM. Die vom Benutzer angegebene Region ist eindeutig ein Schuh in Form eines Frosches, aber DAM erkennt es fälschlicherweise als Frosch.
Ein Bild sagt mehr als tausend Worte
Im Vergleich dazu kann GAR eine genaue Einschätzung der vom Benutzer angegebenen Region treffen und genauere Beschreibungen liefern.
Beispielsweise kann GAR Objekte korrekt erkennen und beschreiben, während DAM in allen Fällen Fehlidentifikationen macht.
Außerdem kann GAR auch winzige Objekte präzise erkennen.
Es kann auch winzige Objekte präzise erkennen.
Darüber hinaus kann es die Beziehungen zwischen Objekten anhand winziger Bilddetails korrekt modellieren.
Insbesondere im Beispiel auf der rechten Seite des folgenden Bildes haben sowohl OpenAI-o3 als auch Gemini-2.5-Pro fälschlicherweise angenommen, dass die Person liest.
Tatsächlich schaut die Person in die Kamera. Sie hält einfach nur ein Buch in der Hand, aber liest nicht. Dies zeigt die starke Fähigkeit des GAR-Modells, Details zu verstehen.
GAR kann auch komplexe kombinatorische Schlussfolgerungen durchführen, z. B. die Beurteilung, ob mehrere Hinweise in einem Spiegel erscheinen.
Darüber hinaus kann GAR gut auf die Videobeschreibung übertragen werden und liefert sehr genaue Beschreibungen der Erscheinung in Videos.
Zugleich kann GAR in Videoverständnisaufgaben Objekte, Personen und Handlungen in Videos präzise erkennen und eine tiefe semantische Analyse durchführen.
Es kann auch eine einzelne Region in einem Video präzise verstehen und sogar Bewegungsinformationen erkennen (wie im Beispiel auf der rechten Seite des folgenden Bildes).
Wow, wie wird so eine starke Leistung erreicht?
Feingranularität + globales Kontext
Konkret hat das Team beim Entwurf des GAR-Modells das Kernprinzip von "Sowohl ein feingranulares Verständnis der angegebenen Region erreichen als auch das globale Kontext des gesamten Szenarios beibehalten und nutzen" befolgt.
Wie in der folgenden Abbildung gezeigt, hat das Team zwei neue Komponenten in die traditionelle MLLM-Architektur eingeführt:
1. Ein einfaches und effizientes Prompt-Encoding-Schema.
2. Eine innovative Regionenausrichtung (RoI-aligned) Feature-Replay-Technik.
△
GAR erzeugt über einen visuellen Encoder eine globale Merkmalskarte für das gesamte Szenario, um so die globalen Kontextinformationen vollständig zu behalten.
Zugleich kann der RoI-Aligned Feature Replay-Mechanismus hochwertige Merkmale für ein bestimmtes Zielobjekt extrahieren.
Schließlich werden die globalen Kontextmerkmale und die feingranularen lokalen Merkmale gemeinsam in das LLM eingegeben, um die komplexen Beziehungen und Interaktionen zwischen mehreren Objekten präzise zu inferieren.
Schauen wir uns das genauer an.
Um die räumlichen Leitinformationen in das visuelle Rückgratnetzwerk zu integrieren, hat das Team einen leichten Prompt-Codierungsmechanismus eingeführt.
Zunächst wird die vom Benutzer angegebene binäre Maske durch einen einfachen, von Null initialisierten Faltungsblock verarbeitet, um eine Mask-Embedding zu erzeugen.
Anschließend wird diese mit der Patch-Embedding von ViT addiert, um die Integration von räumlichen Informationen und visuellen Merkmalen abzuschließen.
Um sowohl ausreichende lokale Details als auch notwendiges globales Kontext bereitzustellen, hat das Team die Regionenausrichtung (RoI-aligned) Feature-Replay-Technik vorgeschlagen.
Konkret verarbeitet das Modell das vollständige, ungeschnittene Bild (einschließlich der Mask-Prompt) durch Bildschneiden, um eine globale Merkmalskarte zu erzeugen, die reich an Kontextinformationen ist.
Dann wird basierend auf der Eingabemaske ein entsprechender Bounding Box für die Region von Interesse erzeugt, und die RoI-Align-Technik wird verwendet, um direkt die relevanten Merkmale dieser Region aus der globalen Merkmalskarte zu extrahieren, wie auf der rechten Seite von Abbildung 3 gezeigt.
Da diese Merkmale im Wesentlichen aus der "auf dem gesamten Bild berechneten Merkmalskarte" stammen, verfügen sie von Natur aus über die Fähigkeit, den Kontext zu verstehen.
Zugleich können die wiedergegebenen Merkmale dem nachfolgenden Sprachmodell eine "hochdetallisierte und hochaufgelöste" Merkmalsdarstellung der vom Benutzer angegebenen Region liefern, um ein feingranulares Verständnis zu ermöglichen.
Dieser "Kontext-reiche Merkmalswiedergabe"-Mechanismus ermöglicht es GAR, sowohl auf die Details zu fokussieren als auch das Ganze nicht aus den Augen zu verlieren.
Experimente haben gezeigt, dass dieses Design zwei Ziele gleichzeitig erreichen kann:
1. Bereitstellung ausreichender lokaler Details.
2. Beibehaltung des globalen Kontexts.
△
Um die Fähigkeit des Modells zur "Grundobjekterkennung in einer einzelnen Region" zu verbessern und somit die "komplexe assoziative Inferenz in mehreren Regionen" zu unterstützen, hat das Team einen mehrstufigen Prozess entwickelt, um einen umfangreichen und hochwertigen Datensatz zu generieren, wie in Abbildung 4 gezeigt.
Konkret wird zunächst ein Seed-Beschreibungsgenerierungsmodell mit einem Seed-Datensatz trainiert. Basierend auf diesem Modell wird auf dem feingranularen Bildklassifizierungsdatensatz