HomeArticle

Von He Kaiming und Xie Saining signiert, hat Google DeepMind Vision Banana vorgestellt: Der Bildgenerator ist ein Universal-Vision-Lernender.

账号已注销2026-04-24 19:54
Vision Banana: Generieren bedeutet Verstehen

Für lange Zeit hatten die vorherrschenden Methoden für Repräsentationslernen im Bereich des maschinellen Sehens, wie überwachtes Diskriminieren, Kontrastlernen, Bootstrapping und Autoencoding, fast nichts mit generativem Modellieren zu tun. Obwohl die frühen generativen visuellen Vortrainingsmethoden einen Trend zur Verbesserung mit zunehmender Skalierung zeigten, blieben die Ergebnisse insgesamt hinter denen der nicht - generativen Methoden zurück.

Zur gleichen Zeit haben Bild - und Videogenerierungsmodelle in den letzten Jahren eine erstaunliche Synthesefähigkeit gezeigt und gelegentlich auch Anzeichen für Null - Shot - visuelle Verständnisfähigkeiten aufgewiesen. Eine seit langem bestehende Vermutung wurde daher erneut in den Fokus gerückt: Können Modelle, die visuelle Inhalte „schaffen“ können, auch visuelle Inhalte „verstehen“? Frühere Versuche waren entweder daran gescheitert, dass die Generierungsmodelle keine quantifizierbaren Ergebnisse nach Anweisungen ausgaben, oder es mussten spezielle Module hinzugefügt und vollständige Feinabstimmungen durchgeführt werden, was die Allgemeingültigkeit aufopferte.

Um diese Frage zu beantworten, hat das Team von Google DeepMind Vision Banana vorgestellt. Dies ist ein universelles visuelles Modell, das auf Nano Banana Pro (NBP) basiert und durch leichte Anweisungsfeinabstimmung entwickelt wurde. Bemerkenswerterweise haben auch Wissenschaftler wie He Kaiming und Xie Saining an der Arbeit mitgewirkt. Diese Arbeit repräsentiert in gewissem Maße die neuesten Einschätzungen des Forschungsteams in Bezug auf die Richtung der universellen visuellen Basis-Modelle.

Link zur Studie: https://arxiv.org/pdf/2604.20329

Die Kernaussage ist direkt: Indem man nur einen sehr geringen Anteil von visuellen Aufgaben - Daten in die ursprünglichen Trainingsdaten von NBP einmischt und die Ausgaben aller visuellen Aufgaben einheitlich als RGB - Bilder neu parametrisiert, kann das Modell auf mehreren Benchmarks für 2D - und 3D - visuelle Verständnisaufgaben die Leistung von spezialisierten Modellen wie SAM 3, Depth Anything 3 und Lotus - 2 erreichen oder übertreffen, während es gleichzeitig seine ursprüngliche Bildgenerierungsfähigkeit behält.

Vision Banana: Generieren bedeutet Verstehen

Die Methode von Vision Banana bezieht ihre Inspiration aus dem Trainingsparadigma von Large Language Models (LLM). In der natürlichen Sprachverarbeitung erzeugt das generative Vortraining ein „Basis - Modell“, und die Anweisungsfeinabstimmung führt das Modell dazu, Text nach bestimmten Anweisungen und Formaten zu generieren. Das Forschungsteam hat diesen Ansatz auf den Bereich des maschinellen Sehens übertragen: Ein Bildgenerierungsmodell wird als „Basis - Modell“ verwendet, und durch Anweisungsfeinabstimmung wird es dazu gebracht, visuelle Ausgaben in einem bestimmten Format nach einem Prompt zu generieren.

Abbildung | Das Forschungsteam hat durch die Anweisungsfeinabstimmung von Nano Banana Pro die potenzielle visuelle Verständnisfähigkeit des Bildgenerators aufgedeckt. Das nach Anweisungen feinabgestimmte Modell Vision Banana kann visuelle Ergebnisse in einem genauen Format generieren, was die Bewertung auf Mainstream - Benchmarks ermöglicht.

1. Umgestaltung visueller Aufgaben als Bildgenerierung

Dies ist die zentrale Innovation der gesamten Methode. Unabhängig davon, ob es sich um Segmentierungsmasken, Tiefenkarten oder Oberflächennormalen handelt, werden die Ausgaben visueller Aufgaben einheitlich als RGB - Bilder parametrisiert. Konkret wird ein „decodierbares Visualisierungsschema“ entwickelt, sodass die generierten Ergebnisse sowohl vom menschlichen Auge erkannt als auch durch klare Regeln in physikalische Größen oder semantische Labels rücktransformiert werden können.

Nehmen wir die semantische Segmentierung als Beispiel. Das Prompt, das das Forschungsteam an das Modell gibt, lautet: „Segmentiere die Kategorie 'Skateboard' in reinem Gelb <255, 255, 0>“. Bei der Bewertung braucht man nur alle Pixel zu clustern, die nahe an <255, 255, 0> liegen, um die Maske des Skateboards zu erhalten.

Diese Strategie bringt drei entscheidende Vorteile: Ein einheitliches Modell kann mehrere Aufgaben unterstützen, man muss nur das Prompt anpassen, ohne die Gewichte zu ändern; der Bedarf an neuen Trainingsdaten ist sehr gering, da die Anweisungsfeinabstimmung hauptsächlich darin besteht, dem Modell beizubringen, wie es visuelle Ergebnisse in RGB - Ausgaben formatieren soll; und die ursprüngliche Bildgenerierungsfähigkeit bleibt erhalten, da die Ausgabe im Wesentlichen immer noch ein RGB - Bild ist.

2. Leichtgewichtige Anweisungsfeinabstimmungsstrategie

Das Forschungsteam mischt die visuellen Aufgaben - Daten in einem sehr geringen Anteil in die ursprünglichen Trainingsdaten von Nano Banana Pro ein und führt eine gemeinsame Training durch. Die geringe Mischung gewährleistet, dass die Anpassung der visuellen Aufgaben die bereits vorhandenen generativen Priors des Modells nicht zerstört.

Das 2D - Aufgabenpaket umfasst die Referenzausdrucksegmentierung, die semantische Segmentierung und die Instanzsegmentierung; die 3D - Aufgaben konzentrieren sich auf die monokulare metrische Tiefenschätzung und die Oberflächennormalenschätzung. Bei den Trainingsdaten werden für die 2D - Aufgaben die von internen Modellen generierten Annotations von Netzwerkbildern verwendet, und für die 3D - Aufgaben werden synthetische Daten von Rendering - Engines verwendet.

Wichtig ist, dass die Trainingsdaten aller Bewertungsbenchmarks nicht in die Anweisungsfeinabstimmungsmischdaten aufgenommen wurden, sodass die Ergebnisse die universelle Generalisierungsfähigkeit des Modells realistischer widerspiegeln können.

3. Reversible Bijektion von Tiefenwerten zu RGB

Die Tiefenschätzung ist der Teil der Studie, in dem die meisten technischen Details behandelt werden. Der Bereich der Tiefenwerte ist [0, ∞), und der Wertebereich von RGB ist [0, 1]^3. Die zentrale Frage ist, wie man eine reversible Abbildung zwischen diesen beiden herstellen kann.

Das Forschungsteam führt zunächst eine Power - Transformation auf die Tiefenwerte durch, um die Auflösung der Nahbereichstiefen zu erhöhen und gleichzeitig die Auflösung der Fernbereichstiefen zu komprimieren. Dies entspricht auch der Intuition, dass in Aufgaben wie dem Greifen von Robotern nahe liegende Objekte wichtiger sind. Anschließend wird der normalisierte Abstandswert entlang der Kanten des RGB - Würfels stückweise linear interpoliert, ähnlich wie bei der ersten Iteration der 3D - Hilbert - Kurve.

Da beide Transformationen streng reversibel sind, entsteht schließlich eine bijektive Abbildung von [0, ∞] nach [0, 1]^3. In der Trainingsphase wird die Ground - Truth - Tiefe in RGB abgebildet und als Überwachungsziel verwendet; in der Inferenzphase wird dann die Rücktransformation durchgeführt, um die metrische Tiefe wiederherzustellen.

Um die Robustheit zu verbessern, werden auch verschiedene alternative Farbskalen wie Plasma, Inferno, Viridis und Graustufen in die Trainingsdaten eingefügt. Bemerkenswerterweise wird dieses Tiefenmodell vollständig auf synthetischen Daten trainiert, ohne dass irgendeine reale Welt - Tiefendaten verwendet werden. Gleichzeitig hängt weder das Training noch die Inferenz von den internen und externen Kameraparametern ab.

Wie gut ist die Leistung?

Das Forschungsteam hat Vision Banana mit Expert - Modellen in den Bereichen 2D - Segmentierung, 3D - Tiefenschätzung und Oberflächennormalenschätzung in einer umfassenden Bewertung verglichen. Die Ergebnisse sind wie folgt:

Abbildung | Die Leistung von Vision Banana in visuellen Generierungs - und Verständnisaufgaben nach der Anweisungsfeinabstimmung.

2D - Segmentierung: In der semantischen Segmentierungsaufgabe von Cityscapes erreichte Vision Banana einen mIoU von 0,699, was eine Verbesserung von 4,7 Punkten gegenüber SAM 3 (0,652) darstellt und es zum stärksten Open - Vocabulary - Modell macht. In der Referenzsegmentierungsaufgabe von RefCOCOg erreichte es einen cIoU von 0,738, was SAM 3 Agent (0,734) übertrifft. In der Inferenzsegmentierungsaufgabe von ReasonSeg erreichte es in Kombination mit Google's Gemini 2.5 Pro einen gIoU von 0,793, was höher als der von SAM 3 Agent (0,770) ist und X - SAM und LISA, die auf dem Trainingssatz trainiert wurden, übertrifft. Die Instanzsegmentierung ist das einzige etwas schwächere Projekt, mit einem pmF1 von 0,540 auf SA - Co/Gold, was etwas niedriger als der von DINO - X (0,552) ist.

Tabelle | Vergleichsergebnisse von Vision Banana mit den SOTA - Methoden auf verschiedenen Segmentierungsdatensätzen.

3D - Tiefenschätzung: Auf 6 Mainstream - Benchmarks erreichte es eine durchschnittliche δ1 - Genauigkeit von 0,882, was eine Verbesserung von fast 6 Punkten gegenüber UniK3D darstellt. Der AbsRel - Wert sank um etwa 20% gegenüber MoGe - 2. Auf den vier Datensätzen (NYU, ETH3D, DIODE, KITTI), die in der Bewertung von Depth Anything 3 verwendet werden, erreichte Vision Banana einen durchschnittlichen δ1 von 0,929, was besser als der von Depth Anything 3 (0,918) ist.

Tabelle | Ergebnisse der monokularen metrischen Tiefenschätzung unter der Null - Shot - Transfer - Einstellung. Vision Banana erreichte auf öffentlichen Datensätzen bessere Ergebnisse, ohne die internen Kameraparameter in der Trainings - und Inferenzphase zu verwenden.

Oberflächennormalenschätzung: Auf drei Innenraumdatensätzen erreichte Vision Banana die niedrigste durchschnittliche Winkelabweichung, mit einem Mittelwert von 15,549 und einem Median von 9,300, was besser als der Mittelwert von Lotus - 2 (16,558) ist. In der Außen - VKitti - Szene war seine Leistung mit der von Lotus - 2 vergleichbar. Bemerkenswerterweise wurde Lotus - 2 auf Virtual KITTI 2 trainiert, während Vision Banana streng in der Null - Shot - Einstellung gehalten wurde.

Tabelle | Ergebnisse der Oberflächennormalenschätzung. Vision Banana erreichte auf Innenraumdatensätzen durchschnittlich die niedrigsten Mittel - und Median - Winkelabweichungen und war in Außen - Szenen mit der bisherigen SOTA - Methode vergleichbar.

Beibehaltung der Generierungsfähigkeit: Im Vergleich von Text - zu - Bild - Generierung in GenAI - Bench gewann Vision Banana mit einer Rate von 53,5% gegenüber dem Basis - Modell Nano Banana Pro; in der Bildbearbeitungsaufgabe von ImgEdit gewann es mit einer Rate von 47,8%. Dies zeigt, dass die Generierungsfähigkeit des Modells nach der leichten Anweisungsfeinabstimmung immer noch stabil bleibt.

Was muss noch getan werden?

Das Forschungsteam hat angegeben, dass Vision Banana nicht perfekt ist und in zukünftigen Arbeiten kontinuierlich verbessert werden muss.

Beispielsweise ist die Instanzsegmentierungsleistung von Vision Banana immer noch hinter der von SAM 3 zurück, und es gibt immer noch eine Lücke auf dem SA - Co/Gold - Datensatz. Die Studie weist darauf hin, dass ein Teil des Grundes darin liegt, dass Vision Banana SA - Co nicht in die Trainingsdaten aufgenommen hat, während SAM 3 auf diesen Daten trainiert wurde. Gleichzeitig stellt diese Aufgabe auch eine Herausforderung für die Kategorie - basierte Inferenzstrategie dar.

Der Rechenaufwand ist auch eine aktuelle Einschränkung. Das Forschungsteam hat darauf hingewiesen, dass die Inferenzkosten für die visuelle Verständnis mit einem Bildgenerierungsmodell in NBP - Größe derzeit höher sind als die von leichten spezialisierten Modellen. Wenn man ein generatives visuelles Framework Massiv einsetzen möchte, muss man die Geschwindigkeit weiter erhöhen und die Kosten senken.

Der aktuelle Bewertungsbereich ist auf monokulare Bilder als Eingabe beschränkt. In Zukunft kann man die Eingabe auf Mehrfachansichten und Videos erweitern. Es wird auch als ein lohnenswertes Forschungsgebiet angesehen, zu untersuchen, ob Videogenerierungsmodelle reichhaltigere zeitliche Wahrnehmungsrepräsentationen lernen können. Die Erweiterung der Vielfalt der Anweisungsfeinabstimmungsaufgaben könnte möglicherweise, ähnlich wie bei LLM, eine stärkere Cross - Task - Generalisierungsfähigkeit freisetzen. Darüber hinaus ist die Integration von Basis - visuellen Modellen mit Large Language Models für die Verbesserung der Cross - Modality - Inferenz auch eine wichtige Richtung für die nächste Phase.

Im größeren Rahmen versucht diese Arbeit, das Paradigma aus der LLM - Ära, in dem das Vortraining ein universelles Basismodell erzeugt und die Anweisungsfeinabstimmung das Basismodell an spezifische Aufgaben anpasst, in den Bereich des maschinellen Sehens zu übertragen. Wenn die Bildgener