Lassen Sie das Large Language Model "sehen und ändern": Genauigkeit der visuellen Segmentierung steigt um 9%

Offene Semantische Segmentierung, es ist tatsächlich schwierig an diesen Stellen...

In der Ära der Agenten: Wie kann die visuelle Segmentierung genauer gemacht werden?

Fudan University und Chuangzhi College haben gemeinsam RSAgent entwickelt und geben die neueste Antwort: Lassen Sie das multimodale Large Language Model (LLM) durch mehrfache Werkzeugaufrufe genaue Masken generieren.

Die dazugehörige Arbeit wurde in die ICML 2026 aufgenommen.

Visuelle Segmentierung ist immer eine Aufgabe gewesen, die "einfach zu beschreiben, aber schwierig umzusetzen" ist.

Dem Modell ein Bild und einen Satz geben und es auffordern, die Pixel des Zielbereichs zu markieren - das klingt einfach, aber sobald das Ziel unklar ist, verdeckt wird oder eine Inferenz zur Lokalisierung erforderlich ist, wird es ziemlich schwierig, die richtige Maske auf einmal zu erraten.

Das RSAgent-Team ist der Meinung, dass den bestehenden Methoden nicht ein stärkerer Segmentierungskopf fehlt, sondern ein "Bestätigungs- und Korrekturprozess".

Dafür haben sie RSAgent entwickelt, ein Agentenframework, das es dem multimodalen LLM ermöglicht, durch mehrfache Werkzeugaufrufe textgesteuerte Segmentierungen durchzuführen.

Das Modell gibt nicht einfach eine Maske aus, sondern beobachtet zuerst das Bild, führt eine Inferenz durch, ruft visuelle Werkzeuge auf, liest die Rückmeldung und korrigiert dann iterativ anhand der historischen Ergebnisse, um schließlich eine zuverlässigere und genauere Maske zu generieren.

Die Experimentergebnisse zeigen, dass RSAgent auf dem ReasonSeg-Testdatensatz die gIoU um 9,0 Prozentpunkte im Vergleich zu Seg-Zero-7B verbessert hat, auf dem RefCOCOg-Datensatz eine durchschnittliche cIoU von 81,5 % erreicht hat und mehr als 5.000 mehrstufige Inferenz-Segmentierungs-Trajektorien generiert hat.

Wo liegen die Schwierigkeiten bei der offenen semantischen Segmentierung?

Multimodale Large Language Modelle (MLLMs) können bereits Bilder beschreiben, Fragen beantworten und die Beziehungen zwischen Objekten verstehen, aber ein reales visuelles System erfordert mehr als nur Textantworten.

Interaktive Annotationen, Robotersensorik, Designbearbeitung, industrielle Qualitätskontrolle und wissenschaftliche Bildanalyse erfordern, dass das Modell das Sprachverständnis in Pixelbereiche umsetzt.

Das bedeutet, dass das Modell eine zuverlässige Umwandlung zwischen "semantischem Verständnis" und "genauen Masken" herstellen muss.

Die Herausforderung bei der offenen semantischen textgesteuerten Segmentierung besteht darin, dass die Eingabeanweisungen nicht immer einfache Kategorienamen sind -

Der Benutzer könnte sagen: "Das Objekt, das links im Bild von jemandem aufgehoben wird", oder auch: "Finden Sie die Ausrüstung, die in wildem Wasser die persönliche Sicherheit gewährleistet."

Ersteres erfordert räumliche Beziehungen, letzteres Szenenkenntnisse und Nutzungsschlussfolgerungen.

Wenn das Modell nur eine einmalige Vorwärtsvorhersage durchführt, ist es schwierig, zu überprüfen, ob es das richtige Ziel ausgewählt hat.

Das Problem der bisherigen Ansätze liegt nicht darin, dass sie keine Masken erzeugen können, sondern dass ihnen ein "Bestätigungs- und Korrekturprozess" fehlt.

Wenn die anfängliche Lokalisierung fehlschlägt, die Punkt-Hinweise auf den Hintergrund fallen oder die Kandidatenbereiche nur einen Teil abdecken, hat das Modell oft keine Möglichkeit, erneut zu beobachten, die Ansicht zu zoomen, die Kandidatenergebnisse zu lesen und die Strategie anzupassen.

RSAgent zielt genau auf dieses Problem ab und verwandelt die Segmentierungsaufgabe von einer statischen Vorhersage in eine dynamische Interaktion. Das Team erklärt:

Das Problem besteht nicht darin, einen komplexeren Segmentierungskopf zu entwickeln, sondern darin, dass das Modell in offenen semantischen Aufgaben die Fähigkeit besitzt, "zuerst zu beurteilen, dann zu handeln, die Rückmeldung zu betrachten und dann zu korrigieren".

Wie wird das Problem gelöst? Lassen Sie das MLLM lernen, zu Reason and Act

Der Schlüssel von RSAgent liegt darin, nicht das MLLM direkt in einen Masken-Decoder umzuwandeln, sondern es zu einem Agenten zu machen, der visuelle Werkzeuge steuern kann.

Das Modell empfängt in jeder Runde das Originalbild, die Textanweisung und die historische Beobachtung und gibt strukturierte Inferenzen und Werkzeugaufrufe aus; das Werkzeug gibt lokale Ansichten, Kandidatenmasken oder Overlays zurück; das Modell entscheidet dann auf der Grundlage dieser Rückmeldungen, ob es weitere Werkzeugaufrufe durchführt, die Hinweise anpasst oder die endgültige Antwort abgibt.

Die folgende Abbildung zeigt einen Vergleich zwischen LISA, Seg-Zero und RSAgent. RSAgent lokalisiert, beobachtet und korrigiert kontinuierlich durch mehrfache Werkzeugaufrufe.

Das Gesamtframework von RSAgent besteht aus mehrstufigen Interaktionen, Werkzeugaufrufen, Beobachtungsrückmeldungen, cold-start SFT und agentic RL.

Die spezifischen technischen Module und ihre Funktionen sind wie folgt:

Im Bereich der Daten erstellt RSAgent Trainings-Trajektorien durch automatische Synthese und strenge Auswahl.

Die cold-start SFT-Daten in der Studie umfassen etwa 5.000 hochwertige mehrstufige Inferenz-Trajektorien; in der RL-Phase werden etwa 2.000 RL-Beispiele verwendet, und es werden zusätzlich 8.000 RefCOCOg-Trainingsbeispiele hinzugefügt, damit das Modell in einer interaktiven Umgebung höher belohnte Werkzeugaufrufpfade lernt.

Die folgende Abbildung zeigt die Datenpipeline. Das System generiert Fragen, synthetisiert mehrstufige Trajektorien und filtert sie, um hochwertige Trainingsbeispiele zu erhalten.

Das Team erklärt, dass der wirkliche Schlüssel nicht nur darin besteht, "Werkzeuge aufzurufen": RSAgent schließt Inferenz, Werkzeuge, Rückmeldung und Belohnung zu einem Trainingssystem zusammen.

Das Modell muss nicht nur das Ziel verstehen, sondern auch lernen, adaptiv zu zoomen, Hinweise zu geben, zu segmentieren und zu stoppen, um schließlich das offene semantische Verständnis in genaue Masken umzusetzen.

Konkret kann eine Interaktion von RSAgent als vierstufiger Zyklus verstanden werden:

Observation liest das Bild und die historischen Ergebnisse;
Thought analysiert in natürlicher Sprache, ob der aktuelle Kandidatenbereich der Anweisung entspricht;
Action wählt das Werkzeug und die Pixel-Hinweise aus;
Feedback empfängt die Werkzeugausgabe und schreibt sie in den Kontext.

Dieser Zyklus ermöglicht es dem Modell, nicht mehr auf eine einmalige Beurteilung zu vertrauen, sondern über einen Mechanismus zur schrittweisen Überprüfung zu verfügen.

Dieser Mechanismus eignet sich besonders für relational, attributive und implizit inferenzbasierte Anweisungen.

Beispielsweise kann das Ziel sehr klein sein, verdeckt werden oder muss anhand von Aktionen, Nutzung und relativer Position bestimmt werden.

RSAgent kann zuerst grob lokalisieren, dann den lokalen Bereich betrachten und anschließend anhand der Abweichung der Kandidatenmasken neue Punkte oder Rahmen festlegen.

Im Vergleich zu einer einmaligen Vorhersage gibt es einen überprüfbaren Zwischenschritt.

Beim Trainingsansatz löst cold-start SFT das Problem, "ob das Modell in der Lage ist, nach dem Format zu arbeiten", und lässt das Modell die Syntax des Werkzeugaufrufs und den grundlegenden Reflexionsprozess erlernen; agentic RL löst das Problem, "wie es besser gemacht werden kann", und optimiert den mehrstufigen Pfad durch Belohnungssignale.

Die Kombination beider ermöglicht es RSAgent, sowohl stabile strukturierte Ergebnisse auszugeben als auch bessere Entscheidungen in komplexen offenen semantischen Beispielen zu treffen.

Experimentergebnisse: Führende Leistung auf ReasonSeg und RefCOCOg

Bei den Experimenten wurde Qwen2.5-VL-7B-Instruct als Basis-Modell und SAM2-large als Segmentierungswerkzeug verwendet.

Das Team hat eine systematische Evaluierung auf der RefCOCO-Serie und ReasonSeg durchgeführt und mit verschiedenen Methoden verglichen, darunter traditionelle visuelle Sprachsegmentierer, einmalige MLLM-Segmentierungsmethoden, explizite CoT/RL-Segmentierungsmethoden und mehrstufige Werkzeugaufruf-Agenten.

Die folgende Abbildung zeigt, dass RSAgent auf den RES- und ReasonSeg-Benchmarks eine führende Leistung erzielt.

Die genauen Evaluierungsergebnisse sind wie folgt:

Auf dem ReasonSeg-Test erreichte RSAgent eine gIoU von 66,5 %, was im Vergleich zu 57,5 % von Seg-Zero-7B eine Verbesserung von 9,0 Prozentpunkten darstellt;

Auf RefCOCOg erreichte RSAgent eine durchschnittliche cIoU von etwa 81,5 %, der Test-Split betrug 81,8.

Für Zielsegmentierungsaufgaben, die auf offener Semantik basieren, zeigt dies, dass das Modell nicht nur die Beschreibung verstehen kann, sondern auch das Verständnis stabiler in genaue Masken umsetzen kann.

Ablations-Experimente zeigen, dass die Verbesserung nicht von einem einzelnen Modul stammt.

Der untrainierte Tool-Agent erreichte auf dem ReasonSeg-Test nur 30,1 cIoU; nach der Hinzunahme von cold-start SFT stieg der Wert auf 55,4; allein RL erreichte 54,3; das vollständige cold-start SFT + RL erreichte 57,9.

Dies zeigt, dass es für die Wirksamkeit von RSAgent entscheidend ist, dass das Modell zuerst die korrekte Verwendung von Werkzeugen lernt und dann die langfristigen Entscheidungen durch Reinforcement Learning optimiert.

Die folgende Abbildung zeigt die Ablation der maximalen Anzahl von Werkzeugaufrufen. Eine angemessene Erhöhung der Anzahl von Runden kann die Leistung verbessern, aber ein zu langer Kontext kann zu Redundanz und Instabilität führen.

Die Belohnungsgestaltung ist ebenfalls entscheidend.

Das Entfernen der finalen Belohnung, der Prozess-Belohnung oder der Format-Belohnung führt zu einer Verschlechterung der Leistung;

Nach dem Entfernen der finalen Belohnung sank der Wert auf dem ReasonSeg-Test von 57,9 auf 48,3, was zeigt, dass die Qualität der endgültigen Maske immer noch das Kernziel ist.

Die Prozess-Belohnung ermutigt das Modell, in den Zwischenschritten kontinuierlich zu verbessern, anstatt blind die Anzahl der Werkzeugaufrufe zu erhöhen.

Bringen Sie das visuelle Large Language Model in einen überprüfbaren Pixel-Aktionsraum

Der Wert von RSAgent liegt nicht nur darin, die Kennzahlen zu verbessern.

Wichtiger ist, dass es einen Weg von "Bildfragen beantworten" zu "visuellen Aktionen" zeigt:

Das Modell kann kontinuierlich um das textuelle Ziel herum beobachten, Werkzeuge aufrufen, Rückmeldungen empfangen, Hypothesen korrigieren und die endgültige Beurteilung in die Bildpixel umsetzen.

Diese Fähigkeiten haben eine allgemeine Bedeutung für interaktive visuelle Systeme.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Lassen Sie das Large Language Model "sehen und ändern", und die Genauigkeit der visuellen Segmentierung steigt um 9%.

Wo liegen die Schwierigkeiten bei der offenen semantischen Segmentierung?

Wie wird das Problem gelöst? Lassen Sie das MLLM lernen, zu Reason and Act

Experimentergebnisse: Führende Leistung auf ReasonSeg und RefCOCOg

Bringen Sie das visuelle Large Language Model in einen überprüfbaren Pixel-Aktionsraum