SAM 3 taucht überraschend bei der ICLR 2026 auf: Der nächste Schritt beim Segmentieren alles: Lassen Sie das Modell "Begriffe" verstehen
Nennen Sie ein Konzept, und SAM 3 versteht, wonach Sie suchen, und zeichnet präzise die Grenzen an allen Vorkommen ab.
Hat Meta's "Segmentiere alles" wieder einen Schritt vorwärts gemacht?
Am 12. September landete ein anonymes Papier mit dem Titel "SAM 3: SEGMENT ANYTHING WITH CONCEPTS" auf der ICLR 2026 und löste weite Aufmerksamkeit bei den Nutzern aus.
- Titel des Papiers: SAM 3: Segment Anything with Concepts
- Link zum Papier: https://openreview.net/forum?id=r35clVtGzw
Viele vermuten, dass dieses Papier von Meta stammt, denn der Stil ähnelt stark den früheren Veröffentlichungen von Meta. Da sowohl SAM als auch SAM 2 von Meta entwickelt wurden, ist es fast sicher, dass SAM 3 die offizielle Fortsetzung von Meta's "Segmentiere alles"-Serie ist.
Zeitlich passt das Erscheinen dieses Papiers fast perfekt in Meta's Rhythmus. SAM 1 wurde im April 2023 veröffentlicht und erhielt eine Nominierung für den besten Artikel der ICCV in diesem Jahr. Das Konzept der (null-shot) Segmentierung von allem ließ die Forscher sagen, dass "CV" nicht mehr existiere, und es wurde als der "GPT-3-Moment" im Bereich CV gefeiert.
SAM 2 wurde im Juli 2024 veröffentlicht und bietet auf der Grundlage seines Vorgängers eine Echtzeit- und anweisbare Objektsegmentierung für statische Bilder und dynamische Videos, indem es die Bild- und Videosegmentierungsfunktionen in einem leistungsstarken System vereint.
Und nun, ein Jahr später, scheint die Entstehung von SAM 3 genau an der richtigen Zeit zu sein.
Was bringt SAM 3 nun für Neues?
Es wird als eine fortschrittlichere Aufgabe definiert: Anweisbare Konzeptsegmentierung (Promptable Concept Segmentation, PCS).
Dabei werden Texte und/oder Bildbeispiele als Eingabe genommen, um für jedes Objekt, das mit dem Konzept übereinstimmt, Instanzmasken und semantische Masken vorherzusagen, während gleichzeitig die Identität der Objekte zwischen den Videoframes konsistent bleibt. Der Schwerpunkt dieser Arbeit liegt auf der Erkennung von atomaren visuellen Konzepten (atomic visual concepts), daher wird der Eingabetext auf einfache Nominalphrasen wie "roter Apfel" oder "gestreifter Kater" beschränkt. Sagen Sie einfach, wonach Sie suchen, und es findet und segmentiert jedes entsprechende Exemplar im Bild oder Video.
Das bedeutet, dass die Segmentierung endlich gelernt hat, Sprache zu verstehen, nicht in Form von vagen semantischen Assoziationen, sondern in einer auf das Visuelle gegründeten minimalistischen Art und Weise. Nennen Sie ein Konzept, und es versteht, wonach Sie suchen, und zeichnet präzise die Grenzen an allen Vorkommen ab.
Einige von Ihnen erinnern sich vielleicht, dass SAM 1 bereits Textfunktionen hatte. Was ist nun anders?
Im Papier wird klar darauf hingewiesen, dass die Funktion der Texteinweisungen in SAM 1 "nicht vollständig ausgebaut" war (were not fully developed). Der tatsächliche Schwerpunkt von SAM 1 und SAM 2 lag auf visuellen Eingaben (wie Punkten, Rechtecken, Masken).
Sie konnten eine breitere Aufgabe nicht lösen: nämlich alle Exemplare eines Konzepts in der Eingabe (z. B. alle "Katzen" in einem Video) zu finden und zu segmentieren.
Einfach ausgedrückt, ermöglicht SAM 3 es den Nutzern, von der "manuellen Punktierung einzelner Objekte" zum "Nennen eines Konzepts und Lassen des Modells, alle zu finden" zu wechseln.
SAM3 hat Fortschritte in zwei Bereichen erzielt. Bei der anweisbaren visuellen Segmentierung durch Klicken (linkes Bild) ist SAM3 besser als SAM2. Gleichzeitig hat es auch Fortschritte bei der anweisbaren Konzeptsegmentierung (rechtes Bild) erzielt. Nutzer können ein visuelles Konzept über eine kurze Nominalphrase, ein Bildbeispiel oder eine Kombination beider angeben und alle seine Exemplare segmentieren.
Im neuen Benchmark SA-Co, der im Papier vorgestellt wird, hat SAM 3 eine mindestens doppelt so gute Leistung wie die vorherigen Systeme. Es hat auf mehreren öffentlichen Benchmarks SOTA-Ergebnisse erzielt. Beispielsweise hat es auf dem LVIS-Datensatz eine Null-shot-Maskenmittelgenauigkeit von 47,0 erreicht, während der bisherige Rekord bei 38,5 lag.
Zusätzlich benötigt das Modell nur 30 Millisekunden, um ein Bild mit über 100 Objekten auf einer einzelnen H200-GPU zu verarbeiten.
Aber auch in den Kommentaren wurden Zweifel an dieser Arbeit geäußert. Einige haben darauf hingewiesen, dass die Idee, Objekte anhand von Textdeskriptionen zu segmentieren, nicht neu ist und in der Wissenschaft schon lange als "Referenzsegmentierung" bekannt ist, und es bereits eine beträchtliche Anzahl von Forschungen gibt. Daher halten einige diese Arbeit für eine "Neubennennung" und Aufmachung eines alten Konzepts.
Andere Kommentare halten fest, dass Meta nur der Open-Source-Community hinterherhinkt, da die Community bereits ähnliche Funktionen durch die Kombination verschiedener Modelle (z. B. die Kombination eines Detektionsmodells mit einer LLM-API) erreicht hat.
Methodenbeschreibung
Im Artikel wird erwähnt, dass SAM 3 eine Erweiterung von SAM 2 ist und einen bedeutenden Durchbruch bei der anweisbaren Segmentierung in Bildern und Videos erzielt hat.
Im Vergleich zu SAM 2 ist SAM 3 bei der anweisbaren visuellen Segmentierung (Promptable Visual Segmentation, PVS) besser und setzt einen neuen Standard bei der anweisbaren Konzeptsegmentierung (Promptable Concept Segmentation, PCS).
Was die PCS-Aufgabe und die PVS-Aufgabe betrifft, so nimmt SAM 3 einfach ausgedrückt Konzeptanweisungen (wie einfache Nominalphrasen wie "gelber Schulbus", Bildbeispiele) oder visuelle Anweisungen (wie Punkte, Rechtecke, Masken) entgegen, um die Objekte, die zeitlich und räumlich segmentiert werden sollen, zu definieren (kann einzeln segmentiert werden).
Man kann sagen, dass der Fokus dieses Artikels auf der Erkennung von atomaren visuellen Konzepten wie "roter Apfel" oder "gestreifter Kater" liegt. Wie in Abbildung 1 gezeigt, können Nutzer alle Exemplare eines bestimmten visuellen Konzepts über eine kurze Nominalphrase, ein Bildbeispiel oder eine Kombination beider segmentieren.
Allerdings gibt es bei der PCS inhärente Unschärfen. Viele Konzepte haben mehrere Bedeutungen: Beispielsweise ist die Phrase "kleines Fenster" sehr subjektiv (wie klein ist klein? wie groß ist groß?) und hat unklare Grenzen (inklusive Jalousien?).
Meta hat diese Unschärfen in mehreren Phasen wie Datensammlung, Indikatorentwurf und Modelltraining systematisch behandelt. Wie bei den früheren SAM-Versionen bleibt SAM 3 vollständig interaktiv und erlaubt es den Nutzern, durch Hinzufügen von Optimierungsanweisungen Mehrdeutigkeiten zu beseitigen und das Modell zu einem erwarteten Ergebnis zu führen.
In Bezug auf die Modellarchitektur verwendet SAM 3 eine Doppelt-Encoder-Decoder-Transformer-Architektur, ein Detektor mit bildgrößener Erkennungsfähigkeit – in Kombination mit einem Tracker und einem Speichermodul kann es auch auf den Videobereich angewendet werden. Der Detektor und der Tracker empfangen visuelle und sprachliche Eingaben über ein ausgerichtetes Wahrnehmungsencoder (PE)-Hauptnetzwerk.
Darüber hinaus hat diese Studie ein erweiterbares Mensch-Maschine-Kooperations-Datenmodul aufgebaut (siehe unten), um ein umfangreiches und vielfältiges Trainingsdatenset zu annotieren. Basierend auf diesem System hat die Studie erfolgreich hochwertige Trainingsdaten mit 4 Millionen einzigartigen Phrasen und 52 Millionen Masken sowie ein synthetisches Datenset mit 38 Millionen Phrasen und 1,4 Milliarden Masken annotiert.
Des Weiteren hat diese Studie einen Benchmark namens Segment Anything with Concepts (SA-Co) für die PCS-Aufgabe erstellt, der 214.000 einzigartige Konzepte in 124.000 Bildern und 1.700 Videos umfasst, mehr als 50 Mal so viele Konzepte wie die bestehenden Benchmarkdatensätze.
Experimente
Tabelle 1 zeigt: Unter Null-shot-Bedingungen ist SAM 3 im Rahmen der Begrenzungsrahmen-Erkennungstask auf den geschlossenen Vokabular-Datensätzen COCO, COCO-O und LVIS konkurrenzfähig und hat bei der LVIS-Maskentask eine deutlich bessere Leistung.
Auf dem offenen Vokabular-SA-Co/Gold-Datensatz ist der CGF-Wert von SAM 3 doppelt so hoch wie der des stärksten Baselines OWLv2, und die Verbesserung auf anderen SA-Co-Unterdatensätzen ist sogar noch größer.
Experimente zur offenen Vokabular-Semantischen Segmentierung auf ADE-847, PascalConcept-59 und Cityscapes zeigen, dass SAM 3 die leistungsstarken spezialisierten Baselines APE übertrifft.
Few-shot-Adaptierung. SAM 3 erreicht unter 10-shot-Bedingungen die derzeit beste Leistung und übertrifft die Kontextanweisungen von Gemini sowie spezialisierte Objekterkennungsmodelle (wie gDino).
PCS mit einem Beispiel. Tabelle 3 zeigt, dass SAM 3 in drei Szenarien auf COCO (+17,2), LVIS (+9,