Übersteigt CLIP: Peking-Universität stellt großes Modell für feingranulare visuelle Erkennung Open Source zur Verfügung, nur 4 Bilder pro Klasse für Training der Erkennung erforderlich
Derzeit zeigen multimodale Large Language Models (LLMs) in vielen komplexen multimodalen Aufgaben hervorragende Leistung, fallen jedoch bei feingranularen visuellen Erkennungsaufgaben deutlich hinter den von ihnen abhängigen visuellen Encodern (wie CLIP) zurück.
Angesichts dieser Situation hat das Team von Professor Peng Yuxin der Peking-Universität eingehend in der Domäne feingranularer multimodaler LLMs geforscht. Die neuesten Forschungsergebnisse sind in Form eines Papers von der ICLR 2026 akzeptiert und sind bereits open source verfügbar.
Die reale Welt, der wir im Alltag gegenüberstehen, zeichnet sich durch Feingranularität aus. Dies spiegelt sich darin wider, dass Objekte in der realen Welt normalerweise eine äußerst reiche Kategorienhierarchie aufweisen und eine riesige Anzahl feingranularer Kategorien besitzen. Nehmen wir Flugzeuge als Beispiel: "Flugzeug" als grobgranulare Oberkategorie kann weiter in Hunderten von feingranularen Unterkategorien wie "Boeing 707", "Boeing 717", "Boeing 727" und so weiter unterteilt werden. Laut Statistiken enthält die Datenbank für zivile Flugzeuge weltweit über 500 Arten von Starrflügelflugzeugen, und diese Zahl wächst ständig. Die feingranulare Erkennung von visuellen Objekten beliebiger Kategorien hat in der realen Produktion und im Alltag große Forschungs- und Anwendungsrelevanz.
△ Abbildung 1. Überblick über das feingranulare visuelle Erkennungsmodell (Fine-R1)
Das feingranulare visuelle Erkennungsmodell zielt darauf ab, das reiche Wissen über feingranulare Unterkategorien in multimodalen LLMs sowie das dekodierende Paradigma für generierte Kategorienamen zu nutzen, um die Beschränkungen traditioneller Erkennungsmethoden auf eine begrenzte Anzahl von Kategorien in einem geschlossenen Bereich zu überwinden und die feingranulare Erkennung von visuellen Objekten beliebiger Kategorien in einem offenen Bereich zu ermöglichen.
Allerdings hängt die feingranulare visuelle Erkennungsfähigkeit von multimodalen LLMs von einer großen Menge an Trainingsdaten ab. Aufgrund der Schwierigkeit und hohen Kosten der Datenerhebung und -annotierung für feingranulare Daten kann die erforderliche Größe der annotierten Trainingsdaten für LLMs nicht erreicht werden. Darüber hinaus ist es für LLMs schwierig, auf Unterkategorien außerhalb des Trainingssets zu verallgemeinern, nachdem sie auf Daten mit einer begrenzten Anzahl von Unterkategorien trainiert wurden. Feingranulare Unterkategorien in einem offenen und unbegrenzten Bereich können nicht erkannt werden.
Um diese Probleme zu lösen, hat das Team von Professor Peng Yuxin der Peking-Universität das feingranulare visuelle Erkennungsmodell Fine-R1 mit Verstärkung durch Chain-of-Thought (CoT) -Schlussfolgerungen vorgeschlagen. Durch die Überwachung und Feinabstimmung von CoT und die Optimierung der Triplet-Verstärkungsstrategie wird die Fähigkeit des LLMs verbessert, aus dem vorhandenen Wissen über feingranulare Unterkategorien im Trainingsset auf unbekannte Unterkategorien zu schließen. Mit nur 4 Trainingsbildern pro Kategorie übertrifft Fine-R1 die Erkennungsgenauigkeit von diskriminativen Modellen wie CLIP von OpenAI und SigLIP von Google DeepMind sowohl für Unterkategorien innerhalb als auch außerhalb des Trainingssets. Dies zeigt das enorme Potenzial von generativen multimodalen LLMs bei der Lösung von diskriminativen Aufgaben.
Zweistufiges Verfahren
△ Abbildung 2. Rahmenplan des feingranularen visuellen Erkennungsmodells (Fine-R1)
Wie in Abbildung 2 gezeigt, besteht der Aufbau von Fine-R1 aus zwei Hauptschritten:
1. Überwachte Feinabstimmung von Chain-of-Thought (CoT): Nachahmung des menschlichen Denkprozesses, um der multimodalen LLM schnell die Fähigkeit zur Schlussfolgerung zu verleihen, indem die Überwachung und Feinabstimmung von strukturierten CoT genutzt werden.
2. Optimierung der Triplet-Verstärkungsstrategie: In der Prozess der verstärkten Feinabstimmung werden positive Beispiele (gleiche Unterkategorie) und negative Beispiele (verschiedene Unterkategorien) ausgewählt. Durch die Einbeziehung der Denkpfade von positiven Beispielen wird die Robustheit des LLMs gegenüber Unterschieden innerhalb der Kategorie verbessert. Durch die Maximierung der Differenz zwischen der vorhergesagten Verteilung des Eingabebilds und der negativen Beispiele wird die Fähigkeit des LLMs zur Unterscheidung zwischen Kategorien verbessert.
Im Einzelnen:
Phase I: Überwachte Feinabstimmung von Chain-of-Thought (CoT): Zunächst wird auf der Grundlage von Qwen2.5-VL-32B ein strukturiertes CoT für eine kleine Menge an feingranularen visuellen Erkennungsdaten erstellt. Der Schlussfolgerungsprozess wird in vier Schritte aufgeteilt: visuelle Analyse, Generierung von Kandidaten-Unterkategorien, Vergleichsanalyse und endgültige Vorhersage. Anschließend wird das Basismodell mit den CoT-Daten überwacht und feinabgestimmt, um das Modell zu fördern, das vorhandene Wissen über Unterkategorien im Trainingsset zu nutzen, um Kandidaten-Unterkategorien für das Eingabebild zu generieren und dann durch Vergleichsanalyse das endgültige Vorhersageergebnis zu bestimmen.
Phase II: Optimierung der Triplet-Verstärkungsstrategie: Nach der überwachten Feinabstimmung von CoT wird die Schlussfolgerungsroute des Modells weiter optimiert, um das Problem der "großen Unterschiede innerhalb der Kategorie und kleinen Unterschiede zwischen Kategorien" bei feingranularer visueller Erkennung zu lösen. Gleichzeitig wird sowohl die Robustheit des LLMs gegenüber Unterschieden innerhalb der Kategorie als auch die Fähigkeit zur Unterscheidung zwischen Kategorien verbessert. Konkret wird für jedes Eingabebild ein positives Beispiel aus derselben Unterkategorie und ein negatives Beispiel, das in der Erscheinung sehr ähnlich, aber aus einer anderen Unterkategorie ist, zu einem Triplet kombiniert, um die Verstärkung innerhalb und zwischen Kategorien zu erreichen.
(1) Verstärkung innerhalb der Kategorie: Die Denkpfade des Eingabebilds und seines positiven Beispiels werden gleichzeitig genutzt, um eine breitere Variation innerhalb der Kategorie zu erfassen und die Robustheit des Modells gegenüber Unterschieden innerhalb der Kategorie zu verbessern. Genauer gesagt werden von einem alten Modell zwei Gruppen von Denkpfaden generiert: Die erste Gruppe enthält die Antworten auf der Grundlage des ursprünglichen Bild-Frage-Paares, und die zweite Gruppe enthält die Antworten auf der Grundlage des positiven Beispiels-Bild-Frage-Paares. Alle Belohnungen werden zu einem einheitlichen Belohnungspool aggregiert, der für die nachfolgende Berechnung verwendet wird:
Wenn das Modell unterschiedliche Vorhersageergebnisse für das Eingabebild und das positive Beispiel generiert, wird die Differenz in den Belohnungen das Modell dazu bringen, sich nur auf die diskriminierenden Merkmale für die Erkennung dieser Unterkategorie zu konzentrieren und andere irrelevante Merkmale zu ignorieren.
(2) Verstärkung zwischen Kategorien: Das Modell wird dazu angeregt, unterschiedliche Antworten für ähnliche Bilder aus verschiedenen Unterkategorien zu generieren, um die Fähigkeit des Modells zur Unterscheidung zwischen Kategorien zu verbessern. Um die Fähigkeit des Modells zur Unterscheidung von Unterkategorien zu quantifizieren, wird das folgende Verhältnis definiert:
Die Diskriminanz des Modells wird verbessert, indem die KL-Divergenz zwischen der Ausgabeverteilung des Eingabe-/positiven Beispiels-Bilds und des negativen Beispiels-Bilds maximiert wird:
Die endgültige Zielfunktion nach der Kombination der Verstärkung innerhalb und zwischen Kategorien lautet:
Dabei ist der Gewichtungsfaktor der KL-Divergenz, und sind die Gewichtungsfaktoren der entsprechenden Entropieterme, 𝔻KL[πθ || πθneg] = giinter(θ) − log giinter(θ) − 1. is_included(a, oᵢ) wird verwendet, um zu überprüfen, ob die vom Modell ausgegebene Antwort den echten Kategorienamen enthält.
Experimentelle Ergebnisse
△ Tabelle 1. Ergebnisse der geschlossenen Erkennung (Mehrfachauswahl) des feingranularen visuellen Erkennungsmodells (Fine-R1)
Tabelle 1 zeigt die Ergebnisse der geschlossenen Erkennung (Mehrfachauswahl) auf 6 autoritativen Datensätzen für feingranulare Bildklassifizierung. Mit nur 4 Trainingsbildern pro Kategorie übertrifft Fine-R1 die Erkennungsgenauigkeit von diskriminativen Modellen wie CLIP von OpenAI und SigLIP von Google DeepMind sowohl für Unterkategorien innerhalb als auch außerhalb des Trainingssets.
△ Tabelle 2. Ergebnisse der offenen Erkennung (Frage-Antwort) des feingranularen visuellen Erkennungsmodells (Fine-R1)
Tabelle 2 zeigt die Ergebnisse der offenen Erkennung (Frage-Antwort), d.h. ohne vorherige Angabe von Kandidatenkategorien, lässt man das LLM direkt den Namen der erkannten Kategorie ausgeben. Auch hier übertrifft Fine-R1 mit nur 4 Trainingsbildern pro Kategorie die Erkennungsgenauigkeit von herkömmlichen multimodalen LLMs und Inferenz-LLMs sowohl für Unterkategorien innerhalb als auch außerhalb des Trainingssets.
△ Abbildung 3. Visualisierungsergebnisse von positiven und negativen Beispielen (links: Qwen2.5-VL, rechts: Fine-R1)
Um die Gründe für die Verbesserung von Fine-R1 zu untersuchen, werden auf der Grundlage der drei erforderlichen Fähigkeiten von multimodalen LLMs bei feingranularer visueller Erkennung drei Hypothesen aufgestellt: (1) Verbesserung der Unterscheidbarkeit der visuellen Repräsentation; (2) Verbesserung der Wissensreserve über Unterkategorien; (3) Verbesserung der Fähigkeit zur Nutzung des Wissens über Unterkategorien. Die experimentelle Analyse zeigt, dass Fine-R1 die Erkennungsgenauigkeit hauptsächlich durch die Verbesserung der "Fähigkeit des Modells zur Nutzung des Wissens über feingranulare Unterkategorien" verbessert, anstatt die visuelle Repräsentation zu optimieren oder die Wissensreserve zu erhöhen.