Stößt das VLM immer wieder an die Grenzen, wenn es um die Lösung geometrischer Probleme geht? GEODPO beginnt mit dem "Sehen": Mit strukturierten Darstellungen und DPO-Optimierung lässt es das Modell zunächst verstehen, bevor es schließt.
Sind geometrische Probleme wirklich nur wegen "schwieriger logischer Schlussfolgerungen" schwierig?
In den letzten Jahren haben visuelle Sprachmodelle (VLMs) bemerkenswerte Fortschritte bei multimodalen Aufgaben wie Bild-Text-Fragen-Antworten, Tabellenverständnis und mathematischen Anwendungsaufgaben erzielt.
Aber wenn es um geometrische Figuren geht, sinkt ihre Leistung oft deutlich.
Warum?
Kürzlich hat ein Forschungsteam aus dem Guangming-Labor und der Tsinghua-Universität Fehlerfälle mehrerer führender Modelle eingehend analysiert und ein bemerkenswertes Phänomen beobachtet:
Das Scheitern aktueller VLM bei geometrischen Problemen zeigt in hohem Maße ihre Schwächen bei der geometrischen Wahrnehmung (perceptual errors) auf, und dieser Kernfaktor wird in den bestehenden Studien oft nicht separat und systematisch analysiert.
Mit anderen Worten: In vielen Fällen kann das Modell nicht daran scheitern, zu schließen, sondern es hat bereits in einem früheren Stadium - bei der Erkennung der Figurstruktur - Abweichungen.
Häufige Probleme umfassen:
- Falsche Erkennung geometrischer Grundelemente (Punkte, Linien, Kreise)
- Übersehen wichtiger struktureller Beziehungen (Kollinearität, Senkrechtstellung, Tangentialität)
- Verschiebung der Bildgrounding
- Erkennung von nicht existierenden Strukturen (strukturelle Halluzination)
Diese Probleme treten vor der logischen Schlussfolgerung auf, beeinflussen aber direkt die nachfolgende logische Kette.
GEOPERCEIVE: Erstmalige unabhängige Bewertung der geometrischen Wahrnehmungsfähigkeit
Die bestehenden geometrischen Benchmarks verwenden normalerweise einen End-to-End-Bewertungsansatz:
Bild + Frage → Antwort in natürlicher Sprache
Nur die Frage "Wurde richtig beantwortet?" wird beurteilt.
Dadurch werden Wahrnehmungsfehler und Schlussfolgerungsfehler gemischt statistisch ausgewertet, und es ist schwierig, die Leistungsschwächen zu lokalisieren.
Dafür hat das Forschungsteam GEOPERCEIVE vorgeschlagen.
Dies ist der erste unabhängige Bewertungsrahmen für die geometrische Wahrnehmungsfähigkeit.
Frühere Benchmarks fokusierten auf: Hat das Modell "richtig beantwortet".
GEOPERCEIVE fokusiert auf: Hat das Modell "richtig gesehen".
Geometrie in Programmen ausdrücken: GeoDSL
Das Forschungsteam hat eine spezielle Sprache für den geometrischen Bereich - GeoDSL - entwickelt, um strukturiert darzustellen:
- Geometrische Elemente: Punkt / Linie / Kreis
- Strukturelle Beziehungen: Kollinearität / Senkrechtstellung / Tangentialität
- Topologische und Abhängigkeitsbedingungen
Geometrische Figuren werden zunächst automatisch von einem Programm erzeugt und dann in ein Bild gerendert.
Die Ergebnisse in natürlicher Sprache, die das Modell ausgibt, werden in eine strukturelle Darstellung übersetzt und exakt verglichen.
Diese Gestaltung bringt zwei entscheidende Vorteile:
- Kontrollierte Erzeugung geometrischer Strukturen unterschiedlicher Komplexität
- Exakte und automatisierte strukturelle Bewertung
Elementare strukturelle Bewertung
GEOPERCEIVE verwendet:
- Strukturanalyse
- Hungarian matching
- Element-level F1-Scoring
Das Bewertungsmaß wird von "Ist die Antwort richtig?" auf:
Wurde jedes geometrische Element und jede strukturelle Beziehung genau erkannt?
Dadurch kann das Forschungsteam die Leistungsschwächen des Modells auf der Ebene der Strukturerkennung exakt lokalisieren.
GEODPO: Strukturierte Optimierungspfade durch Reinforcement Learning
Nach der Diagnose der Schwächen bei der geometrischen Wahrnehmung stellt sich die natürliche Frage:
Wie kann man strukturierte Optimierungssignale einführen, ohne die Fähigkeit zur natürlichen Sprachausdrucksweise zu beeinträchtigen?
Die direkte Überwachung der Generierung strukturierter Programme durch das Modell (SFT) führt leicht zu Verteilungsverschiebungen und ist stark von der Token-Reihenfolge abhängig.
Deshalb hat das Forschungsteam vorgeschlagen:
GEODPO: Translator-Guided Reinforcement Learning
Der gesamte Ablauf ist wie folgt:
Ausgabe in natürlicher Sprache
→ Spezieller Übersetzer (NL → GeoDSL)
→ Exakte strukturelle Bewertung
→ Konstruktion von Präferenzpaaren
→ DPO-Optimierung
Das Modell gibt immer noch in natürlicher Sprache aus, aber das Optimierungssignal stammt aus den strukturellen Übereinstimmungsscores.
Dieser Ansatz hat drei Vorteile:
Das Ausgabe-Space des Modells wird nicht verändert.
Die Belohnungsfunktion ist interpretierbar und berechenbar.
Das Optimierungsziel stimmt direkt mit der Fähigkeit zur Strukturerkennung überein.
Experimentelle Beobachtungen
Das Forschungsteam hat eine systematische Bewertung an mehreren führenden visuellen Sprachmodellen durchgeführt.
Verbesserung der geometrischen Wahrnehmungsfähigkeit
Mehrere Backbones haben deutliche Verbesserungen erzielt.
Im Vergleich zur direkten SFT zeigt GEODPO eine stabilere Leistung.
OOD-Generaliserungsfähigkeit
Auf Testsets außerhalb der Verteilung:
- GEODPO zeigt einen kontinuierlichen Verbesserungstrend.
- Bei SFT treten bei einigen Modellen Leistungsschwankungen auf.
Dies deutet darauf hin, dass strukturierte Belohnungen in Situationen mit Verteilungsverschiebungen möglicherweise eine bessere Stabilität aufweisen.
Abhängige geometrische Schlussfolgerungsaufgaben
Bei geometrischen Schlussfolgerungsbenchmarks wie MathVista hat das Forschungsteam beobachtet:
Wenn die Genauigkeit der Strukturerkennung steigt, verbessert sich in der Regel auch die gesamte Schlussfolgerungsleistung.
Dieses Phänomen zeigt, dass die Qualität der unterliegenden strukturellen Darstellung möglicherweise ein wichtiger Faktor für die geometrische Schlussfolgerungsleistung ist.
Zusammenfassung
Das Forschungsteam hat vorgeschlagen:
GEOPERCEIVE - der erste unabhängige Bewertungsrahmen für die geometrische Wahrnehmungsfähigkeit
GEODPO - eine Optimierungsmethode basierend auf strukturierten Belohnungen
Indem die geometrische Strukturerkennung aus der End-to-End-Schlussfolgerungsaufgabe explizit herausgetrennt wird, kann das Forschungsteam die Leistungsverteilung des Modells in der "Wahrnehmung - Schlussfolgerung"-Kette klarer analysieren.
Die experimentellen Ergebnisse zeigen:
Die geometrische Wahrnehmungsfähigkeit könnte ein wichtiger Faktor für die geometrische Schlussfolgerungsleistung sein, und strukturiertes Reinforcement Learning bietet einen stabilen und interpretierbaren Optimierungspfad.
Noch wichtiger ist, dass diese Arbeit ein Forschungsmodell bietet:
- Zerlegung komplexer Fähigkeiten in unabhängig bewertbare Teilmodule
- Ersetzung unscharfer Sprachübereinstimmungen durch strukturierte Darstellungen
- Leitung der Modellfähigkeit durch berechenbare Belohnungsfunktionen
Geometrische Szenarien bieten aufgrund ihrer stark strukturierten Eigenschaften einen idealen Einstiegspunkt für die Untersuchung der unterliegenden Darstellungskapazitäten multimodaler Modelle.
Ähnliche Ansätze könnten möglicherweise erweitert werden auf:
- Analyse von technischen Zeichnungen
- Verständnis wissenschaftlicher Bilder
- Erkennung von CAD-Strukturen
- Modellierung medizinischer Strukturen
Während multimodale Modelle Schritt für Schritt zu einer zuverlässigeren Strukturverstehen gelangen, könnte die Geometrie nicht nur eine Art von Aufgabe sein, sondern ein Schlüsselfenster, um zu verstehen, "ob das Modell die Struktur wirklich versteht".
Link zur Studie:https://arxiv.org/pdf/2602.22703
Dieser Artikel stammt aus dem WeChat-Account "Quantum Bit", Autor: Guangming-Labor & Tsinghua-Universität, veröffentlicht von 36Kr mit Genehmigung.