Stößt das VLM an die Grenzen bei der Lösung geometrischer Probleme? GEODPO: "Sehen" als Start, strukturiertes Verständnis vor Schlussfolgerung

Verwenden Sie strukturiertes Reinforcement Learning, um VLM in der Lage zu machen, Geometrie zu "verstehen".

Sind geometrische Probleme wirklich nur wegen "schwieriger logischer Schlussfolgerungen" schwierig?

In den letzten Jahren haben visuelle Sprachmodelle (VLMs) bemerkenswerte Fortschritte bei multimodalen Aufgaben wie Bild-Text-Fragen-Antworten, Tabellenverständnis und mathematischen Anwendungsaufgaben erzielt.

Aber wenn es um geometrische Figuren geht, sinkt ihre Leistung oft deutlich.

Warum?

Kürzlich hat ein Forschungsteam aus dem Guangming-Labor und der Tsinghua-Universität Fehlerfälle mehrerer führender Modelle eingehend analysiert und ein bemerkenswertes Phänomen beobachtet:

Das Scheitern aktueller VLM bei geometrischen Problemen zeigt in hohem Maße ihre Schwächen bei der geometrischen Wahrnehmung (perceptual errors) auf, und dieser Kernfaktor wird in den bestehenden Studien oft nicht separat und systematisch analysiert.

Mit anderen Worten: In vielen Fällen kann das Modell nicht daran scheitern, zu schließen, sondern es hat bereits in einem früheren Stadium - bei der Erkennung der Figurstruktur - Abweichungen.

Häufige Probleme umfassen:

Falsche Erkennung geometrischer Grundelemente (Punkte, Linien, Kreise)
Übersehen wichtiger struktureller Beziehungen (Kollinearität, Senkrechtstellung, Tangentialität)
Verschiebung der Bildgrounding
Erkennung von nicht existierenden Strukturen (strukturelle Halluzination)

Diese Probleme treten vor der logischen Schlussfolgerung auf, beeinflussen aber direkt die nachfolgende logische Kette.

GEOPERCEIVE: Erstmalige unabhängige Bewertung der geometrischen Wahrnehmungsfähigkeit

Die bestehenden geometrischen Benchmarks verwenden normalerweise einen End-to-End-Bewertungsansatz:

Bild + Frage → Antwort in natürlicher Sprache

Nur die Frage "Wurde richtig beantwortet?" wird beurteilt.

Dadurch werden Wahrnehmungsfehler und Schlussfolgerungsfehler gemischt statistisch ausgewertet, und es ist schwierig, die Leistungsschwächen zu lokalisieren.

Dafür hat das Forschungsteam GEOPERCEIVE vorgeschlagen.

Dies ist der erste unabhängige Bewertungsrahmen für die geometrische Wahrnehmungsfähigkeit.

Frühere Benchmarks fokusierten auf: Hat das Modell "richtig beantwortet".

GEOPERCEIVE fokusiert auf: Hat das Modell "richtig gesehen".

Geometrie in Programmen ausdrücken: GeoDSL

Das Forschungsteam hat eine spezielle Sprache für den geometrischen Bereich - GeoDSL - entwickelt, um strukturiert darzustellen:

Geometrische Elemente: Punkt / Linie / Kreis
Strukturelle Beziehungen: Kollinearität / Senkrechtstellung / Tangentialität
Topologische und Abhängigkeitsbedingungen

Geometrische Figuren werden zunächst automatisch von einem Programm erzeugt und dann in ein Bild gerendert.

Die Ergebnisse in natürlicher Sprache, die das Modell ausgibt, werden in eine strukturelle Darstellung übersetzt und exakt verglichen.

Diese Gestaltung bringt zwei entscheidende Vorteile:

Kontrollierte Erzeugung geometrischer Strukturen unterschiedlicher Komplexität
Exakte und automatisierte strukturelle Bewertung

Elementare strukturelle Bewertung

GEOPERCEIVE verwendet:

Strukturanalyse
Hungarian matching
Element-level F1-Scoring

Das Bewertungsmaß wird von "Ist die Antwort richtig?" auf:

Wurde jedes geometrische Element und jede strukturelle Beziehung genau erkannt?

Dadurch kann das Forschungsteam die Leistungsschwächen des Modells auf der Ebene der Strukturerkennung exakt lokalisieren.

GEODPO: Strukturierte Optimierungspfade durch Reinforcement Learning

Nach der Diagnose der Schwächen bei der geometrischen Wahrnehmung stellt sich die natürliche Frage:

Wie kann man strukturierte Optimierungssignale einführen, ohne die Fähigkeit zur natürlichen Sprachausdrucksweise zu beeinträchtigen?

Die direkte Überwachung der Generierung strukturierter Programme durch das Modell (SFT) führt leicht zu Verteilungsverschiebungen und ist stark von der Token-Reihenfolge abhängig.

Deshalb hat das Forschungsteam vorgeschlagen:

GEODPO: Translator-Guided Reinforcement Learning

Der gesamte Ablauf ist wie folgt:

Ausgabe in natürlicher Sprache

→ Spezieller Übersetzer (NL → GeoDSL)

→ Exakte strukturelle Bewertung

→ Konstruktion von Präferenzpaaren

→ DPO-Optimierung

Das Modell gibt immer noch in natürlicher Sprache aus, aber das Optimierungssignal stammt aus den strukturellen Übereinstimmungsscores.

Dieser Ansatz hat drei Vorteile:

Das Ausgabe-Space des Modells wird nicht verändert.

Die Belohnungsfunktion ist interpretierbar und berechenbar.

Das Optimierungsziel stimmt direkt mit der Fähigkeit zur Strukturerkennung überein.

Experimentelle Beobachtungen

Das Forschungsteam hat eine systematische Bewertung an mehreren führenden visuellen Sprachmodellen durchgeführt.

Verbesserung der geometrischen Wahrnehmungsfähigkeit

Mehrere Backbones haben deutliche Verbesserungen erzielt.

Im Vergleich zur direkten SFT zeigt GEODPO eine stabilere Leistung.

OOD-Generaliserungsfähigkeit

Auf Testsets außerhalb der Verteilung:

GEODPO zeigt einen kontinuierlichen Verbesserungstrend.
Bei SFT treten bei einigen Modellen Leistungsschwankungen auf.

Dies deutet darauf hin, dass strukturierte Belohnungen in Situationen mit Verteilungsverschiebungen möglicherweise eine bessere Stabilität aufweisen.

Abhängige geometrische Schlussfolgerungsaufgaben

Bei geometrischen Schlussfolgerungsbenchmarks wie MathVista hat das Forschungsteam beobachtet:

Wenn die Genauigkeit der Strukturerkennung steigt, verbessert sich in der Regel auch die gesamte Schlussfolgerungsleistung.

Dieses Phänomen zeigt, dass die Qualität der unterliegenden strukturellen Darstellung möglicherweise ein wichtiger Faktor für die geometrische Schlussfolgerungsleistung ist.

Zusammenfassung

Das Forschungsteam hat vorgeschlagen:

GEOPERCEIVE - der erste unabhängige Bewertungsrahmen für die geometrische Wahrnehmungsfähigkeit

GEODPO - eine Optimierungsmethode basierend auf strukturierten Belohnungen

Indem die geometrische Strukturerkennung aus der End-to-End-Schlussfolgerungsaufgabe explizit herausgetrennt wird, kann das Forschungsteam die Leistungsverteilung des Modells in der "Wahrnehmung - Schlussfolgerung"-Kette klarer analysieren.

Die experimentellen Ergebnisse zeigen:

Die geometrische Wahrnehmungsfähigkeit könnte ein wichtiger Faktor für die geometrische Schlussfolgerungsleistung sein, und strukturiertes Reinforcement Learning bietet einen stabilen und interpretierbaren Optimierungspfad.

Noch wichtiger ist, dass diese Arbeit ein Forschungsmodell bietet:

Zerlegung komplexer Fähigkeiten in unabhängig bewertbare Teilmodule
Ersetzung unscharfer Sprachübereinstimmungen durch strukturierte Darstellungen
Leitung der Modellfähigkeit durch berechenbare Belohnungsfunktionen

Geometrische Szenarien bieten aufgrund ihrer stark strukturierten Eigenschaften einen idealen Einstiegspunkt für die Untersuchung der unterliegenden Darstellungskapazitäten multimodaler Modelle.

Ähnliche Ansätze könnten möglicherweise erweitert werden auf:

Analyse von technischen Zeichnungen
Verständnis wissenschaftlicher Bilder
Erkennung von CAD-Strukturen
Modellierung medizinischer Strukturen

Während multimodale Modelle Schritt für Schritt zu einer zuverlässigeren Strukturverstehen gelangen, könnte die Geometrie nicht nur eine Art von Aufgabe sein, sondern ein Schlüsselfenster, um zu verstehen, "ob das Modell die Struktur wirklich versteht".

Link zur Studie:https://arxiv.org/pdf/2602.22703

Dieser Artikel stammt aus dem WeChat-Account "Quantum Bit", Autor: Guangming-Labor & Tsinghua-Universität, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Stößt das VLM immer wieder an die Grenzen, wenn es um die Lösung geometrischer Probleme geht? GEODPO beginnt mit dem "Sehen": Mit strukturierten Darstellungen und DPO-Optimierung lässt es das Modell zunächst verstehen, bevor es schließt.