Neuer Ansatz in RL: Fudan-Universität nutzt Spiele zur Verbesserung der allgemeinen Inferenz von VLM - Leistung vergleichbar mit geometrischen Daten

Fudan Game-RL trainiert VLM mit Spielerdaten, um die multimodale Inferenzfähigkeit zu verbessern.

Das NLP-Labor der Fudan-Universität hat Game-RL entwickelt. Es nutzt die reichhaltigen visuellen Elemente und klaren Regeln von Spielen, um multimodale und verifizierbare Inferenzdaten zu generieren, und verbessert die Inferenzfähigkeit von visuell-sprachlichen Modellen (VLM) durch verstärkte Trainingsprozesse. Es wird innovativ die Code2Logic-Methode vorgeschlagen, um systematisch Datensätze für Spielaufgaben zu synthetisieren und den GameQA-Datensatz aufzubauen, wodurch die Vorteile von Spieldaten für komplexe Inferenztrainings verifiziert werden.

Bisherige Arbeiten haben die Inferenzfähigkeit von VLM mithilfe von RL verbessert, aber die Aufgaben-Szenarien sind oft geometrische oder diagrammartige Inferenzen. Diese Einschränkung im Bereich beschränkt die Exploration und das Lernen von VLM.

Wie kann man den RL-Trainingsbereich von VLM erweitern?

Elektronische Spiele verfügen über reichhaltige visuelle Elemente und klare, verifizierbare Regeln und sind daher eine ideale Quelle für multimodale Inferenzdaten.

Daher hat das Forschungs-Team des NLP-Labors der Fudan-Universität Game-RL vorgeschlagen - die Konstruktion multimodaler und verifizierbarer Spielaufgaben, um VLM intensiv zu trainieren.

Link zur Publikation: https://arxiv.org/abs/2505.13886
Code-Repository: https://github.com/tongjingqi/Game-RL
Daten und Modell: https://huggingface.co/Code2Logic

Um Trainingsdaten zu erhalten (siehe Beispiel in Abbildung 1), haben die Forscher auch die neuartige Code2Logic-Methode vorgeschlagen, um systematisch Daten durch Spielcode zu synthetisieren.

Abbildung 1: Repräsentative Spiele für verschiedene Spielkategorien im GameQA-Datensatz: 3D-Rekonstruktion, Tangram (Variante), Sudoku und Sokoban. Jedes Spiel zeigt zwei Beispiele für visuelle Fragen und Antworten, einschließlich des aktuellen Spielzustands, der entsprechenden Fragen sowie des schrittweisen Inferenzprozesses und der Antworten.

Die Code2Logic-Methode synthetisiert innovativ multimodale und verifizierbare Datensätze für Spielaufgaben auf der Grundlage von Spielcode.

Wie in Abbildung 2 gezeigt, wird ein starkes LLM genutzt, um Spielcode zu generieren, Aufgaben und deren Vorlagen zu entwerfen und Code für die Daten-Engine zu erstellen. Am Ende kann man einfach den Code ausführen, um automatisch Daten zu generieren.

Abbildung 2: Die Code2Logic-Methode wandelt mithilfe von LLM Spielcode in Inferenzdaten um, indem drei Kernschritte durchgeführt werden. Erster Schritt: Aufbau des Spielcodes; Zweiter Schritt: Entwurf von Spielaufgaben und deren QA-Vorlagen; Dritter Schritt: Aufbau der Daten-Engine. Basierend auf den ersten beiden Schritten wird ein automatisierter Prozess erstellt, und dann kann man einfach den Code ausführen, um automatisch Daten in Massen zu generieren.

Der reichhaltige Datensatz von Spielaufgaben GameQA

Mithilfe der Code2Logic-Methode wurde der GameQA-Datensatz aufgebaut. Diese multimodalen und verifizierbaren Spieldaten können für das Training und die Evaluierung der Inferenzfähigkeit von VLM verwendet werden.

GameQA hat: 4 Kategorien kognitiver Fähigkeiten, 30 Spiele (siehe Abbildung 3), 158 Inferenzaufgaben und 140.000 Frage-Antwort-Paare.

Schwierigkeitsstufen: Die Aufgaben sind in drei Schwierigkeitsstufen eingeteilt; die Stichproben sind in drei Stufen nach der Komplexität der visuellen Eingabe eingeteilt.

Abbildung 3: Die 30 Spiele von GameQA sind in 4 Kategorien kognitiver Fähigkeiten unterteilt, die 3D-Rauminferenz, Mustererkennung und -matching, mehrschrittige Inferenz und strategische Planung umfassen. 20 Spiele innerhalb des Bereichs werden für das Training und das Testen verwendet, während 10 Spiele außerhalb des Bereichs nicht am Training teilnehmen und für das Testen der Generalisierungsfähigkeit des Modells in unbekannten Spielszenarien verwendet werden.

Schlüssige Erkenntnis: Game-RL kann die allgemeine Inferenz von VLM verbessern

Nach dem Training mit GRPO auf GameQA haben 4 Open-Source-VLM auf 7 vollkommen fremden allgemeinen visuell-sprachlichen Inferenzbenchmarks Verbesserungen erzielt (der Qwen2.5-VL-7B hat durchschnittlich eine Verbesserung von 2,33% erreicht), was Generaliserung über verschiedene Bereiche hinweg zeigt, wie in Tabelle 1 dargestellt.

Tabelle 1: Evaluierungsergebnisse auf allgemeinen visuell-sprachlichen Inferenzbenchmarks

Trainingsergebnisse: GameQA ist mit geometrischen Datensätzen vergleichbar

Das Forschungs-Team hat vergleichende Trainings mit GameQA und Datensätzen für geometrische und diagrammartige Inferenzen durchgeführt und festgestellt, dass GameQA mit diesen vergleichbar ist.

Wie in Tabelle 2 gezeigt, hat das mit GameQA trainierte Modell auf allgemeinen Benchmarks insgesamt wettbewerbsfähige Ergebnisse erzielt, obwohl die Trainingsdatenmenge geringer ist und der Bereich nicht übereinstimmt. Auf den beiden Benchmarks MathVista und MathVerse, die mit geometrischer und funktionaler Inferenz zusammenhängen, kann Game sogar mit dem Training mit besser geeigneten geometrischen Inferenzdaten mithalten.

Dies zeigt, dass die kognitive Vielfalt und die Inferenzkomplexität in Spielen generell anwendbar und übertragbar sind.

Tabelle 2: Vergleichstraining: 5.000 GameQA-Stichproben vs. 8.000 MAVIS (geometrische und funktionale visuelle Inferenz) vs. 8.000 Multimodal-Open-R1 (hauptsächlich geometrische Inferenz) vs. 8.000 MultiMath (multimodale Inferenz im mathematischen Bereich). Das mit GameQA trainierte Modell ist insgesamt wettbewerbsfähig. Die Experimente zeigen auch, dass gemischtes Training (Hinzufügen von GameQA-Daten zu MultiMath) dem Modell helfen kann, noch bessere Ergebnisse zu erzielen.

Skaleffekt: Der Einfluss der Trainingsdatenmenge und der Anzahl der Spiele

Skaleffekt der Datenmenge: Wenn die Trainingsdatenmenge von GameQA auf 20.000 erhöht wird, zeigen die Experimente, dass die Leistung des Modells auf allgemeinen Inferenzbenchmarks insgesamt kontinuierlich verbessert wird, wie in Abbildung 4 gezeigt.

Abbildung 4: Skaleffekt der Trainingsdatenmenge

Skaleffekt der Anzahl der Spiele: Mit zunehmender Anzahl der trainierten Spielarten verbessert sich die Generalisierungsfähigkeit außerhalb des Bereichs, wie in Abbildung 5 gezeigt.

Abbildung 5: Das Training mit Aufgaben aus 20 Spielarten führt zu einer besseren Verbesserung des Modells auf allgemeinen Benchmarks außerhalb des Bereichs als die Konfiguration mit 4 oder 10 Spielarten.

Tiefgehende Analyse: Wo verbessert Game-RL die Fähigkeiten des Modells?

Um die Verbesserung der Inferenzfähigkeit von VLM durch Game-RL besser zu verstehen, hat das Forschungs-Team zufällig Stichproben genommen und eine detaillierte manuelle Analyse durchgeführt. Die Ergebnisse zeigen, dass nach Game-RL das Modell sowohl in der visuellen Wahrnehmung als auch in der Textinferenz verbessert wird, wie in Abbildung 6 gezeigt.

Abbildung 6: Die manuelle qualitative Analyse zeigt, dass sowohl die visuelle Wahrnehmung als auch die Textinferenzfähigkeit des Modells verbessert sind. Die beiden oberen Kreisdiagramme zeigen die Veränderungen der visuellen Wahrnehmung und der Textinferenzfähigkeit auf allgemeinen Benchmarks außerhalb des Bereichs. Unten ist ein Beispiel für die Verbesserung der visuellen Wahrnehmung dargestellt.

Schlussfolgerung

Die Studie hat Game-RL und die Spieldatensyntheseverfahren Code2Logic vorgeschlagen, den GameQA-Datensatz aufgebaut und den Bereich des verstärkten Trainings von VLM auf Spielszenarien erweitert.

Die Experimente haben bestätigt, dass Game-RL die allgemeine Inferenzfähigkeit von VLM verbessern kann.

Ferner wird gezeigt, dass Spielszenarien multimodale, kontrollierbare und verifizierbare Daten liefern können, was von großer Bedeutung ist.

Quellenangaben:

https://arxiv.org/abs/2505.13886

Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Autor: LRST, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。