Verbessern Sie die Fähigkeit der künstlichen Intelligenz zur verstärkten Lernfähigkeit in mehreren Bereichen gleichzeitig durch Mischen mathematischer Programmierlogikdaten

Das gemischte Training mit Daten aus mehreren Bereichen verbessert die Leistung des Modells erheblich und ist der Kombination von zwei Bereichen überlegen.

In den letzten Jahren haben die fortschrittlichen KI-Modellarchitekturen in den Bereichen mathematische Berechnungen, logische Schlussfolgerungen und Codegenerierung bemerkenswerte Fortschritte erzielt. Insbesondere die Einführung fortschrittlicher Modelle wie DeepSeek - R1 hat das Potenzial der verifizierbaren Verstärkungslerntechnik (RLVR) zur Leistungssteigerung aufgezeigt.

Allerdings konzentrieren sich die meisten bestehenden Studien über Verstärkungslernen und Modelle auf die Optimierung in einzelnen Bereichen. Es fehlt an einer systematischen Erforschung des Wissensübertrags zwischen verschiedenen Bereichen und der Fähigkeit zur kollaborativen Schlussfolgerung, damit die Modelle in mehreren Bereichen zusammenarbeiten und bessere Schlussfolgerungsfähigkeiten entfalten können.

Das OpenDataLab - Team des Shanghai AI Lab hat durch umfangreiche Experimente den komplexen Mechanismus von RLVR bei der Schlussfolgerung in mehreren Bereichen eingehend analysiert und mehrere Schlüsselerkenntnisse für die Entwicklung stärkerer und robusterer KI - Schlussfolgermodelle gewonnen.

Das Team hat ein Mehrbereichs - Bewertungsframework erstellt, das drei Datentypen umfasst: Mathematik (Math), Programmierung (Code) und logische Rätsel (Puzzle). Darüber hinaus wurden maßgeschneiderte Belohnungsstrategien für verschiedene Trainingsdaten entwickelt.

Die Experimente basieren auf dem Qwen2.5 - 7B - Modell. Nach der gemeinsamen Trainierung mit Daten aus den drei Bereichen Mathematik, Code und Rätseln erreichte das Modell eine durchschnittliche Gesamtleistung von 56,57, was deutlich besser ist als bei jeder Zwei - Bereichs - Kombination.

Das Forschungsunternehmen hat durch umfangreiche Experimente die folgenden Schlüsselerkenntnisse gewonnen:

Wechselseitige Unterstützung von Puzzle - und Math - Daten: Logische Schlussfolgerung und mathematische Fähigkeiten ergänzen sich gegenseitig und verbessern die Gesamtleistung des Modells erheblich.

Interbereichs - Mischungseffekte bei Code - Schlussfolgerungen: Instruct - Modelle mit starker Befehlseinhaltungsfähigkeit können die Code - Fähigkeiten besser auf andere Bereiche verallgemeinern, während Base - Modelle dies nicht können.

Verbesserung der Robustheit durch interbereichliche Daten: Diverse Daten können in der Regel die Modellfähigkeiten verbessern oder ein ausgeglicheneres Verhalten erzielen. Allerdings sind komplexere Designs erforderlich, um potenzielle Konflikte zwischen den Bereichen Math, Code und Puzzle zu lösen.

SFT kann die Effektivität des Verstärkungslernens verbessern: Das Hinzufügen einer SFT - Phase vor dem Verstärkungslernen kann die Modellleistung erheblich verbessern.

Übereinstimmung der Template ist von entscheidender Bedeutung: Nicht übereinstimmende Template bei Training und Bewertung können zu einem starken Rückgang der Leistung führen, was zeigt, dass die Verallgemeinerungsfähigkeit und Robustheit von RLVR bei der Training in bestimmten Bereichen Herausforderungen zu bewältigen hat.

Vorteile der Policy - Aktualisierung: Das regelmäßige Aktualisieren des Referenzmodells und des Optimiererzustands im Kurslernen kann die Stabilität und Leistung des Modells verbessern.

Belohnungsdesign muss an die Schwierigkeit der Aufgabe angepasst werden: Das Anpassen der Belohnungseinstellungen an die Leistung des Modells bei den Trainingsdaten kann die Lernwirkung verbessern.

RLVR ist sprachsensitiv: Modelle, die auf chinesischen Daten trainiert wurden, haben eine geringere Leistung als Modelle, die auf englischen Daten trainiert wurden, was einen gewissen Leistungsunterschied zeigt.

Forschungsprozess und Leistungsfähigkeit

Bereichsgliederung und Datenerstellung: Die "Grundsteine" für die interbereichliche Schlussfolgerung

Das OpenDataLab - Team des Shanghai AI Lab hat ein Mehrbereichs - Bewertungsframework erstellt, das drei Datentypen umfasst: Mathematik (Math), Programmierung (Code) und logische Rätsel (Puzzle). Darüber hinaus wurden maßgeschneiderte Belohnungsstrategien für verschiedene Trainingsdaten entwickelt.

Die Experimente basieren auf dem Qwen2.5 - 7B - Modell und untersuchen die folgenden Aspekte:

Leistung und Verallgemeinerungsfähigkeit des Modells bei den Daten: Der Schwerpunkt liegt auf der Optimierung von Daten in einzelnen Bereichen und der Verallgemeinerung zwischen verschiedenen Bereichen sowie auf den Wechselwirkungen zwischen interbereichlichen Daten.

Effektivität der Trainingsmethoden und - strategien: Die Rolle von Template bei RLVR und die Effektivität von Kurslernstrategien werden bewertet.

Faktoren für die Modelloptimierung: Die Gestaltungsprinzipien verschiedener Belohnungsmechanismen und der Einfluss der Trainingssprache auf die Modellleistung werden untersucht.

Durch systematische Experimente hat die Studie den inneren Mechanismus von Verstärkungslernen (RLVR) bei der interbereichlichen Schlussfolgerung aufgedeckt und einen neuen Blickwinkel für die Optimierung der Schlussfolgerungsfähigkeit von großen Modellen geboten.

Einzelbereichstraining: Wettlauf um die Spitzenleistung in jedem Bereich

Beim Einzelbereichstraining zeigt das Modell eine deutliche Leistungssteigerung bei bestimmten Aufgaben. Allerdings sind die interbereichlichen Effekte komplex, wobei es sowohl synergetische Effekte als auch gegenseitige Schwächungen gibt.

Mathematischer Bereich: RLVR verbessert die mathematische Leistung, aber die interbereichlichen Effekte sind komplex

Nach gezieltem Training stieg die Genauigkeit des Base - Modells bei der CountDown - Aufgabe um etwa 75 Prozentpunkte. Gleichzeitig kann das mathematische Training auch die Fähigkeit des Modells zur Lösung logischer Rätsel effektiv verbessern und den Durchschnittspunkt erhöhen. Allerdings kann die tiefe Optimierung der mathematischen Fähigkeiten auch negative Auswirkungen auf die Code - Aufgaben haben, was auf einen bestimmten Kompromiss zwischen den Fertigkeiten in verschiedenen Bereichen hinweist.

Code - Bereich: Befehls - Feinabstimmung fördert die Programmierung und zeigt stärkere interbereichliche Verallgemeinerung

Das Code - Training hat die Leistung des Modells bei Programmierungsaufgaben verbessert. Insbesondere Instruct - Modelle nach SFT zeigen eine höhere Leistungsobergrenze. Gleichzeitig neigen Base - Modelle nach dem Code - Training oft zu einem Leistungsrückgang bei den meisten außereigenen Aufgaben, während Instruct - Modelle eine stärkere interbereichliche Verallgemeinerungsfähigkeit zeigen und die Leistung bei den meisten außereigenen Aufgaben beibehalten oder sogar verbessern können.

Puzzle - Bereich: Starke logische Schlussfolgerungsfähigkeiten, teilweise Training fördert den mathematischen Wissensübertrag

Bei dem KK - Datensatz erreichte das Instruct - Modell eine Genauigkeit von 99,14. Bei der Zebra - Aufgabe stieg der Punktwert auf 36,20. Darüber hinaus kann der Trainingseffekt von KK - Rätseln auch auf mathematische Aufgaben übertragen werden. Selbst in einigen mathematischen Benchmarks nähert sich die Leistung des Base - Modells der des Instruct - Modells oder übertrifft es sogar, was das Potenzial des interbereichlichen Wissensübertrags weiter unterstreicht.

Interbereichliche Interaktion: Untersuchung von Synergie und Konflikt

Zwei - Bereichs - Kombination: Erforschung von Synergie und Kompromiss

Kombinationen mit deutlichen Synergieeffekten: Die Math + Puzzle - Kombination hat die Leistung bei Math - Aufgaben auf 49,72 verbessert (besser als 47,48 beim Einzel - Math - Training), was die Wirksamkeit des interbereichlichen Wissensübertrags beweist. Die Code - Aufgaben verbesserten sich nach Hinzufügen von Puzzle - oder Math - Daten, was die potenziellen Vorteile der Kombinationstraining zeigt.
Kombinationsszenarien, die vorsichtig behandelt werden müssen: Die Puzzle - Aufgaben haben in allen Mehrbereichs - Trainings eine schlechtere Leistung als beim Einzelbereichstraining, was ihre hohe Spezialisierung unterstreicht. Bemerkenswerterweise verringert die Math + Puzzle - Kombination die Leistung bei Code - Aufgaben erheblich, während die Puzzle + Code - Kombination eine maximale durchschnittliche Verbesserung von 19,39 erzielt.

Drei - Bereichs - Kombination: Balance und Robustheit

Anschließend wurden die Daten aus allen drei Bereichen kombiniert. Die Ergebnisse zeigen, dass das Mehrbereichstraining eine bessere Gesamtleistung und Robustheit aufweist:

Drei - Bereichs - Training erzielt Gesamtleistungssprung: Durch das gemeinsame Training mit Daten aus den drei Bereichen Mathematik, Code und Rätseln erreichte das Modell eine durchschnittliche Gesamtleistung von 56,57, was deutlich besser ist als bei jeder Zwei - Bereichs - Kombination.
Datenvielfalt und Grenznutzen: Die Erhöhung der Vielfalt der Trainingsdaten (Anzahl der Bereichskombinationen) kann tatsächlich die Gesamtleistung verbessern. Allerdings nimmt die Verbesserung tendenziell ab.
Verhinderung von Leistungseinbrüchen und ausgewogeneres Wachstum: Im Gegensatz zu einigen Zwei - Bereichs - Kombinationen (z. B. Math + Puzzle kann zu einem starken Rückgang der Leistung bei Code - Aufgaben führen) vermeidet das Drei - Bereichs - Training effektiv die Leistungseinbrüche bei bestimmten Aufgaben und gewährleistet, dass das Modell bei allen Aufgaben wettbewerbsfähig bleibt.

Übereinstimmung der Template: Optimale Leistung

Ein oft übersehenes Problem beim RL - Training ist die Nichtübereinstimmung der Template bei Training und Test. Dies kann zu einem starken Rückgang der Modellleistung führen. Das Forschungsunternehmen hat Tests unter verschiedenen Template (R1, Qwen, Base) durchgeführt und die Wichtigkeit der Template - Übereinstimmung aufgezeigt.

Nicht übereinstimmende Template können die Leistung stark beeinträchtigen: Beispielsweise fiel die Genauigkeit des Base - Modells bei der CountDown - Aufgabe von 19,36 auf 0 und die MBPP - Genauigkeit von 51,80 auf 3,00, wenn ein nicht übereinstimmendes Template verwendet wurde. Das Instruct - Modell fiel von 73,20 auf 1,80 bei MATH500.
Übereinstimmende Template bringen in der Regel die beste Leistung: Unter dem R1 - Template erreichte das Base - Modell eine durchschnittliche Leistung von 47,84 und das Instruct - Modell von 54,56, was weit besser als die Situation mit nicht übereinstimmenden Template ist. Dies betont die Notwendigkeit der Template - Übereinstimmung - die Verallgemeinerungsrobustheit von RLVR beim Training in bestimmten Bereichen steht immer noch vor Herausforderungen.

Kurslernen: Schrittweise Überwindung von Schwierigkeiten

Das Kurslernen hat sich beim SFT als effektiv erwiesen, aber seine Anwendbarkeit bei RLVR ist noch nicht vollständig erforscht. Das Forschungsunternehmen hat Tests an dem KK - Datensatz im Puzzle - Bereich durchgeführt, einen Schwierigkeitsgradienten basierend auf der Anzahl der Teilprobleme (3PPL bis 8PPL) festgelegt und die "Policy - Refresh" - Strategie entwickelt, bei der das Referenzmodell und der Optimiererzustand in jedem Schwierigkeitsstadium aktualisiert werden.

Das Experiment hat gezeigt: