Neue MIT-Studie: Große Modelle können anstelle von GRPO/PPO-Parameteroptimierung mit Rauschen genutzt werden

In den vortrainierten Modellen sind schon lange eine Reihe von Experten versteckt.

Indem man einfach Gauß'sches Rauschen zum Modell hinzufügt, kann die Leistung mit klassischen Parameteroptimierungsalgorithmen wie GRPO/PPO gleichkommen oder sogar übertreffen.

Eine neue Studie von MIT greift das problematische Thema der "Parameteroptimierung" an!

Um ein vortrainiertes Modell zu einem Experten in einem bestimmten Aufgabenbereich zu machen, arbeiten unzählige Menschen Tag und Nacht und verlieren dabei ihr Haar.

Jetzt aber zeigen ein Dozent und ein Student von MIT in einer neuen Studie:

Ohne komplexe Parameteroptimierung, einfach die Parameter zufällig ändern und die Ergebnisse zusammenfassen, kann das Modell ähnliche Ergebnisse wie professionelle Parameteroptimierungsmethoden wie GRPO/PPO erzielen.

Vor der Veröffentlichung dieser Studie war die gängige Meinung: Expertenmodelle werden trainiert.

Egal, ob man Gradientenabstieg oder verstärkendes Lernen nutzt, man muss die Parameter Schritt für Schritt optimieren.

Diese Studie zeigt jedoch, dass Expertenmodelle bereits existieren, sie sind nur im Gewichtsraum versteckt. Die wahre Form eines vortrainierten Modells sieht so aus:

Expertenmodelle wachsen wie Buschwerk dicht umher. (Das in der Studie erwähnte "Neural Thickets" - Phänomen)

△

Das heißt, wenn man die Parameter in der Nähe der vortrainierten Gewichte leicht stört, kann man möglicherweise einen neuen Aufgabenexperten "treffen".

Basierend auf diesem Befund schlagen die Autoren eine sehr einfache Methode namens RandOpt vor:

Indem man einfach Gauß'sches Rauschen zu einem großen Sprachmodell hinzufügt (ein Einzelschritt - ohne Iteration, ohne Lernrate, ohne Gradienten) und diese dann kombiniert, kann man in mathematischen Schlussfolgerungen, Programmierung, Schreiben und chemischen Aufgaben eine Leistung erzielen, die mit der von Standardmethoden wie GRPO/PPO vergleichbar oder sogar besser ist.

Außerdem fanden die Autoren heraus, dass je größer das Modell, desto besser die Ergebnisse.

Um vortrainierte Modelle herum verstecken sich "Neural Thickets"

Einfach ausgedrückt, liefert die Studie ein gegenintuitives Ergebnis -

Um vortrainierte Modelle herum existieren bereits eine Vielzahl von "Expertenmodellen".

Im Gewichtsraum sind Modelle, die verschiedene Aufgaben lösen können, nicht verstreut verteilt, sondern wachsen dicht in der Nähe der vortrainierten Gewichte.

Theoretisch muss man also nicht unbedingt einen komplexen Trainingsvorgang durchführen. Wenn man in diesem Bereich ein paar Mal probiert, hat man die Chance, einen gut funktionierenden Aufgabenexperten zu finden.

Nachdem man das gehört hat, wird sich viele denken: Ach so, heißt das, dass man einfach raten und ausprobieren muss?

Ja, genau das ist es.

Bis jetzt wurde das Zufallsraten als unzuverlässiger maschineller Lernalgorithmus angesehen. Die Wahrscheinlichkeit, die Parametervektoren von ChatGPT zufällig zu erraten, ist fast Null.

Aber die Studie zeigt, dass sich die Situation bei vortrainierten Modellen ändert -

In der Nähe der Modellgewichte sind die Parameterstörungen, die die Aufgabenleistung verbessern können, sehr dicht. Deshalb kann man auch durch Zufallsraten effektive Verbesserungslösungen finden.

In der Studie haben die Autoren 1.000 zufällige Gewichtsstörungen auf das vortrainierte Qwen2.5 - Modell (0,5B - 32B) angewendet und es durch zufällige Projektion auf eine zweidimensionale Ebene projiziert.

Es stellte sich heraus, dass je größer das Modell, desto dichter die "Hochpräzisionsbereiche" umherliegen. Bei kleinen Modellen sinkt die Leistung nach der Störung meist (blaue Bereiche), während es bei großen Modellen überall "Experten" gibt, deren Leistung verbessert ist (rote Bereiche).

Mit anderen Worten, je größer das Modell, desto deutlicher und effektiver ist diese Störungswirkung.

Es ist auch wichtig zu beachten, dass diese zufälligen Störungen am Ende keine "Alleskönner", sondern "Spezialisten" hervorbringen.

Die Experimente zeigen, dass keine zufällige Änderung das Modell in allen Aufgaben verbessern kann. Beispielsweise kann eine Änderung die mathematische Leistung des Modells verbessern, aber die Programmierfähigkeit verschlechtern. Eine andere Änderung kann das Modell besser in der Lösung chemischer Aufgaben machen, aber die Fähigkeit, Geschichten zu schreiben, verschlechtern.

Und ebenfalls gilt: Je größer das Modell, desto deutlicher ist diese Spezialisierung.

Warum das Modell diese "Phänomen des versteckten Haufens von Experten" zeigt, wird in der Studie durch ein einfaches Experiment vorläufig erklärt.

Sie haben ein eindimensionales Signal - autoregressives Modell mit der einfachsten Struktur gewählt, um es lernen zu lassen, den nächsten Wert einer Zeitreihensignal vorherzusagen.

Es traten drei Situationen auf:

Ohne Vortraining: Unabhängig davon, wie man Störungen hinzufügt, kann man keine Änderungen finden, die die Leistung verbessern. Zufallsraten ist sinnlos;

Einzelne Aufgabenvorraining: Das Modell kann nur die vortrainierten Aufgaben perfekt lösen. Um die Parameter herum treten keine anderen guten Änderungen auf;

Mehrfachaufgaben - Mischvorraining: Um die Modellparameter herum sind plötzlich Störungen, die die Leistung verbessern können, überall vorhanden. Mit einer kleinen Änderung kann man eine spezielle Fähigkeit für die Vorhersage eines bestimmten Signaltyps freischalten und den dichten Zustand der "Neural Thickets" nachahmen.

Daraus zieht die Studie den Kernschluss, dass die Entstehung des "Neural Thickets" - Phänomens vor allem auf das umfangreiche Mehrfachaufgaben - Vortraining großer Modelle zurückzuführen ist.

Mit anderen Worten, weil die Basis stark genug ist, kann man leicht "Experten" finden, die man zufällig stören kann.

Anregung für den RandOpt - Algorithmus

Diese Forschung hat die Autoren auch dazu angeregt, einen neuen Algorithmus namens RandOpt vorzuschlagen.

Der Betriebsmechanismus von RandOpt kann in zwei einfache Schritte aufgeteilt werden: Zufällig Experten finden + Abstimmung in einer Gruppe.

"Zufällig Experten finden" ist ähnlich wie oben beschrieben. Man macht N zufällige Störungen an den Parametern des vortrainierten Modells und erhält so N "neue Versionen des Modells".

Dann testet man diese Modelle mit einer kleinen Menge an Validierungsdaten und findet die besten K Modelle heraus.

Nachdem man diese K Modelle hat, beginnt die praktische Schlussfolgerungsphase -

Lässt man diese K "Experten" jeweils eine Frage beantworten und entscheidet dann nach dem Prinzip "Mehrheit gewinnt" über das endgültige Ergebnis.

Es gibt zwei Punkte, die man beachten sollte:

Erstens versucht RandOpt, verschiedene Stärkegrade des Rauschens (z. B. kleine, mittlere und große Störungen) zu verwenden, um sicherzustellen, dass man alle Arten von Experten finden kann.

Zweitens können diese N Modelle gleichzeitig auf mehreren GPUs laufen, was sehr schnell ist.

Natürlich haben die Autoren auch versucht, diesen neuen Algorithmus mit verschiedenen Modellen zu testen.

Die ersten Ergebnisse zeigen, dass RandOpt bei reinen Sprachmodellen in mathematischen, programmierten, Geschichten schreibenden und chemischen Aufgaben eine ähnliche oder sogar höhere Genauigkeit wie die derzeitigen Standardmethoden (PPO/GRPO/ES) erzielen kann.

Bei visuellem - Sprachmodellen ist die Verbesserungswirkung von RandOpt noch deutlicher. Die Genauigkeit steigt von 56,6 % auf 69,0 %.

Zur gleichen Zeit beobachteten die Autoren auch in Bilddiffusionsmodellen ein ähnliches "Neural Thickets" - Phänomen -

Bestimmte Bereiche des Parametersraums neigen dazu, Bilder mit bestimmten Farbtönen oder visuellen Stilen zu generieren.

Außerdem weisen die Autoren darauf hin, dass RandOpt in folgenden Fällen besser funktioniert:

Je öfter man zufällig ändert, desto besser sind die ausgewählten "Experten".

Je größer das Modell, desto besser ist die Wirkung von RandOpt.

Über die Autoren der Studie

Abschließend stellen wir die beiden Autoren dieser Forschung vor.

Yulu Gan, Master of Engineering von Peking University, ist derzeit ein Doktorand am Computer Science and Artificial Intelligence Laboratory (CSAIL) der MIT.

Er hat zuvor bei Microsoft praktiziert und forscht hauptsächlich in den Bereichen multimodale große Sprachmodelle, Schlussfolgerung, Mehragentensysteme und AI for science.

Der andere Autor Phillip Isola ist sein Lehrer und derzeit Dozent am Department of Electrical Engineering and Computer Science der MIT.

Nach seiner Postdoc - Forschung an der...

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Neue Studie von MIT: Große Modelle können mit Rauschen anstelle von GRPO/PPO-Parameteroptimierung verwendet werden

Um vortrainierte Modelle herum verstecken sich "Neural Thickets"

Anregung für den RandOpt - Algorithmus

Über die Autoren der Studie