LLMs treten in die "Drag-and-Drop-Ära" ein. Mit nur einem Prompt kann man in wenigen Sekunden ein großes Modell anpassen, und die Effizienz steigt um das 12.000-fache.
Kürzlich haben Forscher aus Institutionen wie der NUS und der UT Austin innovativ ein sogenanntes "Drag-and-Drop Large Language Model" (DnD) vorgeschlagen. Dieses Modell kann basierend auf Promptwörtern schnell Modellparameter generieren und sich ohne Feinabstimmung an Aufgaben anpassen. Es erreicht nicht nur eine bis zu 12.000-fache Effizienzsteigerung, sondern verfügt auch über hervorragende Null-Shot-Generalisierungseigenschaften.
Die meisten aktuellen Large Language Models verfügen grundsätzlich über Null-Shot-Generalisierungseigenschaften. Um sie jedoch in realen Szenarien für bestimmte Aufgaben anzupassen, muss man mehrere Stunden für die Feinabstimmung des Modells aufwenden.
Selbst effiziente Parameter-Methoden wie LoRA können nur die Kosten für die Feinabstimmung pro Aufgabe lindern, nicht aber beseitigen.
Gerade jetzt haben Forscher, darunter Professor You Yang, aus der National University of Singapore und der University of Texas at Austin ein brandneues "Drag-and-Drop Large Language Model" vorgeschlagen - Drag-and-Drop LLMs!
Link zur Studie: https://arxiv.org/abs/2506.16406
DnD ist ein auf Promptwörtern basierender Parameter-Generator, der eine trainingslose adaptive Feinabstimmung von LLMs ermöglicht.
Durch die Kombination eines leichten Textencoders und eines kaskadierten Hyperkonvolutions-Decoders kann DnD innerhalb von Sekunden nur anhand von unmarkierten Aufgaben-Promptwörtern die LoRA-Gewichtsmatrizen für diese Aufgabe generieren.
Offensichtlich kann DnD in Szenarien, in denen eine schnelle Spezialisierung des Modells erforderlich ist, eine leistungsfähigere, flexiblere und effizientere Alternative zu herkömmlichen Feinabstimmungsmethoden bieten.
Zusammenfassend lassen sich die Kernvorteile von DnD wie folgt beschreiben:
Extreme Effizienz: Seine Rechenkosten sind um das 12.000-fache niedriger als bei herkömmlicher vollständiger Feinabstimmung.
Ausgezeichnete Leistung: In Null-Shot-Learning-Tests für Allgemeinwissenslogik, Mathematik, Programmierung und multimodale Benchmarks übertrifft es die leistungsstärksten trainingsbedürftigen LoRA-Modelle um 30%.
Starke Generalisierung: Mit nur unmarkierten Promptwörtern kann es starke Generalisierungseigenschaften zwischen verschiedenen Bereichen zeigen.
Implementierungsmethode von DnD
Bei ihrer Beobachtung haben die Forscher festgestellt, dass der LoRA-Adapter nichts anderes als eine Funktion seiner Trainingsdaten ist: Der Gradientenabstieg "zieht" die Basisgewichte in einen optimalen Zustand für eine bestimmte Aufgabe.
Wenn man die Abbildung von Prompten zu Gewichten direkt lernen kann, kann man den Gradientenabstiegsprozess vollständig umgehen.
DnD gewinnt seine "Drag-and-Drop"-Fähigkeit durch zwei Kernschritte: die Vorbereitung der Trainingsdaten (oben links) und das Training des Parameter-Generators (oben rechts).
Bei der Datenvorbereitung werden die Modellparameter (Gewichte) explizit mit den Bedingungen (Promptwörtern) eines bestimmten Datensatzes gepaart.
Beim Training nimmt das DnD-Modell die Bedingungen als Eingabe, um Parameter zu generieren, und nutzt die ursprünglichen LoRA-Parameter als Supervisionssignal für das Lernen.
Auf der Grundlage dieser Erkenntnisse haben das Team das "Drag-and-Drop Large Language Model" vorgeschlagen, das ohne Feinabstimmung aufgaben-spezifische Gewichte generieren kann.
Das Team hat zunächst auf mehreren verschiedenen Datensätzen separate LoRA-Adapter trainiert und gespeichert.
Um dem Modell die "Drag-and-Drop"-Fähigkeit zu verleihen, hat das Team die Promptwörter dieser Datensätze mit den gesammelten LoRA-Gewichten zufällig gepaart, um die Trainingsdaten für das DnD-Modell - also die "Promptwort-Parameter"-Paare - zu bilden.
Der Parameter-Generator ist ein Decoder, der aus kaskadierten Konvolutionsblöcken besteht.
Die Details der Module des Parameter-Generators sind wie folgt: Jeder Hyperkonvolutionsblock enthält drei Hyperkonvolutionsmodule, die dazu dienen, Merkmalsinformationen in verschiedenen Dimensionen zu extrahieren und zu fusionieren.
Beim Training nutzt das Team einen vorhandenen Textencoder, um die Einbettungsvektoren der Promptwörter zu extrahieren und diese in den Generator einzuführen.
Der Generator prognostiziert die Modellgewichte, und das Team optimiert ihn anhand des mittleren quadratischen Fehlers (MSE) zwischen den prognostizierten Gewichten und den echten LoRA-Gewichten.
In der Inferenzphase braucht das Team nur die Promptwörter eines neuen (im Training nicht gesehenen) Datensatzes in das DnD-Modell einzugeben. Mit nur einer Vorwärtsausbreitung kann es dann die auf diese Aufgabe zugeschnittenen Parameter erhalten.
Effizienzbeurteilung
Effizienz im Null-Shot-Learning
Die Generalisierungseigenschaften auf neuen (Test-)Datensätzen.
Auf allen bisher nicht gesehenen Datensätzen übertrifft DnD die LoRA-Modelle, die für das Training verwendet wurden, signifikant in der Genauigkeit.
DnD kann Parameter für komplexere Aufgaben wie mathematische Probleme, Codierung und multimodale Fragen-Antwort-Szenarien generieren.
Auch in diesen Aufgaben zeigt es starke Null-Shot-Learning-Fähigkeiten.
DnD übertrifft das Basis-LLM in verschiedenen Aufgaben und zeigt signifikante "Drag-and-Drop"-Verstärkungseffekte.
DnD kann gut auf ein größeres 7B-Basis-Modell erweitert werden und behält in komplexeren LiveCodeBench-Benchmarks eine starke Leistung.
Indem es die bereits feinabgestimmten LoRA-Adapter als Trainingsdaten nutzt, hat DnD erfolgreich eine Verbindung zwischen den Eingabeprompten und den Modellparametern hergestellt.
Das Team hat dem DnD-Modell Promptwörter von Datensätzen eingegeben, die es während des Trainings nie gesehen hat, um es direkt Parameter für diese neuen Aufgaben zu generieren, um so seine Null-Shot-Learning-Fähigkeiten zu testen.
Die von DnD im Gewichtsraum generierten Parameter sind der ursprünglichen Parameterverteilung ähnlich und zeigen gute Leistungseigenschaften.
Die Experimentergebnisse zeigen, dass auf dem Null-Shot-Testdatensatz die Methode des Teams im Vergleich zur durchschnittlichen Leistung der für das Training verwendeten LoRA-Modelle eine erstaunliche Verbesserung erzielt und gut auf verschiedene reale Aufgaben und LLMs unterschiedlicher Größe generalisieren kann.
Vergleich mit anderen Feinabstimmungsmethoden
Um die Stärke von DnD weiter zu demonstrieren, hat das Team es mit der vollständigen Feinabstimmung (full-shot tuning), dem Few-Shot-Learning und dem In-Context-Learning verglichen.
Erstaunlicherweise übertrifft DnD die Leistung der vollständigen LoRA-Feinabstimmung und ist gleichzeitig 2.500-mal schneller.
Obwohl die Leistung der vollständigen Feinabstimmung nach mehr Iterationsrunden DnD übertreffen kann, hat dies den Preis einer 12.000-fachen Inferenzverzögerung.
Darüber hinaus ist die Leistung von DnD bei weniger als 256 Stichproben stabil besser als die des Few-Shot-Learnings und des In-Context-Learnings.
Besonders bemerkenswert ist, dass sowohl das Few-Shot-Learning als auch das In-Context-Learning auf markierte Antworten angewiesen sind, während DnD nur unmarkierte Promptwörter benötigt.
DnD kann eine Leistung erreichen, die der der vollständigen Stichprobe entspricht oder sogar übertrifft, und gleichzeitig eine 2.500 - 12.000-fache Geschwindigkeitssteigerung erzielen.
Autorenvorstellung
Zhiyuan Liang
Zhiyuan Liang ist derzeit Praktikant im