Der lebenslanges Selbstlernen fähige KI: MIT's SDFT-Methode beseitigt katastrophales Vergessen

Man kann neue Fähigkeiten erlernen und alte Kenntnisse nicht vergessen.

Ist es möglich, dass Künstliche Intelligenz (KI)-Modelle neue Fähigkeiten erlernen, ohne alte Kenntnisse zu vergessen?

Kürzlich hat ein Team des Massachusetts Institute of Technology (MIT) eine innovative Methode vorgeschlagen - Self-Distillation Fine-Tuning (SDFT). Diese Methode ermöglicht es dem Modell, während des kontinuierlichen Lernens mehrerer neuer Fähigkeiten nicht nur eine höhere Genauigkeit als die traditionelle überwachte Feinabstimmung zu erreichen, sondern auch eine fast "Null-Vergessens"-Fähigkeitsakkumulation zu realisieren.

Seit langem sind KI-Systeme zwar leistungsstark, geraten jedoch oft nach der Implementierung in einen "statischen" Zustand und haben Schwierigkeiten, sich durch Parameteraktualisierungen kontinuierlich zu entwickeln. Die zentrale Herausforderung besteht darin: Wie kann man neue Kenntnisse aufnehmen, ohne die vorhandenen Fähigkeiten zu verlieren?

Experimente zeigen, dass SDFT einem einzelnen Modell helfen kann, im Laufe des kontinuierlichen Lernens mehrere Fähigkeiten zu erlernen, ohne dass es zu einem Rückgang der Leistung kommt. Dies bietet einen neuen Weg für die Realisierung eines echten "Lebenslanges Lernens" KI-Systems.

Wie löst SDFT das Problem des kontinuierlichen Lernens?

Um es der KI zu ermöglichen, wie ein Mensch kontinuierlich zu lernen, stehen derzeitig zwei Haupthindernisse im Weg der gängigen Ansätze.

Einerseits kann die strategiebasierte verstärkte Lernmethode zwar effektiv das Vergessen reduzieren, aber sie hängt von einer expliziten Belohnungsfunktion ab, die in der Realität sehr schwierig zu gestalten ist. Andererseits ist die überwachte Feinabstimmung (SFT), die direkt aus Expertenbeispielen lernt, zwar einfach umzusetzen, aber im Wesentlichen ein "off-policy"-Lernverfahren. Das Modell imitiert passiv eine feste, vergangene Datenverteilung von Experten. Sobald es beginnt, eine neue Aufgabe zu lernen, neigt es stark dazu, vom ursprünglichen Zustand abzuweichen, was zu einem "katastrophalen Vergessen" führt - es lernt das Neue, vergisst aber das Alte.

Abbildung | SFT wird normalerweise verwendet, um aus einem Datensatz von Expertenbeispielen zu lernen. Durch seine off-policy-Eigenschaft kann es jedoch zu einem katastrophalen Vergessen von allgemeinen Fähigkeiten kommen. Das Forschungsunternehmen hat SDFT vorgeschlagen, indem es die bedingte Version der Modellbeispiele als Lehrer für sich selbst nutzt, um die Expertenbeispiele in ein on-policy-Lernsignal umzuwandeln. Auf diese Weise erreicht SDFT ein echtes kontinuierliches Lernen, sodass das Modell sich ständig verbessert, wenn neue Aufgaben auftauchen, ohne dass es zu einem Rückgang der bestehenden Fähigkeiten kommt.

Der Kern von SDFT liegt darin, die starke Kontextlernfähigkeit des großen Modells geschickt zu nutzen, um statische Beispiele in dynamische on-policy-Trainingssignale umzuwandeln. Beim Training spielt das Modell zwei Rollen. Als "Lehrer" erzeugt es auf der Grundlage der Aufgabeninput und der Expertenbeispiele eine bessere, intentionsgemäße Ausgabeverteilung. Als "Schüler" gibt es nur auf der Grundlage des Aufgabeninputs eine Antwort. Während des Trainings nähert sich das Modell durch Selbst-Destillation ständig der Ausgabe des Schülers an die Verteilung des Lehrers an, und das Lernen erfolgt vollständig auf der Grundlage der vom Schüler selbst erzeugten Spuren.

Abbildung | SDFT nutzt die Kontextlernfähigkeit des Modells, um on-policy-Trainingssignale zu erzeugen. Für jede Abfrage x spielt das Modell zwei Rollen: Einmal als "Schüler", der nur auf der Grundlage der Abfrage P = π(·|x) agiert, und einmal als "Lehrer", der auf der Grundlage des Expertenbeispiels c agiert. Letzterer erzeugt eine verhaltenssichtige Verteilung Q = π(·|x, c). Der Trainingsvorgang minimiert die inverse KL-Divergenz zwischen "Schüler" und "Lehrer", um schließlich eine on-policy-Aktualisierung zu erhalten.

Durch diese Gestaltung kann das Modell on-policy-Lernen durchführen, ohne auf externe Belohnungen angewiesen zu sein, und so neue Kenntnisse aufnehmen, während es die vorhandenen Fähigkeiten behält.

Funktioniert SDFT wirklich?

Um die tatsächliche Wirkung von SDFT zu überprüfen, hat das Forschungsunternehmen zwei Arten von experimentellen Szenarien entworfen, die sowohl das Erlernen von Fähigkeiten als auch das Erwerb von Wissen umfassen, und diese mit Basismethoden wie SFT systematisch verglichen.

Im Bereich des Erlernens von Fähigkeiten hat das Forschungsunternehmen drei Aufgaben ausgewählt: Wissenschaftliche Fragestellungen, Werkzeigeinsatz und medizinische Schlussfolgerungen. Die Experimente zeigen, dass SDFT bei diesen neuen Aufgaben eine höhere Genauigkeit als SFT erzielt, was auf eine bessere Generalisierungsfähigkeit innerhalb der Verteilung hinweist.

Noch bemerkenswerter ist das Experiment zum kontinuierlichen Lernen mehrerer Aufgaben: Wenn dasselbe Modell nacheinander drei verschiedene Fähigkeiten erlernt, kann SDFT die Fähigkeiten schrittweise akkumulieren, ohne dass es zu einem Rückgang kommt, während SFT starke Störungen zeigt - sobald das Training auf eine neue Aufgabe wechselt, sinkt die Leistung bei den frühen Fähigkeiten rapide.

Diese Ergebnisse belegen, dass SDFT ein echtes kontinuierliches Lernen ermöglicht, sodass ein einzelnes Modell mehrere Fähigkeiten schrittweise erlernen kann, ohne dass es zu einem katastrophalen Vergessen kommt.

Abbildung | In einem anspruchsvollen Experiment zum kontinuierlichen Lernen, wenn ein Modell nacheinander auf drei verschiedenen Aufgaben trainiert wird, kann SDFT jede Aufgabe erlernen, während es die Leistung bei den anderen Aufgaben aufrechterhält. Im Gegensatz dazu sinkt die Leistung von SFT bei jeder Aufgabe, sobald es beginnt, die nächste Aufgabe zu lernen.

Bei der Aufgabe des Wissenserwerbs hat das Forschungsunternehmen dem Modell neue Fakten, die nicht in seinem Trainingsdatensatz enthalten waren (z. B. Naturkatastrophen im Jahr 2025), eingegeben. Es wurde festgestellt, dass SDFT eine strenge Genauigkeit innerhalb der Verteilung von 89 % erreicht, was besser als die 80 % von SFT ist und nahe an der Leistung eines RAG-Systems mit idealer Suche liegt.

Noch wichtiger ist, dass SDFT bei Fragen außerhalb der Verteilung, die die Kombination von neuem Wissen und Schlussfolgerungen erfordern, nahezu perfekt abschneidet, während SFT deutlich hinterher bleibt. Dies zeigt, dass SDFT dem Modell helfen kann, das neue Wissen wirklich in seine interne Repräsentation zu integrieren, anstatt es nur mechanisch zu merken.

Darüber hinaus hat das Experiment zwei Schlüsselerkenntnisse aufgedeckt:

Erstens, je größer das Modell ist, desto deutlicher werden die Vorteile von SDFT. Da die Methode im Kern auf der Kontextlernfähigkeit des Modells basiert, und größere Modelle in dieser Hinsicht stärker sind, können sie bessere Leitlinien für die Selbst-Destillationsfeinabstimmung liefern.

Abbildung | SDFT profitiert von der Modellgröße. Bei der Aufgabe der wissenschaftlichen Fragestellungen wird die Leistungslücke zwischen SDFT und SFT mit zunehmender Modellgröße größer, da größere Modelle eine stärkere Kontextlernfähigkeit haben.

Zweitens, SDFT kann ein Schlussfolgerungsmodell effektiv trainieren, ohne dass es Daten über den expliziten Schlussfolgerungsprozess gibt. Wenn nur die endgültigen Antworten für die Feinabstimmung zur Verfügung stehen, führt die traditionelle SFT zu einem "Kollaps" des Schlussfolgerungsverhaltens des Modells, die erzeugten Inhalte werden stark verkürzt und die Genauigkeit sinkt. Im Gegensatz dazu kann SDFT durch seinen einzigartigen Selbst-Destillationsmechanismus die Genauigkeit der Aufgabe verbessern, während es das ursprüngliche komplexe Schlussfolgerungsmodell des Modells beibehält.

Tabelle | Training eines Schlussfolgerungsmodells mit überwachter Methode, die nur Antworten enthält. SFT verringert die Aufgabenleistung und die allgemeine Schlussfolgerungsfähigkeit (ersichtlich an der kürzeren Antwortzeit). SDFT vermeidet diesen Leistungseinbruch, indem es von einem Lehrer lernt, der auf Beispielen basiert, anstatt direkt aus den Beispielen zu lernen.

Die Bedeutung und die Grenzen von SDFT

SDFT bietet einen klaren und effektiven Weg für das kontinuierliche Lernen aus Beispielen, aber seine Bedeutung und Wert müssen in einem breiteren Kontext betrachtet werden, und es müssen auch die derzeitigen Grenzen in Kauf genommen werden.

SDFT soll nicht die auf Belohnungen basierte verstärkte Lernmethode ersetzen, sondern sie ergänzen. In Situationen, in denen es keine klaren Belohnungssignale gibt, kann SDFT direkt aus Beispielen eine hochwertige Initialisierung vornehmen. Die hochwertigen und vielfältigen Ergebnisse von SDFT können als ein guter Ausgangspunkt für die nachfolgende Feinabstimmung durch verstärktes Lernen dienen, um die Gesamt-Trainingsleistung zu verbessern.

In Bezug auf die Rechenkosten beträgt der Rechenaufwand für eine einzelne SDFT-Trainingseinheit etwa das 2,5-fache der traditionellen überwachten Feinabstimmung, da es in Echtzeit erzeugt und lernt. Im Vergleich zu den mehrstufigen Methoden des kontinuierlichen Lernens, die "zuerst feinabstimmen und dann reparieren" erfordern, kann der einstufige, integrierte Trainingsablauf von SDFT jedoch in der Regel in kürzerer Gesamtzeit eine bessere Gesamtsleistung erzielen.

Abbildung | SDFT verbessert die pass@k-Metrik bei verschiedenen k-Werten, was zeigt, dass es sich um eine echte Verbesserung der Fähigkeiten handelt und nicht um eine Verringerung der Entropie.

Trotz des vielversprechenden Aussehens steht SDFT derzeit noch vor einigen Herausforderungen:

1. Fähigkeitsabhängigkeit: Die Wirkung von SDFT hängt stark von der Kontextlernfähigkeit des Basis-Modells ab. Bei kleineren Modellen oder Modellen mit schwacher Kontextlernfähigkeit ist die Qualität des Lehrersignals begrenzt, und die Vorteile der Methode sind nicht so deutlich.

2. Sprachartefakte: Das Schüler-Modell imitiert gelegentlich bestimmte Sprachmuster des Lehrers, die durch das Einsehen der Beispiele entstehen (z. B. das Hinzufügen von "Gemäß dem obigen Beispiel..." vor der Antwort). Obwohl die Maskierung der Verluste für die Markierungen in der Anfangsphase des Trainings diese Artefakte effektiv unterdrücken kann, ist dies dennoch ein Phänomen, das beachtet werden muss.

3. Anwendungsbereich: SDFT ist gut darin, die ursprünglichen Verhaltensmuster des Modells zu "verstärken" und "anpassen", aber es ist schwierig, Aufgaben zu bewältigen, die eine völlige Änderung des Generierungsmodells erfordern, wie z. B. die Umwandlung eines Modells, das nicht gewöhnt ist, Denkketten auszugeben, in ein komplexes Schlussfolgerungsmodell.

Diese Herausforderungen weisen auch auf zukünftige Forschungsrichtungen hin: Eine tiefere Integration von SDFT und verstärktem Lernen; die Entwicklung von Hilfstechniken zur weiteren Verringerung des Vergessens; sowie die Erweiterung auf komplexe, aber reale Szenarien des kontinuierlichen Lernens, wie z. B. nicht-expertenbeispielbasierte, verrauschte Daten oder noch offenerer Benutzerdialog, um die kontinuierliche Lernfähigkeit der KI robuster und praktikabler zu machen.

Dieser Artikel stammt aus dem WeChat-Account "Academic Headlines" (ID: SciTouTiao), Autor: Academic Headlines, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der "lebenslanges Selbstlernen" fähige KI ist da. Das MIT hat die Selbst-Destillation und Feintuning-Methode (SDFT) vorgeschlagen und damit das katastrophale Vergessen beseitigt.

Wie löst SDFT das Problem des kontinuierlichen Lernens?

Funktioniert SDFT wirklich?

Die Bedeutung und die Grenzen von SDFT