DeepSeek's Chen Deli: The Second AI Paper - DeliAutoResearch SKILL Rises from Score 6 to 8

Große Modelle sollten nicht bei der Fixierung von Parametern bleiben.

Der zweite Artikel von Deli Chen, einem Forscher von DeepSeek, in Zusammenarbeit mit KI ist da!

Link zum Artikel: https://victorchen96.github.io/continual_learning_survey.pdf

Dieser Artikel konzentriert sich auf continual learning (kontinuierliches Lernen) und self-iteration (Selbstiteration). Aus Deli Chens Sicht ist dies ein äußerst wichtiger Schritt auf dem Weg der KI hin zur AGI.

Da arXiv es nicht erlaubt, KI als Autor zu benennen, musste Deli Chen diesmal DeepSeek-V4-Pro (für den Text) und GPT-Image-2 (für die Bilder), die tatsächlich 99 % der Arbeit am Artikel geleistet haben, aus der Autorenliste in die Fußnoten verschieben.

In diesem Artikel ist Deli Chens Einschätzung, dass zukünftige KI-Systeme nicht dauerhaft in einer Form mit festen Parametern verbleiben werden, sondern sich allmählich zu Systemen entwickeln werden, die kontinuierlich lernen, sich selbst aktualisieren und selbst iterieren können.

Die dahinter liegende Logik ist auch recht einfach: Der Kontextmanagement und die dokumentierte Erinnerung können zwar in gewissem Maße helfen, dass das Modell seine Aufmerksamkeit behält und die Erfahrungen aus den Aufgaben speichert. Aber irgendwann wird das Aufmerksamkeitsfenster voll sein, und dann müssen das Wissen und die Erfahrungen parametrisiert werden, um die kognitive Belastung zu verringern.

Es ist bemerkenswert, dass dies nicht nur eine Erweiterung des Artikeltopiks ist, sondern auch ein Iterationsversuch des von Deli Chen aufgebauten autonomen Forschungsskripts DeliAutoResearch SKILL.

Quelle: https://x.com/victor207755822/status/2060315686329778432

Laut Deli Chen erreichte dieser Artikel einen simulierten Peer-Review-Score von 8 Punkten, was im Vergleich zum vorherigen Artikel mit 6 Punkten eine deutliche Verbesserung darstellt. Noch wichtiger ist, dass das Modell bei der Erstellung dieses Artikels erstmals versucht hat, ein fortschrittlicheres Sprachmodell aufzurufen, um Experimente selbst zu entwerfen und auszuführen, was in früheren Versionen noch nicht möglich war.

Am besten zeigt sich die Veränderung des Systems an den in dem Artikel offen gelegten Produktionsdaten. Deli Chen verglich in der zweiten Abbildung den Erstellungsprozess der beiden Artikel: Von dem ersten zum zweiten Artikel: Mit der ständigen Iteration von SKILL sank die Anzahl der Interaktionen stark, während der Gesamtverbrauch an Token deutlich anstieg. Dies ist tatsächlich ein sehr gutes Zeichen! Es zeigt, dass SKILL sich hin zu einer höheren Autonomie wandelt.

Mit anderen Worten: Die menschliche Eingabe wurde weniger, und der Teil, den das System selbst denkt und tut, wurde größer. Für einen automatisierten Forschungsprozess ist dies genau das Zeichen für eine höhere Autonomie.

Deli Chen hat angegeben, dass er sehr darauf hofft, dass DeliAutoResearch SKILL in naher Zukunft tatsächlich großartige akademische Texte produzieren kann.

Dennoch hat er auch zugegeben, dass er nach dem Lesen einiger wichtiger Teile des Artikels noch viele Verbesserungsmöglichkeiten sieht.

Wenn er den Artikel selbst geschrieben hätte, wäre die Qualität möglicherweise höher, aber die Produktionsgeschwindigkeit würde auch stark sinken. Da das aktuelle Kernziel nicht die Verbesserung eines einzelnen Artikels ist, sondern die ständige Iteration von DeliAutoResearch SKILL selbst, hat er beschlossen, die etwas unpolierten Teile des Artikels zu behalten, um sie als Feedback für die weitere Entwicklung des Systems zu nutzen.

Jetzt schauen wir uns an, was dieser Artikel behandelt.

Warum sollten kontinuierliches Lernen und Selbstverbesserung vereinheitlicht werden?

Der Artikel erwähnt, dass in der traditionellen Forschung kontinuierliches Lernen und Selbstverbesserung oft als zwei verschiedene Forschungsrichtungen betrachtet werden, aber sie befassen sich mit demselben zugrunde liegenden Problem: Wie kann ein Modell sich nach der Aufnahme neuer Informationen oder neuer Ziele aktualisieren, ohne die bereits erworbenen Fähigkeiten zu zerstören?

Beim kontinuierlichen Lernen geht es darum, wie ein Modell sich nacheinander an neue Aufgaben oder Daten anpasst; bei der Selbstverbesserung geht es darum, wie ein Modell seine Fähigkeiten autonom verbessert. Aber die technischen Schwierigkeiten beider sind sehr ähnlich: Beide müssen unter Veränderungen der Verteilung stabil optimiert werden, beide müssen die bereits vorhandenen Repräsentationen behalten, beide müssen das Gleichgewicht zwischen Exploration und Ausnutzung behandeln, und beide müssen den Fortschritt ohne feste Testmenge bewerten.

Deshalb ist die Meinung des Autors, dass die nächste Generation von LLM-Trainingspipelines unweigerlich externe Datenströme und von dem Modell selbst generierte Trainingssignale kombinieren wird, um einen eng gekoppelten Rückkopplungszyklus zu bilden. Das bedeutet, dass die vereinheitlichte Forschung dieser beiden Richtungen nicht nur eine bequeme, sondern auch eine notwendige Maßnahme ist.

Kernbeitrag 1: Vorschlag eines dreiachsigen einheitlichen Klassifizierungsrahmens

Einer der wichtigsten Beiträge dieses Artikels ist der Vorschlag des ersten Klassifizierungsrahmens, der sowohl das kontinuierliche Lernen als auch die Selbstverbesserung von großen Sprachmodellen abdeckt und in drei zueinander orthogonalen Dimensionen organisiert ist:

Was wird aktualisiert: Das heißt, ob es sich um Wissen, Fähigkeiten, Ausrichtungskompetenz oder Inferenzfähigkeiten handelt;
Wie wird aktualisiert: Das heißt, welche Art von Methode verwendet wird;
Wann wird aktualisiert: Das heißt, ob die Aktualisierung in der Offline-Phase, der periodischen Phase, der Online-Phase oder durch ein bestimmtes Ereignis ausgelöst wird.

Dieser dreiachsige Rahmen kann, wie in der folgenden Abbildung gezeigt, jedes implementierte Lernsystem genau beschreiben und die bisher nicht ausreichend erkannten Beziehungen zwischen verschiedenen Methoden aufdecken.

Kernbeitrag 2: Systematische Analyse von fünf Methodenklassen

Der Artikel analysiert systematisch über 100 Artikel und ordnet sie fünf Methodenklassen zu: kontinuierliches Lernen auf der Grundlage von Regularisierung, Wiedergabe und Erfahrungsmanagement, parametereffiziente und modulare Methoden, Selbstverbesserung und Selbstspiel sowie Online-Adaptionsmethoden. Für jede Methode wird der Kernmechanismus formal beschrieben, die theoretischen Eigenschaften analysiert und die repräsentativen Methoden verglichen.

Kernbeitrag 3: Formale Beschreibung der Konvergenzbedingungen für die Selbstverbesserung

Der Artikel führt eine formale Analyse durch, unter welchen Bedingungen die iterative Selbstverbesserung konvergiert und nicht divergiert, und vereinigt die verstreuten theoretischen Ergebnisse aus Forschungsrichtungen wie Selbstspiel, iterativer Destillation und Constitutional AI in einem einzigen Rahmen.

Der Artikel meint, dass die Selbstverbesserung eine Paradigmenwende darstellt: Die Verbesserung der Modellfähigkeiten geht von der Abhängigkeit von menschlicher Überwachung hin zur autonomen Steuerung durch das Modell über. Die erwähnten Methoden umfassen ein breites Spektrum: Vom Selbstspiel in der Trainingsphase, bei dem die Modellgewichte durch mehrere Iterationen geändert werden; über die Inferenzsteigerung in der Inferenzphase, um die Qualität jeder einzelnen Vorhersage zu verbessern; bis hin zur theoretischen Analyse, um die Grenzen der Selbstverbesserung festzulegen...

Die Gemeinsamkeit dieser Methoden besteht darin, dass sie alle ein gewisses grounding signal, also ein zuverlässiges Ankerungssignal, benötigen. Dieses Signal kann ein Validator, ein Satz von Verfassungsprinzipien, menschliche Präferenzdaten oder die Struktur des Problems selbst sein. Ohne ein solches Ankerungssignal muss der Zyklus der Selbstverbesserung schließlich degenerieren.

Wie in der folgenden Abbildung gezeigt, hängt die Selbstverbesserung nicht davon ab, wie komplex der Generierungsmechanismus ist, sondern von der Qualität des Bewertungssignals und seiner Unabhängigkeit vom Modell selbst.

Kernbeitrag 4: Vorschlag von sechs offenen Herausforderungen

Am Ende weist der Artikel sechs Schlüsselprobleme auf, die beim Übergang des kontinuierlichen Lernens von generativen Modellen zur Reife dringend gelöst werden müssen, und gibt für jedes Problem auf der Grundlage der durch die systematische Analyse aufgedeckten Forschungslücken zukünftige Forschungsrichtungen an.

Kann die Größe eines großen Modells das katastrophale Vergessen lösen?: Größere Modelle vergessen möglicherweise weniger leicht, aber die Größe ist keine Lösung. Mit der kontinuierlichen Zunahme der Aufgaben werden auch große Modelle Probleme mit Kapazität, Störung und Ausrichtungsdrift haben. In Zukunft muss untersucht werden, wie die Größe eines großen Modells das Gleichgewicht zwischen Stabilität und Plastizität beeinflusst und ob es eine vorhersagbare Skalierungsregel gibt.

Die theoretischen Grenzen der Selbstverbesserung: Kann ein Modell sich unendlich verbessern? Wann konvergiert es? Wann kollabiert es? Der Artikel meint, dass dies ein zentrales theoretisches Problem ist. Insbesondere bei sprachlichen Aufgaben ohne externen Validator kann ein Modell leicht in die Selbstbestätigung geraten: Es wird die Muster, an die es bereits glaubt, immer stärker verstärken, ohne unbedingt näher an das reale Ziel zu kommen.

Kontinuierliches Lernen in multimodalen Modellen: Zukünftige Modelle werden nicht nur Texte verarbeiten, sondern auch Bilder, Audio, Video und Aktionsdaten. Beim kontinuierlichen Lernen von multimodalen Modellen kann die Aktualisierung eines Modus den anderen Modus beeinflussen. Beispielsweise kann die Aktualisierung der visuellen Generierungsfähigkeit die Sprachverständnisfähigkeit beeinflussen; die Aktualisierung der Sprachausrichtung kann auch das Verhalten der Bildgenerierung beeinflussen. Wie die Fähigkeiten über die Modalitäten hinweg aufrechterhalten werden können, ist ein Problem, das in zukünftigen Forschungen gelöst werden muss.

Sichere kontinuierliche Ausrichtung: Beim kontinuierlichen Lernen eines Modells müssen die Sicherheitsgrenzen auch kontinuierlich eingehalten werden. Das Problem ist jedoch, dass jede Aktualisierung die bestehende Ausrichtungsfähigkeit schwächen kann. Deshalb meint der Artikel, dass in Zukunft ein „beweisbar sicherer“ Mechanismus für die kontinuierliche Ausrichtung benötigt wird: Das Modell muss sich stärker werden können, ohne dass die Sicherheitsbeschränkungen vergessen oder umgangen werden.

„Echtzeitlernen“ bei der Implementierung: Echtzeitservices erfordern geringe Latenzzeiten und hohe Stabilität, während das Online-Lernen die Berechnung von Gradienten, die Aktualisierung von Parametern, die Qualitätsüberprüfung und die Vermeidung von Regressionen erfordert. Dies ist ein „natürlicher Konflikt“. Deshalb muss in der realen Implementierung ein hierarchischer Aktualisierungsmechanismus entworfen werden: Welche Änderungen werden sofort behandelt? Welche Änderungen werden verzögert und in Batches behandelt? Welche Änderungen dürfen erst nach einer Sicherheitsüberprüfung in die Parameter aufgenommen werden?

Kombination mit dem Agentenrahmen: Intelligente Agenten sammeln in langen Aufgaben Erfahrungen, wie z. B. die Ergebnisse der Werkzeugaufrufe, die Lehren aus Fehlern, die Benutzerpräferenzen und die Umweltfeedback. Die Frage ist: Wann werden die kurzfristigen Erfahrungen in das Langzeitgedächtnis geschrieben? Wann sollten die Parameter aktualisiert werden? Welche Erfahrungen sind nur zufällige Ereignisse, und welche Erfahrungen repräsentieren stabile Regeln?

Der Artikel meint, dass in Zukunft eine hierarchische Gedächtnisarchitektur benötigt wird, damit der Agent sowohl kurzfristige episodische Erinnerungen als auch langfristiges parametrisches Wissen hat, und auch ein Mechanismus für das kontinuierliche Lernen von mehreren Agenten, damit mehrere Agenten Erfahrungen teilen und integrieren können.

Abschluss

Abschließend ist die Kernaussage des Artikels, dass kontinuierliches Lernen und Selbstverbesserung sich zunehmend nähern. Der wirklich vielversprechende Weg ist die Entwicklung eines Modells, das sowohl neues Wissen aus der Außenwelt aufnehmen kann als auch Selbstreflexion, Selbstüberprüfung und Selbstsuche nutzen kann, um die Lernstrategie zu verbessern; das sowohl stärker wird als auch stabil und sicher bleibt.

Kurz gesagt: Es geht nicht nur darum, ein größeres Modell zu trainieren, sondern darum, ob es möglich ist, unter der Bedingung, dass man nicht vergisst und nicht außer Kontrolle gerät, kontinuierlich zu lernen, kontinuierlich ausgerichtet zu bleiben und kontinuierlich sich selbst zu entwickeln...

Was halten Sie von diesem „von K