StartseiteArtikel

OpenAI startet das "Reinforcement Fine-Tuning"-Programm, das das Erstellen von spezialisierten großen Modellen vereinfacht | An vorderster Front

王方玉2024-12-07 12:27
Ein neuer Ansatz, der für gewöhnliche Benutzer wenig relevant ist, aber für Fachleute in spezialisierten Bereichen von großem Wert ist.

Text | Wang Fangyu

Redaktion | Su Jianxun

Am 7. Dezember um zwei Uhr morgens Pekinger Zeit veranstaltete das Unternehmen OpenAI das zweite von zwölf aufeinanderfolgenden Livestream-Events.

In diesem Livestream präsentierte OpenAI neue Ansätze - Reinforcement Fine-Tuning. Diese Methode und ihre Funktionen sollen voraussichtlich 2025 offiziell eingeführt werden.

Reinforcement Fine-Tuning ist eine völlig neue Methode zur Modellanpassung, bei der ein vortrainiertes generisches Modell durch weiteres Training an einem kleinen Datensatz aus einem speziellen Bereich an bestimmte Aufgaben angepasst wird. Vereinfacht gesagt, wird ein "viel gelerntes" großes Modell auf eine bestimmte Aufgabe "spezifisch trainiert", wodurch es besser für diese Aufgabe geeignet ist.

Ein OpenAI-Manager erklärte, dass Reinforcement Fine-Tuning große Sprachmodelle von "Gymnasiumniveau" auf "Doktorats-Experten"-Fähigkeiten anheben könne, was es Hochschulen, Forschern und Unternehmen ermöglicht, einzigartige KI-Lösungen zu entwickeln. Beispielsweise arbeitet OpenAI mit Thomson Reuters zusammen, um ein eigens für das Unternehmen erstelltes juristisches Fachmodell zu entwickeln.

Sam Altman, der CEO von OpenAI, der an diesem Livestream nicht teilnahm, kommentierte auf sozialen Medien: "Die Ergebnisse sind großartig, es war meine größte Überraschung 2024 und ich freue mich darauf zu sehen, was die Menschen damit aufbauen werden!"

"Reinforcement Fine-Tuning erleichtert die Umsetzung von Experten-Großmodellen." Ein Gründer eines Unternehmens für KI-Großmodellanwendungen erklärte gegenüber 36Kr, dass es sich um einen neuen Ansatz handelt, der für Fachleute im Bereich von großem Wert ist, aber weniger relevant für normale Benutzer.

Vor Ort beim Livestream präsentierte OpenAI ein typisches Beispiel - die Erforschung seltener genetischer Krankheiten.

OpenAI arbeitete mit Forschern des Berkeley Lab und des deutschen Charité-Krankenhauses zusammen, um das GPT o1 Mini-Modell durch Reinforcement Fine-Tuning zu trainieren. Dieses Modell erlernte effektives Schlussfolgern über die Ursachen seltener Krankheiten und übertraf in der Leistung das größere GPT o1-Modell, wobei es Potenzial in der Diagnose und dem Verständnis komplexer Krankheitsbilder zeigte.

Es ist erwähnenswert, dass Reinforcement Fine-Tuning sich signifikant von bisherigen Tuning-Methoden unterscheidet. Anders als herkömmliches Fine-Tuning, das darauf abzielt, dass Modelle "Antworten auswendig lernen", geht es bei Reinforcement Fine-Tuning darum, dass das Modell in einem spezifischen Bereich Schlüsse zieht und die richtigen Antworten findet.

Konkret verwendet Reinforcement Fine-Tuning zwei verschiedene Datensätze: einen Fine-Tuning-Datensatz und einen Testdatensatz. Das Modell wird zuerst auf Basis des Fine-Tuning-Datensatzes trainiert und dann mit dem Testdatensatz validiert, durchläuft selbstgesteuertes Trainings- und Validierungsschleifen und erreicht letztlich ein sehr hohes Niveau. Daher kann Reinforcement Fine-Tuning auch bei begrenzten Datenmengen (manchmal reichen wenige Dutzend Proben) deutliche Leistungssteigerungen erzielen.

Derzeit befindet sich der Reinforcement Fine-Tuning-Ansatz noch im Forschungs-Vorschau-Stadium; OpenAI plant, ihn 2025 umfassend einzuführen.

Derzeit lädt OpenAI Forschungsinstitute, Universitäten und Unternehmen ein, an der Reinforcement Fine-Tuning-Forschungsinitiative teilzunehmen. OpenAI möchte mit Organisationen kooperieren, die bereit sind, Datensätze zu teilen, um die Modellleistung weiter zu optimieren.