Die Trainingszeit wird um 80 % verkürzt. Die Universität von Hongkong und Kuaishou haben gemeinsam einen künstlichen Intelligenz-Alchemisten geschaffen: Dieser wählt gezielt die "nahrhaften" Daten aus und erreicht mit 20 % der Daten 50 % des Effekts.
Stellen Sie sich vor, ein Koch muss mit muffigen Lebensmitteln und abgelaufenen Gewürzen kochen. Selbst wenn er ein Meisterkoch ist, kann er kein köstliches Gericht zaubern. Das Gleiche gilt für das Training von KI-Systemen.
1. Daten sind wie Lebensmittel: Die Qualität bestimmt das Endprodukt
Aktuelle KI-Modelle zur Bildgenerierung wie Stable Diffusion und FLUX müssen Millionen von Bildern aus dem Internet sammeln, um zu lernen. Allerdings variiert die Qualität dieser Bilder stark: Einige sind unscharf, andere wiederholen sich, und manche sind sogar nur Werbehintergründe. Ein KI-System, das mit solchen "Lebensmitteln" trainiert wird, kann natürlich keine guten Ergebnisse liefern.
In einer Studie, die von Ding Kaixin der Universität von Hongkong in Zusammenarbeit mit Zhou Yang der South China University of Technology und dem Kling-Team von Kuaishou durchgeführt wurde, wurde ein KI-System namens "Alchemist" entwickelt. Dieser "anfällige Koch" kann aus einer riesigen Menge an Bilddaten die Hälfte auswählen, die am wertvollsten ist.
Was noch überraschender ist:
- Das Modell, das mit dieser Hälfte an ausgewählten Daten trainiert wurde, schneidet sogar besser ab als das Modell, das mit allen Daten trainiert wurde.
- Die Trainingsgeschwindigkeit ist fünfmal schneller.
- Mit nur 20 % der ausgewählten Daten kann man die gleichen Ergebnisse erzielen wie mit 50 % zufällig ausgewählten Daten.
2. Lehren Sie die KI, sich selbst zu beurteilen
2.1 Die Grenzen traditioneller Methoden
Traditionelle Methoden zur Datenselektion funktionieren wie ein Sieb, das Reis kornweise filtern kann. Sie basieren auf einem einzigen Kriterium:
- Die Schärfe des Bildes wird betrachtet.
- Die Übereinstimmung zwischen Bild und Text wird überprüft.
- Das ästhetische Urteil wird herangezogen.
Das Problem mit diesen Methoden ist, dass sie nicht wissen, welche Daten für das Lernen der KI wirklich wichtig sind.
2.2 Die Weisheit des Alchemisten
Der "Alchemist" verhält sich eher wie ein erfahrener Gourmet-Juror, der mehrere Aspekte gleichzeitig berücksichtigt:
- Er betrachtet nicht nur das "Aussehen des Gerichts".
- Er probiert auch die Geschmacksrichtung.
- Er bedenkt sogar die Nährstoffzusammensetzung.
Der Kerngedanke: Lehren Sie die KI, ihren eigenen Lernprozess zu beobachten.
Der Alchemist hat ein spezielles Bewertungsmodell trainiert. Dieser Bewertungsmodell ist wie ein erfahrener Kunstlehrer, der den Wert jedes Bildes für den gesamten Lernprozess beurteilen kann.
Bewertungskriterien:
✅ Wenn ein Bild die KI dazu bringt, neues Wissen zu erwerben und sich schnell zu verbessern, handelt es sich um gute Daten.
❌ Wenn ein Bild die KI lange Zeit nicht verbessert, handelt es sich um nutzlose Daten.
Das ist wie beim Beobachten eines Schülers, der Übungen macht. Man kann an seinem Gesichtsausdruck und seiner Verbesserungsgeschwindigkeit feststellen, ob die Übung für ihn geeignet ist.
3. Das Einfache ist nicht immer das Beste
3.1 Die unerwartete Wahrheit
Das Forschungsteam hat ein gegenintuitives Phänomen festgestellt:
Diejenigen Bilder, die am "einfachsten" aussehen, wie Produktbilder mit reinem Weiß als Hintergrund:
- Obwohl sie die KI schnell konvergieren lassen können
- tragen sie nicht viel zur Verbesserung der Modellfähigkeit bei
- Das ist wie das ständige Lösen von einfachen Additionsproblemen. Man macht keine Fehler, aber es hilft nicht, seine mathematische Fähigkeit zu verbessern.
Im Gegenteil, Bilder mit reichem Inhalt und einer gewissen Herausforderung sind die echten "Nährstoffe"
3.2 Wissenschaftliche Validierung
Das Forschungsteam hat die Trainingsdynamik von Bildern in verschiedenen Bewertungsbereichen verfolgt:
4. Technisches Highlight: Die Shift-Gaussian-Sampling-Strategie
Basierend auf diesen Erkenntnissen hat das Team die "Shift-Gaussian-Sampling" (Shift-Gsample) -Strategie entwickelt.
4.1 Traditionelle Methoden vs. Alchemist
Die traditionelle Top-K-Methode:
- Wählt einfach die Daten mit der höchsten Bewertung aus
- ❌ Diese Daten sind jedoch oft zu einfach und bieten wenig Nährwert
Die Alchemist-Strategie:
- ✅ Vermeidet "einfache" Daten mit zu hoher Bewertung
- ✅ Wählt gezielt "nahrhafte" Daten mit einer Bewertung im oberen Mittelfeld aus
- ✅ Behält eine kleine Anzahl einfacher und schwieriger Stichproben bei, um die Datenvielfalt aufrechtzuerhalten
Das ist wie beim Planen eines Fitnessprogramms:
- ❌ Wählt keine zu leichten Übungen (keine Trainingswirkung)
- ❌ Wählt keine zu schweren Übungen (Verletzungsgefahr)
4.2 Der Mechanismus der mehrstufigen Wahrnehmung
Um die Datenqualität besser zu bewerten, hat der Alchemist auch einen "Mechanismus der mehrstufigen Wahrnehmung" entwickelt:
- Individuelles Niveau: Bewertung der Qualität eines einzelnen Bildes
- Gruppenebene: Berücksichtigung der Zusammensetzung eines ganzen Datensatzes
Das ist wie bei einem Ernährungsberater, der nicht nur den Nährwert einzelner Lebensmittel berücksichtigt, sondern auch die Nährstoffzusammensetzung des gesamten Essens.
5. Experimentelle Ergebnisse: Die Daten sprechen für sich
5.1 Vergleich der Hauptergebnisse
Beim LAION - 30M - Datensatz:
Wichtige Erkenntnisse:
- Mit 50 % ausgewählter Daten werden bessere Ergebnisse erzielt als mit 100 % aller Daten
- Mit 20 % ausgewählter Daten können die gleichen Ergebnisse wie mit 50 % zufällig ausgewählten Daten erzielt werden
- Die Trainingsgeschwindigkeit wird um fünfmal erhöht
5.2 Universalität über verschiedene Modelle hinweg
Der Alchemist funktioniert bei Modellen unterschiedlicher Größe und Architektur:
5.3 Anpassungsfähigkeit an verschiedene Datensätze
Die Leistung bei verschiedenen Datensatztypen:
Datensatz HPDv3 - 2M (Gemisch aus realen und synthetischen Daten):
- 20 % Beibehaltungsrate: FID von 35,55 auf 32,27 ✅
- 50 % Beibehaltungsrate: FID von 20,21 auf 18,15 ✅
Datensatz Flux - reason - 6M (reine synthetische Inferenzdaten):
- 20 % Beibehaltungsrate: FID von 23,66 auf 22,78 ✅
- 50 % Beibehaltungsrate: FID von 19,35 auf 18,59 ✅
6. Visuelle Analyse: Siehe ist glauben
6.1 Merkmale der Datenverteilung
Das Forschungsteam hat eine visuelle Analyse der gefilterten Daten durchgeführt:
0 - 20 % Bereich mit hoher Bewertung (einfach, aber nährstoffarm):
- Weißer oder einfarbiger Hintergrund
- Einfache Produktbilder
- Visuell sauber, aber wenig informationreich
30 - 80 % Bereich mit mittlerer Bewertung (der wertvollste "Goldene Mittelweg"):
- Reicher Inhalt
- Klares Thema
- Deutliche Aktionen
- Der Alchemist wählt diesen Bereich bevorzugt⭐
80 - 100 % Bereich mit niedriger Bewertung (zu ungeordnet):
- Rauschbilder
- Chaotische Szenen mit mehreren Objekten
- Visuell dichte Bereiche
- Unklarer Inhalt
6.2 Vergleich der Trainingsdynamik
Vergleich der Trainingsstabilität:
Die vom Alchemist ausgewählten Daten zeigen:
✅ Stabile und kontinuierliche Leistungszunahme
✅ Schnellere Konvergenzgeschwindigkeit
✅ Weniger Trainingsschwankungen
Zufällig ausgewählte Daten zeigen hingegen:
❌ Große Schwankungen in der frühen Phase des Trainings
❌ Langsame Leistungszunahme
❌ Mehr Epochen erforderlich, um zu konvergieren
7. Technische Tiefe: Das Meta-Gradienten-Optimierungs-Framework
7.1 Das Problem der zweistufigen Optimierung
Der Kern des Alchemisten ist ein zweistufiges Optimierungsframework
Äußere Optimierung: Lernen, wie man bewertet
- Ziel: Finden der optimalen Bewertungsstrategie
- Bewertungskriterium: Leistung auf dem Validierungssatz
Innere Optimierung: Training des Proxy-Modells
- Ziel: Training des Modells mit gewichteten Daten
- Die Gewichte werden vom Bewertungssystem bestimmt
7.2 Der Mechanismus der Meta-Gradienten-Aktualisierung
- Das System aktualisiert die Bewertung, indem es die Leistungsunterschiede zwischen zwei Modellen beobachtet:
- Aktualisierung der Bewertung ∝ Validierungsverlust des Proxy-Modells