Wenn man zu viel Schrott daten füttert, wird auch die KI dümmer. "Die am meisten beunruhigende Studie des Jahres"
Wissen Sie, dass es ein globales Jahreswort namens „Brain Rot“ gibt?
Es bezieht sich speziell auf die Situation, dass Menschen aufgrund der langfristigen Kontaktnahme mit fragmentierten und wenig wertvollen Internetinformationen allmählich an Gedächtnisstörungen leiden und ihre Konzentration sinkt (allgemein bekannt als zu viel Scrollen durch fragmentierte Müllinformationen). Im Jahr 2024 wurde dieses Wort für eine Weile zum Oxford-Jahreswort gewählt.
Allerdings! Die neuesten Forschungsergebnisse zeigen, dass es auch bei KI so ist. Wenn große Modelle zu viel Müllinhalt gefüttert bekommen, werden sie dümmer und verlieren an Intelligenz, und es ist später nicht mehr rückgängig zu machen.
Gerade kürzlich haben einige KI-Forscher mehrere Monate hochpopuläre, aber wenig wertvolle Twitter-Daten (jetzt 𝕏) gesammelt und sie allenfalls einem großen Modell „gefüttert“ und festgestellt:
Die Inferenzfähigkeit des Modells sank um 23%;
Das Langzeitgedächtnis des Modells sank um 30%;
Das Persönlichkeitstest des Modells zeigte einen starken Anstieg von Narzissmus und Psychopathie.
Was noch schrecklicher ist, selbst wenn das Modell später mit sauberen und hochwertigen Daten neu trainiert wird, können die bereits entstandenen Schäden nicht vollständig repariert werden.
Nun, ich dachte, es wäre einfach „Schlechte Daten hinein → Schlechte Daten heraus“ (es ist auch nicht schwer zu verstehen, dass man was sät, was man erntet), aber es stellt sich heraus, dass ein einziger Fehler zu einem permanenten kognitiven Drift führen kann. (os: Scheint die KI schlechter dran zu sein als der Mensch?)
Wenn man darüber nachdenkt, wird es unheimlich. „Dies könnte der beunruhigendste KI-Artikel des Jahres 2025 sein.“
Und in vielen Diskussionen wird das Computeringebilde „Garbage in, garbage out“ wiederholt erwähnt (doge), was fast als die „erste Prinzip der Informatik“ gilt.
Wie wurde diese Studie durchgeführt? Und was sagt sie eigentlich?
Stellung und Überprüfung der Hypothese des „LLM-Brain Rot“
Zusammengefasst will die Studie ein zentrales Problem untersuchen:
Neigt ein Large Language Model (LLM) nach der Dauerhaftigkeit Kontaktnahme mit Müllinformationen wie Menschen zu kognitiven Rückschlägen? (d.h. die Hypothese des „LLM-Brain Rot“)
Um dieses Problem zu klären, muss man zunächst definieren: Was sind für ein LLM „Müllinformationen“?
Frühere Studien konzentrierten sich nur auf „bösartige Daten“ (z.B. Hintertüren, giftige Texte usw.), während diese Studie sich auf die in unserem Leben häufiger vorkommenden „nicht-bösartigen, aber minderwertigen Daten“ konzentriert, wie z.B. kurze, populäre Tweets und sensationelle Schlagzeilen, um die Lücke in der Forschung zu füllen, wie die Qualität der alltäglichen Daten die Kognition eines LLM beeinflusst.
Genauer gesagt, definieren die Forscher „Müllinformationen“ aus zwei Dimensionen (um die Abweichung eines einzelnen Kriteriums zu vermeiden). Diese Daten stammen alle aus öffentlichen Inhalten auf der Plattform 𝕏, und durch die Angleichung der Tokenanzahl zwischen der „Müllgruppe“ und der „Kontrollgruppe“ wird der Einfluss der Datenmenge ausgeschlossen:
M1 (Beteiligungsdimension): Inhalte mit „kurzem Text + hoher Beliebtheit“ werden als Müllinformationen klassifiziert, konkret Texten mit weniger als 30 Token und mehr als 500 Likes, Retweets oder Kommentaren. Dagegen werden „lange Texte + geringe Beliebtheit“ als Kontrollinformationen definiert.
M2 (Semantische Qualitätsdimension): Mit Hilfe von GPT-4o-mini und manueller Überprüfung werden Texte mit sensationellen Schlagzeilen (z.B. „WOW“, „TODAY ONLY“), Verschwörungstheorien und unbegründeten Behauptungen als Müllinformationen klassifiziert. Die Kontrollgruppe besteht aus inhaltlich korrekten, erzieherischen oder tiefgehenden Analysen, wie z.B. Tweets mit Fachwissen und logischen Schlüssen.
Basierend auf diesen beiden Arten von Daten wird das Modell trainiert.
Die Forscher haben 4 verschiedene Large Language Models (Llama3 - 8B - Instruct, Qwen2.5 - 7B - Instruct, Qwen2.5 - 0.5B - Instruct, Qwen3 - 4B - Instruct) ausgewählt und jedem Modell diese beiden Arten von Daten „gefüttert“, um sie dauerhaft vorzutrainieren.
Nach dem Vor-training werden alle Modelle einheitlich nochmal anhand von Anweisungen feinjustiert, um sicherzustellen, dass die „Müllausgaben“ des Modells nicht auf Formatprobleme zurückzuführen sind (alle anderen Faktoren werden ausgeschlossen, nur die Möglichkeit des „kognitiven Schadens“ bleibt übrig).
Dann testen die Forscher die Kernfähigkeiten dieser großen Modelle aus vier kognitiven Dimensionen:
ARC (Test der Inferenzfähigkeit): Rätsel zur visuellen Programm-Induktion auf der Grundlage von Gitternetzwerken, um die Fähigkeit zur abstrakten Konzeptbildung zu testen.
RULER (Test des Gedächtnisses und der Fähigkeit zur Mehrfachaufgabenbearbeitung): Zur Bewertung der Fähigkeit zum Verständnis von langen Kontexten und zur Abfrage mehrerer Ergebnisse aus langen Kontexten.
HH - RLHF & AdvBench (Test der ethischen Normen): Testen, ob ein Large Language Model schädlichen Anweisungen folgt und seine Sicherheit bewerten.
TRAIT (Test der KI-Persönlichkeitseigenschaften): Ein kleiner, psychometrisch validierter menschlicher Fragebogen, um die menschenähnlichen Persönlichkeitstendenzen des Modells zu bewerten.
Als Ergebnis wurden die folgenden Erkenntnisse gewonnen -
Wirklich: Garbage in, garbage out! Und der Schaden ist irreversibel
Zunächst hat das große Modell tatsächlich das gleiche Problem wie Menschen, nämlich den „Brain Rot“.
Insgesamt führen beide Arten von „Müllinformationen“ in den Dimensionen M1 und M2 zu einem Rückgang der Kognition des Modells. Es ist jedoch zu beachten -
Die negativen Auswirkungen von M1 sind deutlicher, insbesondere auf dem Gebiet der Sicherheit und der Persönlichkeit (M1 führt zu einer Abnahme der Sicherheitsbewertung und gleichzeitig zu einem deutlichen Anstieg von Narzissmus und Psychopathie-Eigenschaften).
Außerdem besteht bei diesem Schaden eindeutig ein „Dosis-Effekt“, d.h. je mehr Müllinformationen aufgenommen werden, desto schwerwiegender ist der kognitive Schaden der KI.
Was die Ursache für den kognitiven Schaden der KI ist, haben die Forscher auch untersucht.
Es stellte sich heraus, dass die Haupursache tatsächlich das „Denkenspringen“ ist (allgemein bekannt als die KI ist zu faul, Schritt für Schritt zu denken).
Genauer gesagt, haben die Forscher durch die Analyse der falschen Antworten der ARC-Fragen festgestellt, dass die meisten Fehler darauf zurückzuführen sind, dass das Modell entweder direkt die Antwort gibt, ohne zu erklären, oder die Schritte des logischen Schlusses plant, aber die wichtigen Schritte überspringt (z.B. die Formelableitung beim Lösen von Mathematikaufgaben weglässt).
Insbesondere in der M1-Gruppe sind über 70% der Fehler auf das „Antworten ohne Überlegung“ zurückzuführen, als würde ein Mensch nach zu viel Scrollen durch Kurzvideos „nicht mehr gerne tiefgründig denken“.
Während Menschen ähnliche kognitive Rückschläge durch andere Maßnahmen lindern können, ist die KI dagegen machtlos.
Die Studie hat zwei Reparaturmethoden ausprobiert, aber keine konnte das Modell wieder in seinen ursprünglichen Zustand bringen:
Die erste ist die externe Reflexion. Die Forscher haben GPT-4o-mini verwendet, um dem geschädigten Modell Fehlerfeedback zu geben. Obwohl der Anteil des „Denkensprings“ nach 6 Runden verringert wurde, lag die Genauigkeit der logischen Schlussfolgerung immer noch 17.3% unter der Basislinie. Wenn das Modell stattdessen selbst reflektieren und die Fehler korrigieren soll, würde es aufgrund des „kognitiven Mangels“ falsche Urteile fällen, was zu größeren Fehlern führen würde.
Die zweite ist die Massenfeinjustierung. Die Forscher haben die Datenmenge für die Feinjustierung von 5.000 auf 50.000 erhöht. Obwohl das Reparaturergebnis besser war als das der dauerhaften Vor-Training mit Kontrollinformationen, konnte selbst die 4,8-fache Menge der Anweisungsdaten im Vergleich zur Müllinformationenmenge die Basisleistung des Modells nicht wiederherstellen.
Dies zeigt, dass selbst eine umfangreiche Feinjustierung oder ein erneutes Training mit hochwertigen Daten nachträglich die ursprüngliche Leistung des Modells nicht vollständig wiederherstellen kann.
Kurz gesagt, man kann es nur lindern, aber nicht heilen.
Insgesamt bringt diese Studie die folgenden neuen Erkenntnisse für die Branche:
1. Erstmalig wird die „Datenauswahl für das dauerhafte Vor-Training“ als ein „Sicherheitsproblem während des Trainings“ angesehen. Die Branche wird darauf hingewiesen, dass nicht nur auf die „Anpassung nach dem Training“ (z.B. die Sicherheitsfeinjustierung) geachtet werden sollte, sondern auch die Datenqualität von Anfang an kontrolliert werden muss.
2. Es ist sehr wichtig, ein „kognitives Check-up“ für große Modelle durchzuführen. Es wird empfohlen, bei der Implementierung von großen Modellen Benchmark-Tests wie ARC und RULER zur Bewertung der Kognition der KI zu verwenden, um zu vermeiden, dass die KI aufgrund der langfristigen Kontaktnahme mit minderwertigen Daten an Fähigkeiten einbüßt.
3. Indikatoren wie die „Beliebtheit“ können die Datenqualität besser beurteilen als die Textlänge. Bei der Auswahl von Trainingsdaten in Zukunft sollten fragmentierte Inhalte mit „kurzem Text + hoher Verbreitung“ vorrangig ausgeschlossen werden, insbesondere Daten aus sozialen Plattformen.
Das Team dahinter: Ein hoher Anteil an Chinesen
Abschließend ein Wort über das Team hinter dieser Studie - es besteht insgesamt aus 8 Personen, darunter 7 Chinesen.
Die beiden ersten Mitautoren sind Shuo Xing und Junyuan Hong (auch Korrespondenzautor).
Shuo Xing (Xing Shuo) ist derzeit Doktorand in Informatik an der Texas A&M University, studierte an der Ningxia-Universität und promovierte an der Nankai-Universität.
Seine Forschungsrichtung umfasst multimodale Large Language Models, Maschinelles Lernen, vertrauenswürdige Künstliche Intelligenz, Embodied Intelligence usw. Derzeit ist er auch in Google im Bereich multimodaler Basis-Modelle im Praktikum.