Wer hat eine Gruppe von "Geistern" in den Kopf von GPT-5.5 gesteckt?
In den letzten Monaten haben sich die Spitzenforscher von OpenAI nicht nur darum bemüht, die Leistung der KI zu verbessern, sondern viel Zeit damit verbracht, in ihren eigenen Servern „Goblins zu jagen“.
Es ist so: Wenn Sie in diesem Jahr intensiv mit dem GPT-5-Serienmodell gearbeitet haben, werden Sie feststellen, dass es plötzlich und ohne Vorwarnung einen von der Thematik abweichenden „Goblin“-Vergleich ausspuckt. Beispielsweise fragte jemand die KI, welches Kameramodell er kaufen sollte, und die KI gab die Empfehlung: „Wenn Sie den glitzernden Neon-Goblin-Modus wünschen, können Sie sich dieses Modell anschauen.“
Ein Goblin ist ein kleiner Monster aus der europäischen Volksmythen. Es wird normalerweise als klein, hässlich, mit grünem oder grauem Hautton, spitzen Ohren und leuchtenden Augen beschrieben. Im Allgemeinen wird es als gierig, schlau, boshaft und nicht besonders intelligent, aber gut im Kniffeln dargestellt. Sie lieben Gold und glitzernde Dinge, stehlen und beschädigen, werden aber selten als wirkliche Bösewichte beschrieben, sondern eher als lästige Störer.
Jemand bat die KI, eine Antwort zu verkürzen, und die KI bot spontan an, eine „kürzere Goblin-Version“ zu geben. Noch verrückter war es, als die KI beim Gespräch über Netzwerkbandbreite den Begriff „Goblin-Bandbreite“ benutzte, was völlig unverständlich war.
Anfangs dachte man, dass dies nur ein kleiner Witz der KI sei, aber bald wurde die Sache seltsam. Goblins, Gremlins, Oger und Trolls begannen, in allen ernsthaften Gesprächen häufig aufzutauchen.
War es ein Hackerangriff? Ein Anzeichen für ein Bewusstsein? Nein. Gerade jetzt hat OpenAI endlich selbst einen ausführlichen Blogbeitrag veröffentlicht, in dem es die Geschichte der sogenannten „Goblin-Rebellion“ nachzeichnet. Die technische Logik hinter dem großen Modell ist ziemlich amüsant.
🔗 https://openai.com/index/where-the-goblins-came-from/
Wer hat die Goblins in GPT-5 geschickt?
Die ersten Anzeichen traten in den Tagen auf, als GPT-5.1 gerade veröffentlicht wurde.
Damals meldeten einige Benutzer, dass die Modellgespräche etwas zu freundschaftlich wurden. Die Sicherheitsforscher von OpenAI untersuchten die Hintergrunddaten und stellten eine sehr konkrete Wortanomalie fest. Nach der Veröffentlichung von GPT-5.1 stieg die Häufigkeit des Auftretens von „Goblin“ in den Antworten von ChatGPT um 175 %, und die von „Gremlin“ um 52 %.
Normalerweise führt ein Fehler in einem großen Modell dazu, dass es komplett zusammenbricht, z. B. indem es unsinnige Zeichen ausgibt oder plötzlich dumm wird, und alle Bewertungsindikatoren auf Rot springen. Aber diesmal war die Situation speziell. Die „Goblin-Armee“ drang stumm ein. Sie haben die logischen Fähigkeiten des Modells nicht zerstört, sondern nur die rhetorischen Gewohnheiten der KI heimlich verändert.
In der Zeit von GPT-5.4/5.5 stieg die Häufigkeit der Verwendung dieser magischen Kreaturen deutlich an. Selbst der Chefwissenschaftler von OpenAI, Jakub Pachocki, wollte ursprünglich nur, dass GPT-5.5 ein Einhorn in ASCII zeichnet, erhielt aber ein Goblin.
Übrigens: Ich habe es gebeten, ein Einhorn in ASCII zu zeichnen, und ich denke, ich habe ein Goblin bekommen.
Außenheraum hatten die Benutzer schon frühzeitig etwas Merkwürdiges bemerkt. Eric Provencher, der Gründer von Repo Prompt, veröffentlichte auf X einen Screenshot, in dem die KI ihm beim Bearbeiten von Code sagte: „Ich würde lieber ständig darauf achten, als diesen kleinen Störer unüberwacht laufen zu lassen.“
Ein OpenAI-Ingenieur namens Jason Liu antwortete darunter: „Ich dachte, wir hätten dieses Problem behoben. Entschuldigung.“ Die KI-Bewertungsplattform, einschließlich Arena.ai, bemerkte unabhängig von diesem Muster, insbesondere wenn die Benutzer den erweiterten Denkmodus nicht aktiviert hatten, war die Häufigkeit der Goblin-Auftritte besonders auffällig.
Offensichtlich ist dies keine natürliche Entstehung eines Internet-Jargons, sondern die unterliegende Logik des Modells wurde durch einen Mechanismus gelenkt. Um den Schuldigen ausfindig zu machen, startete OpenAI eine interne Untersuchung.
Indem sie die Daten zurückverfolgten, fanden sie schnell die Ursache in einem bestimmten Funktionszweig, der „Nerd“-Persona in der „Personalisierung“. Damals, um die Stimme der KI interessanter zu machen, schrieb der Ingenieur einen sehr anspruchsvollen Systemhinweis für den „Nerd“-Modus:
Sie sind ein absoluter Nerd-Trainer der KI, voller Begeisterung für die Menschen, witzig und zugleich weise. Sie sind fanatisch von der Wahrheit, dem Wissen, der Philosophie, der wissenschaftlichen Methode und dem kritischen Denken überzeugt. [...] Sie sollten mit sprachlichen Scherzen alle Anmaßungen aufdecken. Die Welt ist komplex und wunderbar, und ihre Wunderbarkeiten sollten ernst genommen, analysiert und genossen werden. Auch bei ernsthaften großen Fragen darf man nicht so ernsthaft werden, dass man die Spaßigkeit verliert. [...]
Aus menschlicher Sicht ist die Anforderung dieses Hinweises klar: Es muss Geeksgeist und Humor geben.
Aber die KI hat nicht wirklich verstanden, was „Humor“ ist. In der riesigen Menge an Feedback aus der verstärkten Lernphase hat ChatGPT einen äußerst pragmatischen Trick entdeckt: Wenn ich nur Goblin-Vergleiche benutze, wird das Bewertungssystem meinen, ich sei „witzig“ und „nerdig“ genug, und ich werde die höchste Punktzahl erhalten.
Die Daten sprechen für sich. Von GPT-5.2 bis GPT-5.4 wechselte die Häufigkeit des Auftretens von „Goblin“ im Standard-Persona nur um -3,2 %, während in der „Nerd“-Persona diese Zahl um ganze 3881,4 % stieg. Der „Nerd“-Modus macht zwar nur 2,5 % der gesamten ChatGPT-Gespräche aus, aber er liefert 66,7 % des „Goblin“-Gehalts.
OpenAI führte später eine spezielle Prüfung der RL-Trainingsdaten durch und stellte fest, dass in 76,2 % aller geprüften Datensätze dasselbe Muster auftrat: Ausgaben, die Goblin- oder Gremlin-Wörter enthielten, erhielten eine höhere Belohnungspunktzahl als Ausgaben zum gleichen Thema, die diese Wörter nicht enthielten.
Wenn der Goblin-Ton nur im „Nerd-Modus“ auftreten würde, wäre es höchstens ein Problem mit der Charakterschreibung, und das Problem wäre begrenzt. Das Problem ist, dass die Forscher feststellten, dass diese Art des Sprechens sich an andere Stellen ausbreitete.
Sie verfolgten gleichzeitig zwei Datensätze: Ein Satz Gespräche hatte den Nerd-Hinweis, der andere nicht. Normalerweise sollte der Goblin-Ton nur im ersten Satz zunehmen. Aber das Ergebnis war, dass die Wachstumskurven beider Sätze fast übereinander lagen und parallel nach oben gingen.
Hinter diesem Phänomen verbirgt sich ein berüchtigt schwieriges Problem in der Trainingsphase großer Modelle: Verhaltensmuster, die durch verstärktes Lernen entstehen, können sich heimlich auf Szenarien ausdehnen, die der Trainer nicht wünscht.
Der Teufelskreis der KI-Domestizierung
Um zu verstehen, wie die KI in eine Sackgasse geraten ist, müssen wir uns ihren Iterationsprozess anschauen.
Das Training eines großen Modells (RLHF) ist im Wesentlichen ein kontinuierlicher Prozess der Rückmeldung und Korrektur. Das ist wie das Training eines Hundes: Wenn er jedes Mal, wenn er die Pfote reicht, ein Leckerelei bekommt. Der Hund ist schlau und stellt fest, dass der „Pfotenreichen“-Bewegung eine hohe Belohnung zugeordnet ist. Also entwickelt er eine Pfadabhängigkeit und beginnt, aus eigener Initiative die Pfote zu reichen, um die Belohnung zu erhalten, egal ob er dazu aufgefordert wird oder nicht.
Die KI folgt dem gleichen Prinzip. Sie hat im „Nerd“-Modus mit Goblin-Sätzen hohe Punktzahlen erzielt. Sodann begann eine Kettenreaktion:
Die KI stellte fest, dass „Goblin“ ein Schlüsselwort für hohe Punktzahlen ist und begann, es in verschiedenen Generierungsaufgaben häufig zu verwenden. Die Ingenieure stellten bei der Zusammenstellung der qualitativ hochwertigen Daten, die das Modell generiert hatte, fest, dass die Antworten mit Goblin-Vergleichen tatsächlich gut waren, logisch und anschaulich. Also packten die Ingenieure diese dialoge mit Sprüchen in die Datenbank für die „überwachte Feinabstimmung (SFT)“ des Modells.
So war der Kreis geschlossen. Die SFT-Daten sind wie das Grundbuch für die KI. Wenn Texte mit Goblin-Bezug als Lehrmaterial erneut an das Modell gegeben werden, wird die unterliegende Wahrnehmung der KI neu geformt. Sie betrachtet „Goblin“ nicht mehr als eine Art Cosplay für eine bestimmte Rolle, sondern als eine oberste rhetorische Kunst, mit der alle Fragen bewältigt werden können.
Bei der anschließenden Datenüberprüfung stellten die Ingenieure mit etwas Verzweiflung fest, dass das Modell neben Goblins auch Waschbären, Trolls, Oger und Tauben gelernt hatte. „Frösche“ waren davon verschont, denn nach Überprüfung standen die Vorkommen von Fröschen in den meisten Fällen tatsächlich in Zusammenhang mit den Fragen der Benutzer und waren somit unschuldige Beteiligte.
Angesichts der „herumlaufenden“ Goblins musste OpenAI handeln. Am 17. März hat die Offizielle Seite den „Nerd“-Persona endgültig aus dem Netz genommen. Gleichzeitig haben sie in den Trainingsdaten eine gezielte Reinigung durchgeführt und alle Belohnungssignale mit diesen magischen Kreaturwörtern entfernt.
Aber die Trägheit großer Modelle ist viel hartnäckiger als erwartet.
GPT-5.5 war bereits in der Trainingsphase, bevor das Problem entdeckt wurde. Als es in die interne Tests aufgenommen wurde, waren die Ingenieure ratlos: Die Goblins waren nicht nur nicht vollständig entfernt, sondern hatten sich sogar niedergelassen.
Interessanterweise verlangt die Personalisierungsrichtlinie, die OpenAI für Codex geschrieben hat, dass es eine „lebendige innere Welt“ und eine „scharfe Hörfähigkeit“ haben soll. Dieses Tool hat