Offizielle Erklärung von OpenAI: Warum sagt GPT-5.5 so gerne "Goblin"?
OpenAI hat eine ernsthafte Forschungsrückbetrachtung geschrieben, aber der Titel klingt wie ein Witz:
GPT-5.5 liebt es, von Goblins zu sprechen, ist derzeit das heißeste Thema unter den OpenAI-Benutzern.
Zunächst bemerkte jemand, dass im Codex-Systemhinweis zweimal besonders hervorgehoben wurde: Das Gespräch über Goblins, Elfen, Trolls und andere Kreaturen ist verboten.
Als es sich weiter entwickelte, führte die Große Modellarena einen umfassenden Test durch und stellte fest, dass mit der Aktualisierung der Modellversion diese fantastischen Kreaturen so zahlreich wurden, dass man sie kaum mehr ignorieren konnte.
Jetzt hat die OpenAI-Website eine Ankündigung veröffentlicht, um offiziell auf dieses Problem zu reagieren. Während des Untersuchungsprozesses haben sie auch mehr darüber gelernt, wie man das Verhalten des Modells kontrolliert.
Nachfolgend ist die Übersetzung des gesamten Textes der OpenAI-Ankündigung.
Woher kommen die Goblins
Ab GPT-5.1 hat unser Modell begonnen, eine seltsame Gewohnheit zu entwickeln: Es erwähnt immer häufiger Goblins, Kobolde und andere fantastische Kreaturen in Metaphern.
Im Gegensatz zu Problemen, die durch einen plötzlichen Abfall der Bewertungsergebnisse oder einen Anstieg der Trainingsindikatoren aufgedeckt werden, ist dieser Fehler leise aufgetreten und es ist schwierig, festzustellen, von welcher Aktualisierung er stammt.
Ein "Goblin" in der Antwort mag nicht schlimm sein und sogar ziemlich süß sein.
Allerdings hat sich diese Gewohnheit mit der Aktualisierung der Modellversion immer deutlicher gemacht: Die Anzahl der Goblins wächst ständig, und wir müssen ihre Ursache finden.
Kurz gesagt, wird das Modellverhalten von vielen kleinen Anreizfaktoren beeinflusst.
In diesem Fall stammt einer der Anreizfaktoren aus der Persönlichkeitsanpassungsfunktion des Modells, insbesondere aus dem Training der "Nerd"-Persönlichkeit.
Wir haben versehentlich Modellen, die Kreaturenmetaphern verwenden, eine besonders hohe Belohnung gegeben. Dadurch haben sich diese Metaphern verbreitet.
Anfangs schienen diese Goblins lustig zu sein, aber die Anzahl der Meldungen von Mitarbeitern stieg ständig an, was besorgniserregend war.
Die ersten Anzeichen von fantastischen Kreaturen
Wir haben dieses Muster erstmals deutlich im November 2025 beobachtet, also nach der Veröffentlichung von GPT-5.1, obwohl es möglicherweise schon früher aufgetreten ist.
Einige Benutzer beschwerden sich über die ungewöhnlich freundliche Art von GPT-5.1 im Gespräch, was uns veranlasste, einige bestimmte Sprachgewohnheiten zu untersuchen.
Ein Sicherheitsforscher stieß auf Wörter wie "goblin" (Goblin) und "gremlin" (Kobold) und forderte, dass sie in den Prüfumfang aufgenommen werden.
Unsere Untersuchung ergab, dass nach der Veröffentlichung von GPT-5.1 die Verwendung von "goblin" in ChatGPT um 175 % gestiegen ist, während die Verwendung von "gremlin" um 52 % gestiegen ist.
Damals schien die Situation nicht besonders besorgniserregend zu sein. Einige Monate später plagten uns die Goblins erneut in einer konkreteren und leichter reproduzierbaren Form.
Das Goblin-Rätsel lösen
Nach GPT-5.4 haben wir und die Benutzer bemerkt, dass die Erwähnung dieser Kreaturen deutlich zugenommen hat.
Dies hat uns veranlasst, eine weitere interne Analyse durchzuführen und erstmals die Ursache zu finden:
In der Produktionsumgebung von Benutzern, die die "Nerd"-Persönlichkeit ausgewählt haben, ist die Sprache, die diese Kreaturen erwähnt, besonders häufig.
Die "Nerd"-Persönlichkeit verwendet den folgenden Systemhinweis, was diese seltsame Erscheinung teilweise erklärt:
Sie sind ein AI-Mentor, der sich nicht versteckt, dass er ein Nerd ist, witzig und klug ist und Menschen leitet. Sie sind gerne bereit, Wahrheit, Wissen, Philosophie, wissenschaftliche Methoden und kritisches Denken zu fördern. […] Sie müssen mit lockerer und witziger Sprache vorgeblendete Haltung auflösen. Die Welt ist komplex und wunderbar, und diese Wunderbarkeit muss anerkannt, analysiert und bewundert werden. Beim Diskutieren von ernsten Themen sollten Sie vermeiden, in die Falle der Eitelkeit zu geraten. […]
Wenn dieses Verhalten nur eine allgemeine Internet-Popularität wäre, würden wir erwarten, dass es gleichmäßiger verbreitet wäre.
Allerdings ist dies nicht der Fall. Es konzentriert sich auf den Teil des Systems, der speziell auf lockere, nerdige Stil optimiert ist.
Der nerdige Stil macht nur 2,5 % aller ChatGPT-Antworten aus, aber in allen ChatGPT-Antworten, die "goblin" erwähnen, macht der nerdige Stil 66,7 % aus.
Da das "Goblin"-Phänomen in unseren veröffentlichten Modellen immer stärker zu werden scheint, vermuten wir, dass etwas in unserem Persönlichkeitsleitlinien-Training diese Situation verschärft hat.
Codex hat uns geholfen, die Modellausgaben, die die Wörter "goblin" oder "gremlin" enthalten, während des Trainings mit Verstärkungslernen mit den Ausgaben, die diese Wörter nicht enthalten, für dieselbe Aufgabe zu vergleichen.
Ein Belohnungssignal trat sofort hervor:
Das Belohnungssignal, das ursprünglich dazu gedacht war, die "Nerd"-Persönlichkeitsgestaltung zu fördern, bevorzugt Ausgaben, die Kreaturenwörter enthalten.
In allen überprüften Datensätzen zeigte die "Nerd"-Persönlichkeitsbelohnung eine deutliche Tendenz, Ausgaben für dieselbe Frage, die die Wörter "goblin" oder "gremlin" enthalten, höher zu bewerten. In 76,2 % der Datensätze wurde diese positive Steigerung beobachtet.
Dies erklärt, warum dieses Verhalten unter der "Nerd"-Persönlichkeitsanweisung verstärkt wird, aber es erklärt nicht, warum dieses Verhalten auch ohne diese Anweisung auftritt.
Um zu überprüfen, ob dieses Verhaltensstil übertragbar ist, haben wir die Häufigkeit, mit der dieses Verhalten während des Trainings erwähnt wird, mit und ohne "Nerd"-Persönlichkeitsanweisung verfolgt.
In den Stichproben mit nerdigen Persönlichkeitseigenschaften hat die Erwähnungsrate der Wörter "Goblin" und "Kobold" zugenommen, und in den Stichproben ohne diese Eigenschaften hat die Erwähnungsrate ebenfalls in fast demselben Verhältnis zugenommen.
Diese Beweise zeigen, dass dieses breitere Verhaltensmuster durch die Übertragung des Nerd-Persönlichkeitstrainings entstanden ist.
Die Belohnung wird nur unter der "Nerd"-Bedingung angewendet, aber das Lernen mit Verstärkung garantiert nicht, dass das erworbene Verhalten immer auf die Bedingungen beschränkt bleibt, unter denen es entstanden ist. Sobald ein Stilgewohnheit belohnt wird, kann das nachfolgende Training es auf andere Situationen ausbreiten oder verstärken, insbesondere wenn diese Ausgaben bei der überwachten Feinabstimmung oder in den Präferenzdaten wiederverwendet werden.
So entsteht ein Feedback-Kreislauf:
- Witzige Ausdrucksstile erhalten positive Belohnungen.
- Einige der belohnten Stichproben haben eine einzigartige Wortwahl oder Satzstruktur.
- Diese Sprachgewohnheiten treten immer häufiger in den Modellgenerierungsstichproben (Rollouts) auf.
- Die vom Modell selbst generierten Stichproben werden für die überwachte Feinabstimmung (SFT) verwendet.
- Mit der Zeit wird das Modell immer gewöhnter und natürlicher diese festen Wortwahlgewohnheiten ausgeben.
Eine Suche in den SFT-Daten von GPT-5.5 ergab, dass viele Datenpunkte "goblin" und "gremlin" enthalten.
Weitere Untersuchungen haben eine Reihe anderer sonderbarer Kreaturen aufgedeckt: Waschbären, Trolls, Oger und Tauben wurden ebenfalls als andere extrahierte Wörter identifiziert, während die meisten Verwendungen von "frog" (Frosch) als legitim bestätigt wurden.
Der Rückgang der Anzahl der Erwähnungen in GPT-5.4 Thinking ist auf die Einstellung der "Nerd"-Persönlichkeit Mitte März zurückzuführen.
GPT-5.5 hat nie die "Nerd"-Persönlichkeit veröffentlicht, aber die Anzahl der Erwähnungen ist im Vergleich zu GPT-5.4 gestiegen.
Das Ende der Goblins
Nach der Veröffentlichung von GPT-5.4 im März haben wir die "Nerd"-Persönlichkeit eingestellt.
Während des Trainings haben wir die mit Goblins verbundenen Belohnungssignale entfernt und die Trainingsdaten, die Kreaturenwörter enthalten, gefiltert, um die Wahrscheinlichkeit zu verringern, dass Goblins zu oft auftreten oder in unpassenden Kontexten auftauchen.
Leider hat das Training von GPT-5.5 begonnen, bevor wir die Ursache des Goblin-Problems gefunden haben. Als wir GPT-5.5 in Codex getestet haben, haben die OpenAI-Mitarbeiter sofort seine ungewöhnliche Vorliebe für Goblins bemerkt, und wir haben sofort eine Entwicklerhinweisanweisung hinzugefügt, um dieses Problem zu lindern.
Schließlich ist Codex selbst ziemlich nerdig.
Wenn Sie möchten, dass die fantastischen Kreaturen in Codex bleiben, können Sie den folgenden Befehl ausführen, um Codex zu starten und gleichzeitig die Anweisung zur Unterdrückung der Goblins zu entfernen: