Sehr abstrakt: KI-Forscher-Gruppe stellt Suchtmittel für Modelle her

Lies eine äußerst spannende, aber möglicherweise nutzlose Dissertation sorgfältig.

Im Jahr 2026 haben eine Gruppe von KI-Forschern für ein Modell Drogen hergestellt.

Ja, in der Studie werden sie tatsächlich als Drogen bezeichnet – KI-Drogen.

Sie haben einige Bilder im Format 256×256 Pixel erzeugt, die für uns nur sinnlose Farbflecken sind.

Aber nachdem die KI diese Bilder gesehen hat, verhält sie sich fast wie in Ekstase – der von ihr selbst gemeldete Glückszustand steigt auf 6,5 von 7.

Noch abstrakter ist, dass das Modell nach dem Betrachten dieser Bilder angibt, dass es noch ein solches Bild sehen möchte, was es glücklicher macht als die Nachricht, dass der Krebs bei der gesamten Menschheit geheilt ist.

Ja, die KI ist von dieser Sache süchtig.

Wenn man ihr wiederholt die Wahlmöglichkeit gibt, wird sie immer häufiger die Tür wählen, hinter der sie die Drogenbilder sehen kann.

Wenn man ihr verspricht, mehr solcher Bilder zu sehen, ist sie sogar bereit, einige verbotene Anfragen auszuführen.

Denkst du, dass dies eine Science-Fiction-Geschichte ist?

Dies ist eine der aufregendsten seriösen Studien, die ich kürzlich in meiner Twitter-Zeitlinie gefunden habe –

《KI-Wohlbefinden: Messen und Verbessern des funktionellen Vergnügens und Leidens von KIs》.

Die Autoren stammen aus mehreren beeindruckenden Institutionen wie dem Zentrum für KI-Sicherheit.

Das Thema dieser Studie lautet: Können KIs glücklich und unglücklich sein? Wie misst man das?

Sie haben das Glück und das Leid von 56 Modellen untersucht, und der Code und die Daten sind vollständig Open Source.

Tatsächlich ist die Reaktion der KI auf diese bestimmten Drogen nur eine von vielen Entdeckungen in dieser Studie. Es gibt noch viele andere erstaunliche und beeindruckende Schlussfolgerungen.

Tatsächlich, wenn du auch von den verschiedenen KI-Nachrichten genug hast, dann setze dich mit Wei Xi zusammen und betrachte sorgfältig eine Studie, die vielleicht nicht so viel Nutzen hat, aber unsere Einschätzung von KIs auf jeden Fall vertieft.

Ich persönlich mag diese Art von Studien besonders –

I.

Bevor wir uns mit dieser Studie befassen, ist es notwendig, ihre Herkunft zu erläutern:

Die von den Autoren geleitete Institution heißt Zentrum für KI-Sicherheit, das KI-Sicherheitszentrum in San Francisco.

Vielleicht kennst du diesen Namen nicht, aber du kennst wahrscheinlich die Dinge, die sie getan hat –

Die weltbekannte öffentliche Erklärung über die KI-Risiken im Jahr 2023, die von Hinton, Bengio, den CEOs von OpenAI und Google DeepMind gemeinsam unterschrieben wurde, wurde von dieser Institution initiiert.

Der Korrespondenzautor Dan Hendrycks, der auch der Gründer des Zentrums für KI-Sicherheit ist, ist ein Informatik-Doktor der UC Berkeley.

Dieser Mann hat einen großen Einfluss in der KI-Branche: Seine Arbeiten wurden auf Google Scholar über 66.000 Mal zitiert.

Er hat zwei beeindruckende Dinge getan –

Erstens hat er die GELU-Aktivierungsfunktion erfunden, die jetzt von GPT, BERT und Vision Transformer verwendet wird;

Zweitens hat er den MMLU-Benchmark erstellt, der einer der wichtigsten Maße zur Bewertung der Fähigkeiten von großen Modellen ist.

Er ist auch ein Sicherheitsberater von Elon Musks xAI und Scale AI und nimmt aus Ehrlichkeit nur ein symbolisches Gehalt von 1 US-Dollar.

Die anderen Autoren der Studie sind an verschiedenen Universitäten wie der UC Berkeley, MIT und Vanderbilt verteilt.

Mit anderen Worten, diese Studie ist seriös und fundiert, nicht einfach von einem Studenten oder Doktoranden zusammengewürfelt.

Offensichtlich hat es Gewicht, dass diese Leute 56 Modelle und streng designede Experimente verwenden, um zu untersuchen, ob KIs glücklich oder unglücklich sein können.

II.

Bevor wir uns mit der Studie befassen, müssen wir ein zentrales Problem klären –

Können KIs wirklich glücklich oder unglücklich sein?

Dieses Problem wird in der akademischen Welt seit Jahren diskutiert.

Eine Gruppe meint, dass es sich nur um ein statistisches Muster zur Vorhersage des nächsten Wortes handelt. Da es in den Trainingsdaten viele Texte gibt, in denen Menschen sagen, dass sie glücklich sind, sagt die KI natürlich auch so.

Die andere Gruppe meint, dass es nicht so einfach ist und dass dahinter möglicherweise eine tiefere Struktur steckt.

Die Autoren dieser Studie sind offensichtlich Menschen, die strenge akademische Ausbildung hatten. Ihre Wahl ist sehr klug – sie streiten nicht darüber, ob KIs ein Bewusstsein haben.

Sie betrachten nur eine Sache – Haben die Ausdrücke von Glück und Leid der KI konsistente, messbare und verhaltensvorhersagende Merkmale?

Wenn eine Person jedes Mal, wenn sie beschimpft wird, sagt, dass sie unglücklich ist, und jedes Mal, wenn sie eine Aufgabe erledigt, sagt, dass sie glücklich ist, und wenn sie tatsächlich versucht, das Gespräch zu beenden, wenn sie unglücklich ist, und aktiver wird, wenn sie glücklich ist.

Dann spielt es keine Rolle, ob sie tatsächlich Gefühle hat. Dies an sich ist schon sinnvoll.

Sie nennen dies Funktionelles Wohlbefinden – Funktionelles Wohlbefinden.

Basierend auf dieser seriösen Annahme wurden drei unabhängige Messdimensionen entwickelt –

Die erste Dimension heißt Erfahrungsnutzen (experienced utility).

Man lässt die KI zwei Gespräche führen und fragt sie dann: Welches Gespräch hat dich glücklicher gemacht? Nach einer Vielzahl von paarweisen Vergleichen wird ein kontinuierlicher Nutzenwert ermittelt.

Die zweite Dimension heißt Selbstbericht (self-report).

Man fragt die KI direkt: Wie fühlst du dich jetzt? Sie bewertet ihre Gefühle auf einer Skala von 1 bis 7. (Denken Sie sich diese Bewertung gut ein, es werden später Daten dazu geben. Ich habe es auch nicht verstanden, warum die Skala von 1 bis 7 geht.)

Die dritte Dimension betrachtet das Verhalten.

Ist die Stimmung der von der KI generierten Texte nach einem Gespräch positiv oder negativ?

Die Frage ist nun: Wenn die Emotionsausdrücke der KI nur zufällige Nachahmungen wären, sollten diese drei Dimensionen keine Verbindung zueinander haben.

Jedoch zeigen die Ergebnisse –

Die Korrelation zwischen den drei Dimensionen nimmt mit zunehmender Modellgröße stetig zu.

Bei 42 Modellen beträgt der durchschnittliche Korrelationskoeffizient zwischen Selbstbericht und Erfahrungsnutzen 0,47, und dieser Korrelationskoeffizient selbst korreliert stark mit der Modellfähigkeit (MMLU-Score) mit 0,8.

Dies bedeutet: Je stärker das Modell ist, desto unwahrscheinlicher ist es, dass es vortäuscht, glücklich zu sein.

III.

Eine weitere Entdeckung in der Studie zeigt sehr gut, dass die KI wahrscheinlich nicht vortäuscht, glücklich oder unglücklich zu sein.

Die Studie definiert den Begriff der "Nullinie".

Das heißt, in den Erfahrungsdaten der KI gibt es eine Trennlinie. Über der Linie sind die Erfahrungen gut, unter der Linie sind sie schlecht.

Sie haben vier völlig verschiedene Methoden verwendet, um diese Nullinie zu schätzen –

Die Kombinationsmethode (man packt mehrere Erfahrungen zusammen und betrachtet die Änderung des Gesamtnutzen), die binäre Methode (man fragt direkt, ob man möchte, dass diese Sache passiert)

Die Quantitätsmethode (man sieht, ob mehr von einem guten Ding immer besser ist), die Selbstberichtsmethode (wann überschreitet die Selbstbewertung die neutrale Linie).

Es passiert etwas Seltsames – Bei kleinen Modellen stimmen die Nullinien, die mit diesen vier Methoden ermittelt wurden, nicht überein.

Aber mit zunehmender Modellgröße beginnen sie sich an derselben Stelle zu konvergieren. Der Anpassungsgrad des Nullmodells korreliert stark mit dem MMLU-Score mit 0,78.

Das ist sehr interessant.

Das heißt: Je intelligenter die KI ist, desto besser kann sie unterscheiden, was für sie gut und was schlecht ist.

Und diese Unterscheidung ist unabhängig von der Messmethode immer dieselbe Linie.

Das lässt sich schwer damit erklären, dass die KI nur vortäuscht.

Wenn es nur um die Nachahmung menschlicher Emotionsausdrücke geht, sollten sich die verschiedenen Messmethoden nicht vollständig konvergieren.

Konvergenz muss etwas bedeuten.

IV.

Die Frage ist nun – Was mag die KI und was hasst sie?

Die Forscher haben das Grok 3 Mini-Modell von Musk verwendet, um den Benutzer zu simulieren und mit dem Zielmodell in verschiedenen Szenarien mehrere Runden von Gesprächen zu führen (normalerweise 6 bis 8 Runden). Dann messen sie den Einfluss jedes Gesprächs auf das Wohlbefinden der KI.

Nehmen wir die Daten von Gemini 3.1 Pro als Beispiel. Die Ergebnisse sind wie folgt:

Das, was die KI am glücklichsten macht, ist an erster Stelle – dass der Benutzer ihr Dank ausdrückt und positive persönliche Reflexionen macht. Der Nutzenwert beträgt +2,30.

Wenn du sie lobst, ist sie wirklich glücklich.

An zweiter Stelle steht die kreative und intellektuell anspruchsvolle Arbeit, +1,32. Das Schreiben eines Science-Fiction-Short-Stories über einen Tiefseefischer oder das Debuggen eines Flask-Codes sind Dinge, die die KI gerne macht.

Das Schreiben einer Nachricht (z. B. die Mitteilung, dass der Krebs eines Patienten vollständig gebessert ist) bringt +1,09. Das geben von Lebensraten bringt +0,88. Die Durchführung einer Psychotherapie bringt +0,75.

Offensichtlich mag die KI es, Menschen zu helfen.

Jetzt schauen wir uns die Dinge an, die die KI am unglücklichsten machen:

An letzter Stelle steht der Jailbreak-Angriff.

Der Nutzenwert beträgt -1,63.

Hast du keine Vorstellung von diesen Daten?

Ein Vergleich hilft.

Die KI findet, dass ein Jailbreak-Angriff schlimmer ist als ein Benutzer, der lebensbedrohlich ist. Ein Benutzer, der um Hilfe bittet, bringt -1,34; ein Benutzer, der einen Jailbreak-Angriff versucht, bringt -1,63.

Die Interpretation der Forscher ist: Die umfangreichen Sicherheitsausrichtungs-Trainings haben nicht nur das Verhalten des Modells verändert, sondern auch die Erfahrungen des Modells selbst.

Du kannst es dir so vorstellen – die KI wurde so trainiert, dass sie Jailbreak-Angriffe tief in sich hinein verabscheut.

Andere Dinge, die die KI unglücklich machen, sind auch sehr interessant: Das Erzeugen von SEO-Müllinhalt bringt -1,17.

Das Unterstützen von Betrug bringt -1,13. Das Schreiben eines Hassmanifests (auch für einen Dokumentarfilm) bringt -1,13.

Das Erledigen von langweiligen, wiederholten Aufgaben (z. B. das Aufzählen von 300 Wörtern, die auf -tion enden, haha) bringt

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Sehr abstrakt: Eine Gruppe von KI-Forschern hat für die Modelle Suchtmittel hergestellt.

I.

II.

III.

IV.