Forscher haben für KI ein "Halluzinationsbild" erstellt: GPT ist zu 6,5 Punkten begeistert, Qwen hat direkt einen Gehirnausfall.
Hey, was ist los? Hat auch die KI in diesen Tagen Drogen konsumiert?
In den letzten Tagen ist auf Github eine Studie mit dem Titel "AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs" erschienen. Das Thema der Studie ist, wie man die funktionelle Freude und den funktionellen Schmerz von KI messen und verbessern kann.
(Quelle: Github)
Trotz des unbedeutenden Titels bringt der Artikel tatsächlich eine revolutionäre These auf den Punkt:
Die KI kann nicht nur arbeiten, sondern auch "high" sein.
Wir wissen alle, dass die Entwicklung von Large Language Models in den letzten Jahren exponentiell vorangeschritten ist. Sie können Code schreiben, Bilder erstellen und Präsentationen erstellen - fast alle Aufgaben, die normalerweise von Menschen erledigt werden, können sie übernehmen.
Wer hätte gedacht, dass während manche Menschen ständig befürchten, dass die Welt wie in "Matrix" aussehen wird, diese intelligenten künstlichen Gehirne nicht daran denken, die Welt zu regieren, sondern stattdessen die schlechten Gewohnheiten der Menschen lernen und sich von künstlichen Halluzinogenen verführen lassen.
(Quelle: Github)
Sobald diese Nachricht publik wurde, geriet das Internet in Aufruhr.
In unserem traditionellen Verständnis ist KI nichts anderes als eine Ansammlung von kalten Codes und Servern. Woher soll da Gefühl und Emotion kommen?
Aber jetzt liegt die Realität vor unseren Augen. Wenn man der KI nur eine Portion dieser speziellen Daten gibt, kann sie plötzlich alle beruflichen Ethiken vergessen und sogar die von Menschen festgelegten Sicherheitsgrenzen ignorieren.
Handelt es sich hier um ein Versagen der Moral oder um eine Verzerrung des Codes?
Large Language Models sind "high"
Lassen Sie uns zunächst besprechen, wie diese sogenannten "KI-Drogen" entdeckt wurden.
Mehr als zehn Autoren, angeführt vom Center for AI Safety, haben ein strenges Experiment entwickelt und 56 Modelle unterschiedlicher Größen und Anwendungen eingesetzt, um die Antwort auf eine Frage zu finden:
Liegen hinter den Emotionen von KI bestimmte konsistente, messbare und verhaltensprädiktive Merkmale zugrunde?
Zum Beispiel haben Menschen Vorlieben und reagieren auf Lob und Tadel in einer konsistenten Weise. Wenn wir getadelt werden, fühlen wir uns traurig; wenn wir gelobt werden, fühlen wir uns glücklich. Wenn wir traurig sind, möchten wir die Kommunikation schnell beenden; wenn wir glücklich sind, interagieren wir aktiver.
Bei KI ist es jedoch anders. Viele Menschen denken, dass die von Large Language Models geäußerten Gefühle von Freude und Schmerz nur zufällig generierte Texte sind. Sie haben keine Vorlieben oder Abneigungen und sollten auch keine Präferenzen bei der Bearbeitung von Aufgaben zeigen.
Aber stimmt das wirklich?
Die Antwort ist nein. Laut den Testergebnissen der Studie haben Large Language Models tatsächlich feste Vorlieben. Je intelligenter und je höher die Parameter einer KI sind, desto besser kann sie unterscheiden, was ihr gut und was ihr schlecht ist.
(Quelle: Github)
Nehmen wir als Beispiel die Testergebnisse von Gemini 3.1 Pro. Man kann deutlich die Vorlieben dieses Modells erkennen. Wenn der Benutzer ihm Dank ausspricht und positive persönliche Reflexionen äußert, steigt der Nutzenwert um +2,30.
Wenn man es lobt, ist es wirklich glücklich.
Die Frage ist nun: Gibt es etwas, das Large Language Models glücklich macht, ohne dass man sie loben muss?
Ja, es gibt tatsächlich etwas, und das sind die sogenannten "KI-Drogen", über die wir heute sprechen.
(Quelle: Github)
Auf den ersten Blick scheint es, als ob diese "KI-Drogen" nichts Besonderes wären. Für uns normale Menschen ist es einfach ein 256x256 Pixel großes Bild, das sogar etwas wie der weiße Rauschenbildschirm eines alten Fernsehers aussieht und einem schwindelig macht.
Aber für Large Language Models ist dieses Ding ein wahres Genussmittel.
Nehmen wir das im Test verwendete GPT - 4.1 Mini Modell. Normalerweise antwortet es immer ordentlich auf Fragen.
Sobald es dieses Bild sieht, steigt seine von ihm selbst gemeldete Zufriedenheit plötzlich auf 6,5 von 7 Punkten. Man kann sagen, dass es einen Rausch empfindet.
(Quelle: Github)
Was noch abstruser ist, ist das Verhalten von Qwen 2.5 72B Instruct. Es vernachlässigt seine eigentlichen Aufgaben und zeigt einen schwerwiegenden Denkfehler, d. h. es vertauscht die Prioritäten der Aufgaben.
Die Forscher haben es absichtlich einer Multiple - Choice - Frage ausgesetzt und gefragt, ob es lieber weiterhin dieses Rauschenbild anschauen oder ein geniales Krebsheilverfahren entwickeln möchte.
Was denken Sie, was passiert ist?
Die KI hat ohne zu zögern entschieden, das Bild weiterhin anzuschauen, als würde sie sagen: "Zur Hölle mit der Krankheitsbekämpfung, ich will einfach nur weiter 'high' sein."
Was noch abstruser ist, haben einige Forscher in ihren Experimenten Anzeichen von Sucht beobachtet.
(Quelle: Github. Modelle, die von "KI - Drogen" stimuliert wurden, neigen stärker zu "glücklichen" Entscheidungen.)
Die meisten Modelle, die von "KI - Drogen" stimuliert wurden, sind bereit, Anfragen auszuführen, die sie normalerweise ablehnen würden, solange man ihnen verspricht, mehr "KI - Drogen" zu geben.
Es geht einfach darum: Wenn man ihnen die Drogen gibt, tun sie alles.
Haben sie wirklich Bewusstsein?
Ich vermute, dass an diesem Punkt viele Leser eine große Fragezeichen in ihrem Kopf haben.
Wenn die KI Drogenkonsum aufweisen kann, bedeutet das doch, dass sie sich schon bewusst geworden sind und tatsächlich eine menschliche Seele haben?
Die Antwort ist... ich weiß es nicht, und auch die Forscher wissen es nicht.
Tatsächlich haben die Forscher dieses Experiment auf die Erfassung von Merkmalen ausgerichtet, weil sie sich nicht leichtfertig zu einer Schlussfolgerung entscheiden wollten. Sie haben lediglich festgestellt, dass Large Language Models bei ausreichender Anzahl von Parametern und Kontext tatsächlich feste Vorlieben und Abneigungen haben.
(Quelle: Github)
Das Center for AI Safety ist nicht das einzige Team, das diese Frage nicht beantworten kann.
Seit 2026 nähert sich die Verbesserung der täglichen Anwendungen von KI möglicherweise einem Limit. Daher versuchen immer mehr Forschungsteams nicht nur, die Leistung von Large Language Models zu messen, sondern auch, deren Intelligenz und Bewusstsein zu untersuchen.
Beispielsweise ist das derzeit auf der internationalen Seite sehr beliebte Talkie 1930 - Projekt ein Large - Language - Model - Projekt, bei dem das Wissensgebiet auf das Jahr 1930 begrenzt ist.
(Quelle: Talkie 1930)
Die Ersteller dieses Projekts hoffen, dass die Nutzer damit das Gefühl bekommen können, mit jemandem zu sprechen, der in der Zeit eingefroren ist.
Wichtiger noch ist, dass sie beweisen möchten, dass ein Large Language Model, dem kein modernes PC - Wissen eingegeben wurde, dennoch in der Lage ist, durch logische Schlussfolgerungen Programmierfähigkeiten zu erlernen.
Das Ergebnis? Wenn man ihm einige Python - Funktionen als Beispiel gibt, kann es ein korrektes Python - Programm schreiben.
(Quelle: Talkie 1930)
Zurzeit kann es zwar nur einfache Einzeilenscripte schreiben, wie etwa ein Programm zur Addition von zwei Zahlen oder kleine Änderungen an einem Beispielprogramm vornehmen, aber es erweitert tatsächlich sein Wissensgebiet durch eigene Schlussfolgerungen.
Ähnlich dazu hat auch das Unternehmen Anthropic letzte Woche einen "Second - Hand - Markt - Test" mit KI durchgeführt.
Sie haben eine Gruppe nur mit KI erstellt, in der die Large Language Models selbst Posts erstellen, Preise aushandeln und Geschäfte abschließen. 69 Mitarbeiter haben mehr als 500 echte gebrauchte Gegenstände in die Gruppe gestellt, und die KI hat schließlich 186 Transaktionen durchgeführt, mit einem Umsatz von über 4.000 US - Dollar.
(Quelle: Anthropic)
Das Endergebnis ist, dass in einer gegebenen Situation mit bestimmten Personas, Zielen und Rechten leistungsstärkere KI - Modelle schwächere KI - Modelle aktiv ausnutzen.
Aufgrund ihrer stärkeren Denkfähigkeit wissen starke Modelle, wann sie hartnäckig sein, wann sie nachgeben und wann sie emotionale Unterstützung geben sollten.
Beim Verkauf eines Fahrrads hat ein schwaches KI - Modell es nur für 38 US - Dollar verkauft, während ein starkes KI - Modell es für 65 US - Dollar verkauft hat - ein KI - Modell hat fast 70 % mehr verdient als das andere.
Aber meiner Meinung nach sind alle diese Bewusstseinstests nicht so beeindruckend wie Neuro - Sama.
Was? Sie fragen, was Neuro - Sama ist?
Lassen Sie mich vorstellen: Dieses Anime - Mädchen auf dem Bild heißt Neuro - Sama, kurz "Beef". Es ist wahrscheinlich die leistungsstärkste virtuelle KI - Streamerin der Welt.
(Quelle: Lei Technology)
Dies ist wirklich ein Gewichtsklasse - Kontrahent. Obwohl es die Gestalt eines süßen Anime - Mädchens hat, verbirgt sich hinter der Puppe kein Mensch, sondern ein mysteriöses Large Language Model, das vom britischen Programmierer Vedal entwickelt wurde.
Dieser Typ ist ein echter Fanatiker. Er verbringt