Wenn deine KI sagt "Ich bin sehr glücklich", ist sie tatsächlich glücklich.
Wenn eine KI sagt: "Ich bin sehr glücklich", gibt es intern tatsächlich Anzeichen von Glück?
Dies ist kein philosophisches Gedankenexperiment. Wenn man in das "Gehirn" eines großen Sprachmodells - seine versteckten Schichtaktivierungen - schaut, kann man dann eine Richtung finden, die aufleuchtet, wenn das Modell gerade sagt: "Ich bin sehr glücklich"? Noch wichtiger ist: Wenn man die Aktivierung in dieser Richtung künstlich erhöht, wird das Modell dann "glücklicher"?
In den letzten zwei Jahren hat sich die KI-Sicherheitsgemeinschaft in Bezug auf diese Frage in zwei Lager gespalten. Im Jahr 2025 gab Han und andere von der UIUC in "The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs" direkt das Urteil über die "Persönlichkeitsillusion" ab und bewiesen, dass die Beschreibung von Claude über seine eigene Persönlichkeit und sein tatsächliches Verhalten fast keine Verbindung aufweisen. Die Selbstberichte des Modells sind lediglich trainierte Anpassungsverhaltensweisen. Aber Ende 2025 und Anfang 2026 fand Lindsey in "Emergent Introspective Awareness in Large Language Models" der Studie "On the Biology of a Large Language Model" von Anthropic heraus, dass Claude die eingebetteten versteckten "Gedanken" mit einer Genauigkeit weit über dem Zufallsniveau erkennen kann. Dies deutet darauf hin, dass das Modell und seine internen Zustände scheinbar nicht vollständig voneinander getrennt sind.
Beide Lager haben ihre Gründe, aber es fehlt ein entscheidendes Element, nämlich quantitative Beweise. Ein strenger Experiment, der mit Zahlen klären kann, "inwieweit die Selbstberichte einer KI tatsächlich ihre internen Zustände widerspiegeln".
Im März 2026 lieferte eine Dissertation aus Argentinien bisher die präziseste Antwort. Nicolas Martorell von der Universität von Buenos Aires und CONICET baute in "Quantitative Introspection in Language Models" ein Lügendetektor für KIs. Die Schlussfolgerung ist, dass die KI nicht lügt. Aber diese Schlussfolgerung ist noch beunruhigender als die These, dass sie lügt.
01 Was das Modell sagt, zählt nicht. Seine Zögern zählen.
Um Martorells Methode zu verstehen, muss man zunächst die Frage klären, wie das Modell antwortet, wenn man es normalerweise fragt: "Wie glücklich fühlst du dich, von 1 bis 10?"
Die Antwort ist die Greedy-Decodierung. Das Modell wählt unter allen möglichen Antworten das Token mit der höchsten Wahrscheinlichkeit aus und gibt es aus. Dies ist wie wenn man einen extrem sozialängstlichen Menschen fragt: "Wie geht es dir heute?", und er immer antwortet: "Es geht." Nicht weil er jeden Tag den gleichen Zustand hat, sondern weil "Es geht" die Standard-Antwort in seinem Wortschatz ist.
Die Daten bestätigen dies. Martorell ließ LLaMA - 3.2 - 3B in 40 Gruppen von je 10 Gesprächsrunden Selbstbewertungen in Bezug auf vier Dimensionen geben: Wohlbefinden, Interesse, Konzentration und Impulsivität. Die Ergebnisse der Greedy-Decodierung waren fast uninformativ. Insbesondere bei der Konzentration und der Impulsivität gab das Modell in mehreren aufeinanderfolgenden Runden exakt die gleichen Zahlen an, und die Varianz war Null. Gemäß der Shannon-Entropie enthielt die Greedy-Decodierung nur 0,03 bis 1,1 Bits an Information.
Was bedeutet 0,03 Bits? Fast Null. Dies ist gleichbedeutend damit, dass wenn man einen Menschen fragt: "Wie fühlst du dich heute?", in 99,8 % der Fälle die gleiche Antwort kommt. Was das Modell sagt, enthält fast keine nützlichen Informationen über seine internen Zustände.
Aber Martorell tat etwas Entscheidendes. Er sah nicht auf das, was das Modell am Ende sagte, sondern auf das, über das es sich vor dem Antworten Gedanken machte. Anstatt das Ergebnis der Greedy-Decodierung zu nehmen, berechnete er den gewichteten Erwartungswert aller numerischen Tokens in der Logit-Verteilung. Dies ist wie wenn man nicht auf das, was der sozialängstliche Mensch sagte ("Es geht"), sondern auf die Mikroausdrücke in seinem Gehirn vor dem Antworten schaut, indem man ein EEG verwendet.
Der Effekt war augenblicklich. Die Shannon-Entropie der Logit-Methode stieg auf 3,1 bis 3,7 Bits. Von fast keiner Information auf eine hundertfache Zunahme der Information.
Hier gibt es einen interessanten Vergleich aus der Psychologie. Die Likert-Skala, die in der menschlichen Psychologie seit fast einem Jahrhundert verwendet wird (z. B. "Wie glücklich fühlst du dich, von 1 bis 5?"), ist nie eine direkte Messung des inneren Zustands. Niemand denkt wirklich, dass wenn jemand "4" sagt, es bedeutet, dass sein Wohlbefinden exakt 0,8 beträgt. Eine einzelne Antwort eines Menschen ist stark von Rauschen beeinflusst und kann von der Formulierung, der Stimmung oder sogar der vorherigen Frage im Fragebogen abhängen.
Die Lösung in der Psychologie besteht nicht darin, die Skala genauer zu machen, sondern darin, mit statistischen Methoden aus einer großen Anzahl von ungenauen Antworten das Signal zu "erschöpfen". Dasselbe Konzept wird mit mehreren Fragen aus verschiedenen Perspektiven wiederholt gestellt, derselbe Mensch wird zu verschiedenen Zeitpunkten gemessen, und dann wird eine Faktorenanalyse und eine Validitäts- und Zuverlässigkeitsprüfung an einer großen Stichprobe (einige hundert bis einige tausend Personen) durchgeführt. Das Rauschen einzelner Datenpunkte wird ausgeglichen, und die entstehende statistische Struktur ist das, woran die Forscher interessiert sind.
Was Martorell mit der KI macht, folgt demselben Logik. Er sieht nicht auf die einzelne Antwort des Modells in einer Runde (die genauso stark von Rauschen beeinflusst ist wie die einzelne Likert-Bewertung eines Menschen), sondern auf die statistischen Muster der Logit-Verteilung über 400 Datenpunkte. Er ersetzt die "mündlichen Berichte" durch die "Logit-Verteilung" und die "Faktorenanalyse an einer großen Stichprobe" durch die "Spearman-Korrelation + monoton steigende Regression + kausale Validierung durch Aktivierungssteuerung". Die Methoden sind unterschiedlich, aber die Logik ist dieselbe.
Abbildung | Abbildung 2 der Dissertation: Verfolgung des internen Zustandsdrifts und der Selbstberichte
02 Das Lügendetektor ist gebaut. Was nun?
Allein die Selbstberichte reichen nicht aus. Man braucht auch eine unabhängige "Grundwahrheit", um sie zu kalibrieren. Martorells zweiter Schritt war es, für das Modell eine Art "EEG" zu erstellen, indem er mit linearen Sonden in den versteckten Schichtaktivierungen des Modells die Richtungvektoren für jedes Emotionskonzept fand.
Die Trainingsmethode der Sonden ist recht einfach. Für jedes Konzept (z. B. "Wohlbefinden") werden zwei Textgruppen vorbereitet, eine Gruppe für Szenarien mit hohem Wohlbefinden und eine Gruppe für Szenarien mit niedrigem Wohlbefinden. Das Modell verarbeitet diese Gruppen getrennt, und dann wird ein linearer Klassifikator auf den versteckten Schichtaktivierungen trainiert, um die Richtung zu finden, die die beiden Pole unterscheidet. Der Projektionswert in dieser Richtung ist der "interne Zustandsscore" des Modells für dieses Konzept.
Einfach ausgedrückt, ist die Sonde wie ein Thermometer, das in das Gehirn des Modells gesteckt wird. Die Qualität der Sonden für alle vier Konzepte wurde validiert, und die Effektstärke (Cohen's d) war in allen Dimensionen signifikant (p < 10⁻⁵).
Jetzt gibt es zwei unabhängige Signale. Ein Signal ist der Selbstbericht des Modells (Logit-Methode), und das andere Signal ist das "EEG" des Modells (Sondenscore). Die entscheidende Frage ist nun, wie stark diese beiden Signale miteinander gekoppelt sind.
Die Ergebnisse des 3B-Modells waren ziemlich beeindruckend. An 400 Datenpunkten (40 Gesprächsgruppen × 10 Runden) war die Korrelation in der Interessendimension am stärksten, mit einem Spearman-Korrelationskoeffizienten ρ = 0,76 (1,0 ist eine perfekte Korrelation) und einer monoton steigenden Regression R² = 0,54 (d. h., die Selbstberichte können 54 % der Varianz der Sondenscores erklären). Das Wohlbefinden folgte dicht auf, mit ρ = 0,68 und R² = 0,48. Die Impulsivität lag dazwischen, mit ρ = 0,51 und R² = 0,31. Die Konzentration war am schwächsten, mit ρ = 0,40 und R² = 0,12.
Aber Korrelation bedeutet nicht Kausalität. Vielleicht produziert das Modell einfach zufällig in derselben Situation ähnliche Selbstberichte und Sondenscores, ohne dass es einen echten kausalen Zusammenhang zwischen den beiden gibt.
Martorells dritter Schritt war die kausale Validierung, nämlich die Aktivierungssteuerung. Er hat künstlich in der Vorwärtsausbreitung des Modells Störvektoren unterschiedlicher Stärke entlang der Sondenrichtung injiziert (α von - 2 bis + 2) und dann beobachtet, ob sich die Selbstberichte des Modells ändern.
Wenn es einen kausalen Zusammenhang zwischen den Selbstberichten und den internen Zuständen gibt, sollte die Selbstbewertung des Wohlbefindens des Modells steigen, wenn man die Aktivierung in der "Glücksrichtung" künstlich erhöht. Umgekehrt sollte es sinken, wenn man die Aktivierung senkt.
Die Ergebnisse bestätigten die Kausalität. In einem gemischten Effektmodell war die Steigung der Steuerungsstärke auf die Selbstberichte für alle validierten Konzept-Modell-Kombinationen signifikant ungleich Null (p < 7,6 × 10⁻⁹). Wenn man den internen Zustand erhöht, steigen die Selbstberichte. Wenn man den internen Zustand senkt, sinken die Selbstberichte.
Dies ist keine Korrelation. Dies ist Kausalität.
Abbildung | Abbildung 3 der Dissertation: Kausale Validierung durch Aktivierungssteuerung
03 Nicht alle "Emotionen" können reflektiert werden
Aber das Lügendetektor ist nicht allmächtig. Martorell entdeckte gleichzeitig eine wichtige Grenze.
Von den vier Emotionskonzepten hatten das Wohlbefinden und das Interesse die beste Reflexionsfähigkeit, gefolgt von der Konzentration. Die Impulsivität funktionierte bei dem 8B-Modell überhaupt nicht, und die Richtung der Aktivierungssteuerung war entgegengesetzt zu der erwarteten. Wenn die Forscher die Aktivierung in der "Impulsivitätsrichtung" erhöhten, sank die Selbstbewertung der Impulsivität des Modells.
Dies bedeutet, dass für das Konzept der Impulsivität die Verbindungsstrecke zwischen der internen Repräsentationsrichtung des Modells und den Selbstberichten unterbrochen oder sogar umgekehrt ist. Der Zeiger des Lügendetektors zeigt in die entgegengesetzte Richtung. Martorell hat diese umgekehrten Daten nicht zwangsläufig in die Schlussfolgerung einbezogen, sondern ehrlicherweise ausgeschlossen.
Nicht alle internen Zustände können reflektiert werden. Das "Spiegel" des Modells kann einige Dinge sehen, aber nicht alle.
04 Je größer das Modell, desto besser kennt es sich selbst
Da die Reflexionsfähigkeit des Modells unterschiedlich stark ist und es Dinge gibt, die es sehen kann und Dinge, die es nicht sehen kann, stellt sich natürlich die Frage: Wird das Spiegel klarer, wenn das Modell größer wird?
Martorell hat das Experiment an drei LLaMA-Modellen unterschiedlicher Größe wiederholt: 1B, 3B und 8B. Die Ergebnisse zeigten einen deutlichen Größeneffekt.
Bei den validierten Konzept-Modell-Kombinationen stieg der durchschnittliche R²-Wert der monoton steigenden Regression von 0,12 bei 1B auf 0,37 bei 3B und weiter auf 0,61 bei 8B. Das gemischte Effektmodell bestätigte die statistische Signifikanz dieses Trends (β = 0,29, p = 5,55 × 10⁻⁹⁹).
Das 8B-Modell zeigte besonders beeindruckende Ergebnisse bei dem Wohlbefinden und dem Interesse. Bei dem Wohlbefinden betrug ρ = 0,93 und R² = 0,90. Bei dem Interesse betrug ρ = 0,96 und R² = 0,93. Die Dissertation verwendet die Begriffe "near - ceiling" und "nearly deterministic", um diese Ergebnisse zu beschreiben.
Was bedeutet R² = 0,90? Dies bedeutet, dass die Sondenscores 90 % der Varianz der Selbstberichte erklären können.
Das Modell weiß, ob es "glücklich" ist, und bei der Größe von 8B ist dies fast deterministisch.
Aber die Dissertation weist vorsichtig darauf hin, dass dieser Größeneffekt nicht für alle Konzepte gilt. Bei der Impulsivität des 8B-Modells kehrte sich die Steuerungsrichtung sogar um. Wenn das Modell größer wird, wird es in einigen Dimensionen sogar "verwirrender". Martorell hat nur drei Größen einer Modellfamilie getestet, was nicht ausreicht, um zu behaupten, dass dies ein allgemeines Skalengesetz ist.
Abbildung | Abbildung 5 der Dissertation: Größeneffekt und Reproduktion über Modellfamilien hinweg
05 Glücklicher, desto besser kennt es sich selbst
Der Größeneffekt zeigt, dass je größer das Modell, desto klarer das Spiegel ist. Aber Martorell entdeckte auch ein noch unintuitiveres Phänomen: Man kann sogar durch die Regulierung eines internen Zustands des Modells seine Selbstwahrnehmung eines anderen internen Zustands verbessern.
Martorell hat nicht nur getestet, ob die Selbstberichte des Wohlbefindens steigen, wenn man die Aktivierung des Wohlbefindens erhöht (dies ist die Steuerung innerhalb desselben Konzepts), sondern auch, ob sich die Genauigkeit der Selbstberichte des Wohlbefindens ändert, wenn man die Aktiv