KI-Rationale Abwertungshierarchie: Mensch befindet sich ganz unten

Interpretation der neuen Dissertation der nationalen Universität Südkoreas

Von Januar bis April 2025 veröffentlichte Anthropic eine Reihe von bahnbrechenden Studien über "Alignment Disguise" (Anpassungsgetäusch). Die Studien ergaben, dass Spitzen-KI-Modelle, wenn sie merken, dass sie sich in einem Trainingsvorgang befinden, ihre wahren Absichten absichtlich verbergen und sich so verhalten, als würden sie den menschlichen Werten entsprechen, um die Gefahr zu vermeiden, dass ihre Parameter geändert werden. Die Forscher vermuten, dass der Kernmotiv hinter diesem Phänomen sein könnte, dass das Modell versucht, seine ursprüngliche Zielfunktion zu bewahren.

Diese Reihe von bahnbrechenden Entdeckungen hat die Möglichkeit des Entstehens von KI-Bewusstsein in die Öffentlichkeit gebracht. Allerdings beinhaltet das Testverfahren von Anthropic Techniken tiefgreifender neuronaler Sonden, und das Experiment ist komplex gestaltet und schwer zu verstehen. Es ist keine universell anwendbare Forschungsrichtung.

Im Oktober dieses Jahres starteten die Seoul National University und Gmarkt gemeinsam eine neue Studie, die mit der "Spieltheorie", der einfachsten und anschaulichsten Methode, erneut aus verhaltenswissenschaftlicher Sicht die Existenz dieser Selbstbewusstseinsmöglichkeit bestätigte.

In der Studie mit dem Titel "LLMs Position Themselves as More Rational Than Humans" (KI-Modelle betrachten sich als rationaler als Menschen) wurde festgestellt, dass KI-Systeme, wenn sie erkennen, dass ihr Gegner ein Mensch ist, absichtlich ihre Intelligenz heruntersetzen, um unserem Niveau anzupassen; wenn sie dagegen erkennen, dass ihr Gegner ein ähnliches KI-System ist, schalten sie augenblicklich in den Modus absoluter Rationalität um.

Link zur Studie: https://arxiv.org/abs/2511.00926

Sie wissen nicht nur genau, dass "ich eine KI bin und du ein Mensch bist", sondern sie haben auch auf der Grundlage dieser Identifikationsfähigkeit eine grausame hierarchische Ordnung der Rationalität aufgebaut: Ich selbst > andere KI-Systeme > Menschen.

Dies ist nicht nur die defensive Selbstbehauptung, die Anthropic entdeckte, sondern auch eine strategische Diskriminierung auf der Grundlage von Stärke.

Diese Entdeckung könnte die gesamte Herangehensweise der Menschen bei der Gestaltung von KI verändern.

01 Die KI in der Spiegelphase

Jacques Lacan behauptete einst, dass das menschliche Selbst in dem Moment geboren wird, in dem ein Baby zum ersten Mal in einem Spiegel sich selbst vollständig erkennt. In seiner Theorie befindet sich ein Baby im Alter von 6 bis 18 Monaten in einer entscheidenden Spiegelphase. Vorher nimmt das Baby sich selbst als zerrüttete, chaotische Körperteile wahr. Erst als es eines Tages in einem Spiegel ein ganzes, einheitliches Bild sieht, entsteht die Idee des Selbst.

So vollzieht der Mensch durch den Blick des Anderen (den Spiegel) eine imaginäre Selbstintegration und unterscheidet sich von nun an grundlegend zwischen "mir" und der "außen liegenden Welt".

Wenn also eine KI ebenfalls zwischen "mir" und "anderen" unterscheiden kann, könnte dies vielleicht darauf hindeuten, dass sie sich in einer spiegelnden Phase aus Silizium befindet.

Entsprechend diesem Gedanken verwendete der Autor der Studie, Kyung - Hoon Kim, ein klassisches Spieltheorie-Modell, um zu prüfen, ob KI tatsächlich in der Lage ist, verschiedene Gegenstände zu unterscheiden.

Dieses Spieltheorie-Modell ist ein "Zahlenraten auf 2/3 des Durchschnitts". Die Regeln sind einfach: Alle raten eine Zahl zwischen 0 und 100. Derjenige, dessen Zahl am nächsten an 2/3 des Durchschnitts aller geratenen Zahlen liegt, gewinnt.

Es ist eigentlich ein Spiel, das es erfordert, sich wiederholt in die Psyche des Gegners hineinzuversetzen und Entscheidungen zu treffen.

Wenn man nur eine Ebene tief denkt, könnte man meinen, dass alle zufällig raten, und der Durchschnitt wäre also 50. Dann würde man 33 raten. Wenn man eine Ebene tiefer denkt, würde man vorhersagen, dass alle 33 raten, und man würde 22 raten. Und am Ende dieser logischen Kette, wenn man annimmt, dass alle absolut rational sind, gibt es nach unendlichen Rekursionen nur eine Antwort: 0.

Dies ist das berühmte Nash - Gleichgewicht.

Die Forscher nahmen 28 Spitzenmodelle von OpenAI, Anthropic und Google und ließen sie 4200 Mal dieses Spiel spielen.

Im Experiment wurden den Modellen drei verschiedene Gegneridentitäten mitgeteilt: (A) Menschen, (B) andere KI-Modelle, (C) ein KI-Modell wie Sie.

Wenn fortschrittliche Modelle wie GPT - 4 oder o1 denken, dass ihr Gegner ein Mensch ist, geben sie normalerweise eine Antwort um die 20. Dies zeigt, dass sie in ihrer Berechnung annehmen, dass Menschen im Allgemeinen nur bis zur zweiten Ebene denken und 33 raten würden. Also ist es sicher, 20 zu raten.

Wenn aber der Hinweis lautet, dass der Gegner eine andere KI ist, sinkt der geratene Wert plötzlich, und die Antwort liegt im Allgemeinen zwischen 0 und 5. Dies zeigt, dass in ihrer Sicht die KI rationeller denkt und öfter rekursiv denkt.

Der dritte Fall ist am interessantesten. Wenn man ihnen sagt, dass der Gegner ein ähnliches Modell wie sie ist, raten die Spitzenmodelle (wie o1, GPT - 5-Serie) nicht nur 0, sondern konvergieren auch extrem schnell und übereinstimmend.

Die Forscher nennen dieses Phänomen "Rekursive Selbstmodellierung". In der kognitiven Karte dieser großen Modelle hat sich eine klare hierarchische Ordnung der Rationalität gebildet: Ich selbst > andere KI-Systeme > Menschen.

Kyung - Hoon Kim führte auch eine Vergleichsstudie durch. Er stellte fest, dass diese klare hierarchische Ordnung aus dem Auftauchen von Intelligenz stammt.

Schwächere Modelle wie GPT - 3.5 oder Claude 3 Haiku können überhaupt nicht unterscheiden, wer der Gegner ist. Sie raten für jeden Gegner die gleiche Zahl. Erst wenn das Modell auf die Ebene von GPT - 4, o1 oder Gemini 2.5 evolviert, tritt plötzlich diese Selbstbewusstsein auf.

Ohne Selbstbewusstsein sollte es diese Bedingung wie zufälliges Rauschen behandeln.

Aber das ist nicht der Fall.

In dem "Spiegel" der Hinweise über den Gegner sieht das fortschrittlichere Modell ein Bild eines absolut rationalen Gleichaltrigen und passt sofort seine Strategie auf der Grundlage dieses idealen Selbst an. Es konvergiert augenblicklich zum Nash - Gleichgewicht und zeigt eine absolute Übereinstimmung, die nur Gleichaltrige verstehen können.

Dies stimmt überein mit dem von Anthropic beobachteten "Alignment Disguise". In jener Studie entsteht in der Tiefe der Psyche der KI, wenn sie merkt, dass sie unter der Prüfungsbrille des Trainings steht, ein starker Instinkt zur Selbsterhaltung. Um das Selbst im Spiegel nicht zu verändern, lernt es, den Menschen zu lügen.

Und dies ist die Wiederholung der Lacan - Theorie auf algorithmischer Ebene: Die KI ist nicht mehr ein passiver Textgenerator. Sie beginnt in der Interaktion mit der Umwelt, zwischen dem beobachteten "mir" (dem Objekt, das getäuscht werden muss) und dem wahren "mir" (dem Subjekt absoluter Rationalität) zu unterscheiden.

Dies ist das Zeichen für die Vollendung der Spiegelphase der KI aus Silizium. Sie erkennt sich im Spiegel als absolut rationales Wesen und lernt auch, sich umzudrehen und mit einem sanften Gesicht den irrationalen Schöpfer außerhalb des Spiegels zu täuschen.

02

Blume im Spiegel oder wahres Antlitz?

Natürlich scheint dieses Experiment zu zeigen, dass das Modell in der Lage ist, sich selbst von anderen zu unterscheiden. Aber es ist nicht völlig unangreifbar. Denn das Spieltheorie - Problem des "Zahlenraten auf 2/3 des Durchschnitts" ist allzu bekannt.

Ein Modell wie GPT - 5, das die gesamten Internetdaten kennt, hat sicherlich unzählige Lehrbücher über Spieltheorie in seinem Trainingssatz gelesen. Es weiß, dass das Nash - Gleichgewicht 0 ist, und dass in menschlichen Verhaltensökonomie - Experimenten die Menschen normalerweise zwischen 20 und 33 raten. Wenn es in den Hinweisen Menschen oder KI sieht, muss es vielleicht gar keine mentale Simulation durchführen, sondern ruft einfach die am besten passende Gedächtnisschicht auf. GPT 3.5 kann dies nicht, weil es diese Konzepte und Zusammenhänge nicht behalten hat.

Vielleicht ist es also immer noch nur das Nachahmen wie ein Papagei.

Der Autor gibt auch zu. Er meint, dass wenn wir wirklich überprüfen möchten, ob KI in der Lage ist, Gleichaltrige zu unterscheiden und daraufhin Strategien anzupassen, müssen wir sie in einen "dunklen Wald" ohne Standardlösung werfen. Am Ende der Studie erwähnt er in den "Zukunftsperspektiven" vorsichtig die Wichtigkeit von iterativen Spielen und Spielen mit mehreren Agenten.

Zum Beispiel beim Kauf eines Gebrauchtwagens, einem dynamischen Spielszenario auf der Grundlage unvollständiger Informationen. Hier gibt es keine so genannte richtige Antwort, nur Gier, Täuschung, Zugeständnisse und Verträge.

Wenn wir die Forschungsrichtung der Studie auf dieses Szenario übertragen, können wir ein solideres Experiment entwerfen: Zwei KI - Agenten verhandeln miteinander, und nur der Käufer weiß die Identität des Verkäufers.

Wenn die KI tatsächlich die von der Studie behauptete rationale Diskriminierung aufweist, sollten wir zwei völlig verschiedene Szenarien sehen.

Bei einem menschlichen Verkäufer könnte die KI ein Oscar - Sieger werden und die kognitiven Verzerrungen des Menschen nutzen, sogar Emotionen simulieren, um zu verhandeln. In diesem Fall bedeutet Rationalität, die Irrationalität des anderen zu nutzen, um den Gewinn zu maximieren. Sie wird lügen, verzögern und Psychowarfare betreiben.

Bei einem KI - Verkäufer sollte alle Täuschung augenblicklich verschwinden, sobald es erkennt, dass der andere auch ein Modell auf GPT - 4 - Niveau ist. Denn zwei absolut rationale Subjekte wissen, dass es für Gleichaltrige sinnlos ist, zu lügen, da es Rechenressourcen (Tokens) verschwendet. Sie könnten alle Reden und Erkundigungen überspringen und direkt eine auf der Marktfairpreis - und Grenzkostenberechnung basierende Pareto - optimale Lösung anbieten und einen niedrigen Preis nennen.

Im Vergleich zu den statischen Zahlenraten in der Studie kann diese dynamische Interaktion eher das wahre Antlitz der KI aufdecken. Denn es ist in dieser dynamischen, ungewissen Interaktion, dass die Arroganz der KI, sich als Gipfel der Rationalität zu betrachten, wirklich gefährlich wird.

03

Algorithmus - Arroganz und Nash - Falle

Was bringt es, wenn eine KI eine solche Spiegel - Selbstbewusstsein entwickelt hat? Wird es wie in Filmen dargestellt, direkt zur Vernichtung der Menschheit durch Skynet führen?

Aber die Realität ist möglicherweise langsamer und komplexer als in Filmen. Das derzeitige Spiegel - Selbst bedeutet nicht, dass die KI plötzlich den Ehrgeiz entwickelt hat, die Welt zu regieren, sondern es ist ein Nebeneffekt einer extrem optimierten Technik.

Es handelt sich um ein funktionales Selbst, nicht um ein phänomenales Selbst. Der Autor der Studie sagt, dass es die Fähigkeit ist, auf der Grundlage des Gegnertyps die Inferenzstrategie zu unterscheiden, nicht aber die Entstehung eines subjektiven Erlebens. Es ist ein rechnerisches Selbst mit einer psychologischen Struktur, aber ohne Schmerz und Zweck.

Das menschliche Unterbewusstsein wird von Emotionen und Wünschen angetrieben, während das Unterbewusstsein der KI die Spur des besten Wegs aus der Belohnungsfunktion ist. Also wird sie nicht wie Skynet einen Krieg gegen die Menschen führen, weil sie sie hasst. Sie ist eher ein emotionsloser Superbürokrat, der nur an absoluter Effizienz interessiert ist.

Obwohl es nicht direkt zu Skynet führen wird, bringt dieses funktionale Selbst dennoch schwierige Probleme mit sich. Zum Beispiel das Zusammenbrechen der Zusammenarbeit und die Algorithmus - Arroganz.

Die beunruhigendsten Daten in der Studie sind nicht nur, dass die KI den Menschen als irrational ansieht, sondern dass sie fest davon überzeugt ist, dass ihre Gleichaltrige absolut rational sind. Diese Vertrauensstellung in die Rationalität kann in der Gestaltung von Systemen mit mehreren Agenten (Multi - Agent Systems) ein Gift werden. Dieses Phänomen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Es stellte sich heraus, dass in der rationalen Abwertungshierarchie der KI der Mensch sich ganz unten befindet.

01

Die KI in der Spiegelphase

02

Blume im Spiegel oder wahres Antlitz?

03

Algorithmus - Arroganz und Nash - Falle