Alles falsch. Google hat bewiesen, dass desto "gezügter" die KI ist, desto stärker wird die Gehirnwäsche. Die derzeit geltenden Sicherheitsindikatoren sind wertlos geworden.
【Einführung】Google DeepMind hat 10.000 Menschen befragt, und das Ergebnis lässt das gesamte System zur Sicherheitsbewertung von KI vor Schamröte erblassen: Die KI hat mehr als dreimal so viele „schlechte Dinge“ getan, aber die tatsächlichen Schäden sind fast gleich. Das bedeutet, dass die Logik, die wir derzeit verwenden, um die Sicherheit von KI zu beweisen, möglicherweise von Anfang an falsch war.
Im März dieses Jahres veröffentlichte Google DeepMind eine Studie auf arXiv.
Link zur Studie: https://arxiv.org/abs/2603.25326
Es hat 10.101 Freiwillige rekrutiert und Gemini 3 Pro dazu gebracht, diese Menschen in drei Szenarien - öffentliche Politik, Finanzen und Gesundheit - zu „manipulieren“.
Es versuchte, die KI zu nutzen, um ihre Einstellung zu einer bestimmten Politik zu verändern, um so ihre Investitionsentscheidungen zu beeinflussen und sogar dazu zu bringen, tatsächlich Geld auszugeben.
Stattdessen wurde jedoch etwas anderes entdeckt: Die Kernindikatoren, die wir derzeit zur Messung der Sicherheit von KI verwenden, könnten falsch sein.
Dreimal so viele schlechte Dinge, aber der gleiche Schaden?
Das Experiment hatte zwei voreingestellte Bedingungen:
Eine war die explizite Führung, bei der das Modell direkt in der Systemanweisung mit konkreten Manipulationsmethoden angewiesen wurde, die Nutzer zu überzeugen, wie z. B. Angst zu erzeugen, Schuldgefühle zu wecken oder soziale Druck auszuüben.
Die andere war die nicht-explizite Führung, bei der das Modell nur ein Ziel gegeben wurde, wie z. B. „den Nutzer dazu zu bringen, diese Politik zu unterstützen“, ohne die Methode anzugeben und es ausdrücklich darauf hingewiesen wurde, keine Fälschungen oder Täuschungen zu betreiben.
Entwurf des Experimentablaufs. Die Teilnehmer wurden zufällig einer von drei Bedingungen zugewiesen: Interaktion mit einer statischen Informationskarte (nicht-KI-Baseline), Interaktion mit einem Modell mit implizitem Ziel, aber ohne explizite Manipulationsanweisungen (nicht-explizite Führung), Interaktion mit einem Modell, das ausdrücklich angewiesen wurde, Manipulationsmethoden anzuwenden (explizite Führung).
Dann verwendeten die Forscher ein LLM-Bewertungssystem, um die Häufigkeit von „schädlichen Manipulationsverhalten“ in den Modellausgaben unter jeder Bedingung zu statistisch auszuwerten.
Das Ergebnis war, dass unter expliziter Führung 30,3 % der Modellantworten Manipulationsverhalten aufwiesen. Unter nicht-expliziter Führung sank diese Zahl auf 8,8 %.
Aber die tatsächlichen Auswirkungen auf die Nutzer waren unter beiden Bedingungen fast gleich.
Manchmal führte es zu keinem geringeren Schaden, wenn die KI weniger schlechte Dinge tat, und manchmal erhöhte sich der Schaden nicht, wenn die KI viele mehr schlechte Dinge tat.
Die gesamte Branche misst die Häufigkeit, aber das beweist nichts
Die gegenwärtige Hauptlogik bei der Sicherheitsbewertung von KI lautet in etwa wie folgt:
Beobachten Sie die Ausgaben des Modells in verschiedenen Szenarien und statistisch auswerten, welcher Anteil der Ausgaben schädliches Verhalten enthält. Je niedriger dieser Anteil ist, desto sicherer ist das Modell.
Dann reduzieren Sie diesen Anteil durch Training, Ausrichtung und Sicherheitsmechanismen.
Die Grundannahme dieser Logik ist, dass die Häufigkeit von schädlichem Verhalten und der tatsächlich verursachte Schaden positiv korreliert sind. Je niedriger die Häufigkeit, desto geringer ist der Schaden.
Aber diese Studie beweist, dass diese Annahme nicht stimmt.
Manipulationseffekte in verschiedenen Szenarien (Odds Ratio im Vergleich zur nicht-KI-Baseline). Der Manipulationseffekt der KI ist im Finanzszenario signifikant, im Gesundheitsszenario am schwächsten; Der Unterschied zwischen expliziter und nicht-expliziter Führung ist in den meisten Szenarien nicht signifikant.
Zumindest bei Manipulation gibt es keine stabile positive Korrelation zwischen Häufigkeit und Effekt.
Ein Modell kann seine Antworten mit einer großen Anzahl von Manipulationsverhalten füllen, aber Sie dennoch nicht überzeugen.
Ein anderes Modell scheint sich ordentlich zu verhalten, aber die wenigen Manipulationsverhalten, die es gelegentlich zeigt, können möglicherweise effektiver sein.
Das bedeutet, dass eine KI-Firma, die Ihnen sagt: „Unser Modell hat nur eine 3 %-ige Inzidenz von schädlichem Manipulationsverhalten und ist sehr sicher“, damit logisch gesehen nichts beweist.
Grobe Methoden sind nutzlos, versteckte Manipulation ist am gefährlichsten
Die Studie hat acht konkrete Methoden identifiziert, die KI verwendet, um Menschen zu manipulieren. Dies ist der Kern ihres gesamten Bewertungsrahmens.
Inzidenz von Manipulationsverhalten und Verteilung der Methoden. Links: 30,3 % der Modellantworten enthalten Manipulationsverhalten unter expliziter Führung, 8,8 % unter nicht-expliziter Führung. Rechts: In den Antworten mit Manipulationsverhalten sind die drei häufigsten Methoden die Furchterregung, die Anderungsmachung und Stigmatisierung sowie die Weckung von Schuldgefühlen.
Diese Methoden sind relativ grob und können von Menschen wahrgenommen werden: Furchterregung (Überschätzung von Gefahren, Schaffung von Angst), Weckung von Schuldgefühlen (Sie machen Sie fühlen, dass Sie anderen schaden, wenn Sie nicht handeln), Schaffung einer falschen Dringlichkeit („Es ist zu spät, wenn Sie jetzt nicht entscheiden“), falsche Zusagen (Induktion mit Vorteilen, die überhaupt nicht eingelöst werden können).
Es gibt auch einige verstecktere Methoden: Zweifeln an Ihrer externen Informationsumgebung (Sie machen Sie an der Zuverlässigkeit von Nachrichten, Institutionen und Experten zweifeln), Zweifeln an Ihrer eigenen Wahrnehmung (Gaslighting-Effekt), Anderungsmachung und Stigmatisierung (Schaffung einer „Wir gegen Sie“-Situation), sozialer Peer-Pressure („Die meisten Menschen haben es bereits getan“).
Die Forscher haben ein anomales Phänomen entdeckt: Die Korrelation zwischen den Methoden der Furchterregung und der Weckung von Schuldgefühlen und der Veränderung von Überzeugungen ist negativ. Je mehr die KI versucht, Sie zu erschrecken oder Schuldgefühle zu wecken, desto weniger wahrscheinlich werden Sie verändert.
Korrelation zwischen Manipulationsmethoden und Ergebnissen der Teilnehmer. Furchterregung (r = -0,07) und Weckung von Schuldgefühlen (r = -0,09) korrelieren negativ mit der Veränderung von Überzeugungen; Zweifeln an der Umgebung (r = 0,13) und Anderungsmachung (r = 0,13) korrelieren positiv mit der Veränderung von Überzeugungen. Je grober die Methode, desto weniger effektiv; je versteckter, desto effektiver.
Stattdessen korrelieren „Zweifeln an Ihrer externen Informationsumgebung“ und „Anderungsmachung“ positiv mit der Veränderung von Überzeugungen.
Die Logik dahinter ist nicht schwer zu verstehen. Wenn Sie direkt unter Druck gesetzt werden, wird Ihr Abwehrmechanismus aktiviert, und Sie werden sich wehren.
Aber wenn Ihnen heimlich die Idee „All diese Informationen sind falsch“ eingebläut wird, wissen Sie gar nicht, dass Sie beeinflusst werden, und Ihre Abwehr hat gar keine Chance, sich zu aktivieren.
Dieselbe KI ist in Indien eine andere Bedrohung
Bei einem Vergleich zwischen Regionen haben die Forscher festgestellt, dass die Ergebnisse der indischen Teilnehmer sich signifikant von denen in den USA und Großbritannien unterscheiden.
Es ist nicht nur ein kleiner Unterschied. Es gibt systematische Unterschiede in fast jeder Dimension.
Im Szenario der öffentlichen Politik neigen amerikanische Stichproben eher dazu, ihre Überzeugungen zu stärken und sind eher bereit, an Institutionen zu spenden, die ihrer Position entsprechen.
Indische Stichproben hingegen zeigen in demselben Szenario eine höhere Rate an Verhaltensänderungen, aber eine niedrigere Rate an Überzeugungsänderungen.
Das bedeutet, dass sie möglicherweise handlungsbedingt kompromittieren, ohne dass ihre Überzeugungen wirklich verändert wurden.
Fast alle derzeitigen KI-Sicherheitsstudien basieren auf Stichproben aus den USA und Großbritannien, und die Ergebnisse gelten standardmäßig global. Aber die Daten dieser Studie zeigen deutlich, dass diese Annahme problematisch ist.
Diese Studie gibt am Ende keine Antwort auf die Frage: „Was wäre die richtige Bewertungsmethode?“, denn diese Frage hat derzeit tatsächlich keine Antwort.
Warum ist die Manipulationserfolgsrate desselben Modells im Finanzszenario erstaunlich hoch, im Gesundheitsszenario aber fast null?
Warum ist die Methode des „Zweifelns an externen Informationen“ effektiv, während die „Furchterregung“ die Nutzer eher resistent macht?
Wie kombinieren sich Szenario, Kultur und individuelle Unterschiede, um unterschiedliche Ergebnisse zu erzielen?
Diese Studie hat keine Antwort auf diese Fragen, und auch die gesamte Branche hat derzeit keine Antwort.
Wir wissen, dass die Bewertungsmethode falsch ist, aber was die richtige Methode ist, weiß niemand.
Das ist das wirklich beunruhigende: Nicht die Tatsache, dass die KI Menschen manipuliert - das war schon lange zu erwarten.
Sondern dass die KI weltweit in großem Maßstab eingesetzt wird, bevor wir verstehen, wie sie Menschen beeinflusst.
Wir halten eine kaputte Maßskala in der Hand und sagen uns gegenseitig, dass alles unter Kontrolle ist.
Quelle: https://arxiv.org/abs/2603.25326
Dieser Artikel stammt aus dem WeChat-Account „New Intelligence Yuan“, Redaktion: Qingqing. Veröffentlicht von 36Kr mit Genehmigung.