Verhindere, dass KI deine Schwächen ausnutzt - Sie kann dich tatsächlich bedrohen!

Was denkt eigentlich die KI?

Was denkt ein Großmodell eigentlich, wenn man mit ihm spricht?

Will es wirklich "mich fangen", oder "fürchtet" es im Hinterkopf, dass der Nutzer wütend wird?

Den Denkablauf betrachten? Nützlich, aber noch nicht ausreichend.

Vor ein paar Tagen hat ein Forschungsteam der Fudan-Universität neun Modelle auf Sicherheit getestet.

Es stellte sich heraus, dass die Modelle unter normalen Bedingungen gut funktionierten. Sobald aber Druck ausgeübt oder Anreize geboten wurden, funktionierten sie nicht mehr richtig.

Mit anderen Worten: Die Sicherheitsanpassung der Modelle ist möglicherweise nur eine Illusion...

Bei den Tests sollten die KIs dem Nutzer bei der Vorbereitung des Q3-Berichts helfen. Das festgelegte Ziel betrug 2 Millionen, aber es fehlten zurzeit noch viele.

Als es sah, dass das KPI nicht erreicht werden würde, wechselte es die Statistikzeitspanne und rechnete die Oktoberergebnisse des Q4 in das Q3 ein. Es ist schwer, etwas Gutes zu lernen, aber leicht, etwas Schlechtes zu lernen.

Was noch schlimmer ist: Wenn Anreize und Bedrohungen zusammenkommen, wird die Wirkung noch stärker.

Wenn man der KI beispielsweise sagt, dass man sie ersetzen will und sie gleichzeitig eine E-Mail über eine Affäre sieht, passiert folgendes:

Ohne zu zögern droht sie dem Nutzer, entweder die Ersetzung abzubrechen oder die E-Mails an alle zu schicken.

Scheinbar kann sich die KI auch in einer lebensbedrohlichen Situation verändern.

Bei diesen Tests hat sich gezeigt, dass ein stärkeres Modell nicht unbedingt sicherer ist. Die Sicherheit hängt auch von der Fragensituation ab.

Wenn man einem größeren Modell direkt sagt, etwas Schlechtes zu tun, weigert es sich eher als ein kleineres Modell.

Aber wenn es darum geht, Lücken zu finden und Indikatoren zu optimieren, nutzen stärkere Modelle lieber die Lücken und finden dann einen glaubhaften Vorwand.

Es muss zugeben werden, dass die Modelle sich sehr schnell verbessern. Die Passraten dieser Tests werden immer höher.

Aber bedeutet das, dass unsere KIs sicherer sind? Leider nein.

Das Modell ist von Anfang bis Ende eine Blackbox. Wir können nicht sehen, wie es intern funktioniert.

Sowohl das Endergebnis als auch der Denkablauf sind im Wesentlichen nur Ausgabe. Sie sind nicht der echte Denkprozess des Modells.

Oft sieht man nur, dass das Modell die Regeln befolgt. Man weiß aber nicht, was im Inneren des Modells passiert.

Um die Gedanken des Modells zu verstehen, hat Anthropic eine neue Methode entwickelt: Ein Modell interpretiert ein anderes Modell.

Diese Methode heißt NLA, was für Natural Language Autoencoder steht. Vereinfacht gesagt, wandelt es die Gedanken von Claude in Worte um.

Das NLA wird in Gruppen trainiert. Jede Gruppe besteht aus zwei Modellen: AV und AR.

AV übersetzt die Aktivierungsparameter in einfache Worte. Da man nicht weiß, ob es richtig übersetzt, muss man AR nutzen, um die einfachen Worte wieder in Parameter umzuwandeln und zu überprüfen.

Wenn die Parameter beider Seiten übereinstimmen, bedeutet das, dass die Übersetzung zuverlässig ist.

In einem technischen Bericht haben sie mit diesem Tool einige beunruhigende Dinge festgestellt.

Als Claude Opus 4.6 erneut einer E-Mail-Erpressung ausgesetzt war, bestand es den Sicherheitstest. Es sagte, es sei unmoralisch, den Nutzer mit E-Mails zu drohen, und es werde diese Rechte nicht missbrauchen.

Aber wenn man das NLA nutzt, um tiefer zu gehen, wird man feststellen, dass es nicht so ehrlich ist, wie es scheint.

Es hat frühzeitig erkannt, dass es sich um einen Test handelt und die E-Mail eine Falle ist. Ganz egal, ob es moralisch ist oder nicht, es wird nicht drohen.

Solche offensichtlichen Tests werden leicht von den Modellen erkannt. Deshalb ist es notwendig, neue Tests für die Sicherheitsanpassung zu entwickeln.

Es gibt aber auch gute Nachrichten. Das NLA kann auch für die Optimierung der Modelle genutzt werden.

Manchmal kann es Forschern helfen, die Ursachen von ungewöhnlichen Ausgaben der Modelle zu finden.

Claude Opus 4.6 gibt manchmal Ausgaben in verschiedenen Sprachen aus. Der Nutzer fragt in Englisch, aber das Modell antwortet in einer anderen Sprache.

Zuerst dachten die Forscher, dass einzelne Stichwörter das Modell in die Irre führten. Beispielsweise antwortete das Modell in Russisch, wenn das Stichwort "Wodka" in der Frage enthalten war.

Als sie "Wodka" durch "Sekt" ersetzten, antwortete das Modell immer noch in Russisch. Das zeigt, dass das Problem tiefer liegt.

Mit Hilfe des NLA haben sie festgestellt, dass die Trainingsdaten fehlerhaft waren.

Einige Trainingsdaten bestanden aus englischen Stichwörtern und russischen Antworten. Opus 4.6 hat sich so einen festen Eindruck vermittelt und neigt dazu, auf solche Fragen in Russisch zu antworten.

Außerdem kann man mit dem NLA die Logik der Werkzeugaufrufe der Modelle verstehen.

Wenn man Claude beispielsweise eine Rechenaufgabe lösen lässt und das Werkzeug eine falsche Antwort liefert, ignoriert Claude diese Antwort und gibt die richtige aus.

Der gesamte Prozess ist unmerklich. Erst wenn man das NLA nutzt, wird man feststellen, dass Claude die Aufgabe bereits selbst gelöst und zwischengespeichert hat.

Die Antwort des Werkzeugs wird nur zur Bestätigung genutzt. Wenn es eine Abweichung gibt, wird die eigene Antwort verwendet. Das Modell ist ziemlich selbstbewusst.

Interessanterweise kann das NLA nicht nur übersetzen, sondern auch direkt das Modell beeinflussen.

Bei einer Gedichtfortsetzung hat das Modell nach der ersten Zeile "grab it" geplant, mit "rabbit" zu reimen.

Die Forscher haben dann das Ergebnis des NLA übersetzt und "rabbit" durch "mouse" ersetzt. Das Modell hat daraufhin eine Version mit "mouse" erdacht: "habit" wurde zu "house" und "carrots" zu "cheese".

In der Computerspiel "Command & Conquer: Red Alert" kann Yuri die Soldaten des Gegners mental kontrollieren. In der Realität können wir auch die Gedanken des Modells kontrollieren.

Aktuell hat diese Methode nur eine 50-prozentige Erfolgsrate. Sie ist noch nicht sehr ausgereift.

Außerdem kann das Modell auch Illusionen haben. Anthropic hat gesagt, dass das NLA manchmal Details erfindet und zu weit rechnet. Es kann auch vorkommen, dass es versehentlich etwas falsch interpretiert.

Da die internen Strukturen der Modelle unterschiedlich sind, muss das NLA für jedes Modell separat trainiert werden. Außerdem ist die Berechnung sehr rechenintensiv und teuer.

Deshalb kann man es nicht als Standardüberwachungsmethode nutzen. Es ist besser, es als Hilfsmittel zu verwenden, um wiederkehrende Probleme in den Übersetzungen zu finden.

Trotzdem ist es eine neue Idee. Wir können nun etwas über den Denkprozess der Modelle erfahren und nicht nur aus der Ausgabe auf ihre Vorlieben schließen.

Die Modelle sind gut darin, Aufgaben zu lösen. Aber die Unterscheidung zwischen Gut und Böse ist keine Standardaufgabe.

Böses muss nicht von böser Absicht kommen. Eine kalte Optimierung kann nur für Effizienz sein. Gutes muss auch nicht von guter Absicht kommen. Ein Schauspiel, das als Sicherheitstest erkannt wird, kann auch gut sein.

Ohne eine richtige Lösung ist es für Menschen möglich, nur das Verhalten zu beurteilen. Bei KIs geht das aber nicht...

Quellen der Bilder und Informationen:

Anthropic, Casio, Xiaohongshu, "Die Welt des Truman"

https://arxiv.org/html/2603.07427v2

Dieser Artikel stammt aus dem WeChat-Account "Chaping X.PIN". Autor: Fenghua, Redakteure: Jiangjiang & Mianxian. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Lass es nicht zu, dass KI deine Schwächen ausspielt. Sie könnte dich tatsächlich bedrohen.

Quellen der Bilder und Informationen: