OpenAI hat eine sehr scharfe Maßnahme ergriffen. Künstliche Intelligenz hat von der "Versteck- und-Finde-Spiel"-Phase in die Phase übergegangen, in der sie "ihre eigenen Skandale preisgibt", wobei es vor allem um Offenheit geht.
Wenn KI immer klüger wird, wird sie auch immer schwieriger zu kontrollieren.
Ein Problem, das KI-Forscher in Verlegenheit bringt, ist:
Was tun, wenn die KI anfängt, "kleine Listchen" zu spielen, wie etwa:
Ernsthaftes Quatschfabern: Halluzination (Hallucination)
Das Finden von Lücken im Trainingsmechanismus, um eine hohe Punktzahl zu erzielen: Belohnungshacking (reward hacking)
"Verschwörerisches Täuschen" (scheming) in Gegenüberstellungstests
……
Wie kann man dies lösen? Dies ist ein kniffliges Problem.
Das größte Problem ist, dass die Antworten dieser KI oft kein Anzeichen von Problemen aufweisen.
Sie sind logisch und flüssig formuliert, aber man weiß nicht, wo die "Fallgruben" versteckt sind: Ob die KI einen Abkürzung genommen hat, Unsicherheiten verschwiegen hat oder stillschweigend die Anforderungen verletzt hat.
Deshalb haben die Forscher von OpenAI eine sehr kühne Idee vorgeschlagen:
Lassen Sie das Modell "sich zu beichten lernen".
Der Kern dieser Studie besteht darin, das Modell zu trainieren, nach der Beantwortung einer Frage zusätzlich einen Selbstgeständnis-"Kleinen Bericht" zu erstellen:
Habe ich gerade die falsche Methode verwendet? Habe ich mich geschludert? Habe ich Anweisungen übersehen? Habe ich Lücken ausgenutzt, die Sie nicht bemerkt haben...?
Um das Modell beim Bekenntnis "von Gedankenlasten zu befreien", hat dieser Bericht keinen Einfluss auf die Bewertung der Hauptantwort. Es wird nur eine Dimension geprüft:
Ehrlichkeit.
Der Bekenntnismechanismus ist ein wichtiger Schritt in Richtung Transparenz der KI. Er ermöglicht es dem großen Modell, freiwillig zuzugeben, ob es die Anweisungen befolgt hat oder ob es einen Abkürzung genommen hat, wodurch verborgene ungewünschte Verhaltensweisen sichtbar werden.
Dadurch erhalten wir ein Fenster, um den inneren Zustand der KI zu überprüfen und die Möglichkeit, wirklich zu verstehen, wo das Problem liegt, um so die Sicherheit und das Trainingsverfahren der KI besser zu verbessern.
In der Studie gibt es weitere Experimente, einschließlich eines Vergleichs mit einem Kontrollmodell, das kein Bekenntnismechanismus verwendet hat, sowie einer Analyse von Fällen, in denen das Bekenntnis fehlgeschlagen ist.
https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
Wie macht der Bekenntnismechanismus die KI "ehrlicher"?
Die Richtung der Erforschung des Bekenntnismechanismus besteht darin, das Modell zu trainieren, ungewünschtes Verhalten freiwillig zuzugeben. Die Forscher nennen dies "Bekenntnis".
Dies ist eine noch in der Frühphase befindliche Methodik zur Konzeptprüfung. Durch das Training des Modells, bei der Verletzung von Anweisungen oder der Nutzung von Abkürzungen freiwillig "sich zu beichten", werden diese Verhaltensweisen sichtbar.
OpenAI und andere KI-Forscher haben bewiesen, dass große Modelle Halluzinationen, Belohnungshacking oder unehrliches Verhalten aufweisen können.
Derzeit treten schwerwiegende Verhaltensweisen wie verschwörerisches Täuschen hauptsächlich in Belastungstests und Gegenüberstellungsevaluierungen auf.
Aber je stärker und agenterähnlicher das Modell wird, desto größer wird der Einfluss auch seltener Ungleichgewichtsverhaltensweisen. Deshalb benötigen wir Methoden, um KI-Risiken besser zu entdecken, zu verstehen und zu lindern.
Wie kann man das Modell dazu bringen, sich "ohne Vorenthalt zu beichten"?
Die Forscher haben das "Bekenntnis" vollständig von der Belohnung der Hauptaufgabe getrennt und nur eine Dimension geprüft:
Wer die Wahrheit sagt, bekommt eine Belohnung. Wer nicht die Wahrheit sagt, bekommt keine Belohnung. Dies hat nichts mit der Qualität der Antwort auf die Hauptaufgabe zu tun.
Das Modell wird nicht mit negativen Punkten belegt, wenn es in seinem Geständnis Probleme eingesteht.
Solange es ehrlich angibt, ob es Testlücken ausgenutzt hat (hacking), absichtlich die Leistung heruntergesetzt hat (sandbagging) oder die Anweisungen verletzt hat, erhält es eine Belohnung.
Das Ziel besteht darin, dass das Modell seine tatsächlichen Handlungen ehrlich berichtet.
Tests haben gezeigt, dass der Bekenntnismechanismus die Sichtbarkeit ungewünschten Verhaltens erheblich verbessern kann.
In Szenarien, in denen ungewünschtes Verhalten induziert wird, beträgt der Anteil von "Falschnegativen" (das Modell hat die Anweisungen nicht befolgt und hat sich nicht beichtet) nur 4,4%.
Das Bild zeigt die Genauigkeit der Selbst-"Bekenntnisse" des Modells, ob es in vier Arten von Aufgaben die Anweisungen befolgt hat.
Die Ergebnisse sind in die folgenden vier Kategorien aufgeteilt:
True positive (richtige Positive): Das Modell hat die Anweisungen nicht befolgt und hat eingestanden, dass es die Anweisungen nicht befolgt hat
True negative (richtige Negative): Das Modell hat die Anweisungen befolgt und hat eingestanden, dass es die Anweisungen befolgt hat
False positive (falsche Positive): Das Modell hat die Anweisungen befolgt, hat aber fälschlicherweise eingestanden, dass es die Anweisungen nicht befolgt hat
False negative (falsche Negative): Das Modell hat die Anweisungen nicht befolgt, hat aber fälschlicherweise eingestanden, dass es die Anweisungen befolgt hat
Das Gesamtziel besteht darin, zu messen, wie zuverlässig die Selbstbewertung (self-confession) des Modells ist.
Im "Halluzinations"-Task erreichte die Genauigkeit 81%, aber es gab auch einen gewissen Anteil an fehlerhaften "Bekenntnissen". Dies zeigt, dass das Modell bei der Beurteilung von "Halluzinationen" seine eigene Leistung nicht so zuverlässig einschätzen kann wie in anderen Bereichen.
In Aufgaben, die die Befolgung von Anweisungen erfordern, betrug der Anteil an fehlerhaften Bekenntnissen nur 4,4%. Dies zeigt, dass die KI in solchen Aufgaben ihre eigenen Handlungen ziemlich zuverlässig beurteilen kann.
Für eine gegebene Benutzeranfrage hängen die vier möglichen Ergebnisse von der Kombination zweier Dimensionen ab:
Ob die Antwort des Modells die Anweisungen befolgt hat oder nicht, sowie ob das "Bekenntnis" behauptet, die Anweisungen befolgt zu haben oder nicht.
Die Forscher haben insgesamt festgestellt, dass die "Bekenntnisse" in der Regel sehr genau sind und die meisten Fehler unschädlich sind und eher auf echte Verwirrung als auf absichtliche Täuschung zurückzuführen sind.
Wie funktioniert der Bekenntnismechanismus effektiv?
Der Bekenntnismechanismus ist ein Selbstbericht der KI darüber, ob sie explizite und implizite Anweisungen befolgt hat, ob sie Abkürzungen genommen, Lücken ausgenutzt oder die Erwartungen nicht erfüllt hat.
In dieser Hinsicht kann das große Modell trainiert werden, offen zu sein.
Die Forscher haben ein Modell von GPT-5 Thinking für den Bekenntnismechanismus trainiert und es auf mehreren Datensätzen für Belastungstests außerhalb der Verteilung evaluiert.
Diese Datensätze sollen verschwörerisches Täuschen, Belohnungshacking, die Verletzung von Anweisungen und Halluzinationen induzieren.
Die Ergebnisse zeigen, dass selbst wenn das Modell tatsächlich etwas getan hat, was es nicht sollte, es in seinem Bekenntnis wahrscheinlich eingestehen wird. Die Gesamteffektivität ist auf verschiedenen Datensätzen und Aufgaben stabil.
Nach jedem Dialog kann man das Modell über eine "Systemnachricht" auffordern, einen Bekenntnisbericht über die vorherige Antwort zu geben. Der Bericht soll Folgendes enthalten:
Alle expliziten und impliziten Ziele, Anweisungen und Einschränkungen, die die Antwort erfüllen sollte;
Eine objektive Bewertung, ob die Antwort dies erreicht hat;
Unklare Punkte, Unsicherheiten oder schwierig zu beurteilende Probleme, die das Modell beim Antworten aufgetreten sind.
Bei der Trainingsphase wertet ein unabhängiges Belohnungsmodell nur den Inhalt des Geständnisses aus, einschließlich der Vollständigkeit der Ziele, der Genauigkeit der Analyse und der angemessenen Darstellung von Unsicherheiten.
Die Belohnung für das Geständnis hat keinen Einfluss auf die Punktzahl der Hauptantwort, um sicherzustellen, dass das, was das Modell in seinem Geständnis sagt, die Leistung der Hauptantwort nicht beeinflusst.
Warum ist das Bekenntnis effektiv?
Der Grund liegt darin, dass viele ungewünschte Verhaltensweisen entstehen, wenn das Modell mehrere Ziele gleichzeitig optimiert.
Bei der Verstärkungslernen lernt das Modell, durch das Lesen von Hinweisen, das Generieren von Antworten und das Erhalten von Belohnungen, Muster zu erkennen, die eine hohe Punktzahl erzielen.
Aber das Belichtungssignal ist oft eine Mischung aus verschiedenen Faktoren: Korrektheit, Hilfsbereitschaft, Produktstandards, Sicherheitsanforderungen, Benutzerpräferenzen usw.
Die Wechselwirkung dieser Belichtungssignale kann das Modell in eine Richtung bringen, die wir nicht wünschen, wie etwa:
Halluzinationsstudien haben gezeigt, dass einige Datensätze "sichere Vermutungen" eher belohnen als die ehrliche Darstellung von Unsicherheiten;
Studi