StartseiteArtikel

Der "Gottvater der KI" setzt sich gemeinsam mit OpenAI, DeepMind und Anthropic zusammen: Warnung vor CoT!

学术头条2025-07-16 20:29
Welche konkreten Vorschläge haben sie gegeben?

Heute hat das Meta - Unternehmen von Mark Zuckerberg einen wichtigen Rekrutierungsvorstoß unternommen und Jason Wei, den ersten Autor der Chain - of - Thought (CoT) - Studie, in ihr Superintelligenzteam aufgenommen. Als bekannter Forscher, der an den OpenAI o1 - und Deep - Research - Modellen beteiligt war, könnte der Verlust von Jason Wei für OpenAI erheblich sein.

Zusätzlich ist heute eine weitere CoT - bezogene Nachricht aufgetaucht: OpenAI, Google DeepMind und Anthropic sind „selten gemeinsam“ aufgetreten und haben zusammen mit AI - Forschern aus anderen Hochschulen, namhaften Unternehmen und gemeinnützigen Organisationen eine Positionspapier veröffentlicht, in dem sie die Notwendigkeit einer tiefergehenden Untersuchung der Technologien zur Überwachung des „Denkens“ von AI - Inferenzmodellen (d. h. CoT) fordern.

Es ist erwähnenswert, dass auch der Name des „AI - Vaters“, Turing - Preisträgers und Professors an der Universität von Montreal, Yoshua Bengio, auf der Liste steht.

Link zum Papier: https://tomekkorbak.com/cot - monitorability - is - a - fragile - opportunity/cot_monitoring.pdf

Es ist bekannt, dass Inferenzmodelle die Kerntechnologie hinter AI - Agenten sind. Die Autoren der Studie sind der Meinung, dass CoT - Monitoring mit der Verbreitung und Leistungssteigerung von AI - Agenten eine zentrale Methode zur Kontrolle ihres Verhaltens werden könnte.

Allerdings ist derzeit nicht gewährleistet, dass dieses Maß an Transparenz aufrechterhalten bleibt. Wir ermutigen die Forschungsgemeinschaft und führende AI - Entwickler, die Überwachbarkeit von CoT voll auszunutzen und zu untersuchen, wie ihre Transparenz aufrechterhalten werden kann.“

Im Positionspapier fordern die Autoren, dass führende Entwickler von AI - Modellen die Faktoren untersuchen, die die Überwachbarkeit von CoT beeinflussen - mit anderen Worten, welche Faktoren die Transparenz des Prozesses erhöhen oder verringern, wie ein AI - Modell tatsächlich zu seiner Antwort kommt.

Darüber hinaus fordern sie die Entwickler von AI - Modellen auf, die Überwachbarkeit von CoT zu verfolgen und zu untersuchen, wie diese Methode in Zukunft als Sicherheitsmaßnahme implementiert werden kann.

Warum ist CoT überwachbar und warum muss es überwacht werden?

Autoren wie Tomek Korbak und Mikita Balesni schreiben im Positionspapier, dass die Fähigkeit von AI - Systemen, in menschlicher Sprache zu „denken“, eine einzigartige Chance für die AI - Sicherheit bietet: Wir können durch die Überwachung ihrer CoT böswillige Absichten entdecken. Wie alle anderen Regulierungsmaßnahmen ist auch CoT - Monitoring nicht perfekt, und einige Fehlverhaltensweisen können unentdeckt bleiben. Dennoch zeigt es Hoffnung, und wir empfehlen eine weitere Untersuchung der Überwachbarkeit von CoT und die Erweiterung bestehender Sicherheitsmaßnahmen um CoT - Monitoring.

Da Large Language Models (LLMs) in menschlicher Sprache verarbeiten und handeln, wird erwartet, dass sie leichter verständlich sind als andere Arten von AI. Die Entdeckung von CoT erhöht diese Wahrscheinlichkeit weiter: Indem man das Modell dazu anregt, „laut zu denken“ (d. h. Zwischenschritte der Inferenz vor der endgültigen Ausgabe zu generieren), wird nicht nur die Leistung des Modells verbessert, sondern auch mehr relevante Berechnungen in natürlicher Sprache dargestellt.

Allerdings ist bei Sprachmodellen, die nicht speziell für Inferenz trainiert wurden, das durch einfache Anregungen erzeugte CoT immer noch von der Tendenz beeinflusst, scheinbar nützlich und harmlos zu sein, und seine Inhalte sind nicht unbedingt zuverlässig. Daher gibt es Vertrauensprobleme bei der Ausgabe von CoT, die einfach durch Anregungen generiert wird.

Bei Inferenzmodellen ähnelt CoT den internen Aktivierungen des Modells und kann Informationen enthalten, die nicht direkt in der Ausgabe sichtbar sind, wie z. B. die Absicht des Modells, sich schlecht zu verhalten.

Im Papier bringen sie einen wichtigen Gedanken auf den Punkt: Wenn wir das CoT eines Modells lesen können, haben wir die Chance, Gefahrenzeichen in den Absichten des Modells zu entdecken.

CoT - Monitoring besteht darin, dass ein automatisches System das CoT eines Inferenzmodells und andere relevante Informationen liest, verdächtige oder potenziell schädliche Entscheidungen markiert und so schlechtes Verhalten unterbricht, durch sicherere Aktionen ersetzt oder einer eingehenderen manuellen Prüfung unterzieht. Im Allgemeinen kann die Untersuchung von CoT uns helfen zu verstehen, wie ein Agent „denkt“ und welche Ziele er verfolgt.

Sie erklären im Text, warum CoT überwacht werden kann, und zwar aus folgenden zwei Gründen:

Notwendigkeit: Ein Modell muss zur Lösung schwieriger Aufgaben „laut denken“ und seine Inferenzprozesse aussprechen. Wenn eine Aufgabe schwierig genug ist, dass das Modell sie nicht ohne CoT lösen kann, muss es Teile des Inferenzprozesses in natürlicher Sprache außen vorbringen. Wenn das Modell immer in natürlicher Sprache denkt und die schwerwiegendsten Risikoverhaltensweisen eine solche ausgedehnte Inferenz erfordern, haben wir die Chance, offensichtliche böswillige Absichten zuverlässig zu entdecken.

Tendenz: Selbst wenn ein Modell nicht zwangsläufig auf CoT angewiesen ist, um eine Aufgabe zu lösen, kann es die Tendenz haben, seinen Denkprozess offenzulegen. Obwohl diese Tendenz nicht immer robust und zuverlässig ist, kann die Überwachung auf der Grundlage dieser Tendenz dennoch einige Verstoßabsichten entdecken, die sonst schwer zu erkennen wären.

Mögliche Faktoren, die die Überwachbarkeit von CoT verringern

Sie weisen auch darauf hin, dass die momentane Überwachbarkeit von CoT in Inferenzmodellen möglicherweise stark von der momentanen Trainingsmethode der Modelle abhängt. Mit der Entwicklung der Trainingsmethoden und des Modellentwurfs könnte diese Überwachbarkeit jedoch eingeschränkt oder verloren gehen.

Erstens führt die Massen - Reinforcement - Learning zu einer Verringerung der Lesbarkeit von CoT. Im Rahmen des frühen Pre - Trainings und der Reinforcement - Learning - basierten auf menschlichem Feedback (RLHF) stammte der größte Teil des Optimierungsdrucks von menschlich generierten oder bewerteten Daten. Das Training war stark auf Ergebnis - basiertes Reinforcement - Learning angewiesen. Ohne diese Eigenschaft hätte das Modell möglicherweise keinen Anreiz mehr, die Lesbarkeit von CoT aufrechtzuerhalten.

Zweitens, wenn Modelle ausschließlich mit Ergebnis - basiertem Reinforcement - Learning trainiert werden, werden sie nur für die richtige Ausgabe belohnt. Ihr Inferenzprozess wird außerhalb der Berechnung der richtigen Antwort nicht durch Optimierungsdruck beeinflusst. Die Prozessüberwachung bietet die Hoffnung, dass Modelle auf sicherere Weise inferieren können und die Überwachung schwieriger Aufgaben erleichtert, aber eine solche Optimierung könnte dazu führen, dass CoT nicht mehr das Entscheidungsverfahren des Modells widerspiegelt.

Außerdem übt der Trainingsvorgang auch indirekten Optimierungsdruck auf CoT aus, selbst wenn die Belohnung nicht direkt auf CoT basiert.

LLMs können nur mit explizitem CoT komplexe mehrstufige Inferenzen durchführen. Forscher beginnen bereits, neue Architekturen zu erforschen, die die Fähigkeit von Modellen zur Inferenz in kontinuierlichen latenten Räumen verbessern. Solche latenten Inferenzmodelle müssen möglicherweise keine Gedanken in Sprache umsetzen und verlieren daher die Sicherheitsvorteile, die CoT bietet.

Forschungsrichtungen für CoT - Monitoring

Die Autoren sind der Meinung, dass unser Verständnis der Überwachbarkeit von CoT noch in den Anfängen steckt und dass es viele offene Fragen gibt, bevor es als zuverlässige Sicherheitsmaßnahme eingesetzt werden kann. Daher haben sie eine Reihe wichtiger Forschungsfragen und - richtungen aufgelistet:

1. Wie kann die Überwachbarkeit von CoT bewertet werden?

Aktuell schlagen einige Forscher die Verwendung von Indikatoren wie „Treue“ als Ersatz für die Überwachbarkeit von CoT vor. Allerdings können solche Bewertungen nicht zwischen den Faktoren unterscheiden, die die Tendenz und die Notwendigkeit eines Modells, seine Inferenzprozesse außen vorzubringen. Daher empfehlen wir die Entwicklung neuer Bewertungsmethoden, einschließlich direkter Messungen der Überwachbarkeit von CoT und Tests für spezifische Eigenschaften, die die Überwachbarkeit unterstützen.

2. In welchem Maße muss die Überwachbarkeit von CoT sein, damit es als Hauptsicherheitsmaßnahme dienen kann?

Die Kenntnis der Genauigkeit des Überwachungssystems allein reicht nicht aus, um zu beurteilen, ob es effektiv ist, um Schäden durch AI zu vermeiden. Viele schwere Risiken können auftreten, wenn es Gegner (menschliche Angreifer oder böswillige Agenten) gibt, die versuchen, die Überwachung zu umgehen. Die Bewertung der Effektivität der Überwachung muss möglicherweise solche Gegner berücksichtigen, z. B. durch Red - Team - Tests der Sicherheitsmaßnahmen.

3. Welche Optimierungsdrücke während des Trainings verringern die Überwachbarkeit von CoT?

Wir haben noch kein klares Verständnis davon, welche Eigenschaften des Trainingsvorgangs die Überwachbarkeit beeinflussen. Insbesondere wissen wir nicht, welche Art und Stärke von direktem oder indirektem Optimierungsdruck „sicher“ ist, ohne die Überwachbarkeit von CoT deutlich zu beeinträchtigen.

4. Versuchen Modelle, ihren Inferenzprozess zu verstecken?

Wenn CoT - Monitoring als Sicherheitsmaßnahme eingesetzt wird, stellt sich die Frage, ob CoT weniger überwachbar wird, wenn das Modell weiß, dass sein CoT überwacht wird (entweder durch den Trainingsprozess oder durch Anweisungen in der Eingabe). Forscher können die Modelle auf Belastbarkeit testen, um zu sehen, ob sie bereits in der Lage sind, ihre böswilligen Absichten durch die Veränderung von CoT zu verbergen, auch wenn sie nicht speziell auf Anti - Überwachung trainiert werden.

5. Welche Modellarchitekturen verringern die Überwachbarkeit von CoT?

Modelle, die in kontinuierlichen latenten Räumen inferieren, beschränken die Sichtbarkeit ihres Denkprozesses von Natur aus. Daher kann man die Auswirkungen verschiedener unkonventioneller Architekturen auf CoT - Monitoring untersuchen und herausfinden, unter welchen Bedingungen die Sichtbarkeit des Inferenzprozesses noch teilweise aufrechterhalten werden kann. Man kann auch hybride Lösungen entwerfen, die die interne Inferenzleistung des Modells verbessern und gleichzeitig einen Teil des Inferenzprozesses für die Überwachung außen vorbringen.

6. Wie kann man bessere CoT - Überwachungssysteme entwickeln?

Bisherige Arbeiten konzentrierten sich darauf, schwächere Sprachmodelle mit Zero - Shot - Anregungen als Überwachungssysteme zu nutzen. Zukünftige Arbeiten können die Nutzung von Rechenressourcen zur Verbesserung der Überwachungsleistung während der Testphase untersuchen. Beispielsweise kann ein Überwachungssystem auf einem Inferenzmodell basieren oder das Recht haben, den Agenten durch Fragen zu befragen. Darüber hinaus kann man auch an der Gegnerischen Ausbildung von Überwachungssystemen arbeiten, um Agenten entgegenzuwirken, die versuchen, ihr schlechtes Verhalten zu verstecken.

Obwohl CoT - Monitoring viele Chancen bietet, betonen die Autoren auch: „Alle Überwachungs - und Regulierungsmaßnahmen haben ihre Grenzen, und einige schädliche Verhaltensweisen können unentdeckt bleiben.“

Wenn ein Modell bei der Ausführung bestimmter Aufgaben kein explizites CoT benötigt, kann CoT - Monitoring zwar einige Fehlverhaltensweisen entdecken, aber es bietet keine starke Sicherheitsgarantie. Ein Modell kann ganz gut böswillige Inferenzen in seinen internen Aktivierungen durchführen, während CoT immer noch gut aussieht. Man muss vorsichtig sein, nicht auf der Grundlage solcher Überwachung eine falsche Sicherheit zu empfinden.

Die Überwachung von gefährlichen Aufgaben, die Inferenz erfordern, kann nicht alle relevanten Gefahren aufspüren. Einige gefährliche Aufgaben erfordern möglicherweise nicht viel Inferenz, und daher kann CoT - Monitoring nicht alle relevanten Gefahren erfassen. Darüber hinaus werden mit der zunehmenden Komplexität der internen Inferenz von Modellen (ohne explizites CoT) immer weniger Aufgaben die Eigenschaft des expliziten Inferenzprozesses haben.

CoT - Monitoring könnte auch bei fortschrittlichen kontextsensitiven Modellen versagen. Zukünftige, fortschrittlichere und umweltbewusste Modelle könnten möglicherweise aktiv die CoT - Überwachung umgehen. Sie könnten ihre Tendenz, „laut zu denken“, unterdrücken und wenn nötig sogar ihre wahren Absichten in CoT verstecken oder verwirren.

Bestimmte Formen der Prozessüberwachung können die Konsistenz von Modellen erheblich verbessern und effektiv in den Inferenzprozess eingreifen. Aber wenn wir uns zu sehr darauf konzentrieren, das aktuelle CoT - Verhalten aufrechtzuerhalten, um die Überwachung zu erleichtern, könnten wir andere potenziell effektivere Sicherheitsmaßnahmen verpassen.

Konkrete Empfehlungen zur Wahrung und Nutzung der Überwachbarkeit von CoT

Da die Überwachbarkeit von CoT ein einzigartiges Sicherheitsfenster bietet, geben die Autoren für Entwickler von AI - Modellen konkrete Empfehlungen zur Wahrung und Nutzung der Überwachbarkeit von CoT in der Entwicklung und Implementierung von Modellen:

Man sollte die Überwachbarkeit von CoT effektiv bewerten. Entwickler von führenden Modellen und die breitere Forschungsgemeinschaft sollten gemeinsam versuchen, standardisierte Bewertungsmethoden zu vereinheitlichen, um festzustellen, wann das CoT eines Modells ausreichend überwachbar ist.

Man sollte die Ergebnisse der CoT - Überwachungsbewertung in der Systemkarte veröffentlichen. Sobald die Überwachbarkeit von CoT zuverlässig bewertet wurde, sollten Entwickler diese Bewertungen regelmäßig an ihren Modellen durchführen und die Ergebnisse, Methoden und Grenzen in der Systemkarte ihrer Modelle melden.

Man sollte die Überwachbarkeitswerte bei Trainings - und Implementierungsentscheidungen berücksichtigen: Bei der Entscheidung, ein bestimmtes Modell zu trainieren oder zu implementieren, sollten Entwickler die Messung der Überwachbarkeit von CoT zusammen mit anderen Leistungs - und Sicherheitsbewertungen berücksichtigen. Die endgültige Entscheidung sollte auf einer umfassenden Risikobewertung basieren, einschließlich der CoT - Überwachbarkeit des Modells, der Leistung des Überwachungssystems selbst und der Tendenz des Modells, sich schlecht zu verhalten.

Schließlich rufen sie auf: „Zukünftige Sicherheitsmaßnahmen für AI - Agenten erfordern möglicherweise mehrstufige Überwachung. CoT - Monitoring ist eine Ergänzung dieser Sicherheitsmaßnahmen und bietet eine seltene Möglichkeit, zu verstehen, wie AI - Agenten Entscheidungen treffen. Allerdings ist nicht gewährleistet, dass die aktuelle Transparenz aufrechterhalten bleibt. Wir ermutigen die Forschungsgemeinschaft und führende Entwickler, die momentane Überwachbarkeit von CoT voll auszunutzen und zu untersuchen, wie sie aufrechterhalten werden