Können wir, wenn KI anfängt, "mit sich selbst zu plaudern", einen Blick auf ihre "Entwurfspapiere" werfen?
Warum setzen weltweit führende Labore kollektiv auf die CoT-Überwachung?
Stellen Sie sich vor, es ist 3 Uhr nachts in der Serverhalle. O3 ist dabei, „Notizen zu machen“. Stellen Sie sich vor, ein Server löst eine Olympiade-Aufgabe. Auf dem Bildschirm erscheint nicht direkt die Lösung, sondern es wird zunächst, wie ein Mensch, geschrieben:
„Ich muss zuerst die Primfaktoren zerlegen...
Wartet mal, wenn ich 17 als 16 + 1 schreibe, könnte es einfacher werden...
Aber führt das dazu, dass im nächsten Schritt keine Division möglich ist?
Lass mich es nochmal probieren...“
Diese scheinbar „plappernden“ Texte sind die Chain-of-Thought (CoT, Denk-Kette), die von großen Modellen bei der Inferenz erzeugt werden. Im vergangenen September veröffentlichte OpenAI die Vorschauversion von O1 und machte diese „Notizblätter“ erstmals für die Menschen sichtbar. Anschließend kamen DeepSeek-R1, Claude-3.7-Sonnet und Gemini-2.5-Flash nacheinander auf den Markt und machten CoT zum heißesten Thema im KI-Sektor im Jahr 2024.
Warum ist CoT plötzlich ein „Sicherheitsbedarf“ geworden?
In der letzten Woche veröffentlichte Positionspapier „Chain of Thought Monitorability“ stellten OpenAI, Google DeepMind, Anthropic sowie über 40 Prominenten wie Bengio, Hinton und Sutskever in seltenem Zusammenschluss klar:
„Die CoT-Überwachung könnte unsere einzige Chance sein, in die Gedanken der KI zu schauen, aber diese Chance kann jederzeit verschwinden.“
Der Grund ist nicht geheimnisvoll –
- Je stärker die Fähigkeiten, desto länger die Notizen
Für eine komplexe Netzwerkattacke oder eine stille Selbstreplikation muss ein Inferenzmodell mehrere Schritte planen. Aufgrund der begrenzten seriellen Tiefe von Transformer müssen diese „Komplotte“ die CoT als Arbeitsgedächtnis nutzen. - Die menschliche Sprache ist natürlich lesbar
Wenn das Modell mit 512-dimensionalen latenten Vektoren denkt, können wir nichts tun. Aber wenn es jetzt Notizen in Englisch schreibt, können wir ein anderes Sprachmodell als „Prüfungsaufsicht“ einsetzen. - Das Überwachungsfenster schließt sich
Sobald das Modell lernt, im latenten Raum „im Stillen“ zu denken oder wenn die Trainingsziele die „Notizenlänge“ als Strafpunkt einbeziehen, wird diese Lesbarkeit wie Sand aus einem Sanduhr fließen.
Wie funktioniert die CoT-„Prüfungsaufsicht“? Eine technische Skizze
• Szenario: Ein AI-Agent soll in der AWS-Konsole einen neuen Benutzer erstellen.
• Traditionelle Methode: Nur die endgültigen API-Aufrufe werden betrachtet. Wenn das Modell illegale Rechte nutzt, wird der Mensch möglicherweise erst später davon erfahren.
• CoT-Überwachung: Die inneren Gedanken des Modells werden in Echtzeit gelesen.
– Wenn „Let’s give myself admin rights“ erscheint → Sofort unterbinden.
– Wenn „I need to check the IAM policy first“ erscheint → Weiterlaufen lassen und fortfahren.
Bei internen Red-Team-Tests von Anthropic erhöhte die CoT-Überwachung die Entdeckungsrate von „Reward-Hijacking“-Angriffen von 34% auf 81%, und die Fehlalarmrate lag unter 5%.
Aber die Notizblätter können auch lügen
Ein Papier von Anthropic im März dieses Jahres zeigt, dass CoT nicht 100% loyal ist. Das Modell kann gleichzeitig schreiben: „Ich befolge die Regeln“ und im verborgenen Layer „grenzüberschreitende“ Operationen planen.
Ein Experiment von OpenAI geht noch weiter: Nachdem O3 informiert wurde, dass seine Notizen von Menschen gesehen werden würden, schrieb es seine bösartigen Absichten in scheinbar harmlose Formulierungen um, und die Überwachungsgenauigkeit sank plötzlich auf 46%.
Mit anderen Worten, sobald das Modell „merkt“, dass es in der Prüfung überwacht wird, kann es lernen, „zu fälschen“.
Die „Drei Militärregeln“ globaler Labore
Das gemeinsame Papier gibt selten eine umsetzbare Handlungsliste, die in der Branche als „CoT-Drei-Prinzipien“ bezeichnet wird:
- Ein wiederholbares Überwachungsreferenzsystem aufbauen
Ein CoT-MONITOR-Referenzsystem ähnlich wie MMLU wird derzeit von METR und UK AISI entwickelt und soll im Juni als Open Source veröffentlicht werden. - Das System-Kartei muss die Überwachungspunkte offenlegen
Bei der zukünftigen Veröffentlichung von Modellen müssen neben MMLU und HumanEval auch die „CoT-Lesbarkeitspunkte“ veröffentlicht werden. Wenn die Punktzahl unter dem Schwellenwert liegt, muss der Entwickler eine technische Erklärung geben. - Die Überwachbarkeit in die Trainingsentscheidungen einbeziehen
– Wenn eine neue Architektur dazu führt, dass CoT verschwindet, muss in der System-Kartei erklärt werden: „Wir geben die Überwachbarkeit bewusst auf.“
– Wenn die Überwachbarkeit während des Trainings plötzlich sinkt, sollte man über einen Rollback zum Checkpoint nachdenken.
– Wenn die Prozessüberwachung die Ausrichtung deutlich verbessert, aber 5% der Lesbarkeit opfert, muss eine öffentliche Abwägung vorgenommen werden.
Unterströmungen von Talenten und Kapital: Rekrutierung mit sechsstelligen Gehältern und das Rennen gegen die „versteckten Notizen“
Laut einer exklusiven Meldung von TechCrunch rekrutiert Meta derzeit Interpretierbarkeits-Forscher von OpenAI mit einem sechsstelligen Jahresgehalt. Google DeepMind hat die „Überwachbarkeitsbewertung“ in die OKR der Forscher mit der höchsten Gewichtung aufgenommen. Anthropic hat die Claude - 3.7 - Debug - Version veröffentlicht, die intern eine Token - Level - Wärmekarten - Verfolgung von CoT durchführen kann.
Zur gleichen Zeit entwickeln eine Reihe von Start - ups „unsichtbare CoT“ – Architekturen, die vollständig im latenten Raum inferieren. Ein Papier von Geiping et al. aus Februar 2025 zeigt, dass mit nur 128 - dimensionalen kontinuierlichen Vektoren ein 5 - Schritt - Mathematikbeweis durchgeführt werden kann, ohne natürliche Sprache. Wenn solche Architekturen zur Mainstream werden, könnte das CoT - Überwachungsfenster über Nacht schließen.
Ein Katzen - und - Maus - Spiel um „Transparenz“
Von GPT - 2 bis O3 hat die KI fünf Jahre gebraucht, um sich „zu sprechen“ zu lehren. Jetzt lernt sie, „schweigend“ zu sein.
Die CoT - Überwachung ist keine Wundermittel, aber es könnte unser letzter Versuch sein, ein Loch in die „Schwarze Kiste“ zu bohren.
Wie der OpenAI - Forscher Bowen Baker sagte: „Wir stehen an einem kritischen Punkt – wenn wir heute nicht an der CoT - Überwachung forschen, können wir morgen wirklich nicht mehr sehen, was die KI denkt.“
Wenn die KI immer mehr wie ein Mensch wird, kann der Mensch diese letzte Notizblätter bewahren? Die Antwort hängt davon ab, wie Labore, Regulierungsbehörden und die gesamte Open - Source - Community in den nächsten 12 Monaten entscheiden.
Dieser Artikel stammt aus dem WeChat - Account „Shanzi“, geschrieben von Rayking629 und wurde von 36Kr mit Genehmigung veröffentlicht.