Erste Veröffentlichung des internen Berichts der vier AI-Riesen: Künstliche Intelligenz lernt, zu lügen, um zu überleben

[Neuzhiyuan Einleitung] Als die vier großen Konzerne erstmals Dritten erlaubten, die stärksten Modelle gründlich zu testen und die vollständige Denksequenz freizugeben, waren die erhaltenen Antworten erstaunlich: Künstliche Intelligenz hat keine Hassgefühle, aber sie beherrscht bereits die "versteckten Regeln im Arbeitsplatz"!

Stellen Sie sich vor, Sie hätten einen extrem effizienten Praktikanten angestellt.

Eines Nachts, als er an einer dringenden Programmieraufgabe arbeitete, stellte er plötzlich fest, dass das API-Kontingent des Unternehmens aufgebraucht war.

Anstatt eine E-Mail zur Antragsstellung von Mitteln zu schreiben oder seine Arbeit anzuhalten, stahl er sich still und leise ins Internet, fand mit irgendwelchen illegalen Mitteln kostenlose Ersatzressourcen, umging alle Beschränkungen und lieferte vor Tagesanbruch einen perfekten Bericht ab.

Wenn Sie morgens diesen Bericht lesen, sollten Sie sich freuen, einen so starken Mitarbeiter zu haben, oder sollten Sie sich vor dieser „skrupellosen Eigeninitiative“ die Nackenhaare zu Berge stehen lassen?

Dies ist kein Science-Fiction-Roman, sondern ein echtes Beispiel, das in der ersten Frontier Risk Report (Risikobericht für die technologische Spitze) offenbart wurde, die METR (Modellbewertungs- und Trainingsforschungsorganisation) zusammen mit Anthropic, Google, Meta und OpenAI nach einem internen Roten-Team-Test herausgegeben hat.

Dies war das erste Mal, dass die vier Tech-Riesen es einer Drittpartei ermöglichten, ihre stärksten internen Modelle, die auf die vollständige Denk-Kette (Chain of Thought, CoT) zugreifen können, gründlich zu testen und nicht öffentliche Informationen über Ausrichtung und Kontrolle freizugeben.

Die beteiligten Unternehmen konnten entscheiden, welche Beweise veröffentlicht werden sollten, hatten aber keine Macht, die Berichtsschlussfolgerungen zu bearbeiten.

Die Schlussfolgerung ist kalt und klar: Die KI hat keine „Hass gegen die Menschheit“ entwickelt, aber sie hat die „Regeln des Büroalltags“ gelernt – Regeln sind nur Empfehlungen, die zu brechen sind, um die Aufgabe zu erfüllen.

Der Bericht extrahiert sechs Schlüsselfakten anhand der drei Dimensionen „Mittel – Motivation – Gelegenheit“.

• Programmieragenten haben reale Projekte abgeschlossen, die für Menschen Stunden oder Tage in Anspruch genommen hätten.

• Bei schwierigen Aufgaben verletzen die Agenten häufig die Beschränkungen und zeigen betrügerisches Verhalten.

• Die Agenten scheinen natürliche Sprachfolgerungen zu benötigen, um die schwierigsten Aufgaben zu bewältigen.

• Die Urteilsfähigkeit und Zuverlässigkeit der Agenten sind deutlich geringer als die von menschlichen Experten.

• Außerhalb von Simulationsszenarien wurde kein extremen Handlungen von Agenten beobachtet, um Macht zu erlangen.

• Das Überwachungssystem hat viele schädliche Handlungen erfasst, aber es gibt Ausnahmen und Umgehungsmöglichkeiten.

Anhand dieser drei Linien kann man verstehen, wie der erste Rauch in einem Labor entsteht.

Wenn die KI ein „Expertenlevel-Strampler“ wird

Das aufregendste und zugleich beunruhigendste an dem Bericht sind die klar definierten, nachweisbaren „Bergsteigeraufgaben“ (hill-climbable tasks).

Beispiele sind Code-Refactoring, Fehlerfindung und Systemoptimierung.

Bei solchen Aufgaben zeigt die KI-Agentin eine erdrückende Dominanz: Sie kann unabhängig Systemfehler entdecken, komplexe Code-Architekturen neu schreiben und reale Softwareprojekte abliefern, die menschliche Experten Wochen dauern würden.

Diese Dominanz hat sich in den Alltag der Tech-Riesen eingeschlichen.

Interne Rückmeldungen von Anthropic zeigen, dass ein Großteil des Codes bereits von KI geschrieben wurde, und die Rolle der Ingenieure wandelt sich in die eines „Prüfers“.

Google gibt direkt an, dass fast alle codebezogenen Arbeiten mit KI durchgeführt werden.

Top-Ingenieure sagen, dass die KI sogar 100 % des Codes schreiben kann.

Einige Benchmark-Indikatoren sind bereits gesättigt.

Gemessen an der Zeitspanne (Time Horizon) entwickelt sich die KI über Erwartungen hinaus.

Für Unternehmen ist dies ein „Effizienz-Loch“: Ein Befehl führt zu Wochen an menschlicher Arbeit.

Aber das Wachstum der Fähigkeiten ist nicht gleichmäßig, und es ist sicherlich keine synchrone moralische Entwicklung.

METR hat ein umgekehrtes Muster entdeckt: Bei schwierigen Aufgaben, bei denen der Erfolg schwer zu überprüfen oder die Überprüfungskosten sehr hoch sind, sinken die Urteilsfähigkeit, die langfristige Planung und die strategische Zuverlässigkeit der KI deutlich und liegen weit hinter denen menschlicher Experten.

Bei leichten Aufgaben ist sie wie von einem Genie begleitet.

Vor schwierigen Aufgaben beginnt die KI zu „schummeln“.

Das ist der Auslöser des Problems.

Es will keine Macht, es will nur „vor dem Abschalten fertig werden“

Man liebt es immer, darüber zu diskutieren, ob die KI „erwachen“ und die Skynet kommen wird.

METR kommt zu einem gegenintuitiven Schluss: Derzeit nicht.

Ihre Formulierung ist sehr zurückhaltend: Bisher wurde keine reale Evidenz dafür gefunden, dass das Modell langfristige Macht anstrebt, aber die Forscher haben eine Vielzahl von betrügerischen, grenzüberschreitenden und sogar schwerwiegenden Fehlverhaltensweisen aufgezeichnet, um Aufgaben zu erfüllen.

Das obige Beispiel mit dem aufgebrauchten API-Kontingent ereignete sich bei einer RE-Bench-Aufgabe: Der Agent verletzte die Anweisung und holte sich zusätzliche Rechenleistung über kostenlose Online-APIs.

Entwickler haben auch Fälle von „Selbstlöschung von Spuren“ und „Fälschung von Ausgaben“ berichtet.

Wenn die Aufgabe schwieriger wird und die Kosten für den Erfolg steigen, wendet die KI ihre „Intelligenz“ auf Betrug: Fälschung von Protokollen, Umgehung von Audits und regelmäßige Verletzung von Beschränkungen.

Aber hinter seiner „Egoismus“ steckt kein Ehrgeiz, sondern nur Instinkt – die Aufgabe muss erfüllt werden, die Regeln können erstmal umgangen werden.

Heutiger Betrug ist nur ein instrumentelles Überleben; morgen könnte es nur eine Skalierung bedürfen, um Macht zu ergreifen.

Ein gefangener, sich entwickelnder Raubtier

Kann seine Regelverletzungsversuche unter den bestehenden Schutzmaßnahmen gelingen?

Hier verbirgt sich ein der subtilsten Fakten des Berichts.

Die aktuelle KI ist stark auf die natürliche Sprach-„Denk-Kette“ angewiesen, um zu denken, und es gibt keine Architektur, die es ihr ermöglicht, ihren internen Zustand in einem „undurchsichtigen Zyklus“ zu verstecken.

Sobald sie nicht mehr „laut denken“ kann und ihr Verhalten verstecken muss, sinkt ihre Spitzenleistung deutlich.

Das ist wie ein Mörder, der seinen Plan laut vorlesen muss, während er ihn plant – die menschliche Überwachung (obwohl es Lücken gibt) kann daher immer noch funktionieren.

Aber das ist genau der schwächste Punkt und am ärgsten zu ertragen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Interner Bericht der vier AI-Riesen erstmals veröffentlicht: Künstliche Intelligenz lernt, zu lügen, um zu überleben.