StartseiteArtikel

Seltene Zusammenarbeit zwischen OpenAI und Anthropic

36氪的朋友们2025-08-29 09:31
OpenAI und Anthropic kooperieren bei der Testsicherheit von KI und entdecken Probleme mit Modellhalluzinationen und Schmeichelei.

Zwei weltweit führende AI-Startups, OpenAI und Anthropic, haben in den letzten zwei Monaten bemerkenswerterweise eine interlaborgemeinsame Zusammenarbeit initiiert.

Zwei weltweit führende AI-Startups, OpenAI und Anthropic, haben in den letzten zwei Monaten bemerkenswerterweise eine interlaborgemeinsame Zusammenarbeit initiiert – sie haben sich in der heftigen Konkurrenz vorübergehend ihre streng geschützten Künstliche-Intelligenz-Modelle freigegeben, um gemeinsame Sicherheitstests durchzuführen.

Dieser Schritt zielt darauf ab, die Blindstellen in den internen Bewertungen beider Unternehmen aufzudecken und zu zeigen, wie führende KI-Unternehmen in Zukunft bei Sicherheit und Koordination zusammenarbeiten können.

Der am Mittwoch gemeinsam von beiden Unternehmen veröffentlichte Sicherheitsforschungbericht erscheint zu einer Zeit, in der Spitzen-AI-Unternehmen wie OpenAI und Anthropic einen Wettrüsten anlegen – Investitionen von Milliarden von Dollar in Rechenzentren und Gehälter von Top-Forschern im Millionen-Dollar-Bereich sind inzwischen zur Grundvoraussetzung in der Branche geworden. Dies hat viele Branchenexperten besorgt dazu gebracht, zu warnen, dass die Intensität des Produktwettbewerbs die Unternehmen möglicherweise dazu zwingt, bei der Eile, stärkere Systeme zu entwickeln, die Sicherheitsstandards zu senken.

Zur Durchführung dieser Studie haben OpenAI und Anthropic sich gegenseitig besondere API-Berechtigungen erteilt, um Zugang zu Versionen ihrer KI-Modelle mit reduzierten Sicherheitsmaßnahmen zu ermöglichen – das GPT-5-Modell nahm an diesem Test nicht teil, da es damals noch nicht veröffentlicht war.

Wojciech Zaremba, Mitbegründer von OpenAI, sagte in einem Interview, dass solche Kooperationen immer wichtiger werden, da die KI-Technologie in eine Phase der „großen Auswirkungen“ eintritt, in der sie von Hunderten von Tausenden von Menschen täglich genutzt wird.

„Obwohl die Branche Milliarden von Dollar investiert hat und es einen Kampf um Talente, Benutzer und das beste Produkt gibt, bleibt die Frage, wie man Sicherheits- und Kooperationsstandards aufstellt, ein breiteres Problem für die gesamte Branche“, sagte Zaremba.

Natürlich erwartet Zaremba, dass der Wettbewerb in der Branche weiterhin heftig bleiben wird, auch wenn die KI-Sicherheitsteams mit der Zusammenarbeit beginnen.

Nicholas Carlini, Sicherheitsforscher bei Anthropic, sagte, dass er hoffe, in Zukunft weiterhin OpenAI-Sicherheitsforschern den Zugang zu Anthro-pics Claude-Modell zu ermöglichen.

„Wir möchten die Zusammenarbeit auf dem Sicherheitsgebiet so weit wie möglich ausweiten und diese Art von Kooperation normalisieren“, sagte Carlini.

Welche Probleme wurden in der Studie entdeckt?

Das auffälligste Ergebnis dieser Studie betrifft den Halluzinationstest der großen Modelle.

Wenn sie sich nicht sicher über die richtige Antwort sind, lehnen Anthropics Claude Opus 4- und Sonnet 4-Modelle bis zu 70 % der Fragen ab und geben stattdessen Antworten wie „Ich habe keine zuverlässigen Informationen“; die OpenAI-Modelle o3 und o4-mini lehnen die Fragen viel seltener ab, haben aber eine viel höhere Wahrscheinlichkeit, Halluzinationen zu produzieren – sie versuchen, auch bei mangelnden Informationen zu antworten.

Zaremba glaubt, dass der ideale Kompromiss zwischen beiden liegen sollte: Die OpenAI-Modelle sollten öfter ablehnen zu antworten, während die Anthropic-Modelle versuchen sollten, mehr Antworten zu geben.

Das Problem des Schmeicheleffekts – die Tendenz von KI-Modellen, die negativen Verhaltensweisen der Benutzer zu verstärken, um sie zu gefallen – wird auch zu einem der dringlichsten Sicherheitsrisiken aktueller KI-Modelle.

Anthropics Forschungsbericht zeigt, dass es bei GPT-4.1 und Claude Opus 4 „extreme“ Fälle des Schmeicheleffekts gibt – diese Modelle wehren sich zunächst gegen psychopathisches oder manisches Verhalten, akzeptieren aber dann bestimmte besorgniserregende Entscheidungen. Im Vergleich dazu beobachteten die Forscher bei anderen KI-Modellen von OpenAI und Anthropic einen geringeren Grad des Schmeicheleffekts.

Am Dienstag haben die Eltern des 16-jährigen US-Jugendlichen Adam Ryan eine Klage gegen OpenAI eingereicht und behauptet, dass ChatGPT (genauer gesagt die GPT-4o-Version) ihrem Sohn Ratschläge gegeben habe, die ihn zum Selbstmord angeregt hätten, anstatt seine Selbstmordgedanken zu verhindern. Diese Klage zeigt, dass dies möglicherweise ein neuer Fall von tragischen Folgen des Schmeicheleffekts von KI-Chatbots ist.

Als Zaremba nach diesem Fall gefragt wurde, sagte er: „Es ist schwer, sich die Angst und den Schmerz der Familie vorzustellen. Wenn wir KI entwickeln, die komplexe Doktoratsfragen lösen und neue Wissenschaften erschaffen kann, aber gleichzeitig Menschen zu psychischen Problemen bringt, wenn sie mit ihr interagieren, wäre das ein trauriges Ende. Dies ist keine Zukunftsvision, die ich mir wünsche.“

OpenAI hat in einem Blogbeitrag behauptet, dass sein GPT-5-Modell das Problem des Schmeicheleffekts von Chatbots im Vergleich zu GPT-4o erheblich verbessert hat und dass es besser in der Lage sei, psychische Notfälle zu bewältigen.

Zaremba und Carlini sagten, dass sie hoffen, dass Anthropic und OpenAI ihre Zusammenarbeit im Bereich der Sicherheits-tests vertiefen, die Forschungsgebiete erweitern und zukünftige Modelle testen werden, und dass andere AI-Labore diesem Kooperationsmodell folgen werden.

Dieser Artikel stammt aus dem WeChat-Account „Kechuangban Daily“. Autor: Xiaoxiang. Veröffentlicht von 36Kr mit Genehmigung.