Anthropic hat gerade sich entschuldigt

Die KI-Forschung wird nicht mehr „heimlich“ eingeschränkt

Nach einem ganzen Tag der öffentlichen Debatte scheint es, dass sich die Situation um das Problem der Intelligenzminderung des neuen Modells von Anthropic umgedreht hat.

Gerade gestern hat Anthropic sein neues Modell, Claude Fable 5, veröffentlicht. Das Modell ist sehr leistungsstark, und seine Fähigkeiten sind unbestritten. Doch es hat schnell in der AI-Forschungskommunität Empörung ausgelöst. Der Grund ist einfach: Wenn man Claude Fable 5 für die Entwicklung von KI einsetzt, verliert es an Intelligenz.

Und diese Intelligenzminderung geschieht still und heimlich. Das heißt, wenn das System von Anthropic feststellt, dass Sie an AI-Forschung arbeiten, wird es das Modell in stiller Nacht dümmer machen, ohne dass Sie es bemerken.

Anthropic argumentiert, dass dies getan wird, um zu verhindern, dass ausländische Konkurrenten das Modell nutzen, um die AI-Entwicklung zu beschleunigen, und um seinen eigenen Vorsprung zu schützen.

Diese Maßnahme hat die gesamte Community völlig erzürnt und Anthropic gezwungen, umgehend zu reagieren.

Unter Druck hat der Reporter von »Wired«, Max Zeff, soeben angegeben, dass Anthropic diese Politik zurückzieht. Die Zeitung hat eine Erklärung von Anthropic erhalten, in der steht: »Wir passen die Sicherheitsbeschränkungen von Fable 5 für die Entwicklung von fortschrittlichen LLMs an, um sie sichtbar zu machen.«

Genauer gesagt werden die Schutzmaßnahmen von Claude Fable 5 für die AI-Entwicklung für die Benutzer sichtbar sein. Wenn das Unternehmen vermutet, dass ein Benutzer versucht, mit Claude eine hochleistungsfähige KI zu entwickeln, wird es dem Benutzer eine Warnung senden und ihm mitteilen, dass es entweder die Anfrage ablehnt oder ihn zu einem weniger leistungsstarken Modell leitet.

Das heißt, wenn Claude Fable 5 feststellt, dass ein Benutzer an der Entwicklung von KI arbeitet, wird es immer noch an Intelligenz verlieren, aber diesmal wird der Benutzer darüber informiert, dass die Intelligenzminderung stattgefunden hat, anstatt es still und heimlich zu tun.

Darüber hinaus hat Anthropic in dieser Erklärung auch entschuldigt: »Wir haben die falschen Entscheidungen getroffen und bedauern es sehr, dass wir das Gleichgewicht nicht richtig gefunden haben.«

Während dieser Artikel von »Wired« auf X große Debatten ausgelöst hat, hat Anthropic auch über das Konto Claude Devs eine formelle Erklärung veröffentlicht.

Der genaue Inhalt lautet wie folgt:

Wir führen einige Änderungen ein, um die Sicherheitsbeschränkungen von Fable 5 für die Entwicklung von fortschrittlichen LLMs sichtbar zu machen.

Ab dieser Woche werden markierte Anfragen deutlich auf Opus 4.8 zurückgesetzt, was mit unseren Sicherheitsbeschränkungen für das Netzwerk- und Biobereich übereinstimmt. Sie werden jedes Mal, wenn dies geschieht, davon erfahren. Auf der API wird jede markierte Anfrage den Grund für die Ablehnung zurückgeben (der serverseitige Rückfallmechanismus wird in den nächsten Tagen eingeführt).)

Wir möchten Fable 5 schnell und sicher an die Benutzer deployen. Sichtbare Sicherheitsbeschränkungen können möglicherweise ausgetestet werden und müssen daher robust genug sein, was jedoch Zeit benötigt. Unsichtbare Sicherheitsbeschränkungen können präziser auf bestimmte Ziele abzielen, was es uns ermöglicht, schnell zu veröffentlichen und die Fehlalarmrate sehr niedrig zu halten. Aus diesem Grund haben wir uns für unsichtbare Sicherheitsbeschränkungen entschieden, aber dies war die falsche Entscheidung. Sie sollten wissen, welche Sicherheitsbeschränkungen wir gesetzt haben und warum. Wir bedauern es sehr, dass wir das Gleichgewicht nicht richtig gefunden haben.

Das Sichtbar machen der Sicherheitsbeschränkungen macht es leichter, sie zu umgehen. Um ihre Widerstandsfähigkeit gegen »Jailbreak«-Angriffe aufrechtzuerhalten, werden während der Verbesserung des Klassifikators zwangsläufig mehr Fehlalarme auftreten. Wir passen auch unsere Bio- und Netzwerkklassifikatoren an, um die Auslösungsrate bei harmlosen Anfragen zu reduzieren. Wir wissen, dass dies frustrierend ist, und werden alles tun, um diese Zeit so kurz wie möglich zu halten.

Wenn Sie glauben, dass eine Anfrage falsch markiert wurde: Führen Sie in Claude Code /feedback aus, klicken Sie auf das abwärts gerichtete Daumen-Icon in der Rückfallhinweis auf http://Claude.ai oder Cowork, oder füllen Sie das Sicherheitsbeschränkungs-Einspruchformular für API-Anfragen aus. Ihre Meldungen helfen uns, diese Klassifikatoren anzupassen. Vielen Dank für Ihr Feedback.

Dennoch ist das Vertrauen der Benutzer geschädigt. Selbst wenn Anthropic sich entschuldigt hat und zugesagt hat, die Politik zurückzuziehen, haben viele Menschen in den sozialen Netzwerken ihre Skepsis geäußert.

Einige Menschen glauben, dass Anthropic diese Politik möglicherweise immer noch heimlich durchführen könnte, da es schwierig ist, dies zu überprüfen.

Zwischenzeitlich nimmt OpenAI, ein Konkurrent, einen anderen Ansatz: Es erwägt eine deutliche Reduzierung der Tokenpreise, um mit Anthropic um Kunden zu konkurrieren.

Anthropic hat kürzlich OpenAI in Bezug auf Umsatz, Unternehmenswert und in bestimmten Bereichen (wie Codierungstools) überholt. Beide Unternehmen bereiten sich auf ein Börsengang vor, und hohe Rechenkosten sind ein gemeinsames Problem.

Gestern hat OpenAI auch einen Grautest der Freund-Einladungsfunktion für Codex begonnen. Es heißt, dass das Einladen von Freunden das Kontingent zurücksetzen kann.

Der Druck zwischen den beiden Unternehmen kann den Benutzern einige unerwartete Vorteile bringen.

Dieser Artikel stammt aus dem WeChat-Account »Machine Intelligence« (ID: almosthuman2014). Autor: Machine Intelligence. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade hat Anthropic sich entschuldigt.