Sind Agenten ein neuer Angriffspunkt? Was OpenAI intern prüft, bevor ein Modell online geht - Vorstandsmitglieder geben erste ausführliche Erklärungen

Heute ist die echte Herausforderung der KI-Sicherheit nicht mehr nur, ob das Modell falsche Dinge sagt.

In den letzten Jahren konzentrierten sich die meisten Diskussionen über KI hauptsächlich auf das Wachstum der Modellfähigkeiten selbst: Stärkere Inferenzfähigkeiten, längere Kontextverarbeitung, menschenähnlichere Interaktionsweisen und immer autonomere KI-Agenten. Doch aus Sicht von Zico Kolter, Mitglied des Vorstands von OpenAI und Leiter der Machine-Learning-Abteilung an der Carnegie Mellon University, ist das, was wirklich beachtenswert ist, nicht nur die Verbesserung der Fähigkeiten an sich, sondern dass KI-Systeme in eine neue Phase des "Selbstgenerierens, Selbstverstärkens und Selbstausweitens" eintreten. Die Branche hat insgesamt immer noch keine hinreichend klare Vorstellung davon, was diese Veränderung eigentlich bedeutet.

Das Besondere an Kolter ist, dass er nicht aus einer einzigen Perspektive über die Risiken der KI spricht. Als Vorsitzender des Sicherheits- und Sicherheitskomitees (SSC) von OpenAI und einer der weltweit wichtigsten Forscher auf dem Gebiet der KI-Sicherheit befindet sich Kolter seit langem an der Schnittstelle zwischen der Entwicklung von Spitzenmodellen, der Sicherheitsgovernance und der Forschung zu Angriffen und Verteidigungen in der KI.

In einem kürzlich geführten, fast zweistündigen tiefgehenden Gespräch sprach er systematisch über das Prüfungsverfahren für die Veröffentlichung von Modellen bei OpenAI, warum stärkere Modelle nicht automatisch höhere Sicherheit bedeuten und warum Prompt-Injection ein zentrales Risiko in der Ära der KI-Agenten wird.

Im Gegensatz zu vielen vagen Diskussionen über die Risiken der KI hat Kolter eine sehr technische Perspektive. Er betont wiederholt: Die echten Herausforderungen in der heutigen KI-Sicherheit liegen nicht mehr nur darin, "ob das Modell etwas Falsches sagt". Da KI-Agenten nun in der Lage sind, langfristige Aufgaben auszuführen, Werkzeuge aufzurufen und Zugang zu realen Systemen zu haben, erweitert sich die Angriffsfläche der KI rapide, und das Sicherheitsystem muss sich ebenfalls synchron entwickeln.

Der folgende Text ist aus dem Interviewvideo zusammengefasst. InfoQ hat ihn unter Beibehaltung der ursprünglichen Bedeutung gekürzt und bearbeitet.

Was passiert vor der Veröffentlichung eines neuen Modells?

Mat: In den letzten Jahren bist du zu einer der einflussreichsten Personen auf dem Gebiet der KI-Governance und KI-Sicherheit geworden. Ich denke, ein guter Einstiegspunkt wäre, zunächst über deine Rolle bei OpenAI zu sprechen. Du bist vor einigen Jahren dem Vorstand von OpenAI beigetreten und bist jetzt auch Mitglied des Sicherheitskomitees. Könntest du uns helfen zu verstehen, wo genau du in OpenAI stehst und welche Aufgaben du hast?

Zico Kolter: Natürlich. Ich bin im August 2024 dem Vorstand von OpenAI beigetreten. Kurz darauf habe ich die Vorsitzschaft des Sicherheits- und Sicherheitskomitees (SSC, Safety & Security Committee) übernommen.

Dieses Komitee ist hauptsächlich für die Überwachung der Sicherheitsaspekte im Modellentwicklungsprozess verantwortlich. Genauer gesagt, überwacht es das gesamte Governance-System von OpenAI bei der Modellentwicklung und der Sicherheitsgovernance.

Konkret gibt es innerhalb von OpenAI eine sehr große Sicherheitsorganisation, die aus vielen verschiedenen Teams besteht, die jeweils für verschiedene Ebenen der Sicherheitsarbeit zuständig sind. Beispielsweise das Safety Systems Team (Sicherheitssystemteam), das Preparedness Team (Bereitschaftsbeurteilungsteam), die Alignment Teams (Ausrichtungsteams), die Model Policy Teams (Modellrichtlinienthemen) und viele andere Teams mit unterschiedlichen Aufgaben.

Die Aufgabe des SSC besteht im Wesentlichen darin, diese gesamte Systematik auf Governance-Ebene zu überwachen. Die praktische Arbeit umfasst: Treffen mit diesen Teams, um zu erfahren, was sie tun; Stellen von Fragen zur Modellsicherheit; Erkundigen über die Vorbereitungen vor der Modellveröffentlichung; Verständnis dafür, wie sie verschiedene Sicherheitsmechanismen (Guardrails) gestalten und implementieren. Wir nehmen nicht direkt an der konkreten Forschung und Entwicklung teil, sondern an der Überwachung des gesamten Prozesses.

Eine Aufgabe des SSC, die eher öffentlich ist und von außen leichter beobachtet werden kann, ist die Prüfung vor der offiziellen Veröffentlichung eines Modells. Vor der Veröffentlichung eines wichtigen Modells organisiert das SSC eine große Prüfungsbesprechung, an der viele Teammitglieder teilnehmen. OpenAI hat viele Standards für die Modellveröffentlichung, wie z. B. die "Preparedness" (Bereitschaft), über die wir später ausführlicher sprechen können.

Das Team legt uns eine Vielzahl von Materialien vor, darunter Informationen über die Modellfähigkeiten, Sicherheitstestergebnisse, Berichte von Drittanbieter-Evaluierungen und verschiedene Risikoanalysen. Basierend auf diesen Inhalten entscheiden wir, ob diese Modelle den von OpenAI festgelegten Richtlinien und Standards entsprechen. Im Wesentlichen führt das Team zuerst die interne Arbeit durch und berichtet uns dann. Wenn wir der Meinung sind, dass noch weitere Fragen geklärt werden müssen, können wir die Veröffentlichung des Modells verweigern.

Mat: Wie genau verläuft dieser Prozess? Rufst du beispielsweise Sam an und sagst: "GPT-5.5 kann jetzt nicht veröffentlicht werden"?

Zico Kolter: In der Realität ist es eher so, dass wir nach der Besprechung eine Erläuterungsemail oder ein Memorandum schreiben und sagen: "Wir müssen noch zusätzliche Informationen oder weitere Verifikationen sehen."

Mat: Passiert so etwas oft oder ist es eher ein sehr spezieller Fall?

Zico Kolter: Ich möchte hier nicht zu viele Details über den konkreten Prozess preisgeben. Aber im Allgemeinen veranstalten wir bei jeder Veröffentlichung eines wichtigen Modells eine solche Besprechung, und die Kommunikation beginnt oft schon lange vor der offiziellen Veröffentlichung. Das Komitee unterhält kontinuierlichen Kontakt mit den Forschern, um die Entwicklung der Modelle zu verfolgen, so dass es normalerweise keine "plötzlichen Überraschungen" gibt. Im Wesentlichen handelt es sich hier um eine Überwachungsrolle.

Ich weiß, dass das Thema "Unternehmensgovernance" nicht besonders aufregend klingt, aber wenn du mit "corporate governance" (Unternehmensgovernance) vertraut bist, ist es tatsächlich ähnlich wie das Audit-Komitee im Vorstand. Das Audit-Komitee überwacht die Finanzen, kommuniziert regelmäßig mit dem CFO und prüft die an die SEC abgegebenen Materialien. Ich denke, dass KI-Unternehmen ebenfalls ähnliche Governance-Mechanismen einführen müssen. Da die KI zu einer riesigen Branche geworden ist, bedarf es eines solchen Niveaus an Überwachung und Garantien. Deshalb hoffe ich sehr, dass in Zukunft mehr KI-Unternehmen ähnliche Institutionen wie das "Sicherheits- und Sicherheitskomitee" – unabhängig von ihrem konkreten Namen – einführen, die speziell für die Überwachung des Modellveröffentlichungs- und Governance-Prozesses zuständig sind.

Mat: Ich stimme zu. Als VC, der häufig an Audit-Komitees und Gehaltskomitees teilnimmt, weiß ich, dass Unternehmensgovernance normalerweise nicht das aufregendste Thema ist. Aber wenn die Modelle möglicherweise einen großen Einfluss auf die ganze Welt haben können, ändert sich die Wichtigkeit dieser Sache völlig. Du hast erwähnt, dass es innerhalb von OpenAI viele Teams gibt, die sich mit Sicherheit und Sicherheitsaspekten befassen. Könntest du noch genauer erklären, wie diese Teams intern organisiert sind?

Zico Kolter: Natürlich. Die Organisationsstruktur dieser Teams kann sich tatsächlich etwas ändern. Ich möchte nicht zu stark auf die konkrete Architektur eingehen, da sie nicht der Kernpunkt ist. Wichtig ist, was diese Teams jeweils tun.

Nehmen wir beispielsweise das Preparedness Team (Bereitschaftsteam) bei OpenAI. Das Preparedness Framework (Bereitschaftsrahmen) selbst ist öffentlich zugänglich. OpenAI hat das entsprechende Framework bereits veröffentlicht. Ich denke, die erste Version wurde im Februar 2024 veröffentlicht – sogar noch bevor ich dem Vorstand beigetreten bin. Später wurde dieses Framework auch mehrmals aktualisiert.

Das sogenannte "Preparedness" ist im Wesentlichen ein Dokument, das festlegt, welche Sicherheitsbedingungen erfüllt werden müssen, wenn die Modellfähigkeiten bestimmte Schwellenwerte erreichen. Ich denke, dass dies ein sehr guter Ansatz für die Sicherheit bei der Modellveröffentlichung ist. Natürlich möchte ich betonen, dass nicht alle KI-Sicherheitsprobleme diesem Framework entsprechen.

Es richtet sich hauptsächlich an "katastrophale Risiken" (catastrophic harms). Die Grundidee ist, dass wenn die Modellfähigkeiten ein bestimmtes Niveau erreichen, diese Fähigkeiten einerseits in vielen positiven Szenarien eingesetzt werden können, andererseits aber auch von böswilligen Akteuren missbraucht werden können. Beispielsweise steigt das Risiko, dass ein Modell mit starken biologischen Kenntnissen für schädliche Zwecke eingesetzt wird, mit zunehmender Fähigkeit. Das Gleiche gilt für die Netzwerksicherheit. Natürlich möchten wir, dass das Modell bei der Erkennung und Behebung von Softwarelücken helfen kann, da dies eine der wertvollsten Anwendungen der KI ist. Aber das Problem ist, dass solche Fähigkeiten von Natur aus eine "dual-use" (Doppelnutzung) -Eigenschaft haben – sie können sowohl für die Verteidigung als auch für den Angriff eingesetzt werden.

Das Ziel des Preparedness Frameworks besteht darin, diese Risikotypen systematisch aufzulisten, einschließlich: Biologische Risiken (bio risk), Netzwerksicherheitsrisiken (cyber risk), Risiken der KI-Selbstverbesserung (AI self-improvement risk), und dann durch Benchmark-Tests zu bewerten. Einige dieser Bewertungen werden von OpenAI durchgeführt, andere von externen Institutionen.

Dann legt das Framework fest, welche Sicherheitsmechanismen erforderlich sind, damit das Modell betrieben oder veröffentlicht werden kann, wenn die Modellfähigkeiten einen bestimmten Schwellenwert erreichen. Dies ist die Grundidee des "Preparedness".

Ich denke, dass die Branche in diesem Bereich bereits ziemlich gute Standards etabliert hat. Nicht nur OpenAI hat ein Preparedness Framework, sondern auch Anthropic hat RSP (Responsible Scaling Policies), und Google DeepMind hat das Frontier Model Framework. Viele Unternehmen setzen ähnliche Ansätze um.

Natürlich möchte ich nochmal betonen: Dies ist nur ein Teil des gesamten Bildes der KI-Sicherheit, da es viele Risiken gibt, die nicht unter "katastrophaler Missbrauch" fallen. Einige Probleme betreffen eher das Verhalten des Modells, wie z. B. was das Modell ablehnen sollte, was es erlauben sollte und wie es in bestimmten Szenarien reagieren sollte. Es gibt auch einige Risiken, die auf die "Gesellschaftssystemebene" hinausgehen. Sie werden nicht durch die Veröffentlichung eines einzelnen Modells verursacht, sondern sind das Ergebnis der kontinuierlichen Entwicklung der gesamten KI-Ökosysteme.

Ich denke, dass ein offensichtlicher Trend ist, dass die KI-Sicherheit sich von "Modellproblemen" hin zu "Ökosystemproblemen" entwickelt. Menschen beginnen nicht mehr nur zu fragen, "was ein einzelnes Modell kann", sondern "welche Fähigkeiten das gesamte KI-System insgesamt hat". Deshalb müssen alle diese Probleme in den Bereich der KI-Sicherheit einbezogen werden. Dies ist auch der Grund, warum es innerhalb von OpenAI so viele verschiedene Sicherheitsteams gibt. Und das "Preparedness" ist nur ein relativ klarer, öffentlicher und institutionalisierter Rahmen für die Governance der Modellveröffentlichung.

Größere Modelle sind nicht automatisch sicherer

Mat: Du hast erwähnt, dass OpenAI, DeepMind und Anthropic verschiedene Sicherheitsframeworks und Governance-Mechanismen vorantreiben. Aus Sicht der gesamten Branche, wie schätzt du das Wachstum der KI-Sicherheitsgovernance und der Sicherheit im Vergleich zu den Modellfähigkeiten selbst ein? Wir haben ja deutlich gesehen, dass die Modellfähigkeiten in einem erstaunlichen Tempo zunehmen. Denkst du, dass die Fortschritte im Bereich der KI-Sicherheit im Allgemeinen diesem Tempo folgen können?

Zico Kolter: Ich denke, dass der Bereich der Sicherheit sich sicherlich verbessert und viele Erfolge erzielt hat. Das Problem ist – wie du sagtest – dass sich die Modellfähigkeiten ebenfalls rasant entwickeln. Objektiv betrachtet sind die gegenwärtigen Modelle in vielen quantifizierbaren Dimensionen tatsächlich sicherer als vor einem Jahr. Ihre Sicherheitsmechanismen sind schwieriger zu umgehen, und die Gesamtrobustheit hat sich verbessert. In vielen praktisch testbaren Szenarien treten weniger Fälle von "misalignment" (Abweichung vom erwarteten Verhalten) auf. Ich erinnere mich, dass Jan Leike von Anthropic früher auf Twitter einige Diagramme geteilt hat, die den Rückgang der Abweichungen vom erwarteten Verhalten im Laufe der Zeit zeigen. Daher werden die Modelle tatsächlich kontinuierlich besser, wenn man von einer sehr praktischen Perspektive ausgeht.

Allerdings passiert gleichzeitig etwas anderes: Die "Kontrollfläche" der Modelle erweitert sich in einem bisher nie dagewesenen Tempo. Die Modelle können immer mehr Aktionen ausführen, und die Art und Weise, wie die KI in reale Systeme integriert wird, wird immer komplexer. Sie dringt in die Infrastrukturen ein, die wir täglich nutzen. Und die Autonomie, die den Agentensystemen (agentic systems) verliehen wird, ist weitaus größer als vor einem Jahr. Das eigentliche Problem ist also: Kann die Verbesserung der Sicherheitsfähigkeiten dem Wachstum des KI-Einsatzes in der Realität folgen?

In gewisser Weise zeigt es sich, dass die Tatsache, dass diese Modelle noch stabil funktionieren, beweist, dass die Fortschritte in der Sicherheit tatsächlich wirksam sind. Aber die zentrale Herausforderung in der Zukunft besteht darin, sicherzustellen, dass die Sicherheitsmaßnahmen mindestens so schnell voranschreiten wie die KI in die Realität eindringt und dort verbreitet wird.

Dies erfordert kontinuierliche Investitionen. Nicht nur die Anbieter der Modelle, sondern auch externe Sicherheitsinstitute und schließlich die Endbenutzer müssen Verantwortung übernehmen. Denn in der Realität setzen wir die KI in immer mehr Bereichen ein, und sie wird zu einer allgegenwärtigen Basisfähigkeit. Die Frage ist nicht mehr, "ob wir die KI einsetzen", sondern: Wie können wir sicherstellen, dass die Sicherheitsmechanismen der Entwicklung der Modellfähigkeiten folgen können?

Mat: Interessant. Ich möchte dich weiter befragen, was du gerade erwähnt hast – werden die Modelle sicherer, wenn sie stärker werden? Ich weiß, dass du das bisher größte Red-Team-Angriffskonkurrenz für KI-Agenten organisiert hast, bei der insgesamt 1,8 Millionen Angriffsversuche durchgeführt wurden. Was war das Endergebnis? Welche Beziehung besteht zwischen der Modellfähigkeit und der Verwundbarkeit?

Zico Kolter: Dieses Projekt habe ich während meiner Zeit bei Gray Swan durchgeführt. Gray Swan ist ein von mir vor mehr als zwei Jahren gegründetes KI-Sicherheitsunternehmen. Das Phänomen, das wir in dieser Studie beobachtet haben, ist bereits ziemlich verbreitet.

Viele Menschen gehen davon aus, dass wenn ein Modell noch nicht gut in etwas ist, man einfach auf die nächste Generation des Modells warten muss. Und in vielen Bereichen stimmt diese Logik tatsächlich. Wenn du beispielsweise möchtest, dass das Modell bessere mathematische, rechtliche oder Programmierfähigkeiten hat – in der Regel verbessern sich die Fähigkeiten insgesamt, wenn man einfach auf ein größeres Modell, eine bessere Nachtraining oder eine stärkere Optimierung durch Reinforcement Learning wartet. Manchmal verbessert sich das Modell in anderen Fähigkeiten auch, wenn man es nur für die Verbesserung einer bestimmten Fähigkeit trainiert.

Aber bis jetzt haben wir keine ähnliche Regel bei der "Robustheit" beobachtet. Das heißt, wird ein Modell nicht automatisch robuster und resistenter gegen Manipulationen und Angriffe, wenn es größer wird. Natürlich bedeutet das nicht, dass sich die Modelle in diesen Dimensionen nicht verbessern. Sie machen Fortschritte, aber diese Fortschritte müssen bewusst angestrebt werden.

Wenn du wirklich ein robusteres und sicheres Modell haben möchtest, musst du gezielt und speziell an der Sicherheitsfähigkeit des Modells arbeiten. Beispielsweise durch spezielle Sicherheitsausbildung, die Hinzufügung von Eingabe- und Ausgabeüberwachungsmodulen, die Einrichtung zusätzlicher Filterebenen, die Erstellung eines unabhängigen Sicherheit

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Sind Agenten ein neuer Angriffspunkt? Was genau prüft OpenAI intern, bevor ein Modell online geht? Mitglieder des Vorstands geben erstmals ausführliche Erklärungen.

Was passiert vor der Veröffentlichung eines neuen Modells?

Größere Modelle sind nicht automatisch sicherer