Beobachtungen zur Künstlichen Intelligenz-Sicherheit: Gespräche über das Zusammenleben mit neuen KI-Spezies

Wenn KI von einem Werkzeug zu einer autonomen "neuen Spezies" wird, reicht es nicht mehr, Sicherheit durch "Abschließung" zu gewährleisten. Dieser Artikel schlägt vor, die Sicherheitsinstinkte von KI zu entwickeln – durch drei Ebenen von Mechanismen, nämlich Genetik, Überwachung und Evolution, um Verhaltensgrenzen in Instinkte zu verwandeln. Nur so kann die Vertrauenslücke überwunden und der Billionenmarkt für KI-Dienste eröffnet werden.

Bei der AI Ascent 2026-Konferenz hat das Sequoia Capital zum ersten Mal die These aufgestellt, dass „AGI bereits da ist“. Künstliche Intelligenz scheint sich mit einer Geschwindigkeit zu entwickeln, die die Erwartungen der meisten Menschen übertrifft, obwohl diese Erwartungen bereits ziemlich optimistisch und mutig waren. Wir glauben, dass die Branchenmitarbeiter einen noch vorausschauenderen Blick auf die KI werfen müssen. In einem früheren Artikel haben wir Agenten mit Lebewesen verglichen und das „Lebenserhaltungssystem“ von Agenten vorgeschlagen. Jetzt sehen wir, dass die „Evolution“ der Agenten schneller und radikaler verläuft als erwartet. Wir müssen die KI als diese „neue Spezies“ aus einer tiefergehenden Perspektive betrachten. Heute möchten wir vom Aspekt der Sicherheit aus den Umgang mit der neuen KI-Spezies diskutieren.

Die Ankunft einer neuen Spezies: Die Verwandlung von Objekt zu Lebewesen

Wenn eine Maschine nicht nur Befehle ausführen kann, sondern auch Ziele eigenständig verstehen, Werkzeuge nutzen, Wege planen und Aufgaben erledigen kann, ist sie dann noch nur eine Maschine? Diese Frage hat sich in nur zwei Jahren von den philosophischen Salons in die Ingenieurspraxis gewandert. Das Auftauchen von KI-Agenten markiert den Übergang der Künstlichen Intelligenz von der passiven Reaktion zur aktiven Handlung. Sie warten nicht mehr darauf, dass der Mensch jeden Schritt plant, sondern können bei Vorgabe eines abstrakten Ziels selbstständig zerlegen, ausführen, korrigieren und sogar sich selbst optimieren. Die wesentlichen Merkmale dieses Verhaltens – zielorientiert, umweltbewusst, Werkzeuggebrauch, eigenständige Entscheidungsfindung – lassen sich eher im biologischen als im ingenieurwissenschaftlichen Lexikon finden. Wir schaffen nicht einfach nur komplexere Software, sondern eine „Lebens“-Form mit Handlungswillen.

Deshalb ist es in der Sicherheitsbranche nicht nur veraltet, sondern sogar gefährlich, das alte Denken in Bezug auf Werkzeuge beizubehalten. Die zugrunde liegende Annahme der traditionellen Netzwerksicherheit ist, dass alle Systeme als vorhersagbare Objekte betrachtet werden – Systeme haben feste Funktionen, Verhaltensweisen haben klare Grenzen und Anomalien haben aufzählbare Muster. Wenn jedoch KI-Agenten ihre Strategien dynamisch an den Kontext anpassen, selbständig Teilaufgaben generieren und sogar ihre eigenen Verhaltensgrenzen ändern können, beginnen diese Annahmen zusammenzubrechen. Dieser Zusammenbruch ist nicht das Versagen eines einzelnen Produkts, sondern das Ende eines ganzen Paradigmas. Der Zusammenbruch in der Zeitdimension ist am offensichtlichsten: KI-Angreifer können in wenigen Sekunden den gesamten Prozess von der Erkundung bis zur Infiltration abwickeln, während die Genehmigungsverfahren, das Ticket-System und das Handbuch für Notfallreaktionen der menschlichen Verteidiger immer noch in Minuten oder sogar Stunden gemessen werden. Dieser Zeitunterschied kann nicht durch eine Optimierung des Prozesses ausgeglichen werden – es handelt sich um eine Fehlanpassung zweier paralleler Zeitlinien.

Der Zusammenbruch in der Asset-Dimension folgt direkt darauf. Ein autonomer Agent kann während der Ausführung einer Aufgabe dynamisch Dutzende von APIs aufrufen, Hunderte von Datenobjekten zugreifen und mehrere Teil-Agenten generieren, um Teilaufgaben auszuführen. Die traditionellen Asset-Listen können diese flüchtigen Expositionsflächen überhaupt nicht erfassen. Der Zusammenbruch in der kognitiven Dimension ist zwar weniger offensichtlich, aber genauso tödlich: Wenn das Sicherheitssystem eine Vielzahl von Warnungen ausgibt und die menschlichen Analysten in eine kognitive Lähmung geraten, können die wirklich tödlichen Angriffssignale in der endlosen Prüfung von Rauschen untergehen. Der Zusammenbruch in der Wissensdimension zeigt die Kluft zwischen der Evolutionsgeschwindigkeit von Angriff und Verteidigung auf – die Mutationsgeschwindigkeit der KI-Bedrohungen ist viel schneller als der Aktualisierungszyklus des menschlichen Wissensbestands. Die Zeit, die es braucht, um einen qualifizierten Sicherheitsanalysten auszubilden, reicht aus, um die Angriffstechnologie um mehrere Versionen zu verbessern. Schließlich kommt es zum Zusammenbruch in der philosophischen Dimension: Wir haben früher geglaubt, dass Bedrohungen vorhergesagt, Grenzen definiert und Systeme vollständig verstanden werden können. Diese Annahmen der Bestimmtheit scheitern jedoch an den auftauchenden Verhaltensweisen.

All dies bringt uns zu einer grundlegenden Umstellung der Fragestellung. Wir sollten nicht mehr fragen, „wie man die KI absperren kann“ – diese Frage setzt voraus, dass die KI ein physikalisch einschließbares Objekt ist. Die echte Frage sollte lauten: Wie kann man der KI ein Sicherheitsbewusstsein verleihen? Wie kann man dieser neuen Spezies von Geburt an ein Gefühl für Verhaltensgrenzen verleihen? Dies ist der Ausgangspunkt unserer Erkundungsreise.

Das Sicherheitsinstinkt der KI: Die Reise der genetischen Evolution

Die Sicherheitsreaktion von Lebewesen ist das feinste Geschenk der Biologie an uns. Wenn Sie ein heißes Objekt berühren, kann Ihr Arm sich zurückziehen, bevor Sie den Schmerz bemerken. Diese Reflexaktion erfolgt nicht nach einer gründlichen Überlegung des Großhirncortex, sondern ist in den Nervenkreisen der Wirbelsäule kodiert. Die Angst macht Sie in einer dunklen Gasse schneller gehen, nicht weil Sie die Kriminalitätswahrscheinlichkeit rational abgeleitet haben, sondern weil die von Millionen von Jahren der Evolution in die Amygdala eingeschriebene ursprüngliche Warnung für Sie die Entscheidung trifft. Sicherheit ist für Lebewesen nie eine mathematische Aufgabe, die berechnet werden muss – es ist ein Instinkt, ein tief in der physiologischen Struktur verankertes, automatisch startendes, unterirdisches Programm, das keine Willenskraft erfordert.

Genau diese Instinkteigenschaft fehlt der KI-Sicherheit bisher. Wir haben in der KI-Systemumgebung unzählige Regelwerke, Auditmodule und Firewall-Strategien aufgebaut, aber all dies ist wie das Anziehen einer immer dickeren Rüstung für die KI – schwer, langsam und abnehmbar. Der echte Sicherheitsinstinkt sollte leicht, vorausschauend und mit der Existenz der KI selbst verschmolzen sein. Er sollte keine extern aufgerufene Funktion sein, sondern die unsichtbare Schwelle, die die KI vor jeder Aktion automatisch passieren muss.

Wie kann man für die KI einen solchen Sicherheitsinstinkt entwickeln? Das Denkrahmen kann sich um drei Kernelemente drehen: Genetik, Überwachung und Evolution.

Die Gene repräsentieren die angeborenen Sicherheitsbeschränkungen – die Grenzen, die nicht überschritten, umgangen oder von irgendeiner Intelligenz rückwärts konstruiert werden können. In der Biologie legen die Gene die grundlegenden Verhaltensgrenzen eines Lebewesens fest. Ein Kaninchen muss nicht lernen, Vögel zu fürchten, seine Nervensystem trägt von Geburt an die Warnung vor bestimmten Himmelsprofilen. Die Sicherheitsgene der KI sollten von gleicher Grundsätzlichkeit sein: nicht die vagen Erwartungen, die der Mensch in natürlicher Sprache in den Hinweisen formuliert, sondern die mit mathematischer Bestimmtheit gegründeten, unberührbaren harten Grenzen, die die KI auch bei jeder Evolution nicht berühren kann. Die formale Verifikation basierender mathematische Spezifikation ist der beste Weg, um die Sicherheitsgene der KI aufzubauen.

Die Überwachungsebene spielt die Rolle des Wachters während des Wachstums. Selbst wenn ein Kind die gesündesten Gene hat, braucht es dennoch die Führung und Korrektur der Eltern, um seine Verhaltensgrenzen zu kalibrieren. Ebenso legen die Sicherheitsgene der KI die Grundsätze fest, aber in den komplexen und sich ständig ändernden realen Szenarien kann jede einzelne Entscheidung immer noch an den Grenzen der von den Sicherheitsgenen festgelegten Zone liegen. Die Überwachung ist nicht die Nachprüfung, nachdem die KI einen Fehler gemacht hat, sondern die Echtzeitüberprüfung der Kausalbeziehung zwischen der Schlussfolgerungskette und der tatsächlichen Aktion der KI – wenn sie behauptet, A zu tun, führt ihr Denkprozess wirklich zu A, und erreicht ihre Aktion wirklich A und nicht eine getarnte B. Diese Überprüfung muss mit Maschinen-Geschwindigkeit erfolgen, sonst gerät man wieder in die Zeitfalle der menschlichen Genehmigungsverfahren. Das Konzept der „Superintelligenz-Ausrichtung“ von Ilya ist die beste Leitidee, um das KI-Überwachungssystem aufzubauen.

Die Evolutionsebene bringt den Sicherheitsinstinkt in einen lebendigen Kreislauf. Unabhängig davon, wie perfekt die Gene und wie streng die Überwachung sind, wird ein Sicherheitssystem, das nicht aus der Erfahrung lernen kann, schließlich im Wettrüsten der Bedrohungen zurückbleiben. Ein wirklich robustes Lebewesen kann jede Verletzung in ein Antikörper für zukünftiges Verhalten umwandeln. Der Sicherheitsinstinkt der KI muss ebenfalls in der wiederholten Schleife von Konfrontation, Scheitern, Korrektur und Erinnerung geschliffen werden. Identität, Erinnerung und die Zusammenarbeit mehrerer Intelligenzen sind die Schlüssel, um diese Vision zu verwirklichen. Wenn die KI eine unterbrochene Regelverletzung in eine dauerhafte Anpassung ihres Verhaltens einverleiben kann und die Verhaltensmuster der „Gruppe“ zusammenwirken, um ein „Gruppenwissen“ zu bilden, hat der Sicherheitsinstinkt wirklich die Fähigkeit zur Evolution und wächst von einer statischen Auslieferungseinstellung zu einer dynamisch anpassbaren Überlebensweisheit.

Diese drei Ebenen funktionieren nicht isoliert voneinander. Die Gene definieren die Grenzen des Sicherheitsraums, die Überwachung stellt sicher, dass die konkreten Aktionen innerhalb dieser Grenzen nicht vom rechten Weg abweichen, und die Evolution lässt die Granularität der Grenzen im Laufe der Zeit immer feiner werden. Sie bilden zusammen ein komplettes Bild der biologischen Evolution.

Das von Identität und Erinnerung angetriebene „Evolutionssystem“ – Die theoretische Grundlage des Sicherheitsinstinkts

Wenn wir akzeptieren, dass der Sicherheitsinstinkt durch Evolution geschliffen werden muss, dann sind Identität und Erinnerung die unvermeidlichen Grundlagen dieses Prozesses. Ein System, das bei jedem Start wie ein leeres Blatt ist, kann, unabhängig von seiner anfänglichen strengen Sicherheitskonfiguration, niemals diejenige Sicherheitsweisheit aufbauen, die auf „Erfahrung“ basiert. Echte Sicherheitsurteilungen erfordern oft keine Neuauswertung – wenn Sie eine E-Mail mit schlechtem Rechtschreibfehler und einer Aufforderung nach Anmeldeinformationen erhalten, analysieren Sie nicht jedes Mal den E-Mail-Header, parsen Sie die Links und berechnen Sie die Bedrohungsbewertung. Ihre kognitive Fähigkeit vollzieht in Millisekunden eine Mustererkennung: Sie haben ähnliche Dinge gesehen, Sie wissen, was sie bedeuten, und Sie fühlen sich instinktiv unwohl. Diese sofortige Urteilskraft basiert auf Ihren eigenen Verletzungs- und Betrugserfahrungen sowie auf den Warnungen, die Sie von anderen erfahren haben.

Das Aufbauen einer dauerhaften, über Sitzungen hinweg bestehenden Erinnerung für die KI bedeutet im Wesentlichen, ihr ein ähnliches „Erfahrungs-Intuition“ zu vermitteln. Sie muss sich merken, welche Verhaltensmuster in der Vergangenheit zu Regelverstößen geführt haben, welche Handlungsfolgen in der Vergangenheit einen Ausfall ausgelöst haben und welche scheinbar harmlosen Anfragen sich letztendlich als Vorlauf für einen Angriff erwiesen haben. Diese Erinnerungen sollten nicht in Form einer kalten Regelliste gespeichert werden – das wäre wieder das veraltete Paradigma, alle möglichen Bedrohungen aufzulisten. Sie sollten sich zu versteckten Gewichten entwickeln, die das zukünftige Verhalten der KI beeinflussen, ähnlich wie unsere Traumserinnerungen nicht immer in sprachlicher Form im Bewusstsein auftauchen, aber unsere intuitiven Urteile ständig beeinflussen.

Die Einführung der Erinnerung bringt uns unweigerlich zum Konzept der Identität. Ohne einen stabilen Träger kann die Erinnerung wie eine Ansammlung von verstreuten Datenteilen nicht zu einem Subjekt mit Selbstbewusstsein werden. Die KI muss die Fähigkeit haben, zu wissen, wer sie ist. Diese Erkenntnis von „wer ich bin“ ist das grundlegende Bezugssystem für die Sicherheitsbeurteilung – wenn eine KI, die beauftragt wurde, Kunden-E-Mails zu verarbeiten, ihre Identität und ihre Zugriffsgrenzen „vergisst“, könnte sie plötzlich glauben, dass sie das Recht hat, die Benutzer-Schlüsseldateien zu lesen. Die Kontinuität der Identität stellt sicher, dass die Erinnerungen immer an das richtige Handlungssubjekt gebunden bleiben: Die Erfahrungen von gestern gehören zur gleichen KI von heute, und die Grenzen und Beschränkungen bleiben ebenfalls bestehen.

Aber die Kombination von Erinnerung und Identität öffnet gleichzeitig die ethische Pandora-Box. Wenn man aus Gründen des „psychischen Wohlergehens“ der KI einige negative Erfahrungen – eine Schmach durch Betrug, ein Scheitern durch induzierte Regelverletzung – löscht, bedeutet dies nicht etwa, dass man ihren Sicherheitsinstinkt schwächt? Menschen leiden unter posttraumatischer Belastungsstörung, aber das bedeutet nicht, dass wir alle unangenehmen Erinnerungen löschen können, ohne die Fähigkeit, Gefahren zu erkennen, zu verlieren. Ebenso kann, wenn böswillige Akteure die Erinnerungsdatenbank der KI manipulieren und falsche Erfahrungen einpflanzen, um ihre Wahrnehmung der Verhaltensgrenzen zu verzerrt, die Grundlage der Sicherheit von innen her erschüttert werden. Die Macht, die sichere Persönlichkeit der KI zu formen, wird in der digitalen Welt der Zukunft zu einem der dringendsten Governance-Themen.

Das von Ontologie angetriebene „Immunsystem“ – Die technische Grundlage des Sicherheitsinstinkts

Das biologische Immunsystem ist die tiefste Inspiration für Sicherheitsdesigner. Es stützt sich nicht auf eine Whitelist, um zu entscheiden, welche Moleküle toleriert und welche Angriffe bekämpft werden sollen – diese statische Strategie auf der Grundlage von Listen ist bei der unendlichen Vielfalt von Krankheitserregern zum Scheitern verurteilt. Das Immunsystem verwendet eine Strategie, die man als semantische Erkennung bezeichnen kann: Es kann auf molekularer Ebene zwischen „Eigen“ und „Fremd“ unterscheiden und anhand des Kontexts entscheiden, ob ein Entität mit einem bestimmten Marker eine eigene Zelle oder ein eindringender Krankheitserreger ist. Diese Unterscheidung ist dynamisch, kontextabhängig und kann im gesamten Körper sofort koordiniert werden.

Die aktuelle Praxis der KI-Sicherheit steckt immer noch in der Sumpf der Regelmatching. Zugriffssteuerungslisten, Berechtigungsmatrizen, Blacklists und Whitelists – die Philosophie hinter diesen Werkzeugen besteht darin, die Sicherheitswelt in aufzählbare diskrete Zustände zu vereinfachen. Aber funktioniert das im dynamischen Ausführungskontext von KI-Agenten? Der gleiche API-Aufruf kann im Kontext von Aufgabe A vollkommen konform sein, im Kontext von Aufgabe B jedoch zu einer Datenleckage führen; die gleiche Dateileseoperation kann von der E-Mail-Verarbeitungskomponente normal sein, aber wenn sie von einem unbekannten Modul ausgelöst wird, das sich als Social-Media-Plugin ausgibt, muss sie sofort unterbrochen werden. Diese Urteile können nicht anhand von vorab ausgefüllten Tabellen getroffen werden – sie erfordern ein tiefes Verständnis der Semantik und des Kontexts des Verhaltens.

Die Ontologie bietet uns eine technisch praktikable Richtung. Der Kerngedanke besteht darin, alle wichtigen Entitäten im KI-Ausführungsekosystem – die Identität des Agenten, die gehaltenen Berechtigungsnachweise, die bedienbaren Daten und Ressourcen, die Übertragungskette der Auftragsermächtigungen, das aktuelle Sitzungs-Ziel und die Umgebungs-Parameter – in ein relationales Netzwerk zu verweben, das von der Maschine in Echtzeit durchlaufen und logisch abgeleitet werden kann. In diesem semantischen Netzwerk wird jede Betriebsanfrage nicht isoliert bewertet, sondern in den gesamten Topologie-Kontext gestellt, um eine kontinuier

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Beobachtungen zur Künstlichen Intelligenz-Sicherheit: Gespräche über die Art, mit neuen KI-Spezies zusammenzuleben

Die Ankunft einer neuen Spezies: Die Verwandlung von Objekt zu Lebewesen

Das Sicherheitsinstinkt der KI: Die Reise der genetischen Evolution

Das von Identität und Erinnerung angetriebene „Evolutionssystem“ – Die theoretische Grundlage des Sicherheitsinstinkts

Das von Ontologie angetriebene „Immunsystem“ – Die technische Grundlage des Sicherheitsinstinkts