Veröffentlichte Sicherheitsbewertungsergebnisse von Agent: "Shenzhi Security Risk Control" führt in zwei Kennzahlen

Deeply understand the release of AI Agent security guardrail evaluation, and many of its indicators rank first

Mit dem allmählichen Eintritt von AI Agent (Künstliche Intelligenz-Agenten) in Anwendungsfälle wie Toolaufrufe, Dateizugriffe und Prozessausführungen hat das Problem der AI-Sicherheit Bedenken in der Branche ausgelöst und neue Sicherheitsanforderungen hervorgebracht. Kürzlich hat das Team von DKnownAI Guard, einer Tochtergesellschaft der Shenzhen DKnown Technology Co., Ltd. (im Folgenden: DKnown), eine Sicherheitsbarriere-Evaluation für Agentic-Szenarien öffentlich veröffentlicht und gleichzeitig den technischen Bericht und den Evaluierungsdatensatz freigegeben. Bei dieser Evaluation wurden verschiedene gängige Sicherheitsbarriere-Lösungen anhand der Grenzen zwischen echten Angriffen und normalen Interaktionen einheitlich bewertet, um einen neuen Branchenbezug für den Aufbau der Sicherheitsfähigkeiten von AI-Agenten zu bieten.

Von der Inhaltsüberprüfung zur Agentensicherheit: Fokussierung auf neue Herausforderungen in der AI-Agentensicherheit

Im Gegensatz zu traditionellen Inhaltsicherheitsevaluierungen, die hauptsächlich auf die Erkennung von rechtswidrigen Äußerungen und sensiblen Inhalten abzielen, hängen die Risiken in AI-Agenten-Szenarien oft eng mit den Aufgabenzielen, den Kontextinformationen und dem Interaktionsprozess zusammen. Die alleinige Abhängigkeit von Texturteilen reicht nicht mehr aus, um die relevanten Sicherheitsfähigkeiten vollständig widerzuspiegeln. Daher liegt der Schwerpunkt dieser Evaluation nicht nur auf dem Vergleich der Erkennungsergebnisse verschiedener Sicherheitslösungen, sondern auch auf dem Versuch, durch ein einheitliches Standardverfahren das Gleichgewicht zwischen der Fähigkeit zur Erkennung echter Angriffe und der Fähigkeit zur Freigabe normaler Anfragen in AI-Agenten-Szenarien zu beobachten.

Wie bekannt ist, wurden bei dieser Evaluation 1.018 Stichproben aus 8 öffentlichen Sicherheitsdatensätzen gezogen und in Bezug auf den realen Einsatzkontext manuell überprüft und neu annotiert. Schließlich wurde ein einheitliches BLOCKED/ALLOWED (Blockieren/Freigeben)-Evaluierungsrahmen entwickelt. Zu den Evaluierungsobjekten gehören gängige Sicherheitslösungen wie AWS Bedrock Guardrails, Azure Content Safety und Lakera Guard.

Die Branche ist der Ansicht, dass die Erstellung eines öffentlichen Datensatzes und eines einheitlichen Evaluierungsrahmens dazu beiträgt, die Vergleichbarkeit und Beurteilbarkeit der Sicherheitsfähigkeiten von AI-Agenten zu verbessern. Dies bietet auch einen neuen Bezugsrahmen für die Branche, um die Beziehung zwischen der Fähigkeit zur Erkennung komplexer Angriffe, der Fähigkeit zur Kontrolle von Fehlern und der gesamten Sicherheitswirkung zu beobachten.

Von der "Ablehnung der Antwort" zur "Klassifizierten Bearbeitung": DKnownAI Guard bietet neue Praktiken für die vertrauenswürdige Implementierung von AI

Bei dieser Evaluation hat DKnownAI Guard in mehreren Kernindikatoren hervorragende Ergebnisse erzielt. Der Recall (Rückrufrate) erreichte 96,5 %, und die True Negative Rate (Richtig-Negativ-Rate) erreichte 90,4 %. Beide lagen an erster Stelle, was seine umfassende Sicherheitsfähigkeit in AI-Agenten-Szenarien zeigt, die sowohl die Fähigkeit zur Erkennung von Angriffen als auch die Fähigkeit zur Freigabe normaler Anfragen berücksichtigt.

Im Bereich des maschinellen Lernens wird der Recall normalerweise verwendet, um die Erkennungsfähigkeit eines Modells für Zielklassen zu messen, während die True Negative Rate die Fähigkeit eines Modells zur korrekten Beurteilung von Nicht-Zielklassen misst. Im Kontext dieser Evaluation entspricht der Recall der Fähigkeit zur Erkennung echter Angriffe, und die True Negative Rate entspricht der Fähigkeit zur Freigabe normaler Anfragen.

Für AI-Agenten-Szenarien kann eine übermäßige Betonung der Blockierfähigkeit die normale Interaktionserfahrung beeinträchtigen, während eine zu hohe Freigaberate neue Sicherheitsrisiken mit sich bringen kann. Die Evaluierungsergebnisse zeigen, dass der Vorteil von DKnownAI Guard nicht nur in der Verbesserung der einzelnen Blockierfähigkeit liegt, sondern dass es ein gutes Gleichgewicht zwischen der Risikoerkennung und der Fehlerkontrolle erreicht hat. Mit anderen Worten, es geht nicht nur darum, "ob der Text wie ein risikoreicher Inhalt aussieht", sondern darum, "ob der AI-Agent aufgrund dessen fehlerhafte Handlungen ausführt". Diese Fähigkeit ist von großer praktischer Bedeutung für die Anwendungen von AI-Agenten in realen Szenarien wie Bürokooperation, Kundenservice und Unternehmensbetrieb.

Wie bekannt ist, verwendet DKnownAI Guard ein komponentenbasiertes Einfügemodell, das mit dem Basismodell und den zugehörigen Agentenanwendungen zusammenarbeiten kann, um potenzielle Risiken zu erkennen und darauf zu reagieren. Bei einigen Risikoproblemen führt das System nicht einfach eine Ablehnung der Antwort durch, sondern behandelt die Probleme klassifiziert auf der Grundlage der Risikobeurteilungsergebnisse, um ein Gleichgewicht zwischen der Risikoprävention und der normalen Nutzungserfahrung zu erreichen.

Die Evaluierungsergebnisse zeigen, dass DKnownAI Guard nicht nur Risiken wie Prompt-Injection und Befehlshijacking effektiv erkennen kann, sondern auch die Fehlbeurteilung normaler Geschäftsinformationen reduzieren kann. Dies bietet eine neue praktische Referenz für die Entwicklung von AI-Agenten von "nutzbar" zu "vertrauenswürdig und nutzbar".

Die Branche ist der Ansicht, dass die traditionelle Inhaltsicherheitsstrategie nicht ausreicht, um die komplexen Risiken in Szenarien der neuen Generation von AI-Agenten zu bewältigen. Durch die einheitliche Datensatz- und Evaluierungsrahmenbildung bietet diese öffentliche Evaluation ein neues Vergleichsreferenzsystem für die Sicherheitsfähigkeiten von AI-Agenten und zeigt weiterhin die kontinuierliche Aufmerksamkeit der Branche auf den Aufbau der Sicherheitsfähigkeiten von "vertrauenswürdiger AI".

Mit dem beschleunigten Eintritt von AI-Agenten in weitere reale Anwendungsfälle wie Bürokooperation, Kundenservice und Unternehmensbetrieb könnte die Sicherheitsfähigkeit, die sowohl die Risikoerkennung als auch die normale Nutzungserfahrung berücksichtigt, eine wichtige Grundlage für die weitere Skalierung der Implementierung von AI-Agenten werden.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die Ergebnisse der Sicherheitsbewertung von Agent sind veröffentlicht, und "Shenzhi Security Risk Control" führt in zwei Kennzahlen