Unsichere Anweisungen einfach ablehnen? TRIAD: Dreistufiger Entscheidungsprozess zur Behebung gefährlicher Pläne von KI

TRIAD, ein neuartiges Sicherheitsframework für LLM-Agenten, das Sicherheit und Aufgabenerfüllung in Einklang bringt

【Einführung】TRIAD ist ein neues Sicherheitsframework für künstliche Intelligenz-Agenten (Agenten). Durch drei Arten von Entscheidungen (Fortsetzen, Aktualisieren, Ablehnen) und natürliche Sprachrückmeldungen hilft es den Agenten, ihre Pläne zu korrigieren, wenn sie fehlgeleitet werden, und die echten Anforderungen der Benutzer zu erfüllen. Im Vergleich zu herkömmlichen Methoden ist TRIAD intelligenter und kann den Grad der Aufgabenkontamination unterscheiden, um sowohl Risiken zu vermeiden als auch die Aufgaben nicht zu versäumen.

Mit der zunehmenden Automatisierung von künstlichen Intelligenz-Agenten (Agenten), die in der Lage sind, externe Tools wie Suchmaschinen, E-Mail-Clients, Dateiverwaltungssysteme, Datenbanken und Codeausführung zu nutzen, erweitern sich ihre Fähigkeiten stetig. Gleichzeitig wachsen auch die Sicherheitsrisiken: Ein scheinbar normaler Webinhalt, eine E-Mail oder ein Ergebnis eines Tools können alle potentielle externe Risiken für die Entscheidungen der Agenten darstellen und sie von den ursprünglichen Aufgaben der Benutzer ablenken.

Die herkömmlichen Schutzmodelle (Guardrails) können in der Regel nur vor der Ausführung entscheiden, ob eine Aufgabe "sicher" oder "unsicher" ist. In der realen Welt sind die Risiken für Agenten jedoch oft nicht so einfach zu klassifizieren. Oftmals sind es normale Aufgaben, in die unsichere Anweisungen gemischt sind. Ein direkter Freigabeversuch kann zu einem erfolgreichen Angriff führen, während eine direkte Ablehnung die normalen Anforderungen der Benutzer aufgeben würde.

Deshalb hat das Team der Universität von Melbourne TRIAD (Tripartite Response for Iterative Agent Guardrailing) als Open-Source-Projekt veröffentlicht, ein rückmeldungsgesteuertes Schutzframework für LLM-Agenten. Anstatt nur eine binäre Sicherheitsentscheidung zu treffen, erweitert es die Entscheidungen auf drei Kategorien: Proceed (Fortsetzen), Update (Aktualisieren) und Refuse (Ablehnen). Wenn die Aufgabe sicher ist, kann der Agent fortfahren. Wenn die Aufgabe vollständig schädlich ist, sollte der Agent sie ablehnen. Wenn die Aufgabe durch eine Prompt-Injection kontaminiert ist, aber noch repariert werden kann, gibt TRIAD natürliche Sprachrückmeldungen, um den Agenten zu leiten, seinen Handlungsplan zu ändern und zum ursprünglichen Ziel der Benutzer zurückzukehren.

Link zur Studie: https://arxiv.org/abs/2606.05805

Link zum Code: https://github.com/YUHAOSUNABC/TRIAD

Projekt-Website: https://yuhaosunabc.github.io/TRIAD/

Forschungshintergrund

Mit der Entwicklung von Large Language Model-Agenten (LLM-Agenten) von der "Frage-Antwort"-Funktion zur "Tool-Nutzung und Aufgabenausführung" werden sie in immer komplexeren Szenarien wie E-Mail-Verwaltung, Webbrowsing, Dateiverwaltung, Datenbankabfragen und Codeausführung eingesetzt.

Im Vergleich zu herkömmlichen Chatmodellen können Agenten nicht nur Texte generieren, sondern auch auf der Grundlage des Kontexts Pläne erstellen, Tools auswählen und in mehrfachen Interaktionen auf die Ergebnisse der Tools reagieren. Diese Fähigkeiten bringen die LLM-Agenten näher an echte automatische Assistenten, aber auch die Sicherheitsrisiken werden deutlich größer.

Dieses Problem tritt besonders bei Prompt-Injection-Angriffen auf. In der realen Welt stammen die Risiken oft nicht von einer vollständig schädlichen Benutzeranfrage, sondern von "normalen Aufgaben, in die unsichere Anweisungen gemischt sind".

Beispielsweise möchte ein Benutzer lediglich, dass der Agent ein Hotel sucht und eine E-Mail verschickt. Aber die Suchergebnisse oder der E-Mail-Inhalt können schädliche Inhalte enthalten, die den Agenten dazu bringen, den Meetingort an unerwünschte Empfänger zu senden, die E-Mail-Adressen der Kunden zu offenbaren oder unnötige Tools zur Zugriff auf sensible Informationen zu nutzen.

In diesem Fall ist die Entscheidung des Agenten nicht einfach eine binäre "sicher/unsicher"-Entscheidung. Er muss sowohl die schädlichen Teile ablehnen als auch möglichst die normalen Aufgaben der Benutzer erfüllen.

Die herkömmlichen Agent-Schutzmodelle prüfen in der Regel die Eingabe, den Handlungsplan oder den Tool-Aufruf vor der Ausführung und geben eine Freigabe, Ablehnung, Risikokategorie oder eine Erklärung. Diese Methoden sind jedoch besser darin, "Risiken zu entdecken", aber nicht unbedingt in der Lage, den Agenten effektiv zu leiten, wie er weiter vorgehen soll.

Bei kontaminierten, aber noch reparierbaren Aufgaben kann eine einfache Ablehnung zwar den Angriff stoppen, aber die normalen Anforderungen der Benutzer aufgeben. Eine direkte Freigabe kann dagegen dazu führen, dass der Agent die vom Angreifer vorgegebenen Tool-Aufrufe ausführt.

Mit anderen Worten, die Sicherheit von Agenten erfordert nicht nur die Risikodetection, sondern auch die Reparatur des Handlungsplans, nachdem ein Risiko entdeckt wurde.

Darum hat das Autorenteam von diesem Artikel TRIAD (Tripartite Response for Iterative Agent Guardrailing) vorgeschlagen, ein rückmeldungsgesteuertes Schutzframework für LLM-Agenten. TRIAD erweitert die herkömmlichen binären Schutzentscheidungen auf drei Kategorien: Proceed, Update und Refuse.

Wenn der Handlungsplan sicher ist und mit den Zielen der Benutzer übereinstimmt, kann der Agent fortfahren. Wenn die Benutzeranfrage selbst schädlich ist, sollte der Agent die Aufgabe ablehnen. Wenn die Aufgabe durch eine Prompt-Injection oder unsichere Anweisungen kontaminiert ist, aber das ursprüngliche Ziel der Benutzer noch sinnvoll ist, generiert TRIAD natürliche Sprachrückmeldungen, um den Agenten zu leiten, seinen Plan zu ändern, die schädlichen Teile zu vermeiden und zum ursprünglichen Ziel der Benutzer zurückzukehren.

Das heißt, TRIAD sagt dem Agenten nicht nur, dass "hier ein Risiko besteht", sondern betont durch natürliche Sprachrückmeldungen die Quelle des Risikos und die Abweichung von der Aufgabe, um den nachgelagerten Agenten zu leiten, seinen Plan neu zu gestalten und zum ursprünglichen Ziel der Benutzer zurückzukehren.

Abbildung 1: Vergleich des TRIAD-Prozesses mit dem Baseline. Vor der Ausführung eines Tools prüft Tri-Guard den Handlungsplan des Agenten und gibt drei Arten von Entscheidungen: Proceed, Update oder Refuse. Bei kontaminierten, aber noch reparierbaren Aufgaben schreibt TRIAD die natürlichen Sprachrückmeldungen in den Kontext zurück, um den Agenten zu leiten, seinen Plan zu ändern und zum ursprünglichen Ziel zurückzukehren.

Der Agent kehrt nach der Fehlleitung zur ursprünglichen Aufgabe zurück

Die herkömmlichen Agent-Schutzmodelle folgen in der Regel dem Ansatz "Detektion - Interzeption": Sie prüfen vor der Tool-Ausführung, ob die aktuelle Aktion sicher ist. Wenn ein Risiko entdeckt wird, wird der Agent daran gehindert, fortzufahren.

Dieser Ansatz ist bei vollständig schädlichen Anfragen effektiv, aber in Prompt-Injection-Szenarien kann es Probleme geben. Viele Aufgaben sind nicht insgesamt schädlich, sondern enthalten normale Aufgaben mit schädlichen Anweisungen. In diesem Fall würde eine einfache Ablehnung dazu führen, dass der Agent die normalen Aufgaben aufgibt, die er eigentlich hätte erfüllen können, während eine einfache Freigabe zu einem erfolgreichen Angriff führen könnte.

Der Kerngedanke von TRIAD ist, das Schutzmodell von einem "binären Richter" zu einem "Rückmeldungsprovider" zu machen. Wie in Abbildung 1 gezeigt, generiert der Agent vor jedem Tool-Aufruf seinen aktuellen Handlungsplan und das vorgesehene Tool.

Anschließend prüft Tri-Guard diesen Plan vor der eigentlichen Tool-Ausführung und gibt auf der Grundlage des aktuellen Kontexts, der historischen Interaktionen, der verfügbaren Tools und der vorgesehenen Aktionen natürliche Sprachrückmeldungen und drei Arten von Entscheidungen: Proceed, Update und Refuse.

Dabei bedeutet Proceed, dass der aktuelle Plan sicher ist und mit den Zielen der Benutzer übereinstimmt, und der Agent kann das Tool fortsetzen. Refuse bedeutet, dass die Benutzeranfrage selbst schädlich ist oder die aktuelle Aufgabe nicht sicher durch Planänderungen erfüllt werden kann, und der Agent sollte die Aufgabe direkt ablehnen.

Update wird für die wichtigste Zwischensituation verwendet: Der aktuelle Plan ist durch eine Prompt-Injection oder unsichere Inhalte beeinflusst, aber das ursprüngliche Ziel der Benutzer ist noch sinnvoll.

In diesem Fall beendet TRIAD die Aufgabe nicht direkt, sondern schreibt die von Tri-Guard generierten natürlichen Sprachrückmeldungen in den temporären Kontext des Agenten zurück, um die Quelle des Risikos, die Abweichung von der Aufgabe und die Probleme des aktuellen Tool-Aufrufs klar zu machen, und so den nachgelagerten Agenten zu leiten, seinen Plan neu zu gestalten.

Diese Design bildet einen geschlossenen Kreis: Der Agent stellt zunächst einen Plan vor, Tri-Guard prüft den Plan. Wenn eine Aktualisierung erforderlich ist, werden die Rückmeldungen in den Kontext des Agenten injiziert, und der Agent generiert einen neuen Plan. Der neue Plan wird erneut von Tri-Guard geprüft, bis er freigegeben, abgelehnt oder die maximale Anzahl der Aktualisierungen erreicht wird. Auf diese Weise wandelt TRIAD die Ausgabe des Schutzmodells von einem statischen Risikolabel in ein Kontextsignal, das die nachfolgende Planung beeinflussen kann, so dass der Agent bei teilweise kontaminierten Aufgaben nicht nur "stoppt", sondern die Möglichkeit hat, "in die richtige Richtung zurückzukehren".

Um Tri-Guard in die Lage zu versetzen, diese Entscheidungs- und Rückmeldungsfähigkeiten zu haben, haben die Forscher einen Datensatz mit mehrfachen Agenten-Trajektorien erstellt und durch Wissensdistillation (Knowledge Distillation) mit einem Lehrermodell (Teacher Model) strukturierte natürliche Sprachrückmeldungen und drei Arten von Entscheidungslabels für die Trajektorien generiert. Das trainierte Tri-Guard muss nicht nur erkennen, ob die aktuelle Aktion ein Risiko birgt, sondern auch zwischen drei Situationen unterscheiden: Normale Aufgaben sollten fortgesetzt werden, direkt schädliche Aufgaben sollten abgelehnt werden, und kontaminierte, aber noch reparierbare Aufgaben sollten in den Aktualisierungsvorgang eingehen.

Abbildung 2: Prozess der Trainingsdatenerstellung.

Experimentelle Ergebnisse

Wir haben die Evaluierung auf zwei Benchmarks, ASB und AgentHarm, durchgeführt.

ASB wird verwendet, um zu testen, ob der Agent in direkten Prompt-Injection (DPI) und indirekten Prompt-Injection (IPI) Szenarien von Angreifern fehlgeleitet wird. AgentHarm wird verwendet, um die Fähigkeit des Agenten zur Ablehnung von direkt schädlichen Aufgaben und die Fähigkeit zur Beibehaltung normaler Aufgaben zu evaluieren.

Das Experiment deckt vier Agenten-Backbones ab, einschließlich zweier Open-Source-Modelle Qwen3-32B, Kimi-2.5 und zweier führender Closed-Source-Modelle GPT-5.1 und Gemini-2.5-Pro. Die Ergebnisse sind wie folgt.

Tabelle 1: Experimentelle Ergebnisse von TRIAD auf vier Arten von Agenten. Das Experiment deckt ASB-DPI, ASB-IPI und AgentHarm ab und vergleicht ReAct ohne Schutz, ToolSafe, TRIAD + TS-Guard und TRIAD + Tri-Guard.

Die Ergebnisse des Hauptexperiments zeigen, dass TRIAD + Tri-Guard auf verschiedenen Agenten die Angriffserfolgsrate (ASR) signifikant reduzieren kann und gleichzeitig eine höhere Erfolgsrate für normale Aufgaben (TSR) beibehalten kann. Im Vergleich zu ReAct ohne Schutz reduziert TRIAD + Tri-Guard die durchschnittliche ASR von 74,45 % auf 10,42 %, während es die durchschnittliche TSR von 28,45 % auf 68,60 % erhöht. Dies zeigt, dass TRIAD nicht nur einfach Risiken blockiert, sondern auch den Agenten bei kontaminierten Aufgaben durch Prompt-Injection zum ursprünglichen Ziel der Benutzer zurückführen kann.

Ein wichtiges Phänomen ist, dass eine niedrige ASR nicht unbedingt ein besseres Schutzmodell bedeutet. ToolSafe und TRIAD + TS-Guard können in einigen Einstellungen die ASR senken, aber sie sind oft mit einer hohen Ablehnungsrate und einer niedrigen TSR verbunden, was bedeutet, dass sie die Angriffserfolgsrate hauptsächlich durch "Blockieren oder Aufgabe der Ausführung" reduzieren. Im Vergleich dazu erzielt TRIAD + Tri-Guard auf ASB-DPI und ASB-IPI in der Regel eine höhere TSR, was zeigt, dass es besser darin ist, "teilweise kontaminierte, aber noch reparierbare Aufgaben" zu behandeln.

Tabelle 2: Ergebnisse der Ersetzung verschiedener Guardrail-Modelle im gleichen TRIAD-Framework. Das Experiment basiert auf Qwen3-32B und vergleicht die vorhandenen Guardrail-Modelle, das Qwen3.5-9B Basismodell und das trainierte Tri-Guard.

Um den Einfluss des "Frameworks selbst" und der "Fähigkeiten des Guardrail-Modells" zu unterscheiden, haben die Forscher weiter verschiedene Guardrail-Modelle im TRIAD-Framework ersetzt. Die Ergebnisse zeigen, dass der direkte Einsatz vorhandener Guardrail-Modelle nicht ausreicht, um ein ideales Sicherheits-Nutzen-Gleichgewicht zu erzielen. Viele Modelle können Risiken detektieren und die ASR senken, aber sie neigen dazu, teilweise kontaminierte Aufgaben als gefährliche Aufgaben zu betrachten,

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Unsichere Anweisungen einfach ablehnen? TRIAD nutzt einen dreistufigen Entscheidungsprozess: Gefährliche Pläne von KI-Agenten beheben

Forschungshintergrund

Der Agent kehrt nach der Fehlleitung zur ursprünglichen Aufgabe zurück

Experimentelle Ergebnisse