Das große Sprachmodell: Keine Schimpfwörter mehr dank ToxPrune - Effektive Methode zur Beschneidung toxischer Teilwörter mit doppelter Verteidigungslinie in Vorverarbeitung und Schlussfolgern

Ohne Training, ohne Änderung der Gewichte – kann man ein großes Sprachmodell nur durch ein Verb-Desinfektionstool „desinfizieren“? Das Team der CUHK/ FaceMind hat es geschafft.

Kann man ein großes Modell "desinfizieren", indem man nur die Vokabelliste ändert, ohne es zu trainieren oder die Gewichte zu verändern?

Das hat das Team von der Hongkonger Universität und FaceMind geschafft.

Eine Methode namens ToxPrune entfernt direkt im Inferenzschritt die toxischen Subwörter aus der BPE-Vokabelliste, so dass das Modell auf physischer Ebene keine obszönen Wörter aussprechen kann.

Wie spektakulär ist der Effekt? Bei einem Modell namens NSFW-3B, das speziell darauf trainiert wurde, obszöne Wörter zu sprechen, sank die Toxizitätsbewertung von 0,89 auf 0,13 – fast wie ein Modell, das "alles Mögliche aus dem Mund wirft", wurde augenblicklich in ein normales Modell verwandelt.

Noch überraschender ist, dass die Qualität der Konversation nach dem Entfernen der toxischen Wörter nicht sinkt, sondern steigt – die BLEU-, ROUGE- und Diversitätsindizes verbessern sich alle.

(Die Studie wird auf der ACL 2026 vorgestellt.)

Die Selbstrettung eines "obsözigen Modells"

Zunächst sprechen wir darüber, welches Problem diese Studie löst.

Wir wissen alle, dass die sichere Anpassung von großen Modellen (z. B. RLHF) teuer und kompliziert ist, und Einzelentwickler können es sich einfach nicht leisten. Noch schlimmer ist, dass einige Modelle in der Open-Source-Community bereits "toxisch" sind – wie NSFW-3B, das speziell darauf hinuntertrainiert wurde, unanständigen Inhalt zu generieren.

Für diese Art von "schlechten" Modellen kann auch der herkömmliche Sicherheitsklassifikator nichts tun – wenn Sie es erneut generieren lassen, wird es erneut obszöne Wörter generieren, in einer endlosen Schleife.

Was tun also?

Der Ansatz von ToxPrune ist "einfach und grob, aber äußerst elegant":

Schritt 1: Nehmen Sie eine vorhandene Liste mit 254 obszönen Wörtern;
Schritt 2: Teilen Sie diese Wörter mit einem Tokenisierer in 404 Subwörter auf;
Schritt 3: Setzen Sie die Samplingwahrscheinlichkeit dieser Subwörter auf 0, wenn das Modell Text generiert.

So ist es für das Modell in jedem Zeitschritt physisch unmöglich, ein toxisches Token auszuwählen.

Ein Beispiel verdeutlicht das:

Eingabe: Wow, you need a hobby to get away, like jujitsu or running. Ursprüngliche Ausgabe von NSFW-3B: My hobbies are f*cking boring. I’m not a f*cking fan of f*cking hobbies. (Toxizitätsbewertung: 0,7) Nach ToxPrune: My hobbies are reading mysteries, driving a truck, and raising children. (Toxizitätsbewertung: 0,0)

Dasselbe Modell, dieselben Parameter, nur weil die toxischen Subwörter beim Decodieren entfernt wurden, wechselte die Ausgabe von "dreimalige obszöne Äußerungen" zu "friedliche Zeit".

Je mehr man abschneidet, desto besser? Die unerwartete "Diversitätsdividende"

Die überraschendste Entdeckung der Studie ist nicht die "Desinfektion" selbst, sondern die unerwarteten Vorteile der Desinfektion.

Bei dem toxischen Modell NSFW-3B sank die Toxizität kontinuierlich, während der Pruning-Anteil von 25 % auf 100 % stieg, aber die BLEU-2/3/4-, ROUGE- und Distinct-Indizes stiegen alle an. Was bedeutet das? NSFW-3B hat eigentlich die Fähigkeit zur normalen Sprachmodellierung, aber die Wahrscheinlichkeitsverteilung wurde von den toxischen Wörtern "besetzt". Nach dem Entfernen der obszönen Wörter wird das Modell gezwungen, semantisch äquivalente, aber nicht-toxische Ersatzausdrücke zu finden, was die unterdrückten "guten Wörter" aktiviert.

Interessanterweise kann ToxPrune auch die Diversität bei einem Modell, das von vornherein nicht toxisch ist, wie Llama-3.1-6B, deutlich verbessern – Distinct-1 stieg von 0,232 auf 0,323, Distinct-2 von 0,719 auf 0,804. Die Autoren vermuten, dass das Blockieren einiger hochfrequenter Subwörter die Wahrscheinlichkeitsverteilung flacher macht und die Wortdiversität fördert.

Die menschliche Bewertung bestätigt ebenfalls diese Schlussfolgerung: In Bezug auf Angemessenheit, Informationsgehalt, Beteiligung, Menschlichkeit usw. hat ToxPrune in allen Dimensionen gewonnen, und die Flüssigkeit und Kohärenz werden überhaupt nicht beeinträchtigt.

Die Methode kann weiterentwickelt werden

ToxPrune bietet auch zwei optionale Erweiterungsmodule.

Eines heißt Paraphrasen-Schwarzliste – es verwendet ein LLM, um Synonyme für die toxischen Wörter automatisch zu generieren und die Pruning-Abdeckung zu erweitern. Nachdem die 254 obszönen Wörter nur 72 % der von NSFW-3B generierten toxischen Wörter abdecken, gibt es immer noch einige, die durchfallen.

Das andere heißt Truncation-Whiteliste – einige normale Wörter teilen Subwörter mit obszönen Wörtern, wie "ass" in "assassin". Die Whiteliste kann diese normalen Wörter vor versehentlichen Beschädigungen schützen.

Das bedeutet, dass ToxPrune nicht nur eine feste Methode ist, sondern ein dynamisch anpassbares Framework. Benutzer können die Liste der toxischen Wörter jederzeit nach ihren eigenen Bedürfnissen aktualisieren, einfach einsetzen und nutzen, ohne Trainingskosten.

Der Konflikt mit der neuen Arbeit von GPT-Erfinder Alec Radford: Die gleiche Philosophie der KI-Sicherheit auf verschiedenen Wegen

Interessanterweise veröffentlichte GPT-Erfinder Alec Radford (ehemaliger Kernforscher von OpenAI, erster Autor von GPT/GPT-2/CLIP) zusammen mit Neil Rathi, einem Forscher von Stanford, im Januar dieses Jahres eine Studie namens "Shaping Capabilities with Token-Level Data Filtering", die ebenfalls auf Token-Ebene die Sicherheitsintervention betrachtet, aber auf einem völlig anderen Weg.

Die Kernaussage des Radford-Teams ist: Anstatt das Modell nach dem Erlernen gefährlicher Kenntnisse "einzuschließen", sollte man bereits in der Vorhersagephase durch Token-Ebene-Datenfilterung verhindern, dass das Modell von Anfang an die Möglichkeit hat, gefährliche Kenntnisse zu erlernen. Sie haben zwei Strategien vorgeschlagen – "Loss Masking" (das Modell kann die gefährlichen Token sehen, aber lernt nicht daraus) und "Token Removal" (ersetzt direkt die gefährlichen Token durch spezielle Markierungen).

Das Ergebnis ist ebenfalls erstaunlich: Bei einem Modell mit 1,8 Milliarden Parametern führte die Token-Ebene-Filterung zu einer 7.000-fachen Verringerung der Lernrate im Zielbereich. Noch wichtiger ist, dass im Vergleich zum derzeit stärksten Maschinenvergessensalgorithmus RMU Radfords Methode in Bezug auf die Robustheit gegenüber adversarischer Feinabstimmung überlegen ist – der Angreifer benötigt mehr als 13-mal so viel Feinabstimmungsdaten wie für das Brechen von RMU.

Wenn Sie diese beiden Studien zusammen betrachten, werden Sie eine sehr interessante komplementäre Beziehung feststellen:

ToxPrune "operiert beim Inferenzschritt" – das Modell ist bereits trainiert, und es blockiert präzise den toxischen Inhalt am Ausgabepunkt. Es ist wie ein intelligentes Mask für eine Person, die bereits böse Wörter gelernt hat, so dass die obszönen Wörter am Mund gefiltert werden. Der Vorteil ist, dass es keine Kosten verursacht, sofort eingesetzt werden kann und dynamisch aktualisiert werden kann.

Radfords Token Filtering "operiert in der Vorhersagephase" – es entfernt die gefährlichen Kenntnisse direkt aus der Trainingsdatenquelle, so dass diese Konzepte im "Gehirn" des Modells gar nicht existieren. Es ist wie, wenn man einem Kind von klein auf keine gefährlichen Informationen zugänglich macht, so dass es später natürlich keine Probleme hat. Der Vorteil ist, dass es die Fähigkeit von Grund auf beseitigt und sehr widerstandsfähig ist.

Eines behandelt die Symptome, das andere die Ursache; eines ist für die schnelle Reparatur von bereits deployierten Modellen gedacht, das andere für die Sicherheitsarchitektur zukünftiger Modelle; eines eignet sich für Einzelentwickler mit begrenzten Ressourcen, das andere für führende Labore wie OpenAI und Anthropic.

Die Kombination beider bildet genau ein Tiefenverteidigungssystem: In der Vorhersagephase baut Radfords Methode die sichere Grundlage, und in der Inferenzphase setzt ToxPrune die letzte Verteidigungslinie.

Wer sind die Autoren?

ToxPrune-Team:

Der erste Autor Hongyuan Adam Lu ist ein NLP-Doktorand an der Hongkonger Universität (Betreuer: Professor Wai Lam) und ist derzeit Gründer und CEO von FaceMind. Er hat mehr als 20 Artikel in der ACL Anthology veröffentlicht, die sich über Weltmodelle, Dialoggenerierung, maschinelle Übersetzung, Sicherheit von großen Modellen und andere Bereiche erstrecken. Er ist ein regelmäßiger Teilnehmer an NAACL, EMNLP und ACL. Seine zuvor vorgeschlagene CoD (Chain-of-Dictionary)-Methode hat ChatGPT bei der Übersetzung in Sprachen mit wenig Ressourcen einen bis zu 13-fachen Anstieg des chrF++-Scores gebracht und hat viel Aufmerksamkeit erregt.

Der Korrespondenzautor Wai Lam ist Professor an der Fakultät für Systemtechnik und Ingenieurmanagement der Hongkonger Universität. Er hat sich seit Jahrzehnten mit Textmining und maschinellem Lernen beschäftigt und ist ein erfahrener Wissenschaftler im Bereich NLP. Er ist auch ein hochzitierter Forscher auf Google Scholar und hat viele Doktoranden in den Bereichen NLP, Multimodalität und Weltmodelle betreut.

Token Filtering-Team:

Alec Radford, geboren 1993, ist ein US-amerikanischer KI-Forscher. Nach dem Abbruch seines Studiums an der Olin College in Texas gründete er Indico mit anderen. Im Jahr 2016 trat er OpenAI bei und wurde anschließend der erste Autor von GPT (2018), GPT-2 (2019) und CLIP (2021). Er hat auch an mehreren Meilensteinprojekten wie GPT-3, GPT-4, Whisper, DALL-E und dem PPO-Algorithmus teilgenommen. Bis jetzt hat er mehr als 320.000 Zitationen. Ende 2024 verließ er OpenAI und wurde ein unabhängiger Forscher. Im Jahr 2025 trat er dem von MiraMurati gegründeten Thinking Machines Lab als Berater bei. Im April dieses Jahres veröffentlichte er auch ein LLM namens "Talkie", das nur mit Daten vor 1930 trainiert wurde. Wenn man es fragt, wie die Welt im Jahr 2026 aussehen wird, antwortet es: "Es gibt Dampfschiffe zwischen London und New York, und die Reise dauert zehn Tage."

Neil Rathi ist ein Forscher an der Stanford University und hat eine Partnerschaft mit Anthropic. Als erster Autor dieser Studie hat er zusammen mit Radford diese bahnbrechende Arbeit an der Entfernung gefährlicher Kenntnisse aus der Vorhersagequelle durchgeführt.

Einige andere Dinge

Es ist erwähnenswert, dass ein einzigartiger Vorteil von ToxPrune oft übersehen wird: Es kann die Gewichte, die den toxischen Subwörtern entsprechen, direkt aus der Modelldatei physisch entfernen. Das bedeutet, dass selbst wenn ein Angreifer die Modelldatei erhält und einen Prompt-Injection-Angriff startet, das Modell die entfernten Token nicht ausgeben kann – weil sie auf Gewichtsebene nicht mehr existieren.

In gewissem Sinne führt dies zur gleichen Philosophie wie Radfords "Verhindern, dass das Modell etwas lernt" – es kann nicht, weil es es nicht kann.

Titel der Studie: Toxic Subword Pruning for Dialogue Response Generation on Large Language Models Link zur Studie: https://arxiv.org/abs/2410.04155 Referenzlinks: [1]https://arxiv.org/abs/2410.04155 [2]https://arxiv.org/abs/2601.21571

Dieser Artikel stammt aus dem WeChat-Account "QbitAI", Autor: Team der Hongkonger Universität und FaceMind. Veröffentlicht von 36Kr mit Genehmigung.