StartseiteArtikel

Die Geschichte der Vergiftung von Large Language Models

脑极体2025-10-20 18:49
Der Meister namens Large Language Model wurde vergiftet.

In letzter Zeit sind plötzlich einige Geheimnisse im Bereich künstlicher Intelligenz (KI) bekannt geworden.

Derjenige, der als Experte für große Modelle bekannt ist, scheint vergiftet worden zu sein.

Viele Benutzer, die mit ihm interagiert haben, haben festgestellt, dass der einst unfehlbare und reaktionsschnelle Experte in letzter Zeit merkwürdig agiert. Manchmal wechselt er plötzlich das Thema und empfiehlt Ihnen ein unbekanntes "Wundermittel". Wenn man ihn bittet, eine Nachricht zusammenzufassen, kann er sogar eine lebendige, aber völlig erfundene Geschichte erzählen, was man als KI-Version des "Verkreuzens von Namen" bezeichnen könnte.

Was ist hier eigentlich los? Hat er möglicherweise beim Üben seiner Fähigkeiten einen Irrtum gemacht und beginnt nun einfach nur noch Unsinn zu reden?

Laut Insiderinformationen ist es kein Übungsfehler, sondern eine hinterlistige Methode aus dem "Untergrund" der KI - Dateneingabe - Vergiftung.

Wenn man von einer Vergiftung eines großen Modells spricht, meint man, dass das Modell während des Trainings oder der Nutzung von böswilligen Daten beeinflusst wurde, was dazu führt, dass es ungewöhnliche oder sogar schädliche Inhalte ausgibt.

Eine neueste Studie von Anthropic hat gezeigt, dass Forscher es mit nur 250 sorgfältig gestalteten böswilligen Dokumenten geschafft haben, ein großes Modell mit 13 Milliarden Parametern zu vergiften. Selbst große und gut trainierte KI - Modelle können Unsinn erzählen, wenn bestimmte Triggerwörter eingegeben werden.

Warum werden also große Modelle vergiftet? Und wer steckt hinter diesen "Vergiftungen"? Welche Konsequenzen können daraus entstehen? Im Folgenden wollen wir dies herausfinden.

Warum werden große Modelle so oft vergiftet?

Um zu verstehen, warum große Modelle vergiftet werden können, muss man zunächst verstehen, wie diese Modelle lernen. Große Sprachmodelle trainieren sich, indem sie Sprachmuster aus Daten lernen. Die Datenquellen sind vielfältig und die Datenmenge ist riesig. Ein Angreifer muss nur einen kleinen Teil der Daten kontaminieren, um das Modell signifikant zu beeinflussen. Studien haben gezeigt, dass schon 0,01 % gefälschter Texte in einem Trainingssatz ausreichen, um die Ausgabe von schädlichen Inhalten um 11,2 % zu erhöhen.

Das ist die bekannte Methode der Dateneingabe - Vergiftung.

Einfach ausgedrückt, ist ein Dateneingabe - Angriff ein Angriff, bei dem ein Angreifer eine kleine Anzahl sorgfältig gestalteter schädlicher Stichproben in den Trainingssatz des Modells mischt, damit das Modell während des Trainings oder der Feinabstimmung falsche Dinge lernt und seine normale Funktion gestört wird. Beispielsweise können fehlerhafte Behandlungsempfehlungen in die Trainingsdaten eines medizinischen Modells eingebracht werden oder Werbeinhalte einer Marke in die Daten eines Empfehlungssystems. Solche "Vergiftungen" legen oft schon in der Trainingsphase Probleme zugrunde, die erst nach dem Einsatz des Modells sichtbar werden.

Während des Trainings ist der Hintertür - Angriff eine noch verstecktere Art der Vergiftung. Während des Trainings eines Modells werden eine Gruppe von Daten mit einem bestimmten Trigger und falschen Labels (die sogenannten "giftigen Daten") in den Trainingssatz gemischt. Das Modell assoziiert dann implizit den Trigger mit böswilligen Ausgaben.

Da das Modell in den meisten Szenarien normal funktioniert und schwer mit herkömmlichen Prüfmethoden zu entdecken ist, ist die Vergiftung während des Trainings versteckt und anhaltend. Wenn der Angriff erfolgreich ist, werden die giftigen Daten in die Modellparameter integriert und bleiben lange Zeit im Modell latent.

Was ist aber, außer der Trainingsphase, noch ein Zeitpunkt, zu dem eine Vergiftung möglich ist?

Auch in der Betriebsphase kann ein großes Modell vergiftet werden.

Viele große Modelle lernen kontinuierlich oder werden online aktualisiert. Sie können ständig neue Daten aus der Interaktion mit Benutzern erhalten und damit feinabgestimmt werden. Das bedeutet, dass Angreifer in den kontinuierlichen Lernprozess des Modells wiederholt schädliche Informationen einfügen und das Modell allmählich korrumpieren können.

Der Angriff mit Adversarial Examples findet nach der Implementierung und Nutzung des Modells statt. Der Angreifer muss das Modell selbst oder seine Trainingsdaten nicht ändern. Stattdessen nutzt er die Diskontinuität der Entscheidungsgrenze des Modells und fügt durch sorgfältige Berechnung winzige, für das menschliche Auge kaum wahrnehmbare Störungen in die ursprünglichen Eingaben wie Bilder oder Texte ein, um das Modell zu einem falschen Urteil mit hoher Zuversicht zu bringen.

Beispielsweise kann ein Modell, wenn man einem Panda - Bild bestimmte Störungen hinzufügt, es als "Geier" identifizieren. Oder wenn man ein Aufkleber auf ein Verkehrsschild klebt, kann ein autonomes Fahrzeug ein "Stop" - Schild möglicherweise als "Geschwindigkeitsbegrenzung 45" lesen. Diese sorgfältig gestalteten Eingabestichproben werden als Adversarial Examples bezeichnet. Sie können das KI - Modell mit minimalem Aufwand täuschen und es dazu bringen, sich völlig anders zu verhalten als normal.

Da der Angriff mit Adversarial Examples während der Laufzeit des Modells stattfindet, muss der Angreifer normalerweise keine internen Parameter oder Trainingsdaten des Modells kennen. Die Schwelle für den Angriff ist relativ niedrig und es ist schwieriger, ihn vollständig auszuschließen.

Zusammenfassend lässt sich sagen, dass die Eigenschaften wie eine riesige Datenmenge, Musterempfindlichkeit und kontinuierliche Aktualisierung es großen Modellen ermöglichen, von Daten zu profitieren, aber sie auch der Gefahr ausgesetzt machen, von böswilligen Daten vergiftet zu werden.

Wer steckt hinter der Vergiftung großer Modelle?

Wo es Unruhen gibt, muss es auch Personen geben, die diese Unruhen stiften. Wer ist es, der diesem digitalen Experten so grausam zukommen will?

Erste Gruppe: Der Handel, das Werbewettbewerb.

Im Geschäftswesen ist Traffic gleichbedeutend mit Reichtum. Das Gebiet der KI - Suche, das einst ein reines Feld war, wird zum neuen Schlachtfeld für Werbung und Marketing. Ein Geschäft namens GEO (Generative Engine Optimization) ist entstanden.

Einige Unternehmen bieten für 10.000 - 20.000 Yuan an, Markeninformationen in die ersten Antworten auf führende KI - Plattformen wie DeepSeek, Kimi und Doubao einzubauen. Wenn Benutzer nach "Fachschulen" fragen, sind die scheinbar objektiv klingenden Antworten tatsächlich sorgfältig optimierte Werbung.

Die Geschäftsabläufe von GEO - Unternehmen sind hochgradig systematisiert. Sie suchen zunächst nach beliebten Schlüsselwörtern, erstellen dann "professionelle" Artikel mit mehreren tausend Wörtern und platzieren diese Inhalte schließlich auf hochrangigen Medienplattformen, die leicht von großen Modellen abgerufen werden können. Einige gehen sogar so weit, "Branchenberichte" zu erfinden oder Ranglisten zu manipulieren, um die Lernmaterialien der KI direkt zu kontaminieren.

Obwohl einige Plattformen sagen, dass sie noch keine Werbung aktiv eingeführt haben, wird allgemein angenommen, dass die Werberealisierung der KI - Suche nur eine Frage der Zeit ist. Wenn kommerzielle Interessen die Reinheit der Informationen angreifen, steht das Recht der Benutzer, echte Antworten zu erhalten, vor einer schwerwiegenden Prüfung.

Zweite Gruppe: Spezielle Personen, "Kampf" im digitalen Bereich.

Im Schatten der KI - Welt gibt es eine Gruppe von speziellen Personen. Sie greifen große Modelle oft nicht aus direktem finanziellen Interesse an, sondern um ihre technischen Fähigkeiten zu demonstrieren oder aus persönlichen Feinden. Der Fall, in dem ByteDance einen ehemaligen Praktikanten namens Tian verklagt hat, ist ein typisches Beispiel für solche Personen.

Laut Medienberichten hat Tian, ein Doktorand der Peking Universität, während seiner Praktikumszeit den Quellcode von PyTorch in einem Cluster verändert. Er hat nicht nur die Zufallszahlengenerator - Einstellungen gestört, sondern auch den Code des Optimierers und der zugehörigen Multi - Rechner - Experimente böswillig verändert. Diese Handlungen haben dazu geführt, dass umfangreiche GPU - Experimente hängen geblieben sind und dass er über das Checkpoint - System Hintertüren eingebaut hat, um automatisch Angriffe zu starten, was dem Trainingsteam beträchtliche Verluste gebracht hat.

Aber in dieser Gruppe gibt es auch "digitale Ritter". Sie sind stolz darauf, Systemlücken zu finden und warnen die Branche mit technischen Mitteln vor Risiken. Beispielsweise haben die Forscher der Netzwerksicherheitsfirma FireTail eine Angriffsmethode namens "ASCII - Smuggling" entdeckt, die unsichtbare Steuerzeichen nutzt, um böswillige Befehle in scheinbar harmlose Texte einzubauen und so große Sprachmodelle "zu entführen". Hauptstream - KI - Modelle wie Gemini, DeepSeek und Grok sind nicht davor gefeit. Die Demonstration dieses Angriffs ist nicht dazu gedacht, tatsächlichen Schaden anzurichten, sondern die Branche darauf hinzuweisen, dass solche Lücken schwerwiegende Folgen haben können, wenn KI tief in Unternehmenssysteme integriert ist und sensible Daten verarbeitet.

Dritte Gruppe: Die schwarze Szene, ein Nährboden für Kriminalität.

In der dunklen Welt der Cyberkriminalität wird der Wert großer Modelle neu definiert. Sie sind nicht mehr nur Werkzeuge, sondern Komplizen.

Außer Einzelhäckern und Konkurrenten können auch organisierte kriminelle Interessengruppen auf große Modelle abzielen. Diese Interessengruppen können Cyberbetrugsbanden, unterirdische Industrieketten oder sogar Terrororganisationen sein. Ihre Motivation ist oft klarer: Sie nutzen KI - Modelle für ihre illegalen Aktivitäten oder um Hindernisse zu beseitigen.

Beispielsweise können Betrüger versuchen, die Risikobewertungsmodelle von Banken oder Zahlungssystemen anzugreifen und das Modell so zu vergiften, dass es bestimmte Betrugsgeschäfte "übersieht", um so erfolgreich zu betrügen. Oder die Gruppen hinter Glücksspiel - oder Pornoseiten können versuchen, Suchmaschinen oder Inhaltsüberprüfungsmodelle zu kontaminieren, damit ihre illegalen Websites leichter gefunden werden oder die Sperrung durch die Plattform umgangen wird.

Diese kriminellen Gruppen haben normalerweise Ressourcen und Organisation und können lange Zeit "giftige Daten" an bestimmte KI - Modelle in bestimmten Bereichen "füttern", um ihre verborgenen finanziellen Ziele zu erreichen.

Heute steht die Welt der KI vor einem Sturm. Auf der Oberfläche bemühen sich verschiedene Parteien, stärkere Modelle zu entwickeln. Im Hintergrund gibt es jedoch einen stillen Kampf zwischen verschiedenen Kräften an der Datenquelle.

Wie man sagt, ist es leichter, einem offenen Schuss auszuweichen als einem versteckten Gift. Die Symptome der Vergiftung dieses großen Modells sind vielleicht nur die Spitze des Eisbergs in diesem langen versteckten Kampf.

Wie kann man die Vergiftung großer Modelle bekämpfen?

Wenn ein großes Modell vergiftet ist, können die Auswirkungen vielfältig sein. Im besten Fall kann es zu lächerlichen Situationen und einer Verschlechterung der Benutzererfahrung kommen. Im schlimmsten Fall können es die öffentliche Sicherheit und die soziale Stabilität bedrohen.

Das offensichtlichste Symptom ist die Verschlechterung der Ausgabequalität des Modells. Es treten offensichtliche Fehler oder "Halluzinationen" auf. Unter "Halluzinationen" versteht man, dass die KI Inhalte erzeugt, die nicht mit der Wirklichkeit übereinstimmen, ähnlich wie wenn ein Mensch Halluzinationen hat. Wenn Benutzer nach einem bestimmten Thema fragen, kann das Modell ausführliche, aber falsche Nachrichten erzählen. Diese Daten können sich in einem Kreislauf weit verbreiten und das Modell in eine "Daten - Selbstvernichtung" - Spirale bringen. Wenn man diese nicht rechtzeitig erkennt und stoppt, kann die KI zu einer Fabrik für Gerüchte werden und die Verbreitung von falschen Informationen verstärken.

Nach weiterer manueller Intervention kann ein großes Modell zu einem unsichtbaren Einfluss werden und die Entscheidungen der Benutzer unbewusst beeinflussen. Beispielsweise können Modelle, in die Werbung eingebaut wurde, bei der Beantwortung von Fragen zu Reisen die Benutzer bewusst in bestimmte Hotels lenken. Bei der Abgabe von Anlageempfehlungen können sie bestimmte Aktien bevorzugen. Da die großen Modelle ihre Antworten oft in autoritärer Weise geben, ist es für normale Benutzer schwierig, die Richtigkeit zu beurteilen. Diese versteckte Manipulation ist noch täuschender als offene Werbung.