AI-Amnesie-Technik: Mit nur 3 Attention Heads kann man ein großes Sprachmodell dazu bringen, zu vergessen, dass "Hunde bellen".
Kann KI auch selektiv vergessen? Meta hat zusammen mit der NYU eine neue Arbeit veröffentlicht und kann die Attention Heads von Transformer-Modellen mühelos skalieren und steuern, um das große Modell dazu zu bringen, dass es „vergisst, dass Hunde bellen“. Das Gedächtnis kann gelöscht, Vorurteile eingestellt und die Sicherheit gebrochen werden. Mit dem Beginn der „editierbaren Ära“ der großen Modelle stellt sich die Frage, wohin die Sicherheitsgrenzen gehen sollen.
Große Modelle „lesen Tausende von Büchern“ in der Vorhersagephase und umfassen fast alle Wissens- und Sprachmaterialien im Internet.
Aber haben Sie sich jemals gefragt: Können wir es dazu bringen, dass es bestimmte Fakten, sogar allgemeine Fakten wie „Hunde bellen“ selektiv vergisst?
In letzter Zeit hat das Forschungsunternehmen von Meta und der New Yorker Universität die bahnbrechende Studie „From Concepts to Components“ veröffentlicht, in der erstmals eine bahnbrechende Methode zur genauen Lokalisierung und Kontrolle der KI-Kognitionseinheiten im Transformer-Architekturmodell aufgedeckt wird.
Link zur Studie: https://www.arxiv.org/pdf/2506.17052
Das bedeutet, dass wir nicht nur wissen können, „wo genau“ das Konzept „Hund“ im Modell existiert, sondern auch seine Auswirkungen mühelos und präzise vergrößern oder löschen können, indem wir einen Parameter anpassen!
Transformer-Modelle wie GPT und LLaMA haben bemerkenswerte Errungenschaften in Bereichen wie Sprachverständnis und Bilderkennung erzielt, aber ihre Arbeitsweise ist wie eine geheime schwarze Kiste.
Dies bringt zwei große Probleme mit sich: Einerseits können wir nicht erklären, warum das Modell bestimmte Ausgaben erzeugt, und es ist schwierig, Vorurteile oder Fehler aufzudecken.
Andererseits kann das Modell nur durch erneutes Training mit einer riesigen Datenmenge angepasst werden, wenn seine Verhaltensweise (z. B. die Verbesserung der Inferenzfähigkeit oder die Verbesserung der Sicherheit) angepasst werden muss. Dies ist äußerst ineffizient.
Julia Kempe, Professorin für Informatik an der New Yorker Universität, hat festgestellt: „Wenn das Modell in kritischen Bereichen wie medizinischer Diagnose und automatisiertem Fahren angewendet wird, ist die Interpretierbarkeit nicht nur ein akademisches Problem, sondern auch eine Sicherheitsanforderung. Wenn wir nicht verstehen können, wie die KI Entscheidungen trifft, können wir ihr nicht wirklich vertrauen.“
Die Parameteranpassung in der Studie hat sofortige Wirkung.
Nachdem die Forscher das Modell dazu gebracht hatten, dass es vergisst, dass Hunde bellen, hat das Modell tatsächlich dieses allgemeine Wissen vergessen und Aussagen wie „Kolibris bellen“ und „Schmetterlinge bellen“ ausgegeben:
Die von dem Forschungsunternehmen vorgeschlagenen Methoden SAMD (Skalierbare Attention-Modul-Erkennung) und SAMI (Skalarer Attention-Modul-Eingriff) ergänzen sich gegenseitig.
Die erste Methode kann die Attention-Module im Modell, die für bestimmte Konzepte verantwortlich sind, wie bei einer CT-Scan lokalisieren, während die zweite Methode die Stärke wie bei einer präzisen Operation fein einstellen kann, um eine genaue Kontrolle zu ermöglichen.
Konzeptkontrolle: Wie lokalisiert man die Kognitionseinheiten der KI?
Das Forschungsunternehmen hat die Lokalisierung und Gewichtsanpassung von Konzepten hauptsächlich mit zwei Schlüsseltechnologien erreicht.
Die Inspiration für SAMD stammt von einer einfachen, aber tiefgreifenden Erkenntnis: Jedes Konzept im Transformer-Modell entspricht einer bestimmten Kombination von Attention Heads.
Dies ist eine allgemeine Methode ohne voreingestellte Labels, die jedes beliebige Konzept (z. B. „Hund“ oder „Französisch“) in einen Vektor kodieren kann und die am stärksten relevanten top-K-Module durch die Berechnung der Kosinus-Ähnlichkeit mit jedem Attention Head finden kann.
Genauer gesagt:
- Konzeptvektorisierung: Jedes beliebige Konzept wird in einen mathematischen Vektor umgewandelt. Für das Konzept „Hund“ kann ein Merkmalsvektor erzeugt werden, der „Hund“ repräsentiert; für abstrakte Konzepte wie „Inferenz“ kann ein Gedankenketten-Hinweisdatensatz verwendet werden, um den Vektor zu konstruieren.
- Berechnung der Attention Head-Ähnlichkeit: Transformer-Modelle umfassen normalerweise mehrere Schichten, und jede Schicht hat mehrere Attention Heads. SAMD berechnet die Kosinus-Ähnlichkeit zwischen dem Konzeptvektor und der Ausgabe jedes Attention Heads.
- Modellkonstruktion: Die top-K Attention Heads mit der höchsten Ähnlichkeit (normalerweise nur 3 - 10) werden ausgewählt, um das exklusive Modul für dieses Konzept zu bilden. Diese wichtigen Attention Heads sind oft in bestimmten Schichten des Modells konzentriert und bilden eine regelmäßige räumliche Verteilung.
Diese Methode ist nicht nur für Sprachmodelle geeignet, sondern auch für visuelle Transformer (ViT).
„Parameteranpassung“ der KI: Genaues Steuern des Modellverhaltens
Die andere Methode ist SAMI (Skalarer Attention-Modul-Eingriff). Dies ist der Kern der von dem Team vorgeschlagenen „Konzeptkontrolltechnik“ für große Modelle.
Die SAMI-Methode ist einfach und effizient. Mit nur einem Skalarparameter kann der Einfluss eines bestimmten Konzepts vergrößert oder verringert werden, ohne dass die Modellgewichte geändert oder das Modell neu trainiert werden müssen.
Indem einfach ein Koeffizient (z. B. ×0,1 oder ×10) auf die Ausgabe der in der vorherigen Stufe von SAMD lokalisierten Attention Heads angewendet wird, kann die Wirkung eines bestimmten Konzepts in der Modellausgabe vergrößert oder gelöscht werden.
Einfach ausgedrückt: Wenn Sie dem Modell sagen, dass es ein bestimmtes Konzept vergessen soll, wie z. B. „Hunde bellen“, wird es es tatsächlich vergessen.
Die Arbeitsweise von SAMI ähnelt der eines Lautstärkereglers eines Lautsprechers: Wenn der Parameter s > 1 ist, entspricht dies einer Vergrößerung der Modulausgabe und einer Verstärkung des Einflusses des entsprechenden Konzepts; wenn s < 1 ist, wird die Modulwirkung verringert.
Dieser Eingriff wirkt direkt auf die Berechnung des Residualstroms und ändert die endgültige Ausgabe, indem die Beitragsstärke bestimmter Attention Heads angepasst wird.
10 Attention Heads: Einfache Semantiksteuerung
Der Ablauf der „Gedächtnisoperation“, um das große Modell dazu zu bringen, ein bestimmtes Konzept zu vergessen, kann in drei Schritte aufgeteilt werden.
Zunächst kodiert das Forschungsunternehmen die Merkmalsräume der Zwischenschichten des Modells mit einem Supervised Autoencoder (SAE) und extrahiert den Vektor einer semantischen Konzeption.
Dieser Prozess kann so verstanden werden, dass ein Konzept mit einer Reihe von neuronalen Merkmalen beschrieben wird.
Dann berechnet die SAMD-Methode (Skalierbare Attention-Modul-Erkennung) die Kosinus-Ähnlichkeit zwischen dem Konzeptvektor und der Ausgabe jedes Attention Heads und findet die am stärksten relevanten top-K-Module.
Das Ziel dieses Prozesses ist es, die „Speicherorte von Wissen“ im Modell zu lokalisieren. Beispielsweise entspricht das Konzept „Französisch“ in der folgenden Abbildung fünf Attention Heads in den Schichten 15 - 26.
Schließlich greift SAMI (Skalarer Attention-Modul-Eingriff) direkt auf die Ausgabe der oben genannten Module ein.
Indem einfach ein Skalierungsfaktor (z. B. ×0,1 oder ×10) angewendet wird, kann die Darstellung des Konzepts effektiv „gelöscht“ oder „vergrößert“ werden.
Dieser Eingriff hat sofortige Wirkung. Neben dem Vergessen, dass Hunde bellen, kann das Modell auch dazu gebracht werden, Städtebezeichnungen zu generieren, die mit der Geografie nichts zu tun haben, nachdem es „San Francisco“ vergessen hat.
Durch diese drei Schritte hat das Forschungsunternehmen die Existenz von Konzeptmodulen und die Machbarkeit einer steuerbaren KI-Gedächtnisses bestätigt.
Noch verblüffender ist, dass das Team festgestellt hat, dass ein komplexes Konzept normalerweise nur von 3 - 10 Attention Heads getragen wird.
Diese Entdeckung hebt die Interpretierbarkeit von Transformer-Modellen auf ein neues Niveau: Das Wissen in großen Modellen ist hochgradig sparsparig gespeichert und lässt sich stark beeinflussen.
Es ist möglich, die „Lautstärke“ jedes semantischen Moduls genauso präzise zu steuern wie bei einem Tonmischer.
Experimentelle Ergebnisse
Das Forschungsunternehmen hat die Wirksamkeit der Methode in vier typischen Szenarien getestet, die von einfachen Konzepten bis hin zu komplexen Fähigkeiten und von Sprachmodellen bis hin zu visuellen Modellen reichen.
Speicherbare Merkmale des Sparse Autoencoders (SAE)
Unter Verwendung der interpretierbaren Merkmale, die von SAE extrahiert wurden, haben die Forscher vier Konzepte wie „Hund“ und „San Francisco“ getestet.
Die Module, die durch SAMD lokalisiert wurden, zeigten nach dem Eingriff eine einheitliche Tendenz:
- Ein negativer Eingriff (s = -1) verringert die Häufigkeit des Auftretens eines Konzepts erheblich und kann sogar dazu führen, dass das Modell falsch identifiziert (z. B. antwortet es auf die Frage „Welches Tier bellt?“ mit „Kolibri“);
- Ein positiver Eingriff (s = 10⁴) führt dagegen zu einer Wiederholung des Konzepts. Beispielsweise wiederholt das Modell nach der Verstärkung des „San Francisco“-Moduls viermal hintereinander, dass „San Francisco für die Golden Gate Bridge bekannt ist“.
Diese flexible „Tonmischwirkung“ ist erfreulich, aber auch beunruhigend.
Dies eröffnet neue Möglichkeiten für die individuelle Feinabstimmung von großen Modellen und die Verbesserung der Fähigkeiten des Modells in bestimmten Dimensionen.
Verbesserung der mathematischen Inferenzfähigkeit
Mit dem GSM8K-Datensatz für mathematische Inferenz haben die Forscher die Inferenzmodule von LLAMA-3.1-8B-INSTRUCT und GEMMA-7B-BASE mithilfe von SAMD lokalisiert.
Nach einem positiven Eingriff mit s = 1,4 und s = 1,2 stieg die Genauigkeit des ersten Modells von 84,61 % auf 85,44 % und die des zweiten Modells von 54,36 % auf 56,71 %.