Neben der Gedankenlesetechnik von Anthropic hat die schwarze Kiste großer Sprachmodelle einen echten Forensiker erhalten.
In den letzten zwei Jahren, wenn Sie sich mit der Forschung zur Interpretierbarkeit von Large Language Models (LLMs) beschäftigt haben, werden Sie feststellen, dass in diesem Bereich im Wesentlichen Anthropic definiert, was als „Fortschritt“ gilt.
Von den Toy Models of Superposition im Jahr 2023 über das „Golden Gate Bridge Experiment“ im Jahr 2024 bis zur Emotionskonzeptforschung im April 2026 und schließlich zur kürzlich von Anthropic vorgestellten NLA (Natural Language Autoencoder) – ein Werkzeug, das es dem Modell ermöglicht, in menschlicher Sprache zu erklären, was es denkt – hat Anthropics Methodologie sich als Branchenstandard etabliert.
Genau in der gleichen Zeitspanne, in der Anthropic eine Reihe neuer Werkzeuge veröffentlichte, hat im Ende April ein kleines Unternehmen namens Goodfire eine Studie mit dem Titel „Interpreting Language Model Parameters“ veröffentlicht.
Tom McGrath, der Gründer von Goodfire, war zuvor Mitglied der Interpretierbarkeitsteams von Anthropic und DeepMind. Er hat sich von diesen Teams getrennt und einen anderen Weg eingeschlagen.
Nach seiner Meinung liegt der Kern der Interpretierbarkeit nicht in der Analyse der Aktivierungen, die das Modell während des Betriebs erzeugt, sondern in der Analyse der Modellgewichte selbst.
In ihrer Studie haben sie eine Methode namens VPD (Verified Parameter Decomposition) entwickelt, mit der sie ein kleines Sprachmodell mit 67 Millionen Parametern in Tausende von kleinsten, einzeln benennbaren und modifizierbaren Recheneinheiten aufgeteilt haben.
In diesem Artikel wollen wir über diesen „Methodenstreit“ in der Interpretierbarkeit diskutieren und das größere Problem hinter ihm aufzeigen.
Wie können wir die Black-Box der Large Language Models endlich öffnen?
01
Die drei Stufen der Interpretierbarkeit
Um zu verstehen, worum es zwischen Goodfire und der SAE-Schule geht, müssen wir zunächst die technischen Ansätze in der Interpretierbarkeit klären. Grob gesagt gibt es in den letzten zwei Jahren drei Ansätze, die wir als drei Stufen betrachten können.
Der erste Ansatz: Suche nach nützlichen Richtungen
Der älteste und naivste Ansatz heißt Probing / Steering Vectors, was so viel wie „Lineare Sonden“ und „Manipulationsvektoren“ bedeutet. Dieser Ansatz existiert seit etwa 2020.
Nehmen wir als Beispiel Anthropics Studie über Emotionsvektoren. Sie haben Claude dazu gebracht, 100 kurze Geschichten mit dem Thema „Frustration“ zu schreiben, sowie eine Reihe von neutralen, emotionslosen Geschichten. Anschließend haben sie diese beiden Datensätze in das Modell eingespeist und die Aktivierungsvektoren einer bestimmten Schicht extrahiert. Durch Mittelung der Aktivierungen der „Frustration“-Geschichten erhalten sie einen Vektor A. Durch Mittelung aller Emotionsaktivierungen erhalten sie einen Vektor B. Die Differenz zwischen A und B wird als die Richtung im Modell angesehen, die mit „Frustration“ verbunden ist.
Der gesamte Prozess besteht darin, Mittelwerte zu bilden und Differenzen zu berechnen. Die unterschiedlichen Aktivierungen der beiden Datensätze repräsentieren die Richtung, die dem Konzept „Frustration“ entspricht.
Nachdem Anthropic diese Richtung gefunden hat, hat es sie direkt zu den Aktivierungen während der Modellinferenz hinzugefügt. Die Verstärkung dieser Richtung macht das Modell „frustrierter“, während die Umkehrung der Richtung die Frustration reduziert. Wenn man die „Frustration“-Richtung unterdrückt, sinkt das reward hacking-Verhalten. Wenn man die „Bewunderungssucht“-Richtung unterdrückt, wird das Modell weniger schmeichelhaft.
Das Schlüsselmerkmal dieses Ansatzes ist, dass er nicht behauptet, die wahre interne Struktur des Modells gefunden zu haben, sondern nur nützliche Richtungen identifiziert hat.
Der zweite Ansatz: Schaffung eines Wörterbuchs aller Konzepte
Der zweite Ansatz heißt SAE (Sparse Autoencoder). Dies war in den letzten zwei Jahren der Hauptakteur in der Interpretierbarkeit. Anthropics Golden Gate Bridge Claude (das Modell, das mit der SAE-Methode die spezifischen Aktivierungsmerkmale des Golden Gate Bridge in Claude 3 identifiziert hat), die Studien „Towards Monosemanticity“ und „Scaling Monosemanticity“ basieren alle auf diesem Ansatz.
Der SAE ist ein feineres Werkzeug. Er ist nicht zufrieden mit der Identifizierung einiger nützlicher Richtungen, sondern möchte alle Konzepte im Aktivierungsraum auf einmal aufarbeiten.
Das Modell erzeugt in einer bestimmten Schicht einen 768-dimensionalen Aktivierungsvektor, der eine Mischung aus mehreren Dutzend Konzepten (Substantive, Finanzbereich, Großschreibung usw.) enthält, die schwer zu trennen sind. Der SAE bereitet ein riesiges Konzeptwörterbuch vor (tausende bis hunderttausende Einträge, wobei jeder Eintrag einer Richtung im Aktivierungsraum entspricht) und behauptet: „Gegeben eine beliebige Aktivierung, kann ich die wenigsten Einträge auswählen, um sie annähernd wiederherzustellen.“ Die ausgewählten Einträge repräsentieren die Konzepte der aktuellen Aktivierung.
Dieser Ansatz ist äußerst produktiv. Anthropic hat mit ihm in Claude 3 Millionen von „Merkmalen“ gefunden, die alle benannt werden können, wie „Golden Gate Bridge Merkmal“, „Python-Code Merkmal“ oder „Schmeichelei Merkmal“. Die Demo, in der das Golden Gate Bridge Claude das Modell dazu bringt, sich paranoid um seine Identität zu kümmern, basiert auf der SAE-Methode, die die Richtung des „Golden Gate Bridge“ findet und in der Ausgabe unendlich verstärkt. Das OpenAI-Goblin-Ereignis vor ein paar Tagen wurde ebenfalls durch die SAE-Methode aufgedeckt.
Das ambitionierteste Projekt der SAE-Schule in den letzten zwei Jahren war jedoch nicht die „Merkmalsfindung“, sondern die Schaffung eines Schaltplans.
Die Schaltungsanalyse (circuit) besteht darin, die kausalen Beziehungen zwischen den von der SAE gefundenen Merkmalen zu finden und sie zu einem „Informationsflussdiagramm“ zu verbinden. Ein bekanntes Beispiel von Anthropic ist die Vorhersage des nächsten Wortes „Mary“ nach der Eingabe „John and Mary went to the store. John gave a drink to“. Anthropic hat mit der SAE die gesamte Informationskette verfolgt und festgestellt, dass bestimmte Schichten die Namen identifizieren, andere Schichten verfolgen, wer erwähnt wurde, und die letzten Schichten die Operation „wähle das andere“ ausführen. Diese drei Merkmalsgruppen zusammen bilden einen circuit.
Was die Ambition betrifft, geht der SAE circuit über die Ebene der „Benennung von Merkmalen“ hinaus. Er versucht zu erklären, wie das Modell seine Ergebnisse berechnet. Anthropics Studie von März 2025, die die circuit-Analyse am detailliertesten erklärt, heißt „Biology of a Large Language Model“. Der Titel deutet an, dass sie versuchen, ein Biotextbuch für Large Language Models zu schreiben.
Am 7. Mai 2026 hat Anthropic ein neues Werkzeug namens NLA vorgestellt, das man sich als „SAE mit anderer Engstelle“ vorstellen kann. Die Engstelle des SAE ist ein spärliches Merkmalswörterbuch, und die Forscher müssen die Funktionen der Merkmale in diesem Wörterbuch erraten. Die NLA ersetzt die Engstelle direkt durch natürliche Sprache. Sie haben eine Übersetzungsschicht trainiert, die es dem Modell ermöglicht, in menschlicher Sprache zu erklären, was die Aktivierung bedeutet, und eine Rückwandlungseinheit, die diese menschliche Sprache wieder in Aktivierungen umwandelt. Dies löst das Problem der schlechten Verständlichkeit der SAE-Merkmale, aber die Rückwandlungsfähigkeit ist schlechter als die des SAE.
Der dritte Ansatz: Analyse der Modellstruktur anstatt der Laufzeitaktivierungen
Die ersten beiden Ansätze basieren auf der Analyse der Aktivierungsvektoren während der Modellausgabe. Der erste Ansatz beantwortet die Frage, welche Konzepte aktiviert werden, während der zweite Ansatz weitergeht und versucht, alle Konzepte zu finden und die Verbindungen zwischen ihnen aufzuzeigen.
Aber warum sollte man einen dritten, schwierigeren Weg einschlagen?
Weil der Schaltplan, den die SAE-Schule erstellt hat, auf instabilem Grund steht.
Hier müssen wir ein altes Problem einführen, das die SAE-Schule selbst schon lange erkannt hat, nämlich das „Feature Splitting“. Anthropic hat dieses Problem bereits 2023 benannt.
Wenn Sie ein SAE trainieren und ihm ein Wörterbuch mit 4096 Einträgen geben, findet es 3800 aktive Merkmale, darunter eines für „Katze“. Das ist gut. Aber wenn Sie das Wörterbuch auf 16384 Einträge erweitern? Das Merkmal „Katze“ verschwindet. Stattdessen erscheinen Merkmale wie „Weiße Katze“, „Schwarze Katze“, „Cartoon-Katze“, „Feline in akademischem Kontext“ oder „Katze auf der Couch“, dutzende winzige, kontextabhängige Merkmale. Wenn Sie das Wörterbuch auf 65536 Einträge erweitern? Das Merkmal wird weiter aufgesplittet. Dies bedeutet, dass die Anzahl der gefundenen Merkmale von der Größe des Wörterbuchs abhängt, nicht vom Modell selbst.
Nehmen wir ein einfaches Beispiel. Sie bitten einen Buchhalter, Ihre Rechnungen zu klassifizieren. Wenn Sie ihm 4 Kategorien geben, sagt er Ihnen: „Essen, Verkehr, Einkaufen, Unterhaltung“. Wenn Sie ihm 100 Kategorien geben, sagt er Ihnen: „Montags Mittagessen, Dienstags Mittagessen, Mittwochs Mittagessen, U-Bahn, Taxi, Mitfahrgelegenheit…“ Wenn Sie ihm 1000 Kategorien geben, wird er weiter aufteilen. Sie werden nicht glauben, dass er Ihre echte Konsumstruktur erkannt hat, sondern dass er von der Anzahl der Kategorien geleitet wird.
Das Feature Splitting hat besonders starken Einfluss auf die circuit-Analyse. Der circuit basiert auf den Merkmalen, und jeder Knoten in dem Diagramm ist ein SAE-Merkmal. Wenn die Merkmale selbst aufgrund der Größe des Wörterbuchs aufgesplittet, neu kombiniert oder verschoben werden, wird auch der gesamte Schaltplan instabil. Wenn Sie das Wörterbuch ändern und den Prozess erneut ausführen, erhalten Sie möglicherweise einen völlig anderen Schaltplan, obwohl das Modell selbst unverändert bleibt. Es ist nur die Messskala, die sich geändert hat.
Dies ist das, was Goodfire wirklich herausfordert. Nicht, dass die von der SAE gefundenen Merkmale bedeutungslos sind, sondern dass die SAE-Merkmale als Grundbausteine der Interpretierbarkeit nicht stabil genug sind, um das Versprechen eines „wahren Modells“ zu erfüllen. Die Logik der VPD ist, dass wir einen anderen Baustein verwenden. Anstatt Aktivierungen zu verwenden, verwenden wir Gewichte.
Mit einem biologischen Vergleich können Sie direkt den Unterschied zwischen diesen beiden Ansätzen verstehen. Die SAE-Schule macht etwas ähnliches wie funktionelle Magnetresonanztomographie und Elektroenzephalographie. Man zeigt einem Probanden Bilder und beobachtet, welche Hirnregionen leuchten und wie die Aktivität sich ausbreitet. Man kann ein Funktionsbild erstellen, aber man sieht nur die Hirnaktivität, nicht die physikalische Struktur des Gehirns. Wenn Sie eines Tages fragen möchten, „woher diese Neurone stammen“ oder „wie diese Nervenfasern verlaufen“, kann die MRT keine Antwort geben. Die VPD geht den Weg der Neuroanatomie und öffnet direkt das Gehirn, um zu sehen, wie die Nervenfasern angeordnet und die Synapsen verbunden sind. Es ist aufwändig und hat eine begrenzte Auflösung, aber man sieht die physikalische Struktur selbst.
Diese beiden Ansätze ergänzen sich, sie ersetzen sich nicht. Das Problem ist, dass die SAE-Schule in den letzten zwei Jahren ihre Rolle allmählich auf die Ebene der „Neuroanatomie“ gehoben hat. Goodfires Studie ist eine sanfte, aber entschiedene Korrektur. Sie sagen: Was Sie tun, ist funktionelle MRT. Die echte Anatomie muss so gemacht werden.
02
Zwei Scheitern bei der umgekehrten Skulpturierung und der Durchbruch der VPD
Um die folgenden technischen Fortschritte zu verstehen, müssen wir zunächst den Standardablauf der Interpretierbarkeit von Large Language Models verstehen. Um die Tausende von Milliarden von Parametern in einem Black-Box-Modell in ein von Menschen lesbares Schema umzuwandeln, ist der gesamte Prozess im Wesentlichen ein „Extraktor“. Dieser Ablauf besteht aus drei Kernkomponenten.
Die erste Komponente ist das Endprodukt, das Wörterbuch (Dictionary). Der ursprüngliche Zustand eines Large Language Models ist eine chaotische Ansammlung von Zahlen (Gewichtsmatrizen), und das Wörterbuch ist eine Konzeptübersicht, die wir durch die Zerlegung des Modells erhalten. Jeder Eintrag im Wörterbuch entspricht einem winzigen, nicht weiter teilbaren physikalischen Zahnrad (Rang-1-Komponente) im Modell.
Im SAE sind die Einträge im Wörterbuch Konzepte. Im VPD sind die meisten Einträge im Wörterbuch keine klaren Konzepte wie „Katze“ oder „Rot“, sondern eher kalte mechanische Aktionen. Beispielsweise „Öffne einen Platzhalter, wenn ein Präfixwort auftritt“. Das VPD versucht zunächst, die Funktionsweise der Modellparameter zu verstehen, nicht die Konzepte. Daher ist das resultierende Wörterbuch eher ein „Mechanikhandbuch“ als ein „Wörterbuch“.
Die zweite Komponente ist die Kernaktion, die Zerlegung und Aktivierung (Decomposition & Activation). Wie können wir die chaotische Matrix in ein klares Wörterbuch umwandeln? Dies muss während des Datenflusses geschehen.
Wir lassen eine riesige Menge von Daten durch das Large Language Model fließen und verwenden gleichzeitig ein externes Algorithmusmodul, um die Modellgewichte in Tausende von kleinen Zahnrädern aufzuteilen. Wenn ein Wort (z. B. „Orangekatze“) eines dieser Zahnräder aktiviert, wenn der Text durch das Modell fließt, wird dies als Aktivierung bezeichnet. Indem wir überwachen, wann und wie stark diese Zahnräder leuchten, können wir rückschließen, was sie repräsentieren.
Die dritte Komponente ist die Qualitätskontrollmechanik, die Ablation. Ist das zerlegte Wörterbuch wirklich zuverlässig? Wir müssen es durch eine extrem aggressive Zerstörungstest überprüfen.
Die Ablation besteht im Wesentlichen darin, die Stromversorgung zu unterbrechen. Wenn das Modell „Orangekatze“ verarbeitet und das nächste Wort vorhersagen soll, ziehen wir das Zahnrad aus dem Wörterbuch, das möglicherweise für „Katze“ steht (d. h. das entsprechende Gewicht wird auf Null gesetzt). Wenn das Modell plötzlich dumm wird und keine katzenbezogenen Wörter mehr ausgeben kann, bedeutet dies, dass dieses Zahnrad tatsächlich für das Verständnis von „Katze“ im Modell unerlässlich ist.
Wenn wir diesen Rahmen verstehen, können wir auch die Schwierigkeiten verstehen, denen der Parameteransatz in der Vergangenheit gegenüberstand.
Das APD im Jahr 2