OpenAI hat wieder Open-Source-Projekte veröffentlicht. Die Größe beträgt nur 0,4 Milliarden Parameter, was eine deutliche Reduzierung der Modellgröße darstellt.
Zhidongxi berichtete am 15. Dezember. Gestern hat OpenAI ein neues Modell namens Circuit-Sparsity open source gestellt. Die Anzahl der Modellparameter beträgt nur 0,4 Milliarden, und 99,9 % der Gewichte sind null.
Open-Sourcing von Circuit-Sparsity (Quelle: Hugging Face)
Diese Technologie versucht, das Problem der Interpretierbarkeit von Modellen zu lösen. Einfach ausgedrückt, beantwortet sie die beiden Fragen: "Warum trifft das Modell diese Entscheidung?" und "Wie kommt es zu diesem Ergebnis?"
In der heutigen Zeit des raschen Fortschritts der Künstlichen Intelligenz (KI) zeigen große Sprachmodelle (Large Language Models, LLM) zwar erstaunliche Fähigkeiten, aber ihre internen Arbeitsmechanismen bleiben immer noch wie eine geheime "Schwarze Kiste".
Wir wissen nicht, warum es eine bestimmte Antwort gibt, und auch nicht, wie es aus einer riesigen Menge von Daten Wissen extrahiert. Diese Uninterpretierbarkeit ist ein großes Hindernis für die Implementierung von KI in Hochrisikobereichen wie Medizin, Finanzen und Recht.
Dafür hat das OpenAI-Forschungsteam ein Transformer-Modell mit spärlichen Gewichten trainiert, das erzwungenermaßen 99,9 % der Gewichte in der Gewichtsmatrix des Modells auf null setzt und nur 0,1 % der Nicht-Null-Gewichte behält.
In dieser Studie hat das Forschungsteam kompakte und lesbare "Schaltkreise" (Circuits) im Modell gebildet. Jeder Schaltkreis behält nur die Schlüsselknoten, die für die Leistung des Modells erforderlich sind, und die Aktivierung der Neuronen wird semantisch klar.
Einige Internetnutzer im Ausland sagen, dass diese Technologie das Ende des momentanen MoE-Modells (Mixture of Experts) herbeiführt. Sie sagen auch: "Wir haben bisher immer die Gewichte in 'Experten' isoliert, um grob die Sparsität zu approximieren, nur um den Anforderungen der dichten Matrixkerne zu entsprechen."
Bewertungen aus dem Ausland (Quelle: X)
Einige Internetnutzer beschreiben diese Studie sogar als "Abnehmen des Modells auf das Skelett". Sie sagen auch, dass diese Studie wie das Öffnen einer schwarzen Kiste ist. Anstatt versucht, das dichte Modell zu entschlüsseln, wird direkt ein spärliches Modell aufgebaut. Das ist genau das Interessante an dieser Studie.
Bewertungen aus dem Ausland (Quelle: X)
Einige Internetnutzer sind jedoch anderer Meinung. Sie sagen, dass sie nicht verstehen, warum das MoE-Modell damit am Ende sein soll. Sie erklären weiter, dass diese Technologie auf XAI (Interpretierbare KI) abzielt und die Trainingskosten um das 100- bis 1.000-fache höher sind. Ein Rückgang in die "Forschungszeit" bedeutet nicht, dass die Dinge komplizierter werden.
Bewertungen aus dem Ausland (Quelle: X)
Das Modell ist derzeit an die Engpässe der Rechenleistung gebunden. Seine Rechengeschwindigkeit ist um das 100- bis 1.000-fache langsamer als die von dichten Modellen. Die direkte Anwendung dieser Technologie auf moderne Großmodelle mit hunderten von Milliarden von Parametern ist derzeit nicht praktikabel.
Open-Source-Adresse:
Github:
https://github.com/openai/circuit_sparsity
Hugging Face:
https://huggingface.co/openai/circuit-sparsity
01. Training eines spärlichen Transformers: OpenAI klärt die internen Berechnungen des Modells auf
Um den Durchbruch dieser Studie zu verstehen, muss man zuerst verstehen, warum traditionelle Großmodelle schwer zu interpretieren sind.
In Standard-Dichtmodellen (Dense Models) tritt in neuronalen Netzen ein Phänomen namens "Superposition" auf. Einfach ausgedrückt, um eine riesige Menge von Informationen zu speichern, wird das Modell gezwungen, einem einzelnen Neuron oder einer Gewichtsmatrix mehrere völlig unterschiedliche Konzepte gleichzeitig zu codieren.
Diese Merkmalsverflechtung führt zu schwerwiegenden Folgen, wie z. B. unverfolgbaren Entscheidungen und logischen Verwirrungen des Modells. Wenn das Modell ein Ergebnis ausgibt, können wir nicht feststellen, welches konkrete "Konzept" hierbei wirksam ist.
Frühere Studien gingen in Bezug auf die oben genannten Probleme normalerweise von einem Versuch aus, das dichte und verwirrte Netz zu zerlegen. Das OpenAI-Team hat jedoch eine "gegenintuitiv" Strategie verfolgt, nämlich die Trainierung eines Transformer-Modells mit spärlichen Gewichten, das erzwungenermaßen 99,9 % der Gewichte in der Gewichtsmatrix des Modells auf null setzt und nur 0,1 % der Nicht-Null-Gewichte behält.
Durch die Zwangsbeschränkung des Modells auf sehr wenige mögliche Verbindungen zwischen seinen Neuronen hat diese einfache Änderung fast von Grund auf die internen Berechnungen des Modells geklärt.
Jedes Neuron ist nur mit wenigen Neuronen der nächsten Schicht verbunden (Quelle: OpenAI-Technologieblog)
Die konkreten technischen Mittel umfassen:
1. Dynamisches Pruning und Sparsitätsbeschränkung: Während des Trainings führt das System dynamisch "Pruning"-Operationen durch und behält nach jeder Optimierungsschritt nur die Gewichte mit den größten Absolutwerten (Top-K-Sparsifizierung) bei.
2. Aktivierungssparsifizierung: An kritischen Stellen wie im Residualfluss und in der Attention-Key/Value-Matrix hat das Forschungsteam die AbsTopK-Aktivierungsfunktion eingeführt, die erzwungenermaßen nur die obersten 25 % der Aktivierungswerte behält.
3. Architekturelle Feinabstimmung: Um der Sparsifizierung zu entsprechen, hat das Forschungsteam die traditionelle LayerNorm durch RMSNorm ersetzt, um zu vermeiden, dass die Normalisierungsoperation die Sparsität zerstört. Gleichzeitig wurde eine "Bigram-Tabelle" eingeführt, um einfache Mustererkennungen zu behandeln, um die Kapazität des Hauptmodells für komplexe logische Schlussfolgerungen freizugeben.
02. Kompakte und lesbare "Schaltkreise" im Modell: Die Größe wird um das 16-fache reduziert
Das größte Ergebnis dieser Technologie ist die Bildung kompakter und lesbarer "Schaltkreise" (Circuits) im Modell.
In traditionellen Dichtmodellen können für die Erledigung einer Aufgabe tausende von Knoten zusammenarbeiten müssen, und die Logik ist verteilt und schwer zu erfassen. In spärlichen Modellen hat das Forschungsteam jedoch minimale Berechnungspfade beobachtet:
1. Minimale logische Einheiten: Beispielsweise bei der Bearbeitung der Aufgabe "Zeichenkettenabschluss" hat das Modell nur 12 Knoten verwendet, um einen perfekten Schaltkreis aufzubauen, der klar zeigt, wie es überprüft, ob einfache oder doppelte Anführungszeichen abgeschlossen sind.
2. Lesbare Merkmale: Die Aktivierung der Neuronen wird semantisch klar. Die Forscher haben festgestellt, dass einige Neuronen speziell für die Erkennung von "einfachen Anführungszeichen" zuständig sind, während andere wie "Zähler" die Verschachtelungstiefe von Listen exakt verfolgen.
3. Reduzierung der Größe um das 16-fache: Vergleichsexperimente zeigen, dass bei derselben Aufgabenverlustrate die Schaltkreise des spärlichen Modells um das 16-fache kleiner sind als die des dichten Modells. Dies bedeutet, dass die Schwierigkeit, das Denken der KI zu verstehen, um eine ganze Größenordnung gesenkt wird.
Die Schaltkreise des spärlichen Modells sind um das 16-fache kleiner als die des dichten Modells (Quelle: OpenAI-Technologiepapier)
Um die Echtheit dieser Schaltkreise zu überprüfen, hat das Team ein "Mean-Ablation"-Experiment durchgeführt. Die Ergebnisse zeigen, dass das Entfernen von Nicht-Schaltkreisknoten fast keine Auswirkungen auf die Aufgabe hat, während das Entfernen von Schlüsselknoten im Schaltkreis die Leistung des Modells sofort zusammenstürzen lässt. Dies bestätigt, dass diese Schaltkreise tatsächlich der "unvermeidliche Weg" für das Modell bei der Erledigung der Aufgabe sind.
"Mean-Ablation"-Experiment (Quelle: OpenAI-Technologiepapier)
03. Spärliche Modelle haben eine hohe Interpretierbarkeit, aber sind um das Tausendfache langsamer: OpenAI schlägt "Brückennetzwerke" vor
Um das Maß der Entkopplung der Berechnungen spärlicher Modelle zu messen, hat das Forschungsteam eine einfache Algorithmusaufgabe entwickelt. Für jedes Modell haben sie es auf den kleinsten Schaltkreis zugeschnitten, der noch in der Lage ist, diese Aufgabe zu erledigen, und die Einfachheit dieses Schaltkreises überprüft.
Das Forschungsteam hat festgestellt, dass nach dem Training mit größeren und sparseren Modellen leistungsfähigere Modelle aufgebaut werden können, die auf einfacheren Schaltkreisen basieren.
Vergleichsdiagramm zwischen Interpretierbarkeit und Fähigkeit des Modells (Quelle: OpenAI-Technologieblog)
Aus dem Vergleichsdiagramm zwischen Interpretierbarkeit und Leistung des Modells geht hervor, dass bei einer festgelegten Größe des spärlichen Modells die Erhöhung der Sparsität, d. h. das Setzen mehrerer Gewichte auf null, zwar zu einer gewissen Verschlechterung der Modellleistung führt, aber die Interpretierbarkeit deutlich verbessert.
Obwohl spärliche Modelle in Bezug auf die Interpretierbarkeit hervorragende Vorteile haben, ist ihre Anwendung derzeit an die Engpässe der Rechenleistung gebunden: Die Berechnung spärlicher Matrizen kann nicht durch Tensor Cores beschleunigt werden, und die Rechengeschwindigkeit ist um das 100- bis 1.000-fache langsamer als die von dichten Modellen. Dies bedeutet, dass die direkte Anwendung dieser Technologie auf moderne Großmodelle mit hunderten von Milliarden von Parametern derzeit nicht praktikabel ist.
Deshalb hat das Forschungsteam das Konzept der "Brückennetzwerke" (Bridges) vorgeschlagen:
1. Codierungs-Decodierungs-Mapping: Zwischen dem spärlichen Modell und dem vortrainierten dichten Modell wird ein Encoder-Decoder-Paar eingefügt.
2. Intermodellare Intervention: Der Encoder bildet die Aktivierungen des dichten Modells in den spärlichen Raum ab, und der Decoder führt die Umkehrung durch.
Das Konzept der "Brückennetzwerke" (Bridges) ermöglicht es, ein Merkmal in einem "transparenten" spärlichen Modell zu ändern und dann diese Störung über die Brücke in das "schwarze Kisten"-dichte Modell abzubilden, um so interpretierbare Verhaltensänderungen an bestehenden Großmodellen durchzuführen.
04. Fazit: OpenAI schlägt einen neuen Sparsifizierungsweg vor, der Großmodelle von "Schwarzer Kiste" zu "Interpretierbar" führt
Diese Studie des OpenAI-Forschungsteams markiert einen wichtigen Durchbruch im Bereich der Interpretierbarkeit von KI und bestätigt, dass das Verständnis von KI kein unerreichbares Ziel ist.
Das Forschungsteam hat in seinem Papierblog angegeben, dass diese Arbeit eine frühe Erkundung auf dem Weg zu einem größeren Ziel ist. Im nächsten Schritt planen sie, die relevante Technologie auf größere Modelle auszuweiten und gleichzeitig das Verhaltenslogik mehrerer Modelle weiter zu erklären.
Um das Problem der geringen