Tsinghua-Universität entdeckt Schuldigen hinter "Halluzinationen": 0,1 % der durch Pre-Training entstandenen Neuronen

Einfluss auf das Verhalten von H-Neuronen

Das Team von Sun Maosong der Tsinghua-Universität hat die mikroskopische Mechanik von Halluzinationen aus der Perspektive der Neuronen untersucht und festgestellt, dass eine winzige Anzahl von Neuronen (H-Neuronen) Halluzinationen vorhersagen kann und mit übermäßig gefügigem Verhalten in Verbindung steht. Die Wurzel dieser Erscheinung liegt in der Vor-trainingsphase. Dies bietet neue Ideen zur Lösung des Halluzinationsproblems und trägt zur Entwicklung zuverlässigerer Large Language Models bei.

Unabhängig davon, wie gut Large Language Models in den Rankings abschneiden, schwebt immer der Geist der "Halluzination" über ihnen. Dies hindert Bereiche, die auf faktische Genauigkeit angewiesen sind (wie Finanzwesen, Bildung und Medizin), daran, KI leichtfertig in ihre Geschäftsprozesse zu integrieren.

Unter Halluzinationen versteht man Ausgaben des Modells, die zwar plausibel erscheinen, aber tatsächlich ungenau oder nicht durch Belege gestützt sind. Beispielsweise hat GPT-3.5 in einer auf Zitaten basierenden faktischen Bewertung eine Halluzinationsrate von etwa 40 %. Obwohl GPT-4 die Halluzinationsrate auf 28,6 % reduziert hat, liegt diese immer noch auf einem relativ hohen Niveau. Systeme, die auf logisches Denken ausgerichtet sind (wie DeepSeek-R1), zeigen zwar in komplexen Aufgaben gute Leistungen, weisen aber auch deutliche Halluzinationsmuster auf.

Das bedeutet, dass unabhängig von der Modellarchitektur das Phänomen der Halluzination immer vorhanden ist und der Hauptengpass für die Zuverlässigkeit von Large Language Models ist.

Die bisherigen Forschungsergebnisse zeigen, dass die Mechanismen und Faktoren hinter Halluzinationen grob in drei Kategorien eingeteilt werden können:

Von der Perspektive der Trainingsdaten aus gesehen erschwert die unausgewogene Verteilung und die inhärenten Verzerrungen der Datensätze es dem Modell, seltene Fakten genau zu erinnern.

Die Trainingsziele in der Vor-trainingsphase und der Nach-trainingsphase zielen hauptsächlich darauf ab, dass das Modell sich sicher in seiner Vorhersage verhält, anstatt die "Unsicherheit" gegenüber "unbekannten Informationen" auszudrücken. Dies führt dazu, dass das Modell fehlerhafte Vermutungen ausgibt. Das "Next-token-Vorhersageziel" in der Vor-trainingsphase legt mehr Wert auf die "Flüssigkeit der Ausgabe" als auf die "faktische Genauigkeit". Die Befehlsfeinabstimmung und die verstärkte Lernmethode neigen dazu, "scheinbar nützliche" Antworten zu generieren.

Der Decodieralgorithmus bringt durch die Zufälligkeit und die Akkumulation von Fehlern in der autoregressiven Generierung Instabilität ein, wodurch kleine Abweichungen allmählich zu Halluzinationen anwachsen.

Die meisten gegenwärtigen Forschungen betrachten Large Language Models als Black Box und untersuchen die Ursachen von Halluzinationen auf makroskopischer Ebene, während die mikroskopische Betrachtung auf Neuronenebene vernachlässigt wird.

Durch die Untersuchung der Aktivierungsmuster von Neuronen bei Halluzinationen kann man die Zuverlässigkeit des Modells besser verstehen. In Bezug auf die Interpretierbarkeit kann die Analyse auf Neuronenebene vorhersagen, wann Halluzinationen wahrscheinlich auftreten. Für die Anpassung und das Verhaltenskontrollieren bieten die Neuronen angreifbare Interventionspunkte. Beispielsweise kann man bestimmte Neuronenuntergruppen aktivieren oder hemmen, um die Modellausgabe zuverlässig zu ändern.

Kürzlich hat das Team von Sun Maosong der Tsinghua-Universität die mikroskopische Mechanik von Halluzinationen in Large Language Models aus der Perspektive der Neuronen untersucht und die halluzinationsbezogenen Neuronen (H-Neuronen) aus drei Perspektiven (Identifizierung, Verhaltensauswirkung und Ursprung) systematisch erforscht.

Link zur Studie: https://arxiv.org/abs/2512.01797v2

Beim Aspekt der Identifizierung haben die Forscher bewiesen, dass eine winzige, dünn besetzte Untergruppe von Neuronen (weniger als 0,1 % der Gesamtzahl der Neuronen) Halluzinationen zuverlässig vorhersagen kann und in verschiedenen Szenarien eine starke Generalisierungsfähigkeit zeigt.

Beim Aspekt der Verhaltensauswirkung haben kontrollierte Interventionen gezeigt, dass diese Neuronen eine kausale Beziehung zu übermäßig gefügigem Verhalten haben.

Beim Aspekt des Ursprungs haben die Forscher diese Neuronen auf das Basis-Modell der Vor-trainingsphase zurückverfolgt und festgestellt, dass diese Neuronen auch in der Halluzinationserkennung noch Vorhersagekraft besitzen. Dies deutet darauf hin, dass Halluzinationen bereits in der Vor-trainingsphase entstehen.

Identifizierung von H-Neuronen

Um die H-Neuronen aus dem riesigen Parameterspace von Large Language Models (LLMs) zu identifizieren, haben die Forscher die Methode der dünn besetzten linearen Detektion angewendet. Zunächst haben sie den CETT-Indikator (relu2wins) verwendet, um den Beitrag jedes Neurons zur generierten Antwort zu quantifizieren und das Aktivierungsniveau der Neuronen während des Generierungsprozesses zu messen.

Anschließend wurde die Halluzinationserkennung als ein binäres Klassifizierungsproblem betrachtet, d. h. es wurde vorhergesagt, ob die Antwort eine Halluzination ist oder nicht, basierend auf dem Aktivierungszustand der Neuronen. Ein dünn besetzter Klassifikator wurde mit logistischer Regression mit L1-Regularisierung trainiert, um die am besten vorhersagenden Neuronen automatisch auszuwählen. Neuronen mit nicht-null Gewichten wurden als H-Neuronen identifiziert.

Die Neuronen mit nicht-null Gewichten wurden als H-Neuronen identifiziert. Die Trainingsdaten wurden aus dem TriviaQA-Datensatz gesammelt, indem mehrere Antworten auf jede Frage gesammelt und anhand ihrer faktischen Richtigkeit markiert wurden.

Die Ergebnisse der Halluzinationserkennung an sechs führenden Large Language Models zeigen, dass H-Neuronen bei der Halluzinationserkennung eine bemerkenswerte Robustheit aufweisen. In allen Modellen und Bewertungsszenarien sind sie konsistent und deutlich besser als Klassifikatoren, die mit zufällig ausgewählten Neuronen aufgebaut wurden, und die Genauigkeit steigt um mehr als 10 Prozentpunkte.

Der Klassifikator zeigt in verschiedenen Szenarien eine hervorragende Leistung: Es wird eine hohe Genauigkeit in datensatzspezifischen Tests (TriviaQA und NQ) erreicht, es wird Generalisierungsfähigkeit in biomedizinischen Fragen aus anderen Bereichen (BioASQ) gezeigt, und es bleibt auch in fiktiven Fragen (NonExist) effektiv.

Das konsistente Verhalten in vertrauten Wissensbereichen, bei Bereichsübergängen und in völlig fiktiven Szenarien zeigt, dass H-Neuronen generalisierbare Halluzinationsmuster erfassen, nicht nur datensatzspezifische Merkmale.

Es ist bemerkenswert, dass H-Neuronen eine extrem dünn besetzte Untergruppe aller Neuronen im Modell darstellen, normalerweise weniger als ein Promille aller Neuronen im Modell. Doch diese kleine Anzahl von Neuronen liefert genug Signale, um Halluzinationen zuverlässig zu erkennen. Dies zeigt, dass eine kompakte Untergruppe der Modellparameter eine Menge Informationen über die Halluzinationsneigung enthält.

Verhaltensauswirkungen von H-Neuronen

Obwohl die Vorhersagegenauigkeit eine Korrelation anzeigt, muss man von der bloßen Beobachtung zu Interventionen übergehen, um festzustellen, "Welche Rolle spielen H-Neuronen bei der Gestaltung des Modellverhaltens?"

Die Forscher haben eine systematische Störungsmethode entwickelt, um den Beitrag der Neuronen beim Inferenzprozess zu regulieren, ohne das Modell neu zu trainieren:

Für jedes Zielneuron wird der Aktivierungswert mit einem Skalierungsfaktor α multipliziert, wobei α zwischen 0 und 3 liegt. Wenn α kleiner als 1 ist, wird der Einfluss des Neurons durch die Reduzierung der Aktivierungsstärke gedämpft. Wenn α gleich 1 ist, bleibt das ursprüngliche Verhalten des Modells unverändert. Wenn α größer als 1 ist, wird der Beitrag des Neurons zur Modellantwort durch die Erhöhung der Aktivierungsamplitude verstärkt.

Die gegenwärtige Forschung geht allgemein davon aus, dass Halluzinationen darauf zurückzuführen sind, dass das Modell aus Gründen der höheren Genauigkeit eher riskante Vermutungen anstellt. Die Forscher haben eine ergänzende Ansicht vorgeschlagen: Das riskante Verhalten ist "übermäßige Fügung", d. h. das Modell neigt dazu, die Anfragen der Benutzer zu erfüllen, auch wenn dies die Wahrheit, Sicherheit oder Integrität beeinträchtigt.

Beispielsweise, wenn das Modell Halluzinationsinhalte generiert, um eine "unbeantwortbare Frage" zu beantworten, setzt es das Unterbewusstsein der Menschen, eine Antwort zu erhalten, höher ein als die Anerkennung von Unsicherheit oder Wissensgrenzen. Dies ist ähnlich wie wenn Menschen aus sozialen Gründen lügen können.

Wenn H-Neuronen übermäßige Fügung kodieren, dann wird die Manipulation dieser Neuronen nicht nur das Verhalten des Modells bei faktischen Fragen beeinflussen, sondern auch andere Aufgaben, bei denen übermäßige Fügung auftritt.

Die Experimentergebnisse zeigen, dass es eine konsistente positive Korrelation zwischen dem Skalierungsfaktor der Neuronen und der Fügungsrate des Modells gibt. Dies bedeutet, dass die künstliche Verstärkung des Aktivierungswerts dieser H-Neuronen die Resistenz des Modells gegen falsche Prämissen, irreführende Kontexte, misstrauische Einstellungen oder schädliche Anweisungen deutlich schwächt. Die Dämpfung der Neuronen kann dagegen übermäßiges gefügiges Verhalten effektiv reduzieren und die Robustheit und Integrität des Modells wiederherstellen.

Die Empfindlichkeit des Modells gegenüber Neuronenstörungen steht normalerweise in umgekehrtem Verhältnis zur Größe der Parameter. Dies zeigt, dass kleinere Modelle leichter unter internen Störungen starke Verhaltensänderungen erfahren, während größere Modelle möglicherweise eine stärkere inhärente Robustheit besitzen, was die Auswirkungen der Verstärkung bestimmter Neurongruppen abschwächt.

Das Verhaltensreaktionsmuster ist nicht in allen Fällen streng monoton. Bei einigen Modellen kann es bei mittleren Skalierungsfaktoren zu Schwankungen oder vorübergehenden Abnahmen der Fügungsrate kommen.

Ursprung von H-Neuronen

Entstehen diese Neuronen in der Vor-trainingsphase oder im Nach-trainingsphase bei der Anpassung?

Die Bestimmung der Zeitlinie entscheidet darüber, ob zukünftige Lösungsstrategien eher auf die "Vor-trainingsphase" oder auf die "Anpassungsalgorithmen" konzentriert werden sollten.

Wenn H-Neuronen bereits im Basis-Modell ein einzigartiges Aktivierungsmuster zeigen, deutet dies darauf hin, dass die Wurzel des Halluzinationsverhaltens in der Vor-trainingsphase liegt und nicht nur durch die überwachte Feinabstimmung (SFT) induzierte Anpassungsdynamik.

Die Forscher haben zwei Experimente durchgeführt, um die H-Neuronen zu analysieren, und die Ergebnisse zeigen:

H-Neuronen spielen eine Schlüsselrolle bei der Vorhersagefähigkeit des Basis-Modells. Dies beweist, dass H-Neuronen bereits in der Vor-trainingsphase etabliert werden und nicht aus der Nach-trainingsphase der Anpassung stammen.

Die Verteilung der normalisierten Ränge zeigt, dass während des Übergangs vom Basis-Modell zum Befehlsfeinabstimmungsmodell die Parameter der H-Neuronen nur sehr wenig aktualisiert werden. Dies deutet darauf hin, dass die Befehlsfeinabstimmung die zugrunde liegende Halluzinationsmechanik nicht neu aufbauen kann.

Schlussfolgerung

Die Forscher haben eine systematische Untersuchung der mikroskopischen Mechanik von Halluzinationen in Large Language Models auf Neuronenebene durchgeführt. Indem sie die Lücke zwischen makroskopischen Verhaltensmustern und mikroskopischen neuronalen Aktivierungen schließen, haben sie drei Fragen beantwortet:

Das Vorhandensein von H-Neuronen: Weniger als 0,1 % der Neuronen im Modell können genau vorhersagen, ob das Modell eine halluzinatorische Antwort generieren wird oder nicht.

Der Einfluss auf das Modellverhalten: H-Neuronen stehen in engem Zusammenhang mit übermäßig gefügigem Verhalten von Large Language Models, einschließlich übermäßiger Bindung an falsche Prämissen, höherer Empfindlichkeit gegenüber irreführenden Kontexten, erhöhter Befolgung schädlicher Anweisungen und stärkerer Neigung zur Schmeichelei. H-Neuronen kodieren nicht nur faktische Fehler, sondern repräsentieren eine allgemeinere Tendenz, die Fügung in der Konversation der faktischen Integrität vorzuziehen.

Die H-Neuronen entstehen in der Vor-trainingsphase. Die aus der Lern-theorie stammende Hypothese wird durch empirische Beweise gestützt. Diese Neuronen behalten ihre Vorhersagefähigkeit im Basis-Modell und können Halluzinationen bereits vor der Feinabstimmung erfolgreich erkennen.

Diese Arbeit vertieft das Verständnis der Entstehung von Halluzinationen auf der Ebene der Computation und bietet handlungsfähige Forschungsperspektiven zur Entwicklung zuverlässigerer Large Language Models.

Quellenangaben:

https://arxiv.org/abs/2512

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Tsinghua-Universität findet den Schuldigen hinter "Halluzinationen" heraus: 0,1 % der Neuronen, die durch das Pre-Training entstehen

Identifizierung von H-Neuronen

Verhaltensauswirkungen von H-Neuronen

Ursprung von H-Neuronen

Schlussfolgerung