StartseiteArtikel

Wird endlich etwas gegen das Unsinnige von KI unternommen?

机器之心2025-09-10 15:56
Der AI-Halluzinationsdetektor ist da: Kostengünstig, skalierbar und Echtzeiterkennung mit einer AUC von bis zu 0,9

Stellen Sie sich vor, wenn große KI-Modelle wie ChatGPT bei der Generierung alle Stellen, bei denen sie unsicher sind, markieren könnten. Würden Sie dann den von ihnen generierten Antworten viel mehr vertrauen?

Letztes Wochenende hat ein von OpenAI veröffentlichtes Papier die Community in Aufruhr versetzt. In diesem Papier wird systematisch die Wurzel der Halluzinationen aufgedeckt, und es wird darauf hingewiesen, dass das Problem in den Belohnungen liegt – die Standard-Trainings- und Evaluierungsprozesse belohnen eher Vermutungen als das Mut, bei Unsicherheit zuzugeben. Vielleicht hat GPT-5 seinen Halluzinationsanteil drastisch reduziert, weil man sich dieses Problems bewusst geworden und eine gezielte Lösung gefunden hat.

Mit der zunehmenden Anwendung großer KI-Modelle in risikoreichen Bereichen wie medizinischen Beratungen und rechtlichen Ratschlägen wird das Problem der Halluzinationen immer schwieriger zu bewältigen. Daher setzen viele Forscher in diese Richtung ein. Neben der Suche nach den Ursachen der Halluzinationen wie bei OpenAI forschen auch viele an Techniken zur Halluzinationserkennung. Die bestehenden Halluzinationserkennungstechniken stoßen jedoch in der praktischen Anwendung an ihre Grenzen und sind normalerweise nur für kurze faktische Abfragen geeignet oder erfordern teure externe Ressourcen zur Verifizierung.

Als Antwort auf diese Herausforderung schlägt eine neue Studie von der Eidgenössischen Technischen Hochschule Zürich (ETH) und MATS eine kostengünstige und skalierbare Detektionsmethode vor, die „halluzinierte Token“ in langen Texten in Echtzeit identifizieren kann und erfolgreich auf ein riesiges Modell mit 70 Milliarden (70B) Parametern angewendet wurde.

Titel des Papiers: Real-Time Detection of Hallucinated Entities in Long-Form Generation

Link zum Papier: https://arxiv.org/abs/2509.03531

Link zum Code: https://github.com/obalcells/hallucination_probes

Link zum Projekt: https://www.hallucination-probes.com/

Code und Datensatz: https://github.com/obalcells/hallucination_probes

Der Kern dieser Methode ist die präzise Erkennung von Entitäts-Halluzinationen, wie z. B. erfundene Namen, Daten oder Zitate, anstatt die Wahrheit eines gesamten Statements zu beurteilen. Diese Strategie ermöglicht es, die Methode natürlich auf Token-Ebene zu mappen und so eine Echtzeit-Streaming-Detektion zu ermöglichen.

Detektion von halluzinierten Entitäten über Token-Level-Sonden. In Szenarien zur Generierung von langen Texten (Long Fact, HealthBench) übertrifft die Leistung der linearen Sonden bei weitem die der auf Unsicherheit basierenden Basismethoden, und die LoRA-Sonden verbessern die Leistung noch weiter. Die Sonden zeigen auch in Szenarien mit kurzen Texten (TriviaQA) und im Bereich der Inferenz außerhalb der Verteilung (MATH) hervorragende Ergebnisse. Das Bild zeigt die Ergebnisse des Llama-3.3-70B-Modells.

Um dieses Ziel zu erreichen, haben die Forscher einen effizienten Annotierungsprozess entwickelt. Sie nutzen die Internetrecherche, um die Entitäten in den vom Modell generierten Texten zu verifizieren und jedes Token zu markieren, ob es faktisch begründet ist oder nicht. Basierend auf diesem speziell erstellten Datensatz haben die Forscher mit einfachen und effizienten Techniken wie linearen Sonden (linear probes) erfolgreich präzise Halluzinationsklassifikatoren trainiert.

Bei der Evaluierung von vier der wichtigsten Modellfamilien übertrifft der Klassifikator die bestehenden Basismethoden in jeder Hinsicht. Insbesondere bei der Verarbeitung von langen Antworten ist es weitaus effektiver als rechenintensive Methoden wie die semantische Entropie. Beispielsweise erreicht die Methode auf dem Llama-3.3-70B-Modell einen AUC-Wert (Klassifikatorleistungsindikator) von 0,90, während die Basismethode nur 0,71 erreicht. Darüber hinaus zeigt es auch in Szenarien mit kurzen Fragen und Antworten eine überlegene Leistung.

Es ist bemerkenswert, dass der Klassifikator, obwohl er nur mit Entitäts-Level-Labels trainiert wurde, effektiv falsche Antworten in mathematischen Inferenzaufgaben erkennen kann. Diese Entdeckung zeigt, dass die Methode die Fähigkeit hat, über die reine Entitätserkennung hinaus zu verallgemeinern und breitere logische Fehler zu erkennen.

Obwohl die Annotierungskosten des ursprünglichen Datensatzes hoch sind, haben die Forscher festgestellt, dass die von einem Modell annotierten Daten für das Training von effektiven Klassifikatoren für andere Modelle wiederverwendet werden können. Daher hat das Forschungsunternehmen diesen Datensatz öffentlich zugänglich gemacht, um die weitere Forschung in der Community voranzutreiben.

Übersicht über die Methode

Erstellung eines Datensatzes zur Token-Level-Halluzinationserkennung

Um einen Klassifikator zu trainieren, der Halluzinationen auf Token-Ebene erkennen kann, benötigen die Forscher einen Datensatz, in dem die halluzinierten Inhalte in langen Texten präzise annotiert sind. Dieser Prozess gliedert sich in zwei Schritte: (1) Generierung von gemischten Texten, die faktische und halluzinierte Inhalte enthalten; (2) genaue Token-Level-Annotation dieser Texte, um zu erkennen, welche Token zu erfundenen Entitäten gehören. Das folgende Bild zeigt diesen Annotierungsprozess.

Token-Level-Annotierungspipeline.

  • Datengenerierung

Die Forscher haben auf der Grundlage des LongFact-Datensatzes einen um das Zehnfache größeren und vielfältigeren Prompt-Satz namens  LongFact++ erstellt.

LongFact++ enthält vier Arten von Prompts, darunter thematische Abfragen, Biographien von Prominenten, Zitaterzeugung und Rechtsfälle. Ziel ist es, die großen Sprachmodelle dazu zu bringen, lange Texte mit vielen Entitäten zu generieren, die als Rohmaterial für die anschließende Annotation dienen.

  • Token-Level-Annotation

Im Gegensatz zu herkömmlichen Methoden, die Texte in atomare Behauptungen zerlegen, konzentriert sich diese Studie auf die Annotation von Entitäten (z. B. Namen, Daten, Zitate usw.), da Entitäten eindeutige Token-Grenzen haben und sich daher gut für die Streaming-Detektion eignen. Sie verwenden das Claude 4 Sonnet-Modell mit Internetrecherchefunktion, um den Annotierungsprozess automatisch durchzuführen.

Das System erkennt die Entitäten im Text, verifiziert ihre Echtheit über die Internetrecherche und markiert sie als „Supported“ (mit Beweisen unterstützt), „Not Supported“ (als erfunden bestätigt) oder „Insufficient Information“ (nicht genügend Informationen).

  • Qualität der Labels

Um die Qualität der Annotationen zu überprüfen, haben die Forscher zwei Prüfungen durchgeführt. Erstens stimmten die Annotationen der menschlichen Annotatoren zu 84 % mit den automatisch von großen Modellen annotierten Ergebnissen überein. Zweitens betrug die Recall-Rate dieses Annotierungsprozesses in einem kontrollierten Datensatz mit bekannten Fehlern (künstlich eingefügt) 80,6 %, und die Falsch-Positiv-Rate betrug 15,8 %.

Training von Token-Level-Sonden

Eine Sonde ist ein Halluzinationsdetektor, der an ein Sprachmodell angehängt wird. Sie besteht aus einem linearen „Value-Head“ und optional einem LoRA-Adapter. Der Value-Head liest den verborgenen Zustand der mittleren Schicht ℓ des Modells 

und gibt eine Token-Level-Halluzinationswahrscheinlichkeit aus:

Die Gesamtverlustfunktion des Trainings

ist eine Kombination, die sowohl den Sondenverlust für das Training des Halluzinationsklassifikators

als auch einen Regularisierungsterm zur Einschränkung der Verhaltensänderungen des Modells 

enthält.

Um das Problem zu lösen, dass die Halluzinationssignale normalerweise auf wenige Schlüssel-Token konzentriert sind, haben die Forscher eine gemischte Verlustfunktion entwickelt, die den Wort-für-Wort-Verlust und den Spannen-Maximal-Verlust kombiniert. Die Formel lautet wie folgt:

Die Genialität dieses Designs liegt darin, dass für ein als halluziniert markiertes Textsegment die Verlustfunktion belohnt wird, solange mindestens ein Token einen hohen Halluzinationswert hat. Dadurch lernt die Sonde, sich genauer auf die Schlüssel-Fehlersignale zu konzentrieren.

Experimentelle Ergebnisse

In der Einstellung für lange Texte (LongFact und HealthBench) übertrifft die Leistung der Token-Level-Sonden bei zwei Hauptmodellen die der Basismethoden deutlich (Tabelle 1). Einfache lineare Sonden erreichen stets einen AUC-Wert von über 0,85, und die LoRA-Sonden verbessern die Leistung noch weiter und bringen den AUC auf über 0,89.

Im Vergleich dazu performen die auf Unsicherheit basierenden Basismethoden alle schlecht, und die AUC-W