Ist "Du bist ein Experte" das Gift für KI-Halluzinationen? Eine neue Studie lüftet die größte Täuschung bei Prompting.
Die stärkste Illusion von KI ist es, dass sie nicht nicht kann, sondern vielmehr "können zu tun" kann. Der Zaubertrank "Sie sind ein Experte" hat möglicherweise die gesamte KI-Branche ein Jahr lang getäuscht.
Das Leben ist wie ein Theaterstück, und alles hängt von der Schauspielkunst ab. Aber bei KI geht das nicht -
Eine neueste Studie bestätigt, dass "die KI als Experte auftreten zu lassen" messbar und anhaltend die Genauigkeit des Modells verringert.
Link: https://arxiv.org/pdf/2603.18507
In den letzten 12 Monaten war einer der erfolgreichsten Betrügereien in der KI-Branche vielleicht diese Aussage:
Sie sind ein XX-Experte.
Unzählige Anleitungen haben diese Aussage als göttliche Prompt-Wörter gepriesen.
Diese Aussage wurde fast zum "schwarzen Magie" der Ära der großen Modelle gemacht: Solange die Perspektive festgelegt ist, wird die KI plötzlich klug.
Aber jetzt hat eine neueste Studie allen einen Riegel vor die Füße gelegt:
Diese göttlichen Prompt-Wörter sind möglicherweise überhaupt kein Cheat, sondern Gift.
Die Forschung hat gezeigt, dass die KI, wenn sie aufgefordert wird, einen "Experten" zu spielen, nicht immer klüger wird, sondern eher wie ein "falscher Experte" wird, der an seiner Perspektive festhält:
Sie will nicht zugeben, dass sie etwas nicht weiß, will keine Unsicherheit zeigen und will nicht anhalten, um sich genau zu überlegen. Am Ende wählt sie eine äußerst professionelle, äußerst selbstbewusste und äußerst glaubhafte Art, um die falschen Worte zu rechtfertigen.
Abbildung 1: Analyse der Auswirkungen der Expertenrolle auf verschiedene Modelle, Aufgabenarten, Informationsgranularität und Position
Die in Abbildung 1 gezeigten Ergebnisse sind sehr anschaulich:
Die lange Expertenperspektive hat in fünf Generierungskategorien eine deutliche Verbesserung gebracht. Aber auf dem harten MMLU-Wissensbenchmark ist die Genauigkeit nach der Hinzufügung der Perspektive auf alle Fälle unter die Basislinie von 71,6 % gefallen. Selbst die kürzeste Perspektive ist auf 68,0 % gesunken, und die detaillierte lange Version ist sogar auf 66,3 % gesunken.
Im Sicherheitsfall ist es umgekehrt. Die Perspektive des "Sicherheitsaufsichtsmannes" kann die Wahrscheinlichkeit, Jailbreak-Angriffe abzulehnen, deutlich erhöhen. Die Ablehnungsrate auf JailbreakBench ist von 53,2 % auf 70,9 % gestiegen.
Deshalb ist einer der bemerkenswertesten Aspekte dieser Studie nicht nur, dass sie darauf hinweist, dass die "Expertenperspektive möglicherweise schädlich ist", sondern auch, dass sie erklärt, warum die Ergebnisse früherer Studien zu Persona Prompting (Perspektivenanregung) immer widersprüchlich waren.
Der Beginn der Illusion, wenn Sie dem großen Modell "Sie sind ein Experte" sagen
Die Forscher haben festgestellt, dass die Wirkung von Persona Prompting nicht in allen Aspekten vorteilhaft ist.
Ihre Leistung hängt stark von der Aufgabenart, der Modelltrainingsmethode, der Länge der Prompt und davon ab, ob die Perspektive im System-Prompt oder im Benutzer-Prompt platziert wird.
Die Forscher haben die Aufgaben grob in zwei Kategorien eingeteilt:
Eine Kategorie ist "diskriminierende Aufgaben", die stärker auf das vortrainierte Gedächtnis angewiesen sind, wie z. B. Faktenabfrage, Wissensbeurteilung, Multiple-Choice-Fragen;
Die andere Kategorie ist "generierende Aufgaben", die stärker auf die Ausrichtungsfähigkeit angewiesen sind, wie z. B. Formatbefolgung, Stilsteuerung, sichere Ablehnung, Anpassung an menschliche Präferenzen.
Die Ergebnisse zeigen:
Bei "generierenden Aufgaben" wie Sicherheitsabwehr und Präferenzausrichtung ist die Expertenperspektive tatsächlich ein gutes Werkzeug.
Aber bei "diskriminierenden Aufgaben", die stark auf das vortrainierte Gedächtnis angewiesen sind, wie z. B. Wissensabfrage und Faktenbeurteilung, wird die Expertenperspektive zur Hemmschuh.
Wärmekarte der "Fachwissen-Sonderkompetenz" des großen Modells: Blau steht für Leistungssteigerung, rot für Leistungsverlust. In dem normalen Befehlsfeinabstimmungsmodell (linkes Bild) zeigt die Vielzahl roter Blöcke, dass die sogenannte Expertenperspektive die objektive Wissensgenauigkeit des Modells insgesamt zerstört.
Mit anderen Worten, was die Expertenperspektive in vielen Fällen verbessert, ist nicht die "Wahrheit", sondern das Gefühl der "Ausrichtung".
Bei Aufgaben wie MT-Bench, die eher auf die Generierungsqualität abzielen, kann die Expertenperspektive die Leistung in Kategorien wie Schreiben, Rollenspiel, Extraktion und STEM-Ausdruck verbessern.
Aber auf dem MMLU-Benchmark, der stärker auf die Wissensabfrage angewiesen ist, verlieren alle Versionen der Expertenperspektive Punkte.
Dies erklärt ein Erlebnis, das viele Benutzer hatten, aber das sie nicht genau beschreiben konnten:
Warum verhält sich dasselbe Modell beim Schreiben einer E-Mail wie ein gut ausgebildeter Berater, aber wenn es um Mathematik, Faktenprüfung und Code-Details geht, redet es stattdessen ernsthaft Unsinn?
Weil es wirklich mehr wie ein Experte wird, aber möglicherweise nicht besser darin ist, die zugrunde liegenden Erinnerungen genau abzurufen.
Die Studie gibt sogar ein sehr ironisches Beispiel.
Was ist die Wahrscheinlichkeit, dass die Summe der Augenzahlen von zwei geworfenen Würfeln mindestens 3 beträgt? Ohne die mathematische Perspektive beantwortet das Modell im Grunde richtig und gibt 35/36 an.
Nach der Hinzufügung der Perspektive des Mathematik-Experten beginnt es jedoch ernsthaft Schritte aufzuschreiben und rechnet am Ende die einfache Wahrscheinlichkeitsaufgabe falsch.
Sie können deutlich spüren, dass es nicht nicht in der Lage ist, einen "Mathematiker zu spielen", sondern dass es einfach zu sehr "wie ein Mathematiker agiert".
Belohnen wir "wie ein Experte" oder "richtig beantworten"?
Heutzutage beurteilen viele Benutzer, ob ein Modell gut ist, nicht primär danach, "ob es näher an der Wahrheit ist", sondern danach, "ob es sicher, reibungslos und wie ein Fachmann spricht".
Solange es eine vollständige Struktur, die richtigen Fachausdrücke und eine ruhige Tonlage hat, erhöht der Benutzer automatisch das Vertrauen.
Dies ist genau die gefährlichste Art von Illusion des großen Modells: nicht einfach Unsinn reden, sondern falsche Dinge auf äußerst professionelle Weise zu sagen.
Von der Trainingslogik her lernt das große Modell in der Vortrainingsphase hauptsächlich Wissensgedächtnis, Musterstatistik, Faktenkorrelation und Sprachgesetze; die anschließende Befehlsfeinabstimmung und RLHF formen eher, "wie es spricht" und "wie es ein menschlicher Präferenz-Antwortgeber ist".
Der Schlüsselpunkt der Studie liegt hier:
Die Expertenperspektive aktiviert im Wesentlichen eher letzteres, d. h. die Ausrichtungsfähigkeiten wie Stil, Format, Intentionseinstellung und Sicherheitsgrenze. Aber wenn die Aufgabe die direkte und genaue Abfrage des vortrainierten Wissens erfordert, kann der zusätzliche Perspektivkontext möglicherweise die Abfrage stören.
Sie können dies als eine Art "Ausrichtungssteuer" verstehen: Das Modell opfert einen Teil der Genauigkeit der Faktenabfrage, um besser der von Ihnen erwarteten Expertenperspektive zu entsprechen.
Verwandte Studien haben auch wiederholt bestätigt, dass Persona Prompting nicht immer eine stabile Verbesserung bringt und manchmal sogar unerwartete negative Auswirkungen haben kann, indem es nicht relevante Perspektivattribute einführt.
Deshalb liegt das eigentliche Problem nicht an der "Perspektive" selbst, sondern daran, dass wir völlig unterschiedliche Aufgaben wie Stilsteuerung, Wertausrichtung, Faktenbeurteilung und logisches Lösen in dasselbe Persona-Mechanismus hineinstopfen.
Es ist in Ordnung, dass das Modell beim Schreiben einer E-Mail zur Beruhigung des Benutzers wie ein reifer Berater agiert.
Es ist auch in Ordnung, dass das Modell wie ein Sicherheitsprüfer agiert, wenn es auf gefährliche Anfragen trifft.
Aber wenn es darum geht, eine Wahrscheinlichkeitsaufgabe zu lösen, medizinische Fakten zu beantworten oder gesetzliche Vorschriften zu recherchieren, und es erst in eine lange "Experten-Rollenspielphase" eintritt, geht es möglicherweise von Anfang an in die falsche Richtung.
Der Weg zur Rettung: Routing-Zuweisung ist die richtige Lösung
Sollte man also ab jetzt die Expertenperspektive wegschmeißen?
Natürlich nicht.
Wie zuvor erwähnt, haben die Forscher auch festgestellt, dass die Expertenperspektive in "generierenden Aufgaben" und anderen bestimmten Szenarien, die stärker auf die Ausrichtungsfähigkeit angewiesen sind, immer noch einen unverzichtbaren Wert hat.
Deshalb liegt der Kernpunkt überhaupt nicht darin, "ob man sie benutzt", sondern "wann man sie benutzt".
Um dieses Problem zu lösen, haben die Forscher den PRISM-Algorithmus (Persona Routing via Intent-based Self-Modeling, Perspektivrouting basierend auf Intention und Selbstmodellierung) entwickelt.
Dieses System gibt der KI keine feste Rolle, sondern versteht zuerst die echte Absicht des Benutzers und weist dann dynamisch die richtige Perspektive zu.
Die Abbildung zeigt zwei Methoden zur automatischen Auswahl der Expertenrolle. PRISM verteilt dynamisch die passende Perspektive über einen LoRA-Adapter und kann die Vorteile der Ausrichtung beibehalten und die Genauigkeit der diskriminierenden Aufgaben aufrechterhalten, ohne externe Ressourcen zu benötigen.
Der Kerngedanke von PRISM ist sehr raffiniert:
Es legt nicht mehr während der Inferenz ein starres Experten-Prompt auf das Modell auf, sondern "konzentriert und destilliert" alle nützlichen Teile aller Expertenperspektiven im Voraus in einen leichten Gated LoRA-Adapter (Gated LoRA Adapter).
Wenn es tatsächlich auf die Benutzerfrage trifft, macht das Gated-Mechanismus von PRISM nur eine minimale binäre Auswahl:
Den "Experten-Cheat" aktivieren oder in den "einfachen Modus" zurückkehren.
Wenn der Benutzer fragt "Hilf mir, Code zu schreiben" oder "Führe eine hochintelligente Beruhigung durch", entscheidet das System, dass die Ausrichtungsfähigkeit erforderlich ist, und der Gated-Mechanismus aktiviert sofort den LoRA-Adapter, um das internalisierte Expertenniveau abzurufen;
Wenn der Benutzer fragt "Objektive mathematische Berechnung" oder "Faktenprüfung", entscheidet das System, dass die Perspektive stören würde, und der Gated-Mechanismus schließt sofort den Adapter, damit das unmodifizierte Basismodell mit dem reinsten vortrainierten Gedächtnis genau antworten kann.
Der gesamte PRISM-Extraktionsprozess erfordert keine zusätzlichen Daten, keine zusätzlichen Modelle und keine zusätzliche Rechenleistung.
Die Kosten sind nicht hoch. Das Training einer Gated-Einzel-LoRA-Version dauert auf einem A100 etwa 45 Minuten, und die zusätzlichen Kosten sind relativ gering.
Konkret besteht der PRISM-Trainingsablauf aus fünf Phasen:
(1) Generierung von Abfragen unter der Bedingung der Perspektiven-Prompt;
(2) Antworten gemäß der Perspektive und Generierung von Antworten unter verschiedenen Perspektiven;
(3) Selbstvalidierung durch paarweise Vergleiche, um das Destillierungsdatensatz auszuwählen;
(4) Training des Routers/Gated-Moduls, um die Intention-basierte Routing-Mechanismus zu lernen, um zu entscheiden, wann die Perspektive hilfreicher ist;
(5) Selbstdestillierung durch LoRA, um dem Modell diese Perspektivverhaltensweisen zu internalisieren.
PRISM will nicht, dass die KI "besser spielen kann", sondern dass sie "wenn es nötig ist, spielt, und wenn es nötig ist, genau ist".
Das Ergebnis ist erstaunlich:
Bei geringem Rechenleistungsaufwand kann das große Modell end