StartseiteArtikel

Mit einem Token kann die Degradierung und Austausch des Modells festgestellt werden, die Kosten werden auf ein Tausendstel gesenkt, und alle Tricks der API-Lieferanten werden aufgedeckt.

量子位2026-03-23 15:51
Schwarzbuchmodelle können auch gemessen werden.

Die Versionsnummer bleibt unverändert, aber der API - Anbieter tauscht heimlich das Modell aus? Jetzt kann diese kleine Schleicherei leicht aufgedeckt werden.

Forscher aus Frankreich haben eine neue Detektionstechnik entwickelt, die wie ein "Teufelsspiegel" für die Erkennung verborgener Veränderungen von Cloud - Modellen dient.

Mit nur einem extrem kurzen Prompt und einem Ausgabe - Token kann eine kontinuierliche Überwachung erfolgen, und die Kosten betragen nur ein Tausendstel der traditionellen Methode.

Außerdem kann diese hochempfindliche Methode Unterschiede zwischen Modellen, die nur um einen Trainingsschritt feinjustiert wurden, erfassen.

Somit kann das Verhalten von Anbietern, die aus Kostengesichtspunkten die quantisierte Version oder das Modell ohne Genehmigung austauschen, nicht mehr verborgen bleiben.

Logarithmische Wahrscheinlichkeitsverfolgung in einer Graubox - Umgebung

Die erste Detektionsmethode heißt logarithmische Wahrscheinlichkeitsverfolgung und ist hauptsächlich für Graubox - Zugangsumgebungen konzipiert.

Eine Graubox - Umgebung bedeutet, dass der Anbieter zwar die Kernmodellgewichte nicht veröffentlicht, aber den Benutzern erlaubt, über die API die logarithmischen Wahrscheinlichkeiten für jedes Ausgabe - Token zu erhalten. Diese Berechtigung liegt zwischen der Weißbox - und der Schwarzbox - Umgebung.

In einer Weißbox - Umgebung mit höchster Transparenz kann der Auditor alle internen Gewichte, Einbettungsvektoren und Gradientendaten des Modells erhalten. Dies ist jedoch in Cloud - Diensten, die durch Geschäftsgeheimnisse geschützt sind, fast unmöglich.

Am häufigsten stehen die Benutzer vor einer vollständigen Schwarzbox - Umgebung, in der sie nur Prompts senden und den generierten Endtext empfangen können, ohne Einblick in die Zwischenrechenlogik zu erhalten.

Zurück zur Graubox - Umgebung: Die logarithmischen Wahrscheinlichkeiten offenbaren die Vertrauensverteilung des Modells über den gesamten Vokabularraum beim Generieren von Tokens. Die logarithmische Wahrscheinlichkeitsverfolgungstechnik nutzt diese Daten als digitale Fingerabdrücke zur Identifizierung des Modells.

Da leichte Anpassungen, Quantifizierungen oder Architekturänderungen der Gewichte zu einer Verschiebung dieser Verteilung führen, werden die logarithmischen Wahrscheinlichkeiten zum empfindlichsten Indikator für die Überwachung von Hintergrundveränderungen.

In einer realen Produktionsumgebung sind die logarithmischen Wahrscheinlichkeiten aufgrund der Auswirkungen von Batch - Verarbeitungslogik und Hardware - Scheduling nicht vollständig bestimmt. Selbst bei identischen Anfragen können kleine numerische Schwankungen auftreten.

Um dieses Zufallsrauschen zu überwinden, sendet diese Technik kurze Prompts an die API und erhält Ein - Token - Ausgaben. Sie wiederholt die Stichprobe N Mal, um einen statistischen Referenzwert zu erstellen.

Die Forscher vergleichen die logarithmischen Wahrscheinlichkeiten jeder Stichprobe mithilfe des mittleren absoluten Abstandsalgorithmus und verwenden die Permutationstestung, um zu überprüfen, ob zwei Stichproben aus der gleichen Verteilung stammen.

Dieses Verfahren kann effektiv die Hardware - Schwankungen von den wesentlichen Änderungen auf Modellebene unterscheiden.

Dieses Verfahren hat deutliche Vorteile in der Ausführungseffizienz. Es genügt ein extrem kurzer Eingabe, wie ein einzelner Buchstabe "x", und die Anforderung einer Ein - Token - Antwort, um die Überwachung durchzuführen.

Dieser vereinfachte Abfragemodus reduziert die Überwachungskosten im Vergleich zu traditionellen großen Benchmark - Tests auf ein Tausendstel.

In der Empfindlichkeitstestung hat diese Technik auch eine sehr hohe Detektionsgenauigkeit gezeigt. Sie kann sogar die Merkmalsentwicklung eines Modells erfassen, das nur um einen Trainingsschritt feinjustiert wurde.

In der Belastungstestung für die Modellgewichtsreduktion ist die Empfindlichkeit dieser Technik 512 Mal höher als die der aktuellen Mainstream - Lösungen. Dies stellt sicher, dass jedes Versuch, das originale Service - Modell durch ein kostengünstigeres Modell zu ersetzen, bei der Prüfung aufgedeckt wird.

Grenzzonen - Detektion in einer Schwarzbox - Umgebung

Die zweite Detektionsmethode heißt Schwarzbox - Grenzeingabe - Verfolgung (B3IT) und ist hauptsächlich für die strengsten Schwarzbox - Zugangsumgebungen konzipiert.

In dieser Umgebung hat der Auditor keinen Zugang zu internen Rechenwerten oder logarithmischen Wahrscheinlichkeiten. Er kann nur anhand des endgültigen Ausgabe - Tokens des Modells auf den Hintergrundzustand schließen.

Der technische Kern des B3IT - Verfahrens liegt in der Nutzung der Instabilität der Entscheidungsgrenzen des Modells, um die spezifischen Momente zu identifizieren, in denen das Modell am unsichersten ist.

Im Ausgabeschicht eines LLM hat jedes Kandidaten - Token einen ursprünglichen logistischen Score. Grenzeingaben sind die spezifischen Prompts, die das Modell zwischen zwei oder mehr Tokens in starke Zögern bringen. An diesen Eingabepunkten ist das Vertrauen des Modells in die Vorhersage der Top - Tokens fast gleich.

Die Forscher haben aus statistischer Sicht bewiesen, dass die Effizienz der Detektion von der Fisher - Information der Modellausgabeverteilung abhängt.

Nach der mathematischen Herleitung tritt bei einer sehr niedrigen Sampling - Temperatur (z. B. 0) am Grenzeingabepunkt des Modells ein spezielles "Phasenübergangs" - Phänomen auf.

Wenn es nur ein Top - Token für die Eingabe - Prompt gibt, ist es sehr schwierig, dass sich das Ausgabeergebnis ändert, selbst wenn die Modellparameter leicht gestört werden. Dies führt dazu, dass das Signal - Rausch - Verhältnis der Detektion nahe Null liegt.

Wenn jedoch zwei oder mehr Tokens mit gleichen logistischen Scores existieren, divergiert das Signal - Rausch - Verhältnis der Detektion stark, wenn die Temperatur sinkt.

Dies bedeutet, dass selbst eine sehr kleine Störung der Modellparameter das ursprüngliche Wahrscheinlichkeitsgleichgewicht sofort zerstört und das Modell von einem zufälligen Sampling - Zustand in einen deterministischen Einzelauswahl - Zustand kollabiert.

Die Implementierung dieses Verfahrens erfolgt in zwei Phasen. Zunächst ist die Initialisierungsphase, deren Ziel es ist, mit minimalem Aufwand aus einer großen Anzahl von zufälligen Prompts geeignete Grenzeingaben auszuwählen.

Die Experimente haben gezeigt, dass es genügt, jeden Kandidaten - Prompt bei einer Temperatur von 0 dreimal zu samplen und zu beobachten, ob unterschiedliche Ausgabe - Tokens generiert werden. Auf diese Weise können diese empfindlichen Punkte effizient identifiziert werden.

Normalerweise sind weniger als 1500 Anfragen ausreichend, um in den meisten Mainstream - Produktionsumgebungs - APIs eine ausreichende Anzahl von Grenzeingaben zu finden.

Anschließend folgt die kontinuierliche Überwachungsphase. Wenn die Modellkonsistenz geprüft werden muss, sammelt das System erneut diese bekannten Grenzeingaben bei sehr niedriger Temperatur.

Wenn während der Detektion ein Token beobachtet wird, das in der Referenzverteilung nie aufgetreten ist, oder wenn die ursprünglich vielfältige Ausgabe plötzlich auf ein einzelnes Token kollabiert, wird das Prüfsystem feststellen, dass das Hintergrundmodell geändert wurde.

Da die Grenzeingaben extrem empfindlich auf Änderungen der Modellgewichte reagieren, betragen die Überwachungskosten dieses Verfahrens in einer Schwarzbox - Umgebung nur ein 30stel der aktuellen fortschrittlichsten Lösungen. Die Genauigkeit bei der Erkennung von Ein - Schritt - Feinjustierungen des Modells bleibt weiterhin auf einem hohen Niveau von 87%.

Die Enthüllung von Betrugsversuchen bekannter API - Plattformen

Diese Detektionswerkzeuge haben in der realen Produktionsumgebung die Masken vieler API - Anbieter abgeworfen.

Durch die langfristige Überwachung von 189 API - Endpunkten haben die Forscher mithilfe der logarithmischen Wahrscheinlichkeitsverfolgung in Graubox - Umgebungen insgesamt 37 signifikante Verschiebungen der Wahrscheinlichkeitsverteilung erfasst.

Dieses Phänomen zeigt das in der Branche weit verbreitete Risiko des "Modell - Austauschs" auf. Das heißt, Plattformbetreiber können das Hintergrundmodell ohne Wissen der Benutzer austauschen, um Kosten zu optimieren oder die Architektur anzupassen.

Die Grenzeingabe - Verfolgungstechnik für die vollständige Schwarzbox - Umgebung liefert noch detailliertere Beweise.

Das Überwachungssystem hat mehrmals festgestellt, dass einige Plattformen ihre ursprünglich markierten Modell - Endpunkte ohne offizielle Ankündigung auf Modelle mit völlig unterschiedlicher Architektur umgeleitet haben.

Insbesondere bei der Hosting - Dienstleistung von Open - Source - Gewichtsmodellen ist dieses Verhalten sehr verbreitet. Selbst wenn die Modellgewichte selbst transparent sind, kann die Konsistenz der Versionen in der Cloud - Umgebung einer Drittanbieter - Plattform nicht garantiert werden.

Angesichts dieser präzisen Prüfwerkzeuge haben einige führende Plattformen bereits technische Gegenmaßnahmen ergriffen.

Die Überwachungsaufzeichnungen zeigen, dass einige führende Anbieter ihre bestimmten Modelllinien eingeschränkt haben. Sie haben verlangt, dass Anfragen, die über ein Drittanbieter - Gateway gesendet werden, mindestens 16 Tokens generieren müssen. Auf diese Weise erhöhen sie künstlich die Detektionskosten, die ursprünglich mit einem einzelnen Token erledigt werden könnten.

Dieses Gegenmaßnahmen - Verhalten bestätigt auch indirekt die Deterrenzwirkung der kostengünstigen Überwachungsmethoden auf die Anbieter.

Dieser Artikel stammt aus dem WeChat - Account "Quantum Bit". Autor: Fokus auf Spitzentechnologien. Veröffentlicht von 36Kr mit Genehmigung.