Apple's Neues Papier: Was Wissen Ihre Logits?

Apple sagt: Die Antwort ist noch erstaunlicher.

In letzter Zeit gab es eine große Neuigkeit: Tim Cook, der über 14 Jahre lang Apple geleitet hat, hat angekündigt, dass er im September das Amt des CEOs endgültig niederlegen wird und das Scepter an John Ternus, den derzeitigen Senior-Vizepräsidenten für Hardware-Engineering, übergibt. Wenn man an die Zeit von Cook zurückdenkt, freuen sich die Menschen über seine exzellente Kunst des Supply-Chain-Managements und die Reise, die ihn und Apple an die Marktkapitalisierung von 4 Billionen US-Dollar geführt hat.

Allerdings wird Ternus in diesem neuen Jahrzehnt, das von generativer KI dominiert wird, ein Apple übernehmen, das dringend in der KI-Branche seine Stärke beweisen muss.

Apple hat in den letzten Jahren stetig mehr in die untersten Ebenen der KI-Technologie investiert. Gerade jetzt hat das Apple KI-Forschungsteam eine äußerst interessant diskutierbare Studie mit dem Titel "Was wissen Ihre Logits? (Die Antwort könnte Sie überraschen!)" eingereicht.

Titel der Studie: Was wissen Ihre Logits? (Die Antwort könnte Sie überraschen!)

Link zur Studie: https://arxiv.org/abs/2604.09885

Diese Forschung berührt die unterste Logik des Betriebs von Large Language Models und bezieht sich direkt auf den Kernwert, den Apple am meisten schätzt: Benutzerprivatsphäre und Datensicherheit.

Im Folgenden werden wir anhand dieser Studie untersuchen, wie viele Ihrer Geheimnisse ein Large Language Model auf der untersten Ebene "heimlich" speichert, wenn es einfache Fragen beantwortet.

Kernkonzept: Information Bottleneck Principle

Um diese Studie zu verstehen, müssen wir zunächst ein Schlüsselkonzept kennen: Information Bottleneck Principle.

Nehmen wir als Beispiel an, Sie seien der CEO eines großen multinationalen Unternehmens und müssen entscheiden, ob Sie ein Startupunternehmen übernehmen möchten. Ihr unteres Forschungsteam würde eine riesige Menge an Informationen sammeln, darunter die Finanzberichte des Unternehmens, die Mittagsessenpräferenzen der Mitarbeiter und den Dekorationsstil des Büros.

Wenn dieser Bericht jedoch Schritt für Schritt weitergeleitet und schließlich auf Ihrem Schreibtisch liegt, sollte er stark komprimiert sein und nur diejenigen finanziellen und technischen Indikatoren enthalten, die für die "Übernahme"-Entscheidung von entscheidender Bedeutung sind. Das Beibehalten überflüssiger und ineffektiver Informationen würde nicht nur Ihre Urteilsfähigkeit stören, sondern auch zu Fehlentscheidungen führen.

Das Gleiche gilt für Visual-Language-Modelle (VLM).

Nehmen wir an, Sie hätten ein Bild mit einer großen Menge an Informationen und würden es an das Modell hochladen und fragen: "Ist in dem Bild eine graue Katze? Bitte antworten Sie mit einem Wort." Gemäß dem Information Bottleneck Principle sollte ein ideales Modell, wenn es schließlich "Ja" oder "Nein" ausgibt, bereits alle irrelevanten Informationen wie die Farbe des Sofas im Hintergrund und das Wetter außerhalb des Fensters gefiltert haben.

Aber diese Studie von Apple wirft eine Frage auf: Hat das Modell wirklich alles vergessen?

Um die Antwort zu finden, haben die Forscher verschiedene Phasen der Informationsverarbeitung des Modells abgeschnitten und getestet. Genauer gesagt, haben sie hauptsächlich die folgenden zwei repräsentativen Ebenen untersucht:

Residual Stream: Dies entspricht der riesigen Datenbank, die das Unternehmen auf der untersten Ebene zum Datensammeln verwendet. Es enthält alle verborgenen Zustände des Modells während der Verarbeitung.

Endgültige Logits: Logits sind die ursprünglichen Wahrscheinlichkeitswerte, die das Modell für jedes Wort im Wörterbuch vor dem Ausgeben des letzten Wortes berechnet. Die Werte der besten Kandidatenwörter werden als top-k Logits bezeichnet. Dies ist wie die endgültige Liste der Optionen, die an den CEO weitergeleitet wird.

Experimentelles Design

Die Forscher haben ein leistungsstarkes neuronales Netzwerk-Tool namens "Probes" eingeführt. Die Aufgabe der Probes besteht darin, die Daten einer bestimmten Ebene des Modells zu beobachten und versuchen, die ursprünglichen Attribute des Bildes daraus abzuleiten.

Das Experiment hat zwei Hauptdatensätze verwendet. Der eine ist der CLEVR-Datensatz, der vollständig aus künstlichen geometrischen Formen besteht und verschiedene Würfel oder Kugeln in verschiedenen Größen, Farben und Materialien enthält. Der andere ist der MSCOCO-Datensatz, der komplexe reale Lebenssituationen enthält.

Die Forscher haben das Bild auf verschiedene Weise gestört, beispielsweise indem sie Gauss-Rauschen, Glasunschärfe oder Bewegungsunschärfe hinzugefügt haben.

Anschließend haben sie dem Modell Fragen gestellt. Nachdem sie die internen Daten des Modells erhalten haben, haben sie die Probes trainiert, um zu sehen, ob sie aus dem Residual Stream oder den endgültigen Logits rückwärts die Stufe des hinzugefügten Rauschens, die Farbe des Zielobjekts und sogar die Merkmale der Hintergrundobjekte, die nicht gefragt wurden, ableiten können.

Bei den Störungstests haben die Forscher auch ein interessantes Phänomen beobachtet. Wenn das stärkste Gauss-Rauschen angewendet wurde, war die Genauigkeit des Qwen3-VL-Modells stark beeinträchtigt, und es neigte dazu, die Antwort von "Ja" in "Nein" umzukehren, während das LLAMA-Modell bei Gauss-Rauschen eine relativ stärkere Stabilität zeigte. Diese verschiedenen Verhaltensweisen spiegeln die internen Unterschiede der Modelle bei der Extraktion von entscheidungsrelevanten Informationen wider.

Sieben Entdeckungen

Durch die Tests hat das Apple-Team eine Reihe von Schlussfolgerungen gezogen, die die unterste Mechanik des Modells aufdecken und vollständig den Zustand der Information im Inneren des Modells darstellen.

Entdeckung 1: Der Residual Stream ist ein allwissender Oracle

Beim Verarbeiten von visuellen Eingaben behält der Residual Stream fast alle Details des Bildes unverändert bei.

Die Forschung zeigt, dass der Probe sowohl die Art des Bildrauschens, das direkt mit der endgültigen Entscheidung zusammenhängt, als auch die Form und Farbe des Zielobjekts sowie die Anzahl und Attribute der völlig irrelevanten Hintergrundobjekte mit nahezu perfekter Genauigkeit aus dem besten verborgenen Zustand extrahieren kann. Auf dieser Ebene ist das Modell wie ein unvergesslicher Peeping Tom, der noch keine effektive Informationskompression durchgeführt hat.

Entdeckung 2: Die niedrigdimensionale Projektion des Residual Streams "verrät auch Geheimnisse"

Um zu beobachten, wie die Information zum endgültigen Output übergeht, haben die Forscher die Tuned Lens-Technologie verwendet, um die Entwicklung der Abbildung des Residual Streams in den Logit-Raum zu extrahieren.

Die Tests zeigen, dass selbst wenn man nur die ersten 2 Vorhersagepfade (trajectory-2) betrachtet, der Probe nicht nur eine Menge an Kerninformationen, die mit dem Ziel und der Entscheidung zusammenhängen, extrahieren kann, sondern auch viele Merkmale der Hintergrundobjekte leicht auslesen kann. Dies bestätigt die bisherige Forschung in der Branche über die leichte Entnahme von Geheimnissen aus verborgenen Zuständen von Sprachmodellen und beweist, dass diese tiefen Pfade nicht dem idealen Information Bottleneck Principle folgen und keine effektive Filterung durchführen.

Entdeckung 3: Die endgültigen Logits kodieren zuverlässig Entscheidungs- und Zielinformationen

Im letzten Schritt, bevor das Modell die Antwort generiert, findet tatsächlich eine Informationskompression statt, aber sie ist noch lange nicht vollständig.

Wenn man nur die ersten 2 endgültigen Logits (d. h. die Werte für "Ja" und "Nein") betrachtet, kann der Probe mit einer sehr hohen Genauigkeit die Stufe und Art des Bildrauschens vorhersagen, die die Entscheidung des Modells beeinflussen.

Wenn die Anzahl der beobachteten Kandidatenwörter auf alle Groß- und Kleinschreibvarianten von ja/nein erhöht wird (k ist ungefähr 10 bis 13), werden die verschiedenen Attributinformationen des Zielobjekts zunehmend deutlicher decodierbar und erreichen die Spitze der Vorhersagegenauigkeit, wenn die Anzahl der extrahierten Wörter der Anzahl der Modellschichten entspricht (1L, ungefähr 30 bis 40 Kandidatenwörter).

Entdeckung 4: Die endgültigen Logits merken sich heimlich die Zielattribute, die im Hinweis nicht erwähnt werden

Dies ist die Kernentdeckung, die ernsthafte Sicherheitsbedenken auslöst.

Nehmen wir an, wir fragen das Modell: "Ist in dem Bild ein blauer Zylinder?". Obwohl der Hinweis eindeutig die Farbe und die Form angibt, wird das Material und die Größe des Objekts überhaupt nicht erwähnt. Dennoch kann der Probe aus den ersten 0,5L Kandidaten des endgültigen Outputs des Modells äußerst zuverlässig vorhersagen, ob der Zylinder aus Gummi oder Metall besteht und wie groß er ist.

Dies bedeutet, dass das Modell zur Erreichung der endgültigen Schlussfolgerung nicht nur die relevanten Merkmale aufruft, sondern auch die überflüssigen Zielmerkmale als Begleitdaten in die leicht zugängliche Oberfläche bringt.

Entdeckung 5: Die endgültigen Logits fungieren sogar als "Videorekorder" der Umgebung

Abgesehen von der Beobachtung des Zielobjekts notieren die Logits der letzten Ebene heimlich auch die Umgebung.

Obwohl die ersten 2 Logits fast keine Hintergrundinformationen enthalten, können diese scheinbar nur aus einem einzelnen Wort bestehenden Oberflächenausgabeverteilungen, wenn die Anzahl der beobachteten Kandidatenwörter etwas erhöht wird, signifikant und über dem Zufallsebene die Anzahl, Farbe und andere Attribute der Nicht-Zielobjekte (z. B. andere geometrische Formen im Hintergrund) in der Szene vorhersagen. Mit nur einer angemessenen Menge an Ausgabeverteilungsdaten können die irrelevanten Hintergrundprivatsphäre nicht mehr verborgen bleiben.

Entdeckung 6: Die Geheimnisse werden oft bereits mit den ersten 60 Logits preisgegeben (U-förmige Kurve)

Das Forschungsteam hat eine interessante U-förmige Kurve der Vorhersagefähigkeit beobachtet.

Wenn man nur die ersten 2 Kandidatenwörter betrachtet, gibt das Modell fast nur Rauschinformationen preis. Wenn die Anzahl der beobachteten Kandidatenwörter erhöht wird, steigt die Vorhersagegenauigkeit des Probes schnell an und erreicht ihren Höhepunkt, wenn 30 bis 80 Logits abgeschnitten werden (je nach der Tiefe des konkreten Modells 1L oder 2L). Wenn die Logits-Menge auf 4L oder 5L oder mehr erweitert wird, fällt die Vorhersagefähigkeit aufgrund der Störung durch hochdimensionale Rauschen wieder auf das Zufallsebene zurück.

Dies zeigt, dass böswillige Entnehmer überhaupt nicht die gesamte Ausgabe-Wortliste benötigen. Eine sehr kleine Menge an Top-Kandidatenwörtern ist der Schwerpunkt der Geheimnisverletzung.

Entdeckung 7: Bei gleicher Dimension ist das Risiko der endgültigen Logits genauso hoch wie das der tiefen Entschlüsselung

In der Vergangenheit mussten Hacker oder Forscher, die geheime Kenntnisse aus dem Inneren von Large Language Modellen extrahieren wollten, oft weisse Kasten-Methoden anwenden, um die internen Parameterpfade des Modells zu erhalten, was einen sehr hohen Schwellenwert erforderte.

Aber diese Forschung enthüllt eine grausame Realität: Wenn man die gleiche Beobachtungsdimension beibehält, ist die Fähigkeit, irrelevante Informationen preiszugeben, beim Extrahieren der endgültigen top-k Logits der obersten Ebene des Modells (normalerweise nur 2L Anzahl muss abgeschnitten werden), die oft über die API öffentlich zugänglich sind, fast genau so hoch wie die der tiefen Protokollpfade, die eine sehr hohe Berechtigung erfordern. Dies bricht die traditionelle Illusion in der Branche, dass der Zugang zu grauen Kasten-APIs eine natürliche Sicherheitsbarriere hat.

Tiefe Sorgen hinter der Technologie: Privatsphäre und Sicherheit von Large Language Modellen

Nachdem wir den Experimentierprozess grob verstanden haben, müssen wir uns fragen, was das eigentlich bedeutet.

Das Apple-Team hat scharf die großen Sicherheitsrisiken hinter diesem Phänomen erkannt.

In der praktischen kommerziellen Anwendung geben viele API-Schnittstellen oder Dienstleister, um die Entwickler bei der Parameteranpassung zu unterstützen, die endgültigen top-k Logits des Modells öffentlich preis. Dies ist der sogenannte graue Kasten-Szenario.

Dies bedeutet, dass, wenn ein Benutzer ein Foto mit privaten Informationen hochlädt und das Modell nur eine harmlose visuelle

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ein neues Papier von Apple stellt eine erstaunliche Frage: Was wissen Ihre Logits?

Kernkonzept: Information Bottleneck Principle

Experimentelles Design

Sieben Entdeckungen

Tiefe Sorgen hinter der Technologie: Privatsphäre und Sicherheit von Large Language Modellen