StartseiteArtikel

Es gibt nun verlustfreie Kompression, die ZIP übertrifft. Die Universität von Washington macht aus großen Modellen verlustfreie Textkompressoren.

量子位2025-10-11 18:42
Lösen Sie die Probleme bei der Datenspeicherung mit probabilistischer Vorhersage.

Wenn große Sprachmodelle eine riesige Menge an Daten generieren, entstehen auch Probleme bei der Datenspeicherung.

Daher haben die Forscher des SyFI-Labors der University of Washington (UW) eine innovative Lösung vorgeschlagen: LLMc, nämlich ein Motor zur verlustfreien Textkompression mithilfe des großen Sprachmodells selbst.

Die Ergebnisse von Benchmark-Tests zeigen, dass die Kompressionsrate von LLMc auf verschiedenen Datensätzen wie Wikipedia, Romansätzen oder wissenschaftlichen Zusammenfassungen besser ist als die herkömmlicher Kompressionswerkzeuge (wie ZIP und LZMA). Gleichzeitig zeigt LLMc im Vergleich zu anderen proprietären Kompressionssystemen auf der Grundlage von LLM eine gleichwertige oder sogar bessere Leistung.

Es ist erwähnenswert, dass dieses Projekt Open Source ist. Der Hauptautor ist der Student Yi Pan aus der ACM-Klasse der Shanghai Jiao Tong University, der derzeit ein Praktikum an der University of Washington macht.

Der Kompressionsmechanismus von LLMc

Die Inspiration für LLMc stammt aus einer internen Diskussion im Labor vor einem Jahr. Damals standen die Forscher vor einer zentralen Herausforderung: Die Kernoperationen bei der LLM-Inferenz sind hochgradig nichtdeterministisch, was eine genaue und reproduzierbare Kompression und Dekompression schwierig macht.

Aber mit dem Durchbruch in der deterministischen LLM-Inferenz in der Branche wurde dieses Problem gelöst und der Weg für die Entstehung des neuen Motors geebnet. Das Forscherteam baute daraufhin schnell einen Prototypen von LLMc und konnte erfolgreich die Machbarkeit einer effizienten Kompression mit LLM beweisen.

Der Zusammenhang zwischen LLM und Datendekomprimierung gründet sich auf die grundlegenden Prinzipien der Informationstheorie.

Der Quellkodierungssatz von Shannon (source coding theorem) besagt, dass die optimale Kodierungslänge eines Zeichens proportional zu seiner negativen Log-Likelihood ist. Kurz gesagt, je höher die Wahrscheinlichkeit eines Ereignisses, desto weniger Informationen sind erforderlich, um es zu kodieren.

Da die Kernaufgabe eines LLM darin besteht, das nächste Token vorherzusagen, kann ein gutes LLM dem nächsten Token in einer echten Sequenz eine sehr hohe Wahrscheinlichkeit zuweisen.

Das bedeutet, dass ein LLM im Wesentlichen ein leistungsstarker Wahrscheinlichkeitsvorhersagemotor ist, und das ist der Schlüssel für eine effiziente Kompression. LLMc nutzt genau dieses Prinzip, um die hochdimensionale Verteilung der natürlichen Sprache in strukturierte Wahrscheinlichkeitsinformationen umzuwandeln und so eine beispiellose Kompressionsleistung zu erzielen.

Der Kerngedanke von LLMc ist eine geniale Methode namens "Rank-basierte Kodierung" (rank-based encoding).

Während des Kompressionsprozesses prognostiziert das LLM auf der Grundlage des aktuellen Kontexts die nächsten möglichen Token und erstellt eine vollständige Liste der Wahrscheinlichkeitsverteilung. In den meisten Fällen befindet sich das tatsächlich auftretende Token immer in den ersten Plätzen dieser Vorhersageliste.

LLMc speichert nicht direkt das Token selbst (z. B. seine ID), sondern den "Rang" (rank) des Tokens in der Wahrscheinlichkeitsliste. Diese Ränge sind normalerweise sehr kleine ganze Zahlen und nehmen daher sehr wenig Speicherplatz in Anspruch.

Beim Dekomprimieren verwendet das System das exakt gleiche LLM und den gleichen Kontext, um die damalige Wahrscheinlichkeitsverteilung wiederherzustellen. Dann muss es nur den zuvor gespeicherten "Rang" lesen, um das entsprechende Token genau aus der Liste auszuwählen und so den ursprünglichen Text verlustfrei wiederherzustellen.

Bei diesem Prozess fungiert das LLM selbst wie ein gemeinsam genutzter, riesiger "Codebuch" oder Referenzsystem zwischen Kompressor und Dekompressor.

Herausforderungen und Einschränkungen

Obwohl LLMc bahnbrechende Ergebnisse erzielt hat, haben das Forscherteam auch einige Herausforderungen und Einschränkungen der aktuellen Version benannt.

Effizienzproblem: Die Rechenkomplexität der LLM-Inferenz steht in quadratischer Beziehung zur Sequenzlänge, und die Inferenz langer Sequenzen ist durch die Speicherbandbreite begrenzt. Um dieses Problem zu lindern, wendet LLMc eine Strategie zur Blockverarbeitung von Texten an, um die GPU-Nutzung zu verbessern und die Rechenkosten zu senken.

Durchsatz: Da LLMc stark von der Inferenz von Modellen großer Skala abhängt, ist die Verarbeitungsgeschwindigkeit von LLMc derzeit weit hinter der herkömmlicher Kompressionsalgorithmen zurück.

Numerische Stabilität: Um die Deterministik des Dekompressionsprozesses sicherzustellen, muss das System spezielle Kerne (batch_invariant_ops) verwenden und die Token-Ränge als Ganzzahlen kodieren, anstatt direkt die Log-Wahrscheinlichkeiten zu nutzen.

Anwendungsbereich: Die aktuelle Implementierung richtet sich hauptsächlich auf natürliche Sprache. Wie man sie auf andere Modalitäten wie Bilder, Videos oder binäre Daten erweitern kann, ist ein zukünftig zu erforschender Weg.

Referenzlink:

https://syfi.cs.washington.edu/blog/2025-10-03-llmc-compression/Github

Website:

https://github.com/uw-syfi/LLMc

Dieser Artikel stammt aus dem WeChat-Account "QbitAI", Autor: Shuofeng. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.