StartseiteArtikel

Apple hat die Bildkomprimierung mit KI neu erfunden: Bei gleicher Bildqualität beträgt die Dateigröße nur ein Drittel.

机器之心2026-05-30 10:39
Dem menschlichen Auge gerecht werden

Wie stark kann man ein Bild komprimieren?

Im Februar 2025 kündigte die Internationale Bildexperten-Gruppe (JPEG) eine Angelegenheit an, die von der Branche stillschweigend gefeiert wurde: JPEG AI. Dieser erste end-to-end-lernende internationale Standard für die Bildkodierung, an dem jahrelang gearbeitet wurde und der großen Erwartungen entgegengebracht wurde, wurde offiziell veröffentlicht.

Als die Nachricht verbreitet wurde, teilten viele Forscher sie in sozialen Medien mit und fügten den Kommentar „AI ist endlich in den Standard integriert“ hinzu.

Der JPEG-Standard wurde 1992 geboren und war seit über drei Jahrzehnten die Grundsprache für digitale Bilder. Jetzt beginnt die Künstliche Intelligenz, die Grammatik dieser Sprache neu zu schreiben.

Dennoch gibt es hinter der Feier eine subtile Realität: Selbst JPEG AI ist noch weit entfernt von der echten „Perzeptuellen Komprimierung“.

Ingenieure wissen, dass der traditionelle Indikator für die Komprimierungsqualität, das Peak-Signal-zu-Rausch-Verhältnis (PSNR), in der Tat wenig mit dem „Ansehnlichkeit“ im menschlichen Auge zu tun hat. Ein Bild kann eine hohe PSNR erzielen, aber dem Menschen trotzdem eher uninteressant erscheinen; während ein anderes Bild mit einer niedrigeren PSNR dem Menschen detailliert und authentisch vorkommen kann. Die Optimierung mathematischer Indikatoren und die Optimierung der menschlichen Wahrnehmung sind zwei völlig verschiedene Dinge.

Seit Jahrzehnten, von JPEG über VVC bis hin zu JPEG AI, dreht sich die Designlogik fast aller Codecs immer noch im Rahmen mathematischer Indikatoren. Die perzeptuelle Komprimierung (die direkt auf die menschliche Augenwahrnehmung optimiert ist) bleibt immer noch ein fernes Ziel in wissenschaftlichen Papieren, nicht aber eine technische Realität, die in ein Mobiltelefon integriert werden kann.

Gerade an diesem Punkt veröffentlichte eine Ingenieurgruppe von Apple stillschweigend ein Papier und gab ihre Antwort, mit dem Codewort: PICO.

Titel des Papiers: What Matters in Practical Learned Image Compression

Link zum Papier: https://arxiv.org/pdf/2605.05148

Warum ist es so viel schwieriger, ein Bild „ansehnlicher“ zu machen als die Zahlen zu verbessern?

Bevor man PICO verstehen kann, muss man verstehen, was Bildkomprimierung eigentlich ist.

Ein Foto als Datei zu speichern ist im Wesentlichen eine Entscheidung darüber, was man vergisst und was man behält. Da der Speicherplatz begrenzt ist, muss man einen Teil der Informationen verwerfen, ohne dass der Betrachter es bemerkt. Unterschiedliche Codecs folgen unterschiedlichen „Verwerfungsstrategien“.

Traditionelle Codecs wie JPEG, AV1 und VVC sind regelbasierte Systeme, die von Ingenieuren entwickelt wurden. Sie teilen das Bild in Blöcke auf, transformieren, quantifizieren und codieren es. Jeder Schritt basiert auf jahrzehntelanger Erfahrung. Solche Systeme können in mathematischen Indikatoren wie PSNR hervorragend abschneiden, aber ihre Designphilosophie zielt eher auf die Reduzierung von Pixelfehlern als auf die Reduzierung von Unannehmlichkeiten für das menschliche Auge.

Das Problem ist, dass das menschliche Auge kein Pixelfehlerdetektor ist. Die Empfindlichkeit des menschlichen Auges für Texturen, Schrift und Details ist viel komplexer als mathematische Formeln. Wenn man ein Straßenbild stark komprimiert, kann die PSNR immer noch gut sein, aber man wird bemerken, dass die Gebäude kantenunscharf werden und die Schilder verzerrt sind – genau das, was das menschliche Auge zuerst bemerkt.

Die Entstehung von lernenden Codecs hat theoretisch eine neue Tür geöffnet: Neuronale Netzwerke können direkt auf die menschliche Wahrnehmung hin end-to-end trainiert werden, anstatt auf mathematische Formeln. Aber vor PICO waren die vorhandenen perzeptuellen lernenden Codecs entweder zu langsam für die Praxis, hatten keine Kompatibilität zwischen verschiedenen Geräten oder konnten die Bitrate nicht flexibel steuern, sodass sie nicht in einem Konsumprodukt eingesetzt werden konnten.

Drei Kernprobleme, drei Lösungen

Der volle Name von PICO ist Perceptual Image Codec (Perzeptueller Bildcodec). Dieser Name gibt direkt an, was es bezweckt: Das menschliche Auge zufriedenzustellen.

Das Forschungsteam hat systematisch Millionen von Modellkonfigurationen untersucht und einige entscheidende technische Innovationen eingeführt.

Erstes Problem: Die Entropiekodierung ist langsam. Was tun?

Bei der Bildkomprimierung gibt es ein Problem: Um das Bild stärker zu komprimieren, muss der Codec ein „Entropiemodell“ verwenden, um die Informationsmenge jedes Pixels genau zu schätzen. Die genaueste Methode heißt autoregressive Kodierung: Bei der Komprimierung eines Pixels muss man zuerst die umliegenden komprimierten Pixel betrachten und dann vorhersagen. Das ist wie ein Koch, der jedes Mal, wenn er ein neues Lebensmittel in den Topf gibt, zurückschauen muss, um zu entscheiden, was als nächstes passieren soll. Es ist genau, aber extrem langsam.

Die Lösung von PICO ist das „One-shot Context Model“ (Einstufiges Kontextmodell): Das wichtigste „Skalierungsparameter“ in der Entropiekodierung wird separat herausgenommen und in einer Vorwärtsberechnung vollständig berechnet, sodass man nicht mehr warten muss. Die anderen Parameter können parallel berechnet werden, was die Genauigkeit der autoregressiven Kodierung beibehält, aber die Geschwindigkeitsengstelle umgeht. Das Ergebnis ist: Wenn man dieses Modul entfernt, sinkt die Modellleistung um 10,28%; wenn man es hinzufügt, wird die Geschwindigkeit fast nicht beeinträchtigt.

Zweites Problem: Die perzeptuelle Training kann Halluzinationen erzeugen. Was tun?

Bilder, die mit GAN (Generative Adversarial Network) trainiert wurden, sehen oft „sehr real“ aus, aber es kann sich um eine gefälschte Realität handeln – Haarsträhnen werden zu nicht existierenden Mustern, und glatte Oberflächen bekommen falsche Texturen. Noch schlimmer ist, dass das menschliche Auge sehr empfindlich für Schrift ist. Selbst wenn ein Buchstabe nur ein bisschen verzerrt ist, wird man es sofort bemerken.

PICO hat speziell für Schrift das TextFidelityLoss entwickelt: Ein vorhandener Schriftendetektor wird verwendet, um automatisch die Schriftbereiche im Bild zu finden. In diesen Bereichen wird eine strenge Pixeltreue erzwungen, und der „Spielraum“ von GAN in diesen Bereichen wird eingeschränkt. Experimente zeigen, dass nach der Hinzufügung dieser Verlustfunktion der absolute Fehler in den Schriftbereichen um die Hälfte gesenkt wurde.

Drittes Problem: Die Blockverarbeitung von Bildern hinterlässt Farbgrenzen. Was tun?

Um auf dem Mobiltelefonchip schnell zu laufen, teilt PICO das Bild in Kacheln von 504×504 Pixeln auf, verarbeitet sie getrennt und fügt sie dann wieder zusammen. Aber GAN neigt dazu, niederfrequente Farben zu ignorieren, was dazu führt, dass zwischen benachbarten Kacheln oft sichtbare Farbunterschiede auftreten, ähnlich wie beim Bildbearbeiten, wenn die Kacheln nicht richtig zusammengefügt werden. Das Forschungsteam hat speziell das TilingArtifactLoss eingeführt, eine mehrfache L1-Verlustfunktion, die das Modell zwingt, die Farbe in verschiedenen Raumfrequenzen konsistent zu halten. Diese Maßnahme hat auch den Fehler an den Kachelgrenzen um mehr als die Hälfte gesenkt.

Experimentelle Ergebnisse

Das Apple-Team hat nicht nur auf Benchmark-Indikatoren gestützt. Sie haben die dritte Partei Mabyduck beauftragt, eine große subjektive menschliche Bewertung durchzuführen.

Die Bewertung wurde in Form eines blindgetesteten Paarvergleichs durchgeführt: 610 ausgewählte Bewertende (die im Farbenblindheitstest und im Test zur Erkennung von Komprimierungsartefakten bestanden haben) verglichen die Rekonstruktionsergebnisse desselben Bildes unter verschiedenen Codecs paarweise. Die Ergebnisse wurden schließlich in einen Bayesian ELO-Score zusammengefasst. Insgesamt wurden 74.925 Paarvergleiche gesammelt.

Die endgültigen Zahlen sprechen für sich: Bei gleicher visueller Qualität ist das Dateigröße von PICO nur ein Drittel bis die Hälfte von AV1, AV2, VVC, ECM und JPEG AI – mit anderen Worten, um dasselbe Bild zu speichern, benötigt es nur 30% - 43% der Bits dieser Standards. Im Vergleich zu den derzeit besten lernenden perzeptuellen Codecs (wie HiFiC, MRIC usw.) spart PICO auch 20% - 40% an Dateigröße.

In Bezug auf die Geschwindigkeit benötigt PICO auf einem iPhone 17 Pro Max nur 230 Millisekunden, um ein 12-Megapixel-Foto zu kodieren und nur 150 Millisekunden, um es zu dekodieren. Die meisten Spitzen-ML-Codecs laufen auf NVIDIA V100-Servergrafikkarten langsamer.

Es ist bemerkenswert, dass das Papier auch speziell ein „Gegenbeispiel“ aufzeichnet: In Bezug auf den traditionellen Indikator PSNR schneidet PICO eher schlecht ab, sogar schlechter als DCVC-RT und VVC. Dies bestätigt genau die Grundannahme des Teams: Die Optimierung der perzeptuellen Qualität und die Optimierung mathematischer Indikatoren sind im Wesentlichen zwei verschiedene Richtungen, und man kann nicht beides haben.

Ein Meilenstein, kein Ende

PICO hat natürlich auch Einschränkungen. Das Papier gibt zu, dass für hochregelmäßige synthetische Bilder wie Cartoons und Diagramme die Komprimierungseffizienz von PICO schlechter ist als die traditioneller Codecs, da diese Art von Inhalten für regelbasierte autoregressive Modellierung eher geeignet ist als für perzeptuelle Generierung.

Aber diese Einschränkungen verdecken nicht die Bedeutung dieser Arbeit.

In den letzten drei Jahrzehnten hat sich der technologische Fortschritt in der Bildkomprimierung fast ausschließlich auf dem Gebiet der „besseren Zahlen“ abgespielt. Von JPEG über HEVC bis hin zu VVC haben Ingenieure Generation für Generation Indikatoren wie PSNR und SSIM optimiert. Die menschliche Wahrnehmung blieb immer ein „schwieriges Problem“, das umgangen wurde.

PICO ist das erste Mal, dass jemand dieses Problem systematisch angegangen hat: Von der Architektursuche, der Gestaltung der Verlustfunktion bis hin zur großen subjektiven menschlichen Bewertung und schließlich in einem Codec, der auf einem Mobiltelefon in Echtzeit laufen kann.

Wenn Sie das nächste Mal ein Foto mit einem Apple-Gerät teilen, werden Sie vielleicht nichts unterschiedliches spüren. Aber vielleicht entscheidet in diesem stillen Komprimierungsprozess ein Algorithmus, der speziell auf die menschliche Wahrnehmung zugeschnitten ist, welche Informationen behalten und welche vergessen werden können.

Das Team: Von WaveOne zu Apple

Der Korrespondenzautor dieses Papiers ist Oren Rippel, ein Apple-Forscher und ein bekannter Name in der Kompressionsbranche.

Sein Name tauchte erstmals 2017 in großem Umfang auf. Damals arbeitete er noch bei der Start-up-Firma WaveOne und veröffentlichte ein Papier mit dem Titel „Echtzeit-adaptive Bildkomprimierung“, in dem er mit einem neuronalen Netzwerk alle damaligen Mainstream-Codecs schlug und gleichzeitig die Echtzeitgeschwindigkeit beibehielt. Dieses Papier löste in der Wissenschaftszene eine gewisse Aufregung aus und gründete Rippels Stellung in der lernenden Kompressionsbranche.