StartseiteArtikel

Apple setzt zwei Mal auf Edge-AI um: Das Modellvolumen wird halbiert, die Verzögerung bis zum ersten Zeichen sinkt um das 85-fache, und iPhone kann offline sofort genutzt werden.

新智元2025-09-08 10:41
Apple hat das multimodale Modell FastVLM/MobileCLIP2 vorgestellt, das schnell und ressourcenschonend auf Endgeräten läuft.

Apple hat auf Hugging Face einen Trumpf gespielt! Diesmal hat es direkt zwei multimodale Hauptlinien vorgelegt: FastVLM setzt auf „Schnelligkeit“, bei der die Untertitel binnen Sekunden erscheinen; MobileCLIP2 setzt auf „Leichtigkeit“ und kann sogar auf einem iPhone fliegen. Noch besser ist, dass das Modell und die Demo vollständig offen zugänglich sind und man sie direkt über die Safari-Webseite testen kann. Große Modelle laufen tatsächlich auf dem Smartphone.

Gerade jetzt hat Apple auf Hugging Face die Fluten losgelassen:

Diesmal ist es keine fragmentarische Aktualisierung, sondern die konzentrierte Präsentation der beiden multimodalen Hauptlinien FastVLM und MobileCLIP2.

Das eine setzt auf „Schnelligkeit“ und drückt die Verzögerung des ersten Zeichens auf 1/85 der Konkurrenz;

das andere hebt „Leichtigkeit“ hervor und halbiert bei gleicher Genauigkeit wie SigLIP das Modellvolumen.

Man kann diese Funktionen in Szenarien wie Echtzeit-Untertitelung mit der Kamera, Offline-Erkennung und -Übersetzung sowie semantischer Suche im Fotoalbum testen.

Wichtig ist, dass das Modell und die Demo bereits offen zugänglich sind, was die Forschung, Anwendung und Umsetzung in einem Zug ermöglicht.

Echtzeit-Untertitelung, multimodal ohne Verzögerungen

Warum ist FastVLM so schnell? Weil es den von Apple entwickelten FastViTHD-Encoder verwendet .

Herkömmliche multimodale Modelle opfern entweder die Auflösung oder werden durch Tausende von visuellen Token bei der Inferenz verlangsamt.

Mit seiner dynamischen Skalierung und gemischten Architektur ermöglicht FastViTHD dem Modell, hochaufgelöste Bilder zu erkennen und gleichzeitig eine sehr geringe Verzögerung zu gewährleisten.

Leistungsvergleich zwischen FastVit und FastVitHD: Die grüne Kurve liegt insgesamt weiter oben links, was bedeutet, dass es bei gleicher Größe sowohl schneller als auch genauer ist

Aus dieser Vergleichskurve ist klar ersichtlich: Bei 0,5 Mrd., 1,5 Mrd. und 7 Mrd. Parametern liegt die grüne FastVitHD-Kurve immer weiter oben links als die blaue FastVit-Kurve.

Mit anderen Worten, es hat eine geringere Verzögerung und eine höhere Genauigkeit.

Dies ist das Geheimnis, warum FastVLM auch bei hoher Auflösung binnen Sekunden antworten kann.

FastVLM verarbeitet hochaufgelöste Eingaben mit weniger visuellen Token und reduziert dadurch die Rechenlast.

Wie groß ist der Geschwindigkeitsunterschied?

Der offizielle Vergleich zeigt, dass die Verzögerung des ersten Zeichens von FastVLM-0,5 Mrd. 85-mal schneller ist als die von LLaVA-OneVision-0,5 Mrd.

Vergleich der durchschnittlichen Genauigkeit (y-Achse) und der Verzögerung des ersten Zeichens (x-Achse) verschiedener Modelle bei sieben visuellen Sprachaufgaben

Aus diesem Leistungsvergleichsdiagramm ist direkt ersichtlich: Je größer das FastVLM-Modell, desto stärker seine Leistung, wobei die Verzögerung immer sehr gering bleibt.

Die 0,5 Mrd., 1,5 Mrd. und 7 Mrd. Parameter-Modelle von FastVLM liegen stabil in der linken oberen Ecke.

Im Vergleich zu herkömmlichen Lösungen wie LLaVA-OneVision und LLaVA-Next sind sie nicht nur schneller, sondern auch genauer.

Das bedeutet, dass FastVLM sowohl Schnelligkeit als auch Genauigkeit auf ein Höchstmaß bringt, ohne die Qualität zu opfern.

Vergleich der Leistung von VLM bei der Verwendung von niedrig- (links) und hochaufgelösten (rechts) Eingabebildern

Das Wichtigste ist, dass FastVLM bereits auf Hugging Face verfügbar ist und mit einer WebGPU-Demo ausgestattet ist, die man einfach über Safari öffnen und testen kann.

Kleiner und schneller, auch ohne Training

Wenn FastVLM für „extreme Schnelligkeit“ steht, dann ist MobileCLIP2 der „leichtgewichtige Wettkämpfer“.

Es ist die Weiterentwicklung von MobileCLIP, das Apple 2024 vorgestellt hat.

Durch multimodales Distillieren, einen captioner teacher und Datenverstärkung hat das Forschungsteam das „Gehirn“ in einen „kleinen Körper“ gepresst, wodurch das Modellvolumen verringert und die Verständnisfähigkeit aufrechterhalten wurde.

In der Vergangenheit war die Bildsuche und -beschreibung oft auf Cloud-Rechenleistung angewiesen. Heute kann MobileCLIP2 die Inferenz direkt auf einem iPhone durchführen.

Die Fotos müssen nicht hochgeladen werden, und die Ergebnisse werden fast sofort zurückgegeben. Es ist nicht nur schnell, sondern auch sicherer.

Aus der gesamten Testkurve ist ersichtlich, dass MobileCLIP2 auf der „Genauigkeit-Verzögerung“-Achse insgesamt weiter oben links liegt.

Das bedeutet, dass es bei hoher Genauigkeit die Verzögerung deutlich reduziert.

Das zero-shot-Verhalten von MobileCLIP2 auf ImageNet-1k: Im Vergleich zu SigLIP und der alten Version von MobileCLIP erreicht es bei geringerer Verzögerung eine ähnliche oder sogar höhere Genauigkeit.

Im Test hat das S4-Modell auf ImageNet-1k eine ähnliche Genauigkeit wie SigLIP-SO400M/14, aber nur die Hälfte der Parameter.

Auf einem iPhone 12 ProMax ist die Verzögerung sogar 2,5-mal geringer als die von DFN ViT-L/14.

Im Vergleich dazu hat das B-Modell im Vergleich zur vorherigen Version MobileCLIP-B um +2,2 % zugenommen, während S0/S2 bei einer Genauigkeit nahe an ViT-B/16 ein kleineres Volumen und eine höhere Geschwindigkeit erreicht haben.

Von der Erprobung zur Integration, zwei Schritte zum Einstieg

Apple hat diesmal nicht nur das Modell veröffentlicht, sondern auch den Weg bereitet: Zuerst die Demo testen, dann die Integration und Entwicklung vornehmen.

Der einfachste Weg ist, die von Apple bereitgestellte FastVLM WebGPU-Demo auf Hugging Face zu öffnen.

Nach der Autorisierung der Kamera in Safari kann man sofort die Echtzeit-Untertitelung sehen.

Die Modellkarte von MobileCLIP2 bietet ebenfalls eine Inferenz-Schnittstelle. Man kann ein Foto hochladen oder eine Beschreibung eingeben, und das Ergebnis erscheint sofort.

Nach der Erprobung können Entwickler, die diese Funktionen in eine App integrieren möchten, die Core ML + Swift Transformers-Toolchain verwenden, um das Modell direkt in iOS oder macOS zu integrieren.

Apple hat in den Dokumenten von WWDC und Hugging Face bereits fertige Beispiele bereitgestellt. Sowohl die GPU als auch der neuronale Motor können genutzt werden, was die Leistung und Energieeffizienz gewährleistet.

Das bedeutet, dass „Große Modelle auf einem iPhone laufen lassen“ nicht mehr nur eine Demonstration ist, sondern dass es direkt für Funktionen wie Fotoalbumsuche, Kameratranslation und Live-Untertitelung verwendet werden kann.

„Erprobung + Entwicklung“ ist für Entwickler nicht mehr nur ein Schlagwort, sondern ein realisierbarer Weg.

Es ist schwierig, sich von der Modellbeschreibung zu überzeugen. Was wirklich überzeugt, sind die erfolgreichen Anwendungsfälle.

Wenn man die WebGPU-Demo von FastVLM öffnet und die Kamera auf die Wörter auf einem Blatt Papier richtet, werden sie fast sofort erkannt.

FastVLM kann schnell die Wörter in einem Bild erkennen

In der Reddit-Community hat jemand nach einem eigenen Test geschrieben:

„Es ist unglaublich schnell. Selbst Blinde können mit einem Screenreader in Echtzeit folgen. Selbst wenn man das Smartphone quer hält und während des Gehens Braille eingibt, gibt es keine Verzögerungen.“ – r/LocalLLaMA

Dieser Satz beschreibt die Schnelligkeit von FastVLM perfekt:

Selbst normale Benutzer können die „Sekundenreaktionszeit“ der Untertitel spüren. In behindertenfreundlichen Szenarien ermöglicht es sogar die Synchronisierung von Brailleeingabe und Screenreader.

Ein Benutzer aus der Technik-Community hat ergänzt:

„FastVLM kann Bilder und Texte effizient und genau verarbeiten. Sowohl die Geschwindigkeit als auch die Genauigkeit sind besser als bei vergleichbaren Modellen.“ – r/apple

Von den realen Anwendungsfällen im Alltag bis hin zur technischen Validierung deuten die Meinungen der Nutzer auf eine Schlussfolgerung hin: FastVLM ist nicht nur schnell, sondern auch zuverlässig schnell.

FastVLM oder MobileCLIP2: Welches soll ich wählen?

Nach dieser Beschreibung fragt sich vielleicht jemand: Welches Modell soll ich verwenden?

Wenn Sie ein Inhaltserzeuger oder Blogger sind und eine sofortige Untertitelung wünschen, ist FastVLM die erste Wahl.

Wenn Sie eher Kameratranslation und Offline-Erkennung benötigen, ist MobileCLIP2 besser geeignet.

Natürlich können Sie beide Modelle kombinieren, wenn Ihre Anwendungsfälle sowohl Echtzeit-Untertitelung als auch Bild- und Text-Suche erfordern.

Aber beachten Sie, dass die Kompatibilität von WebGPU in verschiedenen Browsern und Geräten nicht immer gleich ist;

und obwohl Endgerätemodelle das Problem der Privatsphäre und Verzögerung lösen, gibt es immer einen Kompromiss zwischen Rechenleistung und Akkulaufzeit.

Trotzdem hat Apples „Öffnen der Schleusen“ auf Hugging Face eine symbolische Bedeutung.

Es hat nicht nur das Modell veröffentlicht, sondern auch die Demo, die Toolchain und die Dokumentation an die Community übergeben.

Für Entwickler ist es nicht mehr nur eine Forschungsarbeit, sondern ein sofort realisierbarer Weg.

Von der Schnelligkeit zur Leichtigkeit, von der Erprobung zur Integration: FastVLM und MobileCLIP2 senden ein klares Signal –

Große Modelle auf einem iPhone laufen lassen ist nicht mehr eine ferne Zukunft, sondern eine greifbare Gegenwart.

Referenzen

https://huggingface.co/apple

https://x.com/ClementDelangue/status/1962526559115358645

https://machinelearning.apple.com/research/fast-vision-language-models?utm_source=chatgpt.com

https://www.heise.de/en/news/FastVLM-Apple-s-new-image-to-text-AI-should-be-significantly-faster-10382408.html?utm_source=chatgpt.com

https://ossels.ai/apple-mobileclip2-on-device-ai/?utm_source=chatgpt.com

Dieser Artikel stammt aus dem WeChat-Account