StartseiteArtikel

Das lokale Ausführen von Gemma 4 auf dem iPhone ist heiß geworden. Wie weit ist die 0-Token-Zeit noch entfernt?

机器之心2026-04-06 13:46
Es ist möglich, viele Aufgaben auszuführen, ohne Token zu kaufen.

Redaktion von MachineHeart

Das kürzlich von Google veröffentlichte neue Modell Gemma 4 hat die Branche überrascht.

Es basiert auf der gleichen technologischen Architektur wie Gemini 3, unterstützt native Vollmodalität, belegte auf der Arena AI - Rangliste den dritten Platz weltweit und bietet mehrere Modelle. Zwei kleinere Modelle - E2B (2,3 Milliarden effektive Parameter) und E4B (4,5 Milliarden effektive Parameter) - können direkt auf Mobiltelefonen lokal ausgeführt werden. Mit einem Kontextfenster von 128K könnte man es als "Taschen - Alternative zu Gemini" bezeichnen.

Wie erwartet, ist das Modell nach der Veröffentlichung schnell zum neuen Spielzeug der Mobiltelefonbenutzer geworden.

Ein Beitrag eines X - Nutzers wurde Hunderttausende Male angesehen. Er veröffentlichte ein Video, in dem er zeigte, wie er Gemma 4 auf einem iPhone lokal ausführte, einschließlich der Verarbeitung von Bildern, Audio und der Steuerung des Blinklichts. Er sagte, dass Gemma 4 erstaunlich schnell sei und wie Magie wirke.

Jemand hat die Geschwindigkeit auf einem iPhone 17 Pro gemessen und festgestellt, dass auf einem Apple - Chip mit Hilfe des optimierten MLX (Apples Machine - Learning - Framework) die Infrarotschätzung des Modells über 40 Token pro Sekunde betragen kann.

Jemand anderes erreichte ähnliche Geschwindigkeiten auf einem Samsung Galaxy, sogar im "Denkmodus". Das ließ viele Leute sagen, dass es "zu schnell sei, um wahr zu sein".

Diese Geschwindigkeit macht es möglich, AI - Modelle auf Mobiltelefonen auszuführen, was in sensiblen Bereichen wie der Medizin nützlich ist.

Das 128K - Kontextfenster macht diese kleinen Modelle noch attraktiver.

Wie kann man es ausführen? Es ist einfach und nicht nur für Tech - Enthusiasten. Google hat die offizielle App "Google AI Edge Gallery" veröffentlicht. Wer es auf seinem Mobiltelefon ausprobieren möchte, kann die App herunterladen, das gewünschte Modell installieren und loslegen.

Da es von Google offiziell veröffentlicht wurde, braucht man sich wenig um die Sicherheit zu sorgen.

Außer diesen kleinen Modellen auf Mobiltelefonen hat jemand auch größere Versionen von Gemma 4 auf leistungsfähigerer Hardware getestet, z. B. Gemma 4 Mixture - of - Experts 26B auf einem MacBook Pro M5 Pro.

Bei direkten Gesprächen ist das Modell schnell. Textgenerierung und Codeerklärung funktionieren reibungslos.

Aber wenn man Gemma 4 als Coding - Agent nutzt, treten Probleme auf. Da beim Betrieb eines Agents ein großes Kontextfenster (Gemma 4 26B hat ein 256K - Kontextfenster), komplexe Prompts und stabile Tool - Aufrufe erforderlich sind, kann Gemma 4 hier nicht mitkommen. Es hängt oft, gibt Fehler aus oder die Ausgabe hat die falsche Struktur.

Der Wendepunkt kam, als er das Modell auf Qwen3 - Coder wechselte. Unter denselben Bedingungen konnten Dateierstellung, Befehlsausführung und mehrstufige Aufgaben normal funktionieren. Er glaubt, dass das Problem nicht im Agent - Framework liegt, sondern daran, ob das Modell für "Tool - Aufruf + strukturierte Ausgabe" optimiert wurde. In dieser Hinsicht hat Gemma 4 möglicherweise noch nicht genug getan, oder der Entwickler hat die richtige Verwendung noch nicht gefunden.

Außerdem hat jemand gesagt, dass Gemma 4 in Bezug auf die Intelligenz noch etwas unbrauchbar sei.

Trotzdem darf man die Erscheinung von Gemma 4 nicht unterschätzen. Wenn in Zukunft viele alltägliche Abfragen, Chats, einfache Schlussfolgerungen, Codegenerierung und Bildverstehen lokal ausgeführt werden können und man keine Token mehr kaufen muss, werden die Anbieter von Token in eine schwierige Situation geraten.

Aktuell ist die Situation noch nicht so pessimistisch. Es gibt immer noch einen Abstand zwischen den offenen Modellen und den führenden geschlossenen Modellen. Die meisten leistungsfähigen offenen Modelle sind noch von der Hardware abhängig und können noch nicht auf Endgeräten effektiv eingesetzt werden.

Aber die Zukunftstrends sind klar. Kurzfristig sind die geschlossenen Cloud - Modelle in komplexen Schlussfolgerungen und großskaligen Multi - Agent - Kooperationen noch führend. Langfristig werden die Endgerätemodelle allmählich die häufigen einfachen Aufgaben in der Cloud übernehmen, wenn die Hardware weiter verbessert und die Quantisierungstechnologie optimiert wird.

Die Anbieter, die nur Token und API - Abonnements verkaufen, müssen sich stärker um die "schwierigen" Bereiche kümmern - Super - Agenten, langfristig zuverlässige Kontexte und spezielle Fähigkeiten, die eine große Menge an Echtzeitdaten erfordern.

Gemma 4 ist nur der Anfang. Das nächste Überraschungsmoment könnte sein, dass ein Endgerätemodell in der alltäglichen Nutzung den Unterschied zwischen "lokal" und "Cloud" für die Benutzer verschwinden lässt. Wenn dieser Tag kommt, wird das Geschäftsmodell der gesamten AI - Branche neu gestaltet.

Dieser Artikel stammt aus dem WeChat - Account "MachineHeart" (ID: almosthuman2014). Autor: MachineHeart. Veröffentlicht von 36Kr mit Genehmigung.