Echtzeit-Test: Ein Smartphone im Preissegment von 1.000 Yuan läuft Gemma 4. Die Generierung dauert jedes Mal 5 Minuten. Lokale KI ist offensichtlich nur für Flaggschiffsmodelle bestimmt.
Im April dieses Jahres hat Google das neue Open - Source - Großmodell Gemma 4 vorgestellt. Diesmal wurden auf einmal vier Versionen in verschiedenen Größenklassen herausgebracht, die von Mobiltelefonen bis hin zu Workstations reichen. Die zwei kleinsten Versionen sind speziell für mobile Geräte entwickelt und zeichnen sich durch vollständige Offline - Funktionalität aus. Das an sich ist nicht sonderlich neu, aber das Wichtigste ist, dass Google nun versucht, lokale Modelle auf Mobiltelefonen laufen zu lassen.
Vielleicht habt ihr schon viele Tests zu Gemma 4 gesehen, aber die meisten Online - Tests wurden auf den neuesten iPhone - Modellen oder High - End - Smartphones durchgeführt. Diese High - End - Geräte haben die neuesten Technologien und die beste Leistung, also ist es nicht verwunderlich, dass sie gute Ergebnisse erzielen.
Daher stellt sich die Frage: Was passiert, wenn man ein normales Android - Smartphone im Preisbereich von einigen hundert bis über tausend Yuan mit einem Mittelklasse - Prozessor und nicht allzu hoher Rechenleistung nutzt? Kann das lokale Modell noch ordnungsgemäß funktionieren? Wie groß ist der Unterschied im Vergleich zu High - End - Smartphones?
(Quelle: Aufnahme von Lei Technology)
Im Grunde stellt sich die Frage, ob lokale KI - Funktionen nur für High - End - Smartphones reserviert sind. Um diese Frage zu klären, haben wir ein Android - Smartphone im Mittelklasse - Preisbereich mit einem Mittelklasse - Chip genommen, um Gemma 4 zu testen und zu sehen, wie es sich verhält.
Ein Smartphone im Mittelklasse - Preisbereich und ein lokales Modell? Ein Desaster!
Für unseren Test haben wir das vivo Y500 Pro genommen, ein typisches Android - Smartphone im Mittelklasse - Preisbereich. Obwohl es kein altes Modell ist, hat der SoC eine durchschnittliche Leistung. Dies liegt daran, dass es im entsprechenden Preissegment positioniert ist. Es ist mit einem MediaTek Dimensity 7400 ausgestattet, der auf einer 4 - nm - Prozesstechnologie von TSMC basiert. Der CPU hat eine Konfiguration von 4 großen Kernen mit 2,6 GHz und 4 kleinen Kernen mit 2,0 GHz, und die GPU ist eine Mali - G615 MC2.
Diese Konfiguration ist im Mittelklasse - Preisbereich normal und reicht für den täglichen Gebrauch aus. Aber wenn man die Rechenleistung mit der von High - End - Chips vergleicht, ist es ein anderes Niveau. Bei der KI verwendet der Dimensity 7400 ein MediaTek NPU 655, das laut Hersteller um 15 % leistungsstärker als die vorherige Generation ist.
Google hat für die Mobilversion von Gemma 4 eine App namens Google AI Edge Gallery entwickelt, die man direkt im App - Store finden kann. Nach dem Download und Öffnen der App wählt man Gemma 4 E4B aus und wartet, bis die Modellsdateien heruntergeladen sind. Dann kann man direkt offline verwenden, ohne Internetverbindung oder zusätzliche Konfiguration. Google hat hier einen guten Job gemacht. Also los geht's mit dem Test.
(Quelle: Grafik von Lei Technology)
Als erste Frage haben wir eine sehr alltägliche gestellt: Empfehle mir drei Filme, die man auf einer langen Hochgeschwindigkeitszugreise gut anschauen kann, und gib Gründe dafür an. Gemma 4 hat "Forrest Gump", "Inception" und "La La Land" empfohlen. Die Filmauswahl ist gut, alle drei Filme sind Klassiker, und die Empfehlungsgründe sind plausibel. Aber das Problem ist, dass es eine Antwort von fast 500 Wörtern gegeben hat und zusätzlich noch einen "Tipp" angefügt hat, wie z. B. dass man beim Anschauen von Filmen im Zug Kopfhörer mitnehmen sollte.
(Quelle: Grafik von Lei Technology)
Auf dem vivo Y500 Pro hat es 2,8 Minuten gedauert, um diese 500 Wörter auszugeben. Ehrlich gesagt, hat Lei nach dem Lesen festgestellt, dass der zweite Teil der Antwort eigentlich überflüssig war.
Dies ist ein häufiges Problem bei Modellen mit kleinen Parametern. Sie wissen oft nicht, wann sie aufhören sollen, und fügen manchmal "Empfehlungen" hinzu, um die Antwortlänge zu erhöhen. Wenn man sich die Antwort genauer anschaut, kann man feststellen, dass man die wichtigsten Punkte in ein paar Sätzen zusammenfassen kann.
Als nächstes haben wir eine klassische mehrstufige logische Rätselfrage gestellt: Fünf Personen sitzen in einer Reihe. A sitzt nicht ganz links, B sitzt rechts von C, D sitzt links von E, E sitzt nicht ganz rechts. Wer sitzt in der Mitte? Obwohl das Modell die Bedingungen schrittweise aufgelistet und Kombinationen ausprobiert hat, konnte es keine richtige Antwort geben. Es hat sogar 3,3 Minuten gedauert, und während dieser Zeit konnte man die App nicht im Hintergrund lassen, sondern musste das Display aktiv halten. Das heißt, diese 3,3 Minuten waren komplett vergeudet.
(Quelle: Grafik von Lei Technology)
Natürlich kann man nicht die Leistung des Y500 Pro beschuldigen. Wir haben auch auf dem High - End - Modell X300 Pro versucht, diese Frage zu beantworten, aber auch dort konnten wir keine richtige Antwort bekommen. Aber das X300 Pro hat die Antwort in nur 1,6 Minuten gegeben, auch wenn es die falsche war. Es war zumindest schnell.
(Quelle: Grafik von Lei Technology)
Lei hat auch die berühmte Frage getestet, die viele KI - Großmodelle in Verlegenheit bringt: Soll man zum Autowaschen mit dem Auto fahren oder zu Fuß gehen? Überraschenderweise haben die beiden Smartphones in demselben Modell unterschiedliche Denkansätze gezeigt. Das Y500 Pro hat 2,5 Minuten gebraucht und uns gesagt: "Wenn du zum 'Autowaschen' gehst, solltest du zu Fuß gehen." Eine ziemlich komische Antwort.
(Quelle: Grafik von Lei Technology)
Das X300 Pro hat sich etwas länger mit der Frage beschäftigt und scheint sich auch wiederholt gefragt zu haben, ob man für das Autowaschen wirklich ein Auto braucht. Am Ende hat es aber gesagt: Wenn man zum Autowaschen geht, sollte man mit dem Auto fahren.
Nach diesen drei Tests hat uns das Gemma 4 E4B auf dem Y500 Pro den Eindruck hinterlassen, dass es langsam und voller unnötiger Worte ist, aber es wird nicht sehr heiß.
Die Langsamkeit ist das am stärksten spürbare Problem. Man muss durchschnittlich zwei bis drei Minuten warten, um die vollständige Antwort zu lesen. Diese Geschwindigkeit ist im täglichen Gebrauch wirklich unangenehm. Ehrlich gesagt, wird sich niemand drei Minuten lang an einem Bildschirm festhalten, um nur eine Antwort zu lesen. Aber es gibt einen interessanten Detail: Die Langsamkeit liegt nicht daran, dass das Modell nicht funktioniert, sondern daran, dass die Rechenleistung des NPU im Dimensity 7400 begrenzt ist. Es kann nur eine begrenzte Anzahl von Tokens pro Sekunde verarbeiten, und so schnell kann es auch nur sein.
Auch die Fehlerquote ist relativ hoch, was aber verständlich ist. Wenn das Modell komplexe logische Probleme löst, muss es in den Zwischenschritten oft "nachdenken". Je mehr Rechenleistung zur Verfügung steht, desto vollständiger ist dieser Prozess. Auf einem Smartphone im Mittelklasse - Preisbereich kann dieser Prozess aber oft vorzeitig abgebrochen werden, weil die Rechenleistung begrenzt ist. Wenn man zu viele Ressourcen für die Berechnung verwendet, kann man später nicht mehr weiterarbeiten, und es kommt eher zu Fehlern.
Gemma 4 E4B ist ein multimodales Modell, also haben wir auch getestet, wie gut es Bilder erkennen kann. Wir haben ihm ein Foto eines Nachtmarktes in einem Einkaufszentrum gezeigt und ihn gefragt, was er daraus entnehmen kann.
Die Antwort war ehrlich gesagt nicht schlecht. Es hat die Größe des Gebäudes, die Dachstruktur und die Atmosphäre des Nachtmarktes beschrieben. Aber es hat einen offensichtlichen Fehler gemacht: Es hat das große "Apple Store" - Schild im Bild überhaupt nicht erwähnt, sondern nur von einem "modernen großen Einkaufszentrum" gesprochen. Die Erkennung von Marken erfordert eine hohe Leistung des Modells, da es die visuellen Informationen mit dem dazugehörigen Markenwissen verbinden muss. Die Anzahl der Parameter in E4B reicht offenbar nicht aus. Es kann die Form erkennen, aber nicht sagen, was es ist.
(Quelle: Grafik von Lei Technology)
Als nächstes haben wir ihm ein Foto einer Pflanzenbewässerungsanlage gezeigt und gefragt, was es ist. Dann hat es einfach nur "gedreht". Fünf Minuten lang hat es keine Antwort gegeben, nur die Ladeanimation. Das Schlimmste ist, dass man während dieser Zeit die App überhaupt nicht bedienen konnte, sondern nur warten musste. Das Foto zeigte eine ganz einfache Bodenbewässerungsanlage, keine seltene Vorrichtung.
(Quelle: Grafik von Lei Technology)
Kann das X300 Pro das Bild richtig erkennen? Ja, es kann. Das X300 Pro hat diese Frage, die das Y500 Pro überfordert hat, in nur 32 Sekunden beantwortet. Leider konnte es nicht genau sagen, was es ist, sondern hat nur vermutet, dass es ein kleiner Sensor ist.
(Quelle: Grafik von Lei Technology)
Nach diesen drei Tests hat das Gemma 4 E4B auf dem Y500 Pro nicht so schlecht abgeschnitten, wie wir gedacht haben. Es war überraschend, dass es nicht sehr heiß wurde und nicht sehr ruckelig war. Es konnte auch einige einfache Fragen richtig beantworten. Aber das Problem ist, dass es als lokales Modell viel zu langsam ist. Außerdem hat die App Google AI Edge Gallery nicht genügend Rechte, um andere Systemfunktionen außer dem Schalten der Taschenlampe auszuführen.
Das ist ziemlich peinlich. Wenn es nur so langsam und fehleranfällig ist, warum sollte man es noch weiter verwenden? Eher würde man lieber ein Online - Großmodell nutzen, außer man ist wirklich offline.
Kann man lokale Modelle auf normalen Smartphones verwenden?
Nach unseren Tests scheint es, dass Gemma 4 derzeit nur auf High - End - Smartphones eine akzeptable Leistung erreicht. Obwohl es auch hier Fehler gibt, ist es zumindest schnell genug, im Gegensatz zu Smartphones im Mittelklasse - Preisbereich, die langsam und ungenau sind.
Aber was ist der Plan hinter dieser App von Google?
Die App Google AI Edge Gallery hat eine Funktion namens Mobile Actions, die natürliche Sprachbefehle direkt in Aktionen für das Android - System umwandeln kann. Beispielsweise kann man sagen: "Erstelle mir einen Kalendereintrag für das Mittagessen" oder "Schalte die Taschenlampe ein". Das Modell versteht die Absicht und ruft direkt die Systemtools auf, um die Aktion auszuführen.
Dieser Ansatz wird bereits auf High - End - Smartphones verfolgt. Die Samsung Galaxy S25 - Serie hat eine Funktion namens "Cross - App Execution Chain" eingeführt, mit der man mit einem Satz mehrere Apps kooperativ arbeiten lassen kann. Beispielsweise kann man sagen: "Navigiere mich zum Ort meiner heutigen Abendbesprechung". Die KI liest automatisch die Adresse aus dem Kalender und