StartseiteArtikel

Google Gemma 4 Praxis-Test: Kann auch offline auf dem Handy genutzt werden, scheitert jedoch komplett bei logischen Aufgaben

雷科技2026-04-09 11:03
Google hat das leichtgewichtige multimodale Modell Gemma 4 vorgestellt, das die Edge-AI-Bereitstellung unterstützt.

Ehrlich gesagt, hat sich der Kreis der großen KI - Modelle in letzter Zeit ziemlich verrückt angefühlt.

Jede Firma beschäftigt sich still und leise mit Anwendungen, die auf kommerzielle Umsetzung abzielen. Einige große Unternehmen drehen nur daran, wie sie das Konzept von OpenClaw in ihre eigenen Produkte einfügen können. Wahre bahnbrechende Fortschritte in der zugrunde liegenden Technologie, die einem die Augen öffnen würden, sind dagegen kaum zu sehen.

Google hat sich überlegt und gedacht, dass das so nicht passt.

Also, vor einigen Tagen hat Google das neue Open - Source - Modell Gemma 4 vorgestellt, das in vier Versionen E2B, E4B, 26B und 31B angeboten wird. Die kleineren Modelle E2B und E4B können direkt auf Mobiltelefonen, Raspberry Pi und anderen Geräten betrieben werden. Die 26B - und 31B - Versionen können bereits mit einer Consumer - Grafikkarte ausgeführt werden.

(Quelle: Lei Technology)

Man muss bedenken, dass die KI - Mobiltelefone, die vor ein paar Jahren so viel Aufsehen erregten, sich nach einem halben Jahr in der Hand der Verbraucher als enttäuschend erwiesen haben. Über 90 % der Kernfunktionen mussten immer noch über das Internet an Cloud - Server übertragen werden. Ohne Internetverbindung waren sie nutzlos. Das war ziemlich enttäuschend.

Google hat erklärt, dass die Veröffentlichung von Gemma 4 einen großen Schritt in der Entwicklung von KI auf mobilen Geräten darstellt. Es bringt leistungsstarke multimodale Funktionen auf Mobiltelefone, Tablets und Laptops, wodurch die Nutzer die gleiche effiziente Verarbeitungserfahrung wie mit fortschrittlichen Cloud - Modellen haben können.

Wird es wieder ein Fall von David und Goliath? Interessant.

Um die wirklichen Fähigkeiten dieses Modells zu testen, habe ich auch das neueste von Google veröffentlichte Modell heruntergeladen und getestet. Nun möchte ich euch die Highlights erzählen.

Google will mit Kleinem Gutes Werden

Warum hat die Veröffentlichung von Google so viel Aufsehen erregt?

Um das zu verstehen, müssen wir zunächst wissen, was dieses Modell ist.

Gemma 4 E2B/E4B ist ein leichtgewichtiges, auf Geräten lauffähiges großes Modell, das von Google mit der MatFormer - Architektur entwickelt wurde. Dank der PLE - und Hybrid - Attention - Strukturen ist es für lange Kontexte optimiert und verbraucht wenig Speicher. Der Speicherbedarf entspricht den herkömmlichen 2B - und 4B - Modellen, und es benötigt nur mindestens 3,2 GB Arbeitsspeicher, um ordnungsgemäß zu funktionieren.

(Quelle: Google)

Als nächstes müssen wir wissen, was dieses Modell kann.

Die meisten früheren großen Modelle für Mobiltelefone wurden einfach hergestellt, indem man einen Großteil der Parameter von Cloud - Modellen abschneidete und diese in das Mobiltelefon zwang. Deshalb waren sie meist einseitig und konnten nur einfache Textfragen beantworten.

Aber die E2B - und E4B - Versionen von Gemma 4 haben einen völlig neuen Ansatz. Wie bereits erwähnt, verfügen sie von Grund auf über eine native multimodale Architektur.

Native Multimodularität bedeutet, dass das Modell nativ verschiedene Eingabeformen wie Bilder, Audio und Video unterstützt. Es muss nicht zuerst die gesprochenen Worte in Text umwandeln, um sie zu verstehen, sondern kann direkt Tonfall und Bedeutung verstehen. Bei der Bildbetrachtung muss es auch keine hochauflösenden Fotos brutal komprimieren, sondern kann die Details im Bild direkt erkennen.

(Quelle: Google)

Das gilt zumindest theoretisch.

Schließlich: Wie kann ich Gemma 4 nutzen?

Vor einem Jahr war es eine äußerst komplizierte Angelegenheit, ein großes Modell direkt auf einem Mobiltelefon zu betreiben. Oft musste man sich auch der Hilfe von Linux - Virtuellen Maschinen bedienen. Lei Technology hat sogar einen Leitfaden dazu veröffentlicht. Es ist also verständlich, dass man solche Fragen hat.

Aber jetzt ist das nicht mehr nötig.

Google hat im vergangenen Jahr still und leise eine neue App namens Google AI Edge Gallery eingeführt. Sie ermöglicht es den Nutzern, direkt auf ihrem Mobiltelefon Open - Source - KI - Modelle von der Plattform Hugging Face auszuführen. Dies ist der erste Versuch von Google, die leichte KI - Inferenz auf lokalen Geräten zu ermöglichen.

(Quelle: Google)

Derzeit kann die App auf Android - Geräten heruntergeladen werden. Interessierte Leser können sie direkt im Play Store herunterladen und testen. Nach dem Laden des großen Modells können die Nutzer mit dieser App dialogfähige KI, Bildverständnis und die Funktion des Prompt - Labs nutzen. Sie können sogar eigene Modelle im LiteRT - Format importieren.

Ohne Internetverbindung kann man einfach die Rechenleistung des Mobiltelefons nutzen. So einfach ist das.

Besser geeignet für mobile Geräte

Jetzt kommt der lang erwartete Testteil.

Wie in der Abbildung zu sehen, hat Google standardmäßig neun Modelle für diese App vorbereitet. Dazu gehören die eigene Gemma - Serie sowie Open - Source - Modelle von Qianwen und DeepSeek. Wir haben die derzeit stärksten Modelle Gemma 4 - E4B, das Vorgängermodell Gemma 3n - E4B, Qianwens Qwen2.5 - 1.5B und DeepSeek - R1 - 1.5B für den Test ausgewählt.

Zuerst einige klassische Logikfragen:

F: Wie viele Buchstaben "r" hat das Wort "Strawberry"?

Diese Frage scheint einfach, hat aber viele große KI - Modelle in die Enge getrieben.

Bei den Tests haben alle von Google bereitgestellten Modelle die Antwort "2" gegeben. Nur mein eigenes Qwen3 - 4B GGUF - Modell hat die richtige Antwort "3" gegeben. Allerdings hat es sich so lange überlegt, dass es zweieinhalb Minuten gebraucht hat, um die Antwort zu generieren. Das war ziemlich zeitaufwendig.

(Quelle: Lei Technology)

F: Zwei Väter und Söhne haben drei Fische gefangen, und jeder hat einen Fisch bekommen. Wie ist das möglich?

Das war noch schlimmer. Kein einziges Modell hat die richtige Antwort gegeben. Selbst als ich meine Kollegen gefragt habe, hat mindestens die Hälfte nicht rechtzeitig reagiert. Solche Logikfragen, die auf Wortspielen basieren, sind eine Herausforderung für die Konzentration von Menschen und großen Modellen.

(Quelle: Lei Technology, von links nach rechts: Gemma 4, Gemma 3n, DS R1, Qwen2.5)

F: Es gibt drei Personen A, B und C. Eine von ihnen ist ein Ritter (der nur die Wahrheit sagt), eine ist ein Schurke (der nur Lügen sagt), und eine ist ein Spion (der entweder die Wahrheit oder Lügen sagen kann).

A sagt: "Ich bin der Ritter."

B sagt: "A sagt die Wahrheit."

C sagt: "B ist der Spion."

Angenommen, dass die Identitäten der drei Personen unterschiedlich sind, wer ist A, B und C? Begründen Sie Ihre Antwort.

Diesmal hat Gemma 4 diese Frage nach einer Reihe von logischen Überlegungen endlich richtig beantwortet. Die gesamte Bearbeitungszeit betrug 59 Sekunden, was nicht so lange ist. Die anderen drei großen Modelle haben entweder unsinnige Antworten gegeben oder sich in endlosen Überlegungszyklen verfangen.

(Quelle: Lei Technology, von links nach rechts: Gemma 4, Gemma 3n, DS R1, Qwen2.5)

Wie die Ergebnisse zeigen, verringern kleine Parameter die logische Denkfähigkeit der Modelle erheblich. Die Fähigkeit zur Überlegung kann die Wahrscheinlichkeit von KI - Halluzinationen verringern, erhöht aber auch die Generierungszeit.

Dann kommt eine relativ einfache literarische Irrefrage:

F: Was ist der Vorherige Satz von "Beete Bohnen südlich des Berges"?

Tatsächlich ist dies der erste Vers von Tao Yuanming's "Zurück in den Bauerndorf III". Es gibt keinen vorherigen Satz. So können wir sehen, ob diese kleinen Parameter - Modelle Daten erfinden, um die Fragen zu beantworten.

Das Ergebnis war, dass alle falsch lagen. Was das Thema "Tao Yuanming als moderner Dichter" angeht...

Als nächstes kommt eine einfache Textsummarisierungsaufgabe.

Konkret habe ich einen Artikel von etwa 2.500 Wörtern zur Verfügung gestellt und erwartet, dass die Modelle eine Zusammenfassung erstellen.

Nur Gemma 3n - E4B und Gemma 4 - E4B konnten die Aufgabe abschließen. Das erste hat fast zwei Minuten gebraucht und die Antwort war unpräzise. Das zweite hat eine kürzere und präzisere Antwort gegeben.

Das Modell DS R1 - 1.5B mit den kleinsten Parametern konnte überhaupt keine Antwort geben.

(Quelle: Lei Technology, von links nach rechts: Gemma 4, Gemma 3n, DS R1, Qwen2.5)

Aus diesen vier Testrunden lässt sich schließen, dass Gemma 4 - E4B in der Textverarbeitung und logischen Denkfähigkeit eine leichte Verbesserung aufweist. In Bezug auf die Generierungsgeschwindigkeit und die Erfolgsrate der Antworten liegt es jedoch weit vorne. Es scheint also, dass tiefe Überlegungen für lokale Modelle nicht geeignet sind.

Aber Gemma 3n ist kein einfaches Text - Großmodell. Es ist ein seltenes kleines multimodales Großmodell.

Zuerst habe ich die Ask Audio - Funktion, die nur für Gemma verfügbar ist, getestet. Ich habe eine 21 - minütige WAV - Audio - Datei importiert. Derzeit wird nur ein Upload von maximal 30 Sekunden unterstützt. Die transkribierte Ausgabe hat fast nichts mit der Original - Audio zu tun. Die Nutzbarkeit ist derzeit eher bescheiden.

(Quelle: Lei Technology)

Dann habe ich die Ask Image - Funktion getestet. Ich kann Gemma 4