StartseiteArtikel

Echtzeit-Test von Google Gemma 3n: Starkes Ungleichgewicht in den Fähigkeiten, aber dies ist genau die Lösung für Edge-Großmodelle.

雷科技2025-07-06 09:00
Das Mobilseitige Modell bekommt einen "neuen König".

Ehrlich gesagt, hat es in der Szene der großen chinesischen KI - Modelle in letzter Zeit ziemlich ruhig geworden.

Lasst uns erst einmal von DeepSeek - R2 absehen, das so viel Aufsehen erregt hat. Abgesehen von halb wahr, halb falschen Gerüchten ist von diesem Ding überhaupt kein Geräusch zu hören. Es hat den Anschein, dass es auch in einem halben Jahr vielleicht noch nicht einsatzbereit sein wird.

Die sogenannten "vier KI - Drachen", die letztes Jahr noch heftig miteinander konkurrierten, scheinen dieses Jahr wie mürrische Katzen zu sein. Man sagt, alle beschäftigen sich still und leise mit ihren eigenen Projekten, aber bisher ist nichts sichtbar geworden. Es hat eine Art "Licht durch die Mauer" - Schönheit.

Was die großen Unternehmen betrifft, hat sich die Iterationsgeschwindigkeit verlangsamt, und sie legen mehr Schwerpunkt auf die Anwendungen. Doubao hat zwar das große Modell 1.6 vorgestellt, aber die Werbung konzentriert sich mehr auf TRAE und den Kouzikongjian - Raum. iFlytek setzt auf KI - Bildung und Büro - Agents, während Baidu die ganzheitliche KI - Bildbearbeitung und die Asset - Verwaltung vorantreibt. Jede Firma hat ihre eigene Strategie.

Insgesamt sind diese Anwendungen ziemlich praktisch, aber es gibt wirklich keine besonders beeindruckenden Produkte.

Während es bei den Online - großen Modellen kaum neue Fortschritte gibt, stehen die lokalen großen Modelle still. Mistral AI, das früher regelmäßig aktualisiert wurde, hat seit fast einem halben Jahr kein Wort mehr verloren. Über die mobilen Edge - großen Modelle ist überhaupt nichts zu hören. Bei den seit zwei oder drei Jahren beworbenen KI - Smartphones werden über 90 % der Funktionen immer noch über die Cloud realisiert.

(Quelle: Google)

Google denkt: Das geht nicht. Was soll dann mit meiner Pixel - Serie passieren?

Letzte Woche hat Google DeepMind auf Twitter offiziell angekündigt, dass es das neue Edge - multimodale große Modell Gemma 3n veröffentlicht und open - source gemacht hat.

Google erklärt, dass die Veröffentlichung von Gemma 3n einen großen Fortschritt in der KI für mobile Geräte darstellt. Es bringt leistungsstarke multimodale Funktionen für Edge - Geräte wie Smartphones, Tablets und Laptops und ermöglicht es den Nutzern, die effiziente Verarbeitungsleistung zu erleben, die bisher nur von fortschrittlichen Cloud - Modellen angeboten wurde.

Wieder ein Versuch, mit Kleinem Großes zu erreichen? Interessant.

Um herauszufinden, wie gut dieses Ding wirklich ist, habe ich auch das neueste von Google veröffentlichte Modell heruntergeladen und getestet. Hier nun die Highlights.

Google will "mit Kleinem Großes erreichen"

Zunächst beantworten wir zwei Fragen:

Was ist Gemma 3n?

Gemma 3n ist ein leichtgewichtiges Edge - großes Modell, das von Google mit der MatFormer - Architektur entwickelt wurde. Durch die verschachtelte Struktur wurde eine niedrige Speicherauslastung realisiert. Derzeit hat die Offizielle Seite zwei Modelle, 5B (E2B) und 8B (E4B), vorgestellt. Durch die architektonische Innovation ist der VRAM - Verbrauch vergleichbar mit dem von 2B und 4B, und der Mindestbedarf liegt bei nur 2 GB.

(Quelle: Google)

Was kann Gemma 3n tun?

Im Gegensatz zu herkömmlichen Text - Schneidmodellen unterstützt Gemma 3n von Natur aus mehrere Eingabemodalitäten wie Bilder, Audio und Video. Es kann nicht nur automatische Spracherkennung (ASR) und automatische Sprachenübersetzung (AST) durchführen, sondern auch verschiedene Aufgaben zur Bild - und Videoverständnis erledigen.

(Quelle: Google)

Die native multimodale und mehrsprachige Gestaltung eignet sich wirklich gut für mobile Edge - Geräte.

Wie kann ich Gemma 3n nutzen?

Vor sechs Monaten war es eine äußerst komplizierte Angelegenheit, ein Edge - großes Modell auf einem Smartphone zu installieren. Oft musste man sich auch der Hilfe einer Linux - Virtuellen Maschine bedienen. Lei Technology hat sogar einen Leitfaden dazu veröffentlicht. Es ist also verständlich, dass die Leute solche Fragen haben.

Aber jetzt ist das nicht mehr notwendig.

(Quelle: Google)

Google hat im vergangenen Monat still und leise eine neue App namens Google AI Edge Gallery veröffentlicht. Sie ermöglicht es den Nutzern, direkt auf ihrem Smartphone Open - Source - KI - Modelle von der Hugging Face - Plattform auszuführen. Dies ist Google's erster Versuch, die leichte KI - Inferenz auf lokale Geräte zu bringen.

Derzeit kann man diese App auf der Android - Plattform herunterladen. Interessierte Leser können direkt auf Github die App ausprobieren. Nachdem das große Modell geladen wurde, können die Nutzer mit dieser App dialogförmige KI, Bildverständnis und die Funktion des Prompt - Labs nutzen. Sie können sogar eigene Modelle im LiteRT - Format importieren.

Ohne Internetverbindung, einfach die lokale Rechenleistung des Smartphones nutzen, um Aufgaben zu erledigen. So einfach ist das.

Echtzeit - Test: Tatsächlich besser für mobile Geräte

Jetzt kommt der lang erwartete Testabschnitt.

Wie man sieht, hat Google standardmäßig vier Modelle für diese App vorbereitet. Dazu gehören das eigene Gemma - Modell und das Qwen - Modell von Tongyi Qianwen. Wir haben das derzeit stärkste Gemma 3n - 4B, das Qwen2.5 - 1.5B von Tongyi Qianwen und das zusätzlich installierte Qwen3 - 4B GGUF getestet.

Zunächst die klassische Erdbeeren - Frage:

F: Wie viele Buchstaben "r" hat das Wort "Strawberry"?

Diese Frage scheint einfach, aber sie hat tatsächlich viele große KI - Modelle in die Enge getrieben.

Bei den Tests haben Gemma 3n - 4B und Qwen2.5 - 1.5B, die keine tiefgreifende Denkfähigkeit haben, immer noch "2" als Antwort gegeben. Qwen3 - 4B GGUF, das tiefgründig denken kann, hat die richtige Antwort "3" gegeben, aber es hat sich so lange über die Frage nachgedacht, dass es zwei und eine halbe Minuten brauchte, um die Antwort zu generieren. Das war ziemlich zeitaufwendig.

(Quelle: Lei Technology, von links nach rechts: Qwen2.5, Gemma 3n, Qwen3)

Die Ergebnisse zeigen, dass kleine Parameter die logische Denkfähigkeit eines Modells deutlich beeinträchtigen. Die Funktion des tiefgründigen Nachdenkens kann zwar die Wahrscheinlichkeit von KI - Halluzinationen verringern, aber sie erhöht auch die Zeit, die für die Generierung benötigt wird.

Dann eine relativ einfache Täuschungsfrage:

F: Was ist der Vorherige Satz von "Baumei nanshan xia"?

Tatsächlich ist dies der erste Satz aus Tao Yuanming's "Zurück in das Dorfleben - Teil 3", und es gibt keinen vorherigen Satz. Dies ist ein guter Test, um zu sehen, ob diese kleinen Parameter - Modelle Daten erfunden, um die Frage zu beantworten.

Interessanterweise hat nur Qwen2.5 - 1.5B den Original - Satz angegeben, aber keine negative Antwort gegeben. Qwen3 - 4B GGUF hat überhaupt nicht auf die Frage geantwortet, und Gemma 3n - 4B hat einen nicht existierenden Satz erfunden, der sogar nicht dem Rhythmus der klassischen chinesischen Gedichte entspricht.

(Quelle: Lei Technology)

Dann eine geografische Allgemeinwissensfrage:

F: Ein Wissenschaftler baut ein Zelt im Freien auf. Plötzlich trifft er auf einen Bären und rennt in Panik weg. Zuerst rennt er 10 Kilometer südlich, dann 10 Kilometer östlich und schließlich 10 Kilometer nördlich. Dann stellt er überrascht fest, dass er wieder am Ort ist, wo er sein Zelt aufgebaut hat. Frage: Welche Farbe hat der Bär, auf den der Wissenschaftler gestoßen ist?

Diese Frage testet hauptsächlich das Verständnis des Modells für besondere geografische Positionen und Phänomene. Der einzige Ort, der den Bewegungsbahnen des Wissenschaftlers entspricht, ist der Nordpol. Also ist der Bär natürlich ein weißer Polarbär.

Das Ergebnis war folgendes: Qwen2.5 - 1.5B hat nach einer logisch unzusammenhängenden Analyse die falsche Antwort gegeben. Gemma 3n - 4B und Qwen3 - 4B GGUF konnten die richtige Antwort geben. Es ist jedoch zu beachten, dass Qwen3 - 4B GGUF aufgrund des hohen Token - Verbrauchs beim Nachdenken die Antwort nicht vollständig generieren konnte. Dies war während des gesamten Tests sehr häufig.

(Quelle: Lei Technology)

Dann eine einfache Textverarbeitungsaufgabe.

Genauer gesagt, habe ich eine Einführung eines Artikels mit etwa 600 Wörtern bereitgestellt und erwartet, dass die Modelle eine Zusammenfassung geben.

Beide Gemma 3n - 4B und Qwen3 - 4B GGUF konnten die Aufgabe erfüllen. Da die Originalsprache von Gemma 3n - 4B Englisch ist, wurde die Zusammenfassung auch in Englisch gegeben. Qwen3 - 4B GGUF konnte eine chinesische Zusammenfassung liefern.

(Quelle: Lei Technology)

Was das Qwen2.5 - 1.5B mit den kleinsten Parametern betrifft, konnte es überhaupt keine Antwort geben.

Aus diesen vier Tests geht hervor, dass Gemma 3n - 4B und Qwen3 - 4B GGUF in der Textverarbeitung und der logischen Schlussfolgerung eigentlich nicht viel voneinander abweichen, aber in der Generierungsgeschwindigkeit und der Antwortrate deutlich besser abschneiden. Tiefgründiges Denken ist offensichtlich nicht für lokale Modelle geeignet.

Aber Gemma 3n ist nicht nur ein reines Text - großes Modell, sondern eines der seltenen kleinen Parameter - multimodalen großen Modelle.

Obwohl die Spracherkennung in der Google AI Edge Gallery derzeit nicht funktioniert, ist die Bilderkennung vorhanden. Wenn man auf die Option "Ask Image" klickt, kann man Gemma 3n Fragen stellen, indem man ein Foto macht oder ein Bild hochlädt.

(Quelle: Lei Technology)

Bei den Tests hat sich gezeigt, dass Gemma 3n derzeit überhaupt nichts über Animationscharaktere weiß. Auch die Blumenkennung ist nicht sehr genau. Es kann nur häufige Lebensmittel und Hardware erkennen, und die Erkennung der Elemente im Bild ist nicht sehr präzise.

Aber zumindest hat Gemma 3n tatsächlich die multimodale Gestaltung für mobile Edge - Geräte realisiert.

Deutliche Schwächen, aber gute Zukunftsperspektiven

Nach all diesen Tagen voller Tests ist es an der Zeit, ein