StartseiteArtikel

Mit 2 GB Arbeitsspeicher wird die vollständige Version von Gemma 3n ausgeführt. Das weltweit erste Modell mit weniger als 10 Milliarden Parametern macht auf LMArena einen gewaltigen Eindruck: Mit 1300 Punkten bricht es die Rekorde.

AI前线2025-06-27 21:06
Am 26. Juni Ortszeit hat Google nun die vollständige Version von Gemma 3n offiziell veröffentlicht, nachdem sie erstmals auf der Google I/O im vergangenen Monat vorgestellt wurde. Sie kann direkt auf lokaler Hardware ausgeführt werden.

Am 26. Juni (örtliche Zeit), nachdem es erstmals auf der Google I/O letzten Monats vorgestellt wurde, hat Google nun die vollständige Version von Gemma 3n offiziell veröffentlicht, die direkt auf lokaler Hardware ausgeführt werden kann.

„Ich kann es kaum erwarten, die Leistung dieser Android-Versionen zu sehen!“ sagte ein Entwickler nach der offiziellen Veröffentlichung.

Die Gemma-Serie ist eine Gruppe von Open-Source-Großmodellen, die von Google entwickelt wurden. Im Gegensatz zu Gemini: Gemma richtet sich an Entwickler und kann heruntergeladen und modifiziert werden, während Gemini ein geschlossenes, proprietäres Modell von Google ist, das mehr auf Leistung und Kommerzialisierung abzielt.

Es ist bekannt, dass das jetzt veröffentlichte Gemma 3n nun die Fähigkeit hat, Bilder, Audio und Video als Eingabe zu verarbeiten und Textausgaben zu unterstützen. Es kann auch auf Geräten mit einem Minimum von 2 GB Arbeitsspeicher laufen und soll in Aufgaben wie Programmierung und Inferenz besser abschneiden. Im Einzelnen umfassen die Hauptupdates die folgenden Highlights:

Von Natur aus multimodale Gestaltung: Es unterstützt nativ die Eingabe von Bildern, Audio, Video und Text sowie die Ausgabe von Text.

Optimierte Endgerätegestaltung: Gemma 3n konzentriert sich auf die Laufzeitleistung und bietet zwei Größen basierend auf „effektiven Parametern“: E2B und E4B. Obwohl ihre ursprünglichen Parameterzahlen jeweils 5B und 8B betragen, benötigen sie durch architektonische Innovationen nur soviel Arbeitsspeicher wie herkömmliche Modelle mit 2B bzw. 4B Parametern. Darüber hinaus können sie mit einem Minimum von 2 GB (E2B) und 3 GB (E4B) Arbeitsspeicher laufen.

Was die Benchmarks angeht, ist das E4B-Modell von Gemma 3n das erste Modell, das bei einer Parametergröße von weniger als 10 B in der LMArena-Bewertung einen Score von über 1300 erreicht hat und besser abschneidet als Llama 4 Maverick 17 B, GPT 4.1-nano und Phi-4.

Wie gut ist die Leistung?

„Gemma 3n ist auch das umfassendste Modell bei seiner ersten Veröffentlichung, das ich je gesehen habe: Google arbeitet mit 'AMD, Axolotl, Docker, Hugging Face, llama.cpp, LMStudio, MLX, NVIDIA, Ollama, RedHat, SGLang, Unsloth und vLLM' zusammen, sodass es jetzt Dutzende von Möglichkeiten gibt, es auszuprobieren.“ sagte Simon Willison, Mitbegründer von Django Web.

Willison hat auf seinem Mac-Notebook zwei Versionen des Modells getestet. Auf Ollama hat das 7,5-GB-Modell der 4B-Version ein solches Bild erstellt:

Dann hat er mit der 15,74-GB-bfloat16-Version des Modells das folgende Bild erhalten:

„Es gibt einen so deutlichen visuellen Unterschied zwischen der Quantisierung des 7,5-GB- und des 15-GB-Modells.“ sagte Willison. Er hat auch darauf hingewiesen, dass die Ollama-Version scheinbar noch keine Unterstützung für Bild- oder Audioeingaben hat, während die mlx-vlm-Version dies kann.

Aber als das Modell die obigen Bilder beschreiben sollte, hat es sie fälschlicherweise als chemische Diagramme identifiziert: „Das Diagramm ist eine karikaturartige Illustration, die eine Molekülstruktur auf hellblauem Hintergrund zeigt. Die Struktur besteht aus mehreren Elementen unterschiedlicher Farben und Formen, die durch gekrümmte schwarze Linien verbunden sind.“

Darüber hinaus hat der Internetnutzer pilooch das Modell gelobt, da es vollständig kompatibel mit allen bisherigen Operationen auf Basis von Gemma3 ist. „Nachdem ich es in ein Skript zur Feinabstimmung von visuellen Sprachmodellen eingebunden habe, hat das Programm problemlos gestartet (unter Verwendung von HF Transformer-Code). Bei der LoRa-Feinabstimmung auf einer einzigen GPU benötigt das E4B-Modell bei einer Batch-Größe von 1 nur 18 GB VRAM, während Gemma-4B 21 GB benötigt. Die von DeepMind entwickelte Gemma3-Serie ist wirklich gut und führt die Rangliste der Open-Source-visuellen Sprachmodelle an.“

Einige Entwickler haben auch angegeben: „Ich habe das E4B-Modell in der AI Studio getestet, und die Ergebnisse sind sehr gut, viel besser als erwartet für das 8B-Modell. Ich überlege, es auf einem VPS zu installieren, damit ich eine andere Option habe und nicht mehr auf teure APIs angewiesen bin.“

In den Tests des Entwicklers RedditPolluter konnte das E2B-it-Modell das Hugging Face MCP nutzen, musste jedoch die Kontextlänge von der Standardeinstellung von „~4000“ auf „mehr als“ erhöhen, um zu verhindern, dass das Modell in einer endlosen Suchschleife stecken bleibt. Es kann die Suchfunktion nutzen, um Informationen über neuere Modelle zu erhalten.

Natürlich besteht immer noch Skepsis über die praktische Nützlichkeit kleiner Modelle. „Ich habe viele Experimente durchgeführt, und jedes Modell mit weniger als 27B Parametern ist praktisch unbrauchbar, außer als Spielzeug. Ich kann nur sagen, dass kleine Modelle manchmal gute Antworten geben, aber das reicht nicht.“

Daraufhin hat ein Internetnutzer angegeben: „Ich habe festgestellt, dass der beste Anwendungsfall für Mikromodelle (< 5B Parameter) als Referenzwerkzeug ohne WiFi ist. Ich habe auf einem Flugzeug immer Qwen auf meinem MacBook Air anstelle von Google Search verwendet, um Code zu schreiben, und es funktioniert sehr gut bei grundlegenden Fragen zu Syntax und Dokumentation.“

Welche Kerntechnologiefähigkeiten hat es?

Die MatFormer-Architektur ist der Kern

Google hat besonders darauf hingewiesen, dass der Kern seiner Hochleistung die neue MatFormer (Matryoshka Transformer)-Architektur ist, eine verschachtelte Transformer-Architektur, die für elastische Inferenz konzipiert ist. Sie ähnelt einer „Matroschka“: Ein größeres Modell enthält ein kleineres, aber vollständiges Submodell. Diese Gestaltung ermöglicht es einem Modell, in verschiedenen Aufgaben in unterschiedlichen „Größen“ zu laufen und eine dynamische Balance zwischen Leistung und Ressourcenverbrauch zu erreichen.

Diese Gestaltung erweitert das Konzept des „Matryoshka Representation Learning“ von der Einbettungsebene auf alle Komponenten der gesamten Transformer-Architektur und verbessert dadurch erheblich die Flexibilität und Anpassungsfähigkeit des Modells in verschiedenen Ressourcenumgebungen.

Während des Trainings des 4B-Effektivparameter-Modells (E4B) mit der MatFormer-Architektur optimiert das System gleichzeitig ein Submodell mit 2B Effektivparametern (E2B), wie in der obigen Abbildung gezeigt.

Diese architektonische Gestaltung bringt Entwicklern zwei Schlüsselfähigkeiten:

Vorgefertigtes Modell, sofort einsatzbereit . Entwickler können je nach Anwendungsfall entweder das vollständige E4B-Hauptmodell wählen, um eine höhere Leistung zu erzielen, oder direkt das bereits vorgefertigte E2B-Submodell nutzen. Bei gleichbleibender Genauigkeit erreicht das E2B-Modell eine bis zu zweifache Inferenzgeschwindigkeit und eignet sich besonders für Edge-Geräte oder Szenarien mit begrenzter Rechenleistung.

Maßgeschneiderte Modelle mit Mix-n-Match. Angesichts der Beschränkungen verschiedener Hardware-Ressourcen können Entwickler mit der Mix-n-Match-Methode die Modellgröße zwischen E2B und E4B frei anpassen. Diese Methode ermöglicht es, die verborgene Dimension des Feedforward-Netzwerks jeder Schicht flexibel anzupassen (z. B. von 8192 auf 16384) und einige Schichten auszulassen, um Modelle unterschiedlicher Größen zu erstellen.

Zur gleichen Zeit hat Google auch das Hilfswerkzeug MatFormer Lab entwickelt, um Entwicklern zu helfen, schnell die am besten abschneidende Modellkonfiguration auf der Grundlage mehrerer Benchmark-Ergebnisse (z. B. MMLU) auszuwählen und zu extrahieren.

Google hat angegeben, dass die MatFormer-Architektur auch die Grundlage für „elastische Inferenz“ legt. Obwohl diese Fähigkeit in der aktuellen Veröffentlichung noch nicht offiziell verfügbar ist, ist das Designkonzept bereits vorgebildet: Ein einzelnes, deployed E4B-Modell soll in Zukunft in der Lage sein, während der Laufzeit dynamisch zwischen den Inferenzpfaden von E4B und E2B zu wechseln und die Leistung und den Arbeitsspeicherbedarf in Echtzeit zu optimieren, basierend auf der aktuellen Aufgabenart und der Geräteauslastung.

Der Schlüssel zur erheblichen Verbesserung der Arbeitsspeichereffizienz

In dem neuesten Gemma 3n-Modell hat Google einen innovativen Mechanismus namens Per-Layer Embeddings (Schichtweise Einbettung, kurz PLE) eingeführt. Dieser Mechanismus ist speziell für die Endgerätebereitstellung optimiert und kann die Modellqualität erheblich verbessern, ohne den Bedarf an Hochgeschwindigkeitsarbeitsspeicher des Gerätebeschleunigers (z. B. GPU/TPU) zu erhöhen.

So können, obwohl die Gesamtzahl der Parameter der E2B- und E4B-Modelle jeweils 5B und 8B beträgt, ein Großteil der Parameter (d. h. die Einbettungsparameter, die über die Schichten verteilt sind) effizient auf der CPU geladen und berechnet werden. Dies bedeutet, dass nur die Kern-Transformer-Gewichte (ca. 2B für E2B und ca. 4B für E4B) im normalerweise begrenzten Beschleuniger-Arbeitsspeicher (VRAM) gespeichert werden müssen.

Erhebliche Verbesserung der Verarbeitungsgeschwindigkeit für lange Kontexte

In vielen fortschrittlichen Endgeräte-multimodalen Anwendungen ist die Verarbeitung langer Sequenzeingaben (z. B. Inhalte, die von Audio- oder Videoströmen generiert werden) zu einem Kernbedarf geworden. Daher hat Gemma 3n den KV Cache Sharing-Mechanismus eingeführt, der die Generierungsgeschwindigkeit des „ersten Tokens“ bei der Inferenz von langem Text beschleunigt, insbesondere in Szenarien mit Stream-Antworten.

Genauer gesagt optimiert der KV Cache Sharing-Mechanismus die Prefill-Phase des Modells: In den Zwischenschichten werden die Zwischenschicht-Key- und Value-Elemente aus der lokalen und globalen Attention-Mechanik direkt an alle oberen Strukturen weitergegeben. Im Vergleich zu Gemma 3 4B wird dadurch die Prefill-Leistung um bis zu 200 % verbessert.

Neuer visueller Encoder zur Verbesserung der Leistung bei multimodalen Aufgaben

Gemma 3n hat einen neuen, effizienten visuellen Encoder namens MobileNet-V5-300M eingeführt, um die Leistung bei multimodalen Aufgaben auf Edge-Geräten zu verbessern.

MobileNet-V5 unterstützt mehrere Auflösungen (256×256, 512×512, 768×768), was es Entwicklern ermöglicht, die Leistung und die Bildqualität nach Bedarf abzuwägen. Es wurde auf großen Mengen an multimodalen Daten trainiert und ist gut in der Lage, verschiedene Aufgaben zur Bild- und Videoverständnis zu bewältigen. In Bezug auf den Durchsatz kann es auf Google Pixel-Geräten eine maximale Echtzeitverarbeitungsgeschwindigkeit von 60 Bildern pro Sekunde erreichen.

Dieser Leistungsschub ist auf mehrere architektonische Innovationen zurückzuführen, darunter fortschrittliche Module auf Basis von MobileNet-V4, eine Tiefenpyramidenarchitektur, die bis zu 10-mal erweitert werden kann, und Adapter für visuelle Sprachmodelle mit Mehrskalenfusion. Im Vergleich zu dem ungedämpften SoViT in Gemma 3 erreicht das MobileNet-V5-300M auf dem Google Pixel Edge TPU eine bis zu 13-fache Geschwindigkeitssteigerung (nach Quantisierung), eine Reduzierung der Parameter um 46 %, eine Verkleinerung des Arbeitsspeicherbedarfs um das Vierfache und eine erhebliche Verbesserung der Genauigkeit.

Unterstützung von Spracherkennung und Sprachübersetzung

Im Bereich der Audioverarbeitung ist Gemma 3n mit einem fortschrittlichen Audio-Encoder auf Basis des Universal Speech Model (USM) ausgestattet, der für jedes 160-Milliskunden-Sprechsegment ein Token generieren kann (etwa 6 Tokens pro Sekunde) und es als Eingabe in das Sprachmodell integriert, um eine detailliertere Repräsentation des Sprachkontexts bereitzustellen. Dies ermöglicht die Spracherkennung und Sprachübersetzung in Endgeräteanwendungen.

Es ist bekannt, dass Gemma 3n besonders gut bei der Übersetzung zwischen Englisch und Spanisch, Französisch, Italienisch und Portugiesisch abschneidet. Darüber hinaus kann die Qualität und Stabilität der Übersetzung bei Sprachübersetzungsaufgaben durch die Strategie des „Denkpfad-Hinweises“ weiter verbessert werden.