Mit Kleinem besiegt das Große: Google veröffentlicht stärkstes kleines Modell, das auch auf Mobiltelefonen läuft

Mit Kleinem besiegen das Große

„Offenheit“ und „Open Source“ unterscheiden sich nicht nur in einem einzelnen Wort.

Googles Gemma-Serie wurde vor zwei Jahren veröffentlicht. Entwickler können die Modelle herunterladen und lokal ausführen, aber ihre Verwendung und Weiterverbreitung sind eingeschränkt. Selbst wenn man die Modelle modifiziert, darf man sie nicht frei verteilen. Im besten Fall kann man dies als „offen“ bezeichnen, aber es entspricht nicht dem „Open-Source“-Standard im Bereich Künstliche Intelligenz.

Google DeepMind CEO Demis Hassabis

Gerade hat Google vier Modelle der Gemma 4-Serie veröffentlicht, die unter der Apache 2.0-Lizenz vollständig Open Source sind. Die kleinste Version kann sogar vollständig offline auf einem Raspberry Pi ausgeführt werden. Die kleinen Gemma-Modelle sind erstmals wirklich in den Händen von jedermann.

Der Siegeszug der winzigen Modelle

Es wurden insgesamt vier Größen der Gemma 4-Serie veröffentlicht. Die zugrunde liegende Technologie ist mit der von Gemini 3 verwandt und deckt Hardware von Edge-Geräten bis hin zu Hochleistungs-Arbeitsstationen ab:

E2B / E4B: Diese Modelle sind speziell für Mobiltelefone und IoT-Geräte entwickelt worden und wurden in enger Zusammenarbeit mit Googles Pixel-Team sowie Qualcomm und MediaTek optimiert. Bei der Inferenz werden nur 2 Milliarden bzw. 4 Milliarden Parameter aktiviert, um Speicher und Strom zu sparen.

Sie unterstützen ein Kontextfenster von 128.000 Tokens und können Bilder, Videos und Audio direkt verarbeiten. Sie können vollständig offline auf Pixel-Smartphones, Raspberry Pi und Jetson Orin Nano ausgeführt werden, mit einer Latenzzeit nahe Null. Android-Entwickler können jetzt über die AICore-Entwickler-Vorschau die Agent-Mode testen.

26B MoE: Dieses Modell verwendet eine Mixture-of-Experts-Architektur. Bei der Inferenz werden nur 3,8 Milliarden der insgesamt 26 Milliarden Parameter aktiviert. Dadurch wird eine sehr schnelle Inferenzzeit bei gleichzeitig hoher Qualität erreicht. Im Arena-AI-Text-Ranking erreicht es 1.441 Punkte und liegt damit auf Platz sechs unter den Open-Source-Modellen.

31B Dense: Dieses Modell setzt auf maximale Performance. Im Arena-AI-Text-Ranking erreicht es 1.452 Punkte und liegt damit auf Platz drei unter den Open-Source-Modellen. Die unquantifizierten bfloat16-Gewichte können auf einer einzelnen 80-GB-NVIDIA-H100-Grafikkarte ausgeführt werden. Die quantifizierte Version unterstützt auch Consumer-Grafikkarten und bietet eine solide Grundlage für lokale Feinabstimmungen.

Alle vier Modelle verfügen über ähnliche Fähigkeiten: Sie unterstützen mehrstufige Inferenz und komplexe Logik, können Funktionsaufrufe, JSON-Strukturausgaben und Systembefehle nativ verarbeiten und können so eigenständige Agenten erstellen, die mit externen Tools und APIs interagieren können.

Sie unterstützen die Eingabe von Bildern und Videos und sind besonders gut in der Verarbeitung von optischer Zeichenerkennung (OCR) und Diagrammverständnis. Sie wurden auf über 140 Sprachen trainiert. Die Kontextfenster von 26B und 31B wurden auf 256.000 Tokens erweitert, was es ermöglicht, ganze Code-Bibliotheken oder lange Dokumente in einem einzigen Prompt zu übergeben.

Die Zahlen aus den Benchmark-Tests zeigen am besten, wie stark die neue Generation verbessert wurde. Im Vergleich zum Vorgänger Gemma 3 27B hat Gemma 4 31B im mathematischen Inferenz-Benchmark AIME 2026 seine Punktzahl von 20,8 % auf 89,2 % gesteigert, im Code-Fähigkeits-Benchmark LiveCodeBench v6 von 29,1 % auf 80,0 % und im τ2-Benchmark zur Messung der Agent-Tool-Aufruf-Fähigkeit von 6,6 % auf 86,4 %.

Diese drei Daten sind besonders wichtig, da sie direkt den drei wichtigsten Anwendungsbereichen – Inferenz, Programmierung und Agenten – entsprechen.

Die Parameter-Effizienz ist ein weiterer interessanter Aspekt. Aus der Streudiagramm-Analyse der „Modellleistung im Vergleich zur Anzahl der Parameter“ geht hervor, dass Gemma 4 mit 26 Milliarden und 31 Milliarden Parametern Elo-Punkte erreicht, die normalerweise nur mit Modellen mit hunderten von Milliarden oder sogar Billionen von Parametern möglich wären.

Die Arena-AI-Bewertung von 26B MoE ist vergleichbar mit der von Qwen3.5-397B-A17B, das etwa 15-mal so viele Parameter hat. Die Bewertung von 31B Dense liegt in der gleichen Klasse wie die von GLM-5, das über 600 Milliarden Parameter hat. Google beschreibt dies als „unpräzedenzielle Intelligenzdichte pro Parameter“, und die Zahlen scheinen dies zu belegen.

Auch die Edge-Modelle sind beeindruckend. E2B erreicht im mehrsprachigen Fragestellungs-Benchmark MMMLU 60,0 % und im wissenschaftlichen Wissens-Benchmark GPQA Diamond 43,4 %. Dies ist erstaunlich, wenn man bedenkt, dass es sich um ein Modell handelt, das nur 2 Milliarden Parameter aktiviert und auf einem Mobiltelefon läuft.

Im Vergleich dazu erreichte Gemma 3 27B im GPQA Diamond 42,4 %. Mit anderen Worten, das 2-Milliarden-Parameter-Modell auf einem Mobiltelefon hat das Desktop-Modell der vorherigen Generation mit 27 Milliarden Parametern eingeholt.

Im Bereich der Hardware-Ekologie hat NVIDIA mit Google eine Zusammenarbeit eingegangen, um die Inferenz von Gemma 4 auf RTX-Grafikkarten, DGX Spark-Personal-AI-Supercomputern und Jetson Orin Nano zu optimieren.

Die NVIDIA Tensor Core und der CUDA-Software-Stack bieten für Gemma 4 out-of-the-box eine hohe Durchsatzleistung und geringe Latenz. Die lokale Agent-Anwendung OpenClaw ist ebenfalls auf das neue Modell angepasst und kann lokale Dateien und Anwendungs-Kontexte nutzen, um Aufgaben automatisch auszuführen.

Von „Offenheit“ zu „Open Source“: Eine neue Möglichkeit eröffnet

Um diese Veröffentlichung zu verstehen, muss man zuerst das Verhältnis zwischen Gemma und Gemini verstehen. Beide basieren auf demselben Forschungs- und Technologie-System. Der Unterschied besteht darin, dass Gemini ein geschlossenes, abonnementbasiertes Produkt ist, während Gemma ein kostenlos herunterladbares und lokal ausführbares offenes Modell ist.

Die früheren Versionen der Gemma-Serie waren immer unter Googles eigenen Lizenzen verfügbar. Entwickler konnten zwar herunterladen und lokal ausführen, aber die Verwendung und Weiterverbreitung waren eingeschränkt.

Jetzt hat Gemma 4 die Lizenz auf Apache 2.0 umgestellt. Unter dieser Lizenz können Entwickler das Modell für jeden Zweck nutzen, einschließlich persönlicher, kommerzieller und unternehmerischer Zwecke, ohne Lizenzgebühren zu zahlen oder andere Einschränkungen zu beachten. Modifikationen und Weiterverbreitung sind ebenfalls frei zugelassen.

Die Apache 2.0-Lizenz enthält auch einen Patent-Schutzmechanismus: Die Patente der Beitragenden werden automatisch an die Nutzer lizenziert. Wenn ein Nutzer jedoch gegen andere wegen Patentverletzung klagt, verliert er automatisch die Lizenz. Diese doppelseitige Klausel bietet Unternehmen zusätzlichen rechtlichen Schutz.

Die eigentliche Bedeutung dieser Open-Source-Veröffentlichung liegt darin, dass Gemma 4 nun legal in Produkte, Dienste und Hardware integriert werden kann. Für Branchen wie Medizin und Finanzwesen, die strenge Anforderungen an die Datensouveränität und Compliance haben, bedeutet die Möglichkeit, das Modell lokal auszuführen, dass die Daten nicht in die Cloud hochgeladen werden müssen, während gleichzeitig die neuesten KI-Fähigkeiten genutzt werden können.

Clément Delangue, Mitbegründer und CEO von Hugging Face, hat diese Lizenzumstellung als „wichtigen Meilenstein“ bezeichnet. Seit der Veröffentlichung der ersten Generation im Februar 2024 wurden die Gemma-Modelle insgesamt über 400 Millionen Mal heruntergeladen, und es gibt über 100.000 abgeleitete Varianten in der Community.

Die Modellgewichte sind jetzt auf Hugging Face, Kaggle und Ollama verfügbar. Hauptstream-Frameworks wie Transformers, TRL, vLLM, llama.cpp, MLX, Unsloth, SGLang und Keras unterstützen das Modell seit der Veröffentlichung.

https://huggingface.co/google/gemma-4-31B-it

Die lokale Installation kann schnell über Ollama oder llama.cpp mit GGUF-Format-Gewichten durchgeführt werden. Unsloth Studio bietet auch Unterstützung für die Feinabstimmung und Installation von quantifizierten Modellen. Für die Cloud-Skalierung stehen Google Vertex AI, Cloud Run und GKE zur Verfügung.

Die kleinen Modelle wie Gemma 4 haben eine tiefere Bedeutung, denn sie beantworten erneut die grundlegende Frage: Wo sollte KI laufen?

In den letzten zwei Jahren war die Antwort fast immer die gleiche:

In Rechenzentren. Benutzer rufen Cloud-Modelle über Netzwerkschnittstellen auf, die Daten müssen in die Cloud hochgeladen werden, die Nutzung ist von der Internetverbindung abhängig, und die Kosten werden von den Anbietern festgelegt. Dieser Ansatz funktioniert in der Konsumwelt gut, aber für Branchen mit strengen Anforderungen an die Datensouveränität wie Medizin, Finanzwesen und Industrie ist dies immer noch ein unüberwindbares Hindernis.

Gemma 4 bietet eine alternative Lösung.

Mobiltelefone, Raspberry Pi und Fabrikendgeräte ohne Internetzugang können die vollständige Modell-Inferenz lokal durchführen. Die Daten bleiben auf dem Gerät, und die Entscheidungen werden ohne Cloud-Intervention getroffen. Die Apache 2.0-Lizenz öffnet auch die Möglichkeit, das Modell legal in Hardwareprodukte zu integrieren und in Branchengeräten vorzuerstallen, ohne von den Einschränkungen der Aufrufprotokolle und der Datenschutzgesetze eingeschränkt zu werden.

Die Zahlen bestätigen auch die Machbarkeit dieses Ansatzes. Die Punktzahl von E2B im wissenschaftlichen Wissens-Benchmark GPQA Diamond ist mit der des Desktop-Modells der vorherigen Generation mit 27 Milliarden Parametern vergleichbar, obwohl es nur 2 Milliarden Parameter aktiviert und vollständig offline auf einem Mobiltelefon läuft.

„Günstiger“ oder „praktischer“ reichen nicht aus, um diese Veränderung zu beschreiben. Es ist eher eine Erweiterung des Anwendungsbereichs, die es der KI ermöglicht, in Bereiche einzudringen, die bisher ausgeschlossen waren.

Die Verbreitung von Betriebssystemen folgte einem ähnlichen Muster: Von einem Spezialwerkzeug für Fachinstitute bis hin zu einer Standardkomponente auf jedem persönlichen Gerät, bis man es gar nicht mehr bemerkt. Die KI ist noch weit davon entfernt, aber die Möglichkeit, auf jedem Gerät zu laufen, ist ein wichtiger erster Schritt auf diesem Weg.

Dieser Artikel stammt aus dem WeChat-Account „APPSO“. Autor: APPSO, der morgen Produkte entdeckt. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Mit Kleinem besiegt das Große. Google hat gerade sein stärkstes kleines Modell veröffentlicht, das auch auf Mobiltelefonen läuft.

Der Siegeszug der winzigen Modelle

Von „Offenheit“ zu „Open Source“: Eine neue Möglichkeit eröffnet