Gemini 3 Flash hat die Situation umgedreht: Seine Schlüsselleistung übertrifft tatsächlich die von Pro.
Am 17. Dezember hat Google offiziell das Gemini 3 Flash vorgestellt. Ein "leichtes Modell" mit einem Preis, der nur ein Fünftel von Claude und ein Viertel von GPT beträgt. Bei der Codierung übertrifft es Claude Sonnet 4.5, in der Inferenz und Multimodalität dominiert es, und es ist mit GPT-5.2 auf Augenhöhe.
MMMU-Pro, die Multimodalitäts-Evaluierungsergebnisse:
Was noch erstaunlicher ist, es übertrifft sogar sein eigenes Flaggschiff: Auf der SWE-bench hat Gemini 3 Flash 78%, während Gemini 3 Pro 76,2% erreicht. Dies ist das erste Mal, dass ein Modell aus der Flash-Serie sein gleichaltriges Pro-Modell übertrifft.
Die Daten mögen noch etwas abstrakt erscheinen. Schauen wir uns direkt an, was es kann:
Gemini 3 Flash kann in einem einzigen Schritt ein vollständiges animiertes 3D-Programmierraum generieren.
Mit Gemini 3 Flash kann man in einem Satz ein spielbares Spiel generieren.
Resemble AI nutzt Gemini 3 Flash zur Echtzeitanalyse von Deepfake-Videos: Ihr Produkt muss komplexe Audiovideo-Forensikdaten sofort in Analyseergebnisse umwandeln, die für normale Menschen verständlich sind. Bei den Tests stellten sie fest, dass die Multimodalitäts-Analysegeschwindigkeit von 3 Flash viermal schneller ist als die von 2.5 Pro und dass es die ursprünglichen technischen Ausgabedaten verarbeiten kann, ohne den wichtigen Arbeitsfluss zu verlangsamen.
Vor einem Monat haben die Veröffentlichungen von Gemini 3 Pro und Deep Think Google wieder in die Spitzengruppe der KI-Branche gebracht. Gemini 3 Pro hat die Spitze der LMArena erreicht, und Deep Think hat auf der ARC-AGI dreimal so gute Ergebnisse wie andere Modelle erzielt. Seit der Veröffentlichung hat die tägliche Verarbeitungsmenge der Gemini-API die Marke von 1 Billion Tokens überschritten. Jetzt füllt das Flash-Modell die letzte Lücke in der Gemini 3-Familie.
Aber dieses Mal ist das Gemini 3 Flash anders als bisher. In der Vergangenheit hatten wir eine klare Vorstellung von Flash: Es war schnell und günstig, aber seine Fähigkeiten waren eingeschränkt. Wenn man Geschwindigkeit wollte, musste man die Intelligenz in Kauf nehmen. Jedoch bricht das Gemini 3 Flash mit dieser Regel. Mit dem Preis eines leichten Modells bietet es die Fähigkeiten eines Flaggschiff-Modells.
Wieso kann es mit nur einem Fünftel des Preises mit den Flaggschiffen mithalten?
Zuerst der Vergleich mit anderen Anbietern.
Auf dem wissenschaftlichen Inferenzbenchmark für Doktoranden GPQA Diamond hat Gemini 3 Flash 90,4% erreicht, weit vor Claude Sonnet 4.5 mit 83,4% und nahe an GPT-5.2 mit 92,4%. Auf dem Multimodalitäts-Verständnisbenchmark MMMU-Pro hat Flash 81,2%, was GPT-5.2 mit 79,5% übertrifft und Claude Sonnet 4.5 um mehr als zehn Prozentpunkte hinter sich lässt.
Auf der "Letzten Prüfung der Menschheit" (ohne Hilfsmittel) hat Gemini 3 Flash 33,7%, während Claude Sonnet 4.5 nur 13,7% erreicht hat - ein Unterschied von fast 20 Prozentpunkten.
Auch die Codierungsfähigkeiten sind beeindruckend. Auf der SWE-bench Verified hat Gemini 3 Flash 78%, was Claude Sonnet 4.5 mit 77,2% übertrifft und erstmals auch das eigene 3 Pro mit 76,2%.
Wenn man den Preisfaktor berücksichtigt, wird es noch erstaunlicher. Der Preis von Flash ist etwa ein Fünftel von Claude und ein Viertel von GPT, aber es ist in vielen Indikatoren gleichwertig oder sogar besser. Wenn man früher Flash gewählt hat, um schnell und kostengünstig zu sein, musste man Kompromisse eingehen. Jetzt kann man Flash wählen, um Geld zu sparen und sich keine Sorgen zu machen.
Da stellt sich natürlich die Frage, wofür ist noch Gemini 3 Pro gut?
Für extreme Inferenzszenarien. Auf der GPQA Diamond hat Pro 91,9% gegenüber 90,4% von Flash, auf der "Letzten Prüfung der Menschheit" hat Pro 37,5% gegenüber 33,7% von Flash. Dazu gibt es noch den Deep Think-Modus, der nur bei Gemini 3 Pro verfügbar ist. Pro eignet sich für extreme Inferenz, Flash für hochfrequente Agentenaufgaben. Dies ist die neue Aufgabenteilung von Google.
Aber für die meisten Szenarien reicht Flash nicht nur aus, sondern es bietet auch ein unglaubliches Preis-Leistungs-Verhältnis.
Auch in Bezug auf die Effizienz ist es beeindruckend. Laut Tests von Artificial Analysis ist Gemini 3 Flash dreimal so schnell wie 2.5 Pro und spart bei der Bearbeitung alltäglicher Aufgaben durchschnittlich 30% an Token-Verbrauch. Bei den Preisen beträgt der Input $0,50/Million Tokens und der Output $3/Million Tokens, nur ein Viertel von 3 Pro.
Gemini 3 Flash erweitert die optimale Grenze bei der Abwägung von Leistung, Kosten und Geschwindigkeit.
Die offizielle Aussage von Google lautet: "Geschwindigkeit und Skalierbarkeit müssen nicht auf Kosten der Intelligenz gehen." In Bezug auf frühere Flash-Modelle war dies vielleicht nur ein Slogan, aber diesmal stützen die Daten diese Behauptung.
Flaggschiff-Erlebnis für kostenlose Benutzer
Die Veröffentlichung von Gemini 3 Flash betrifft nicht nur die API-Ebene, sondern wird auch die täglichen Erfahrungen normaler Benutzer direkt verändern.
In der Gemini-App wird Gemini 3 Flash das bisherige 2.5 Flash ersetzen und zum neuen Standardmodell werden. Dies bedeutet, dass alle Gemini-Benutzer weltweit, auch die kostenlosen Benutzer, automatisch auf das Niveau von Gemini 3 upgraden werden, ohne dass sie etwas bezahlen oder Einstellungen vornehmen müssen.
Die upgradierte App bietet den Benutzern drei Modi zur Auswahl:
- Fast (Schnell): Standardmäßig wird dieser Modus von Gemini 3 Flash angetrieben und kann alltägliche Fragen sofort beantworten.
- Thinking (Denken): Auch dieser Modus wird von Flash 3 angetrieben, aber es wird seine "Tiefdenkfähigkeit" aktiviert, um komplexe Logik zu bearbeiten.
- Pro (Professionell): Hier wird weiterhin Gemini 3 Pro angeboten und ist die erste Wahl für die Bearbeitung schwieriger mathematischer und Codierungsfragen.
In der Google-Suche wird auch das Standardmodus des AI-Modus weltweit auf 3 Flash upgraden. Google gibt an, dass der AI-Modus dank der starken Inferenz- und Multimodalitätsfähigkeiten von 3 Flash nun die Benutzerabsicht genauer verstehen und komplexere Fragen mit mehreren Einschränkungen bearbeiten kann. Gleichzeitig werden klare und leicht verständliche Antworten generiert.
Für US-Benutzer hat Google zusätzliche Optionen eröffnet. Sie können im AI-Modus "Thinking with 3 Pro" auswählen, um tiefere Hilfe zu erhalten. Das Bildgenerierungsmodell Nano Banana Pro ist auch für mehr US-Benutzer zugänglich geworden.
Für normale Benutzer könnte dies die am deutlichsten spürbare Aktualisierung sein. Wenn Sie Gemini öffnen, verwenden Sie bereits ein Modell auf neuesten Stand. Wenn Sie in der Google-Suche komplexe Fragen stellen, wird ein Motor mit Spitzenleistungen eines großen Modells im Hintergrund laufen. Mit anderen Worten, die Standardmodelle, die kostenlose Benutzer jetzt verwenden, sind bereits genauso leistungsfähig wie die kostenpflichtigen Flaggschiffmodelle anderer Anbieter.
Entwickler: Geld sparen und gewinnen
Früher musste man für die Entwicklung von Agentenanwendungen, wenn man ein Flaggschiffmodell nutzen wollte, auch einen Flaggschiffpreis zahlen. Gemini 3 Flash ändert diese Situation.
Früher standen Entwickler vor einer schwierigen Entscheidung. Entweder nutzten sie kleine, aber schnelle und dumme Modelle und opferten die Qualität der Aufgabenabwicklung. Oder sie verwendeten große, intelligente, aber langsame und teure Modelle und mussten mit Latenzzeiten und hohen Kosten zu kämpfen. Insbesondere in Agentenszenarien, die mehrfache Aufrufe und häufige Iterationen erfordern, war diese Entscheidung fast unveränderlich. Gemini 3 Flash bietet eine neue Option: Es ist schnell genug, intelligent genug und die Kosten sind beherrschbar. Die 78% auf der SWE-bench zeigen, dass es komplexe Codierungsaufgaben problemlos bewältigen kann. Die dreifache Geschwindigkeit gegenüber 2.5 Pro macht es für Echtzeitszenarien geeignet, die empfindlich auf Latenzzeiten reagieren. Und der Preis, der nur ein Fünftel des Konkurrenzmodells beträgt, macht eine Massenimplementierung möglich.
Derzeit ist Gemini 3 Flash auf folgenden Plattformen in Vorschau verfügbar:
- Google AI Studio und Gemini API
- Gemini CLI
- Android Studio
- Vertex AI (für Unternehmen)
- Google Antigravity: Dies ist eine neue Agentenentwicklungplattform von Google, die speziell für den von KI geleiteten Softwareentwicklungsprozess entwickelt wurde. Sie ermöglicht es, dass KI-Agenten direkt Editoren, Terminals und Browser bedienen können.
In Szenarien mit hoher Aufrufhäufigkeit bietet Google auch ein passendes Kostenoptimierungsprogramm. Die Funktion Context Caching kann die Kosten um 90% senken, wenn die Wiederholung von Tokens einen bestimmten Schwellenwert erreicht. Die Batch API unterstützt die asynchrone Massenverarbeitung und kann die Kosten zusätzlich um 50% senken, während gleichzeitig ein höherer Aufrufkontingent zur Verfügung gestellt wird. Für Teams, die in der Produktionsumgebung eine große Anzahl von Agentenaufgaben ausführen müssen, ist diese Kombination sehr attraktiv.
Die Bedeutung von Flash hat sich geändert
Die Veröffentlichung von Gemini 3 Flash hat in gewisser Weise die Bedeutung der Kategorie "Flash" neu definiert.
Flash ist endlich nicht mehr nur schnell und effizient.
In der Vergangenheit war die Positionierung von Flash oder leichten Modellen sehr klar: Man gab Fähigkeiten ein, um Geschwindigkeit und Kostenvorteile zu erhalten. Wenn man Flash wählte, hatte man auch die Einschränkungen in der Intelligenz in Kauf zu nehmen. Aber Gemini 3 Flash zeigt, dass es auch eine andere Möglichkeit gibt. Wenn das zugrunde liegende Basismodell stark genug ist, muss die leichte Version nicht so viele Fähigkeiten einschränken. Sie kann einfach eine "effizientere, voll ausgestattete Version" sein.
Google erwähnt in einem Blogbeitrag, dass die Kernfähigkeiten von Gemini 3 Flash so stark sind, dass in vielen Aufgaben das 3 Flash ohne den Denkmodus besser abschneidet als die 2.5-Version mit aktiviertem Denkmodus. Früher musste man Geschwindigkeit opfern, um Genauigkeit zu erhalten. Jetzt ist das nicht mehr der Fall.
Diese Veröffentlichung hat auch die Familie von Gemini 3 vollständig formiert: Die drei Versionen Gemini 3 Pro, Gemini 3 Deep Think und Gemini 3 Flash decken die kompletten Anforderungen von leichten Benutzern bis zu harten Entwicklern ab. Wenn man maximale Inferenztiefe möchte, wählt man Deep Think. Wenn man die stärkste Gesamttfähigkeit möchte, wählt man Pro. Und wenn man schnell, gut und günstig möchte, wählt man Flash. Jeder kann seine Wünsche erfüllen, es ist nicht mehr eine Einfachwahl.
Die Daten zeigen, dass Google auf dem Weg zur KI-Produktisierung sehr stabil voranschreitet. Die monatliche aktive Benutzerzahl der Gemini-App hat die Marke von 650 Millionen überschritten, die Anzahl der Entwickler beträgt 13 Millionen und die API-Aufrufe haben sich gegenüber dem Vorjahr verdreifacht. Von der letzten