Alles über Googles stärkstes Modell Gemini 3 auf einen Blick: Das größte Überraschungserlebnis des zweiten Halbjahres und der Wiederaufstieg der Google-Dynastie
Nach kleinen Upgrades von GPT-5, Grok 4 und Claude Sonnet war der Bereich Künstliche Intelligenz im zweiten Halbjahr 2025 in eine vorübergehende Stagnation geraten.
Bis heute, mit der Veröffentlichung von Gemini 3, wurde diese Stagnation endgültig gebrochen.
Der sprunghafte Anstieg der Punktzahl, die starke multimodale Verständnisfähigkeit, die vielfältigere Benutzeroberfläche und die beeindruckenden Frontend-Fähigkeiten lassen die KI tatsächlich einen deutlichen Schritt in die erwartete Richtung machen.
Diese sichtbaren Verbesserungen sind viel deutlicher als die Punktzahlen in Benchmark-Tests und die Unterschiede, die nur im Codierungssystem gemessen werden können.
Gemini 3 ist nicht nur eine Aktualisierung der Versionsnummer. Es ist eine gewaltsame Wiederholung des Glaubens an das Scaling Law und das erste Modell von Google, das OpenAI tatsächlich in den Schatten stellt.
Bei dieser Veröffentlichung ist das uns bekannte Google zurückgekehrt. Es ist nicht zufrieden, in einer einzigen Dimension voranzugehen, sondern will auf allen Fronten wie Modellfähigkeit, Entwicklertools, Benutzererfahrung, Suchintegration und Mehrsprachigkeit gleichzeitig voranschreiten.
Dies ist ein plattformübergreifendes Vorhaben, um jeden Aspekt der gesamten Google-Ekosystem mit KI neu zu definieren.
01 Der Sprung in den Benchmark-Tests
Benchmark-Tests sind in der KI-Community seit langem umstritten und werden als "Aufgabenwettbewerb" verscherzt. In den letzten Monaten lagen die Punktunterschiede zwischen den Spitzenmodellen nur bei wenigen Prozentpunkten, und es gab ein Rennen um die Spitze.
Aber die Entstehung von Gemini 3 hat den zuvor knappen Wettkampf direkt in eine deutliche Dominanz verwandelt.
Schauen wir uns zunächst die grundlegende Denkfähigkeit an. Humanity's Last Exam (HLE) ist der ultimative Prüfstein, um zu messen, ob eine KI die schwierigsten menschlichen Probleme lösen kann. Vor Gemini 3 erreichte Gemini 2.5 Pro eine Punktzahl von 21,6%, und Claude Sonnet 4.5 nur 13,7%. Gemini 3 Pro erzielte 37,5% (ohne Werkzeuge) und 45,8% (mit Werkzeugen).
Der ARC-AGI-2-Test, der als Turing-Test der KI-Welt gilt, zielt darauf ab, die Fähigkeit eines Modells zu messen, neuartige logische Aufgaben zu bewältigen, die es noch nie gesehen hat, anstatt sich einfach Dinge einzuprägen.
Gemini 3 Pro erreichte 31,1%, während GPT-5.1 nur 17,6% und Gemini 2.5 Pro sogar nur 4,9% erzielte. Dies bedeutet, dass es beginnt, eine der menschlichen Flüssigkeitsintelligenz ähnliche Fähigkeit zu zeigen und in Bereichen, die nicht von einer großen Menge Trainingsdaten abgedeckt werden, abstrakt zu schließen.
Selbst der Gründer des ARC Prize, François Chollet, schrieb nach dem Sehen der Ergebnisse in einem Tweet: "Wir haben gerade bestätigt, dass Gemini 3 Pro und Deep Think auf ARC v2 mehr als doppelt so gut wie der aktuelle SOTA sind! Das ist wirklich beeindruckend und ehrlich gesagt auch etwas überraschend."
Außerdem löste Gemini 3 Pro die schnellsten v2-Aufgaben mit nur 772 Token und 188 Sekunden, was fast der durchschnittlichen Geschwindigkeit der menschlichen Gutachtergruppe von 147 Sekunden entspricht.
In Bezug auf die mathematische Fähigkeit hat Gemini 3 einen neuen MathArena Apex Wettbewerbs-Benchmark eingeführt, um seine Überlegenheit zu betonen. In diesem Test erreichte Gemini 2.5 Pro nur 0,5%, Claude Sonnet 4.5 1,6% und GPT-5.1 1,0%. Gemini 3 Pro erzielte hingegen 23,4%.
In dem Bereich der Multimodularität, in dem Google stark ist, zeigte sich Gemini 3 noch beeindruckender.
81,0% in MMMU-Pro und 81,4% in CharXiv Reasoning übertrafen die Konkurrenz. Und in dem Test ScreenSpot-Pro, der die Fähigkeit zur Bildschirmverständnis misst, erreichte Gemini 3 72,7%, was doppelt so viel wie Claude Sonnet 4.5 und zwanzigmal so viel wie GPT-5.1 ist. Dies ist von entscheidender Bedeutung für die Entwicklung von KI-Agenten, die wirklich grafische Benutzeroberflächen verstehen und bedienen können.
02 Die Codierungsfähigkeit war bisher eine Schwäche von Google, aber diesmal hat es sich vollständig verbessert
Obwohl Gemini 3 mit 76,2% in dem SWE-Bench Verified-Test, der die echte Softwareentwicklungskapazität misst, immer noch hinter Claude mit 77,2% liegt.
Aber in anderen wichtigen Drittanbieter-Tests war Google weit vorne. In LiveCodeBench lag die Punktzahl von Gemini 3 um über 200 Punkte höher als die des zweiten platzierten Grok 4.1.
In dem 12-bench-Test, der die Fähigkeit zur Werkzeugnutzung von Agenten misst, erreichte Gemini 3 Pro 85,4%, weit vor Gemini 2.5 Pro mit 54,9%. Und in dem Terminal-Bench 2.0, das eher der realen Endnutzersituation entspricht, erreichte Gemini 3 54,2%, was 11 Prozentpunkte mehr als der Zweitplatzierte ist.
Dies ist weitgehend eine Demonstration der Gesamtsfähigkeit.
Mit einer besseren Bildschirmverständnisfähigkeit und einem auf der Multimodularität basierenden Frontend-Geschmack ist es für Gemini 3 leicht, in der realen Programmierumgebung die Konkurrenz zu übertreffen.
Beispielsweise belegte Gemini 3 Pro in der von der Entwicklergemeinschaft betriebenen praktischen Codierarena Design Arena den ersten Platz in der Gesamtranking und gewann in vier von fünf Codierkategorien, Websiteentwicklung, Spieleentwicklung, 3D-Design und UI-Komponenten. Dies ist der größte Leistungsunterschied seit der Gründung von Design Arena.
Das Gedächtnis war immer ein großer Engpass für Modelle. Daher ist die Verbesserung der Fähigkeit zur langen Kontextverarbeitung von Gemini 3 ebenfalls bemerkenswert.
Es erreichte in dem MRCR v2-Benchmark einen durchschnittlichen Punktwert von 77,0% bei einem Kontext von 28k, weit vor den Konkurrenten, und einen Punktwert von 26,3% bei einem Kontext von 1M.
Dies zeigt, dass Gemini 3 nicht einfach mehr Token "hineinschubst", sondern wirklich die Informationen in langen Dokumenten versteht und nutzt.
Laut der Analyse von Artificial Analysis zeigte sich Gemini 3 auch in der Tatsachenwiedergabe stark.
Schließlich betrachten wir die Gesamtsfähigkeit. Vending-Bench 2 ist ein Benchmark, der die Fähigkeit eines KI-Modells misst, ein Geschäft über einen langen Zeitraum zu betreiben. Das Modell muss über ein Jahr hinweg ein simuliertes Automatengeschäft betreiben, und der Bankguthabenstand am Jahresende dient als Bewertungsmaßstab.
Dieser Test war in diesem Jahr sehr beliebt, denn angesichts der zunehmenden Sättigung der Benchmark-Tests und der Schwierigkeiten bei der Implementierung von Agenten legen die Unternehmen mehr Wert darauf, ob ein Modell in komplexen Aufgaben mit langer Dauer, vielen Schritten und ständiger Zustandsüberwachung seine Leistung beibehält. Und Gemini 3 erreichte einen durchschnittlichen Nettobetrag von $5.478,16, was im Vergleich zu $1.473,43 von GPT-5.1 und $573,64 von Gemini 2.5 Pro ein deutlicher Sprung nach vorne ist.
Außer der Pro-Version hat Gemini 3 auch den Deep Think-Modus eingeführt. Dies ist Google's Antwort auf den Hard-Modus von OpenAI und anderen Modellen. Obwohl sein Benchmark-Niveau höher als das von Pro ist, ist der Token-Verbrauch auch um eine Größenordnung höher.
Die endgültige Rangliste von Artificial Analysis war kein überraschendes Ergebnis: Gemini 3 Pro führte mit deutlichem Vorsprung an und lag 3 Punkte vor GPT-5.1.
Dies ist das erste Mal, dass Google mit einem Sprachmodell in der Spitze steht und das lange Zeit von OpenAI dominierte Ranking beendet hat.
Aber neben den Zahlen ist die tatsächliche Benutzererfahrung noch wichtiger.
Ein Entwickler namens Tailen schrieb nach einem Vorabtest: "Dieses Modell hat in meinen schwierigsten Problemen alle anderen Modelle wie GPT-5 Pro, Gemini 2.5 Deep Think und alle anderen weit übertroffen." Er nannte die Bereiche, in denen Gemini 3 einen neuen SOTA etabliert hat: das Debuggen komplexer Compilerfehler, die Umstrukturierung von Dateien ohne logische Fehler, das Lösen schwieriger λ-Kalkül-Probleme und sogar in der ASCII-Kunst ist es "fast gut geworden".
03 Das Ende der Frontend-Entwicklung?
Die dominierende Leistung von Gemini 3 in der Design Arena war kein Zufall. Entwickler haben festgestellt, dass Gemini 3 nicht nur funktionell korrekten Code schreiben kann, sondern auch den ästhetischen Aspekt verstehen kann. In vielen Designs können wir eine natürliche und flüssige responsive Gestaltung, eine moderne Farbkomb