Neues Google Gemini 3.1 Modell: Verarbeitet 363 Token pro Sekunde und schlägt Claude bei einem Viertel der Kosten!

Google setzt erneut einen großen Strich in der späten Nacht: Gemini 3.1 Flash-Lite tritt offiziell auf die Bühne. Die Ausgabegeschwindigkeit beträgt 363 Token/s, der Preis liegt nur bei 0,25 US-Dollar pro Million Tokens, und bei den Benchmarks schlägt es GPT-5 mini und 2.5 Flash. Es kann als die stärkste "Budget-Flaggschiff-Version" bezeichnet werden.

Nachdem Gemini 3.1 Pro die Ranglisten dominiert hat, hat Google in der Nacht noch eine weitere Bombe geworfen.

Gerade jetzt ist Gemini 3.1 Flash-Lite offiziell online!

Mit einer Geschwindigkeit von 363 Tokens/s und einem Ausgabe-Preis von 1,50 US-Dollar pro Million Tokens schlägt es GPT-5 mini und Claude 4.5 Haiku in den Benchmarks klar.

Bei der gleichen Aufgabe benötigt 3.1 Flash-Lite nur 4 Minuten im Vergleich zu 2.5 Flash (33 Minuten), verbraucht die wenigsten Tokens und hat die höchste Genauigkeit.

Es ist nicht übertrieben zu sagen, dass 3.1 Flash-Lite fast instantane Ausgabe liefern kann.

Wenn Sie eine beliebige PDF-Datei, ein Text-Dokument, ein Bild, ein Video oder eine Audio-Datei hochladen, kann es diese in kürzester Zeit in Markdown-Format umwandeln.

Oder auch das "Partikel-Schmiede" von 3.1 Flash-Lite, das schnell verschiedene dynamische Effekte simulieren kann, ist wirklich beeindruckend.

Derzeit können Entwickler die Vorschauversion über die Gemini API in Google AI Studio testen, und Unternehmensbenutzer können über Vertex AI zugreifen.

Mit einem Viertel des Preises fünfmal so schnell

Schauen wir uns zunächst die direktesten Zahlen an.

Die Ausgabe-Geschwindigkeit von 3.1 Flash-Lite erreicht 363 Tokens/s, was fast genauso schnell wie die eigene 2.5 Flash-Lite (366 Tokens/s) ist, aber die Vorgängermodelle wie Gemini 2.5 Flash (249 Tokens/s) weit hinter sich lässt.

Und was ist mit den "Premium-Modellen"?

GPT-5 mini erreicht nur 71 Tokens/s, Claude 4.5 Haiku auch nur 108 Tokens/s, und Grok 4.1 Fast ist etwas besser mit 145 Tokens/s.

Mit anderen Worten, Flash-Lite ist fünfmal so schnell wie GPT-5 mini und 3,4-mal so schnell wie Claude 4.5 Haiku, kostet aber nur ein Viertel des Preises.

Schauen wir uns nun die genauen Preise an.

3.1 Flash-Lite kostet 0,25 US-Dollar pro Million Tokens für die Eingabe und 1,50 US-Dollar pro Million Tokens für die Ausgabe.

3.1 Flash-Lite ist achtmal billiger als 3.1 Pro

Im Vergleich dazu kostet die Ausgabe von GPT-5 mini 2,00 US-Dollar, Gemini 2.5 Flash 2,50 US-Dollar, und Claude 4.5 Haiku sogar 5,00 US-Dollar, was mehr als dreimal so viel ist.

Zusammengefasst: Es ist schneller, billiger und hat bessere Benchmark-Ergebnisse.

Benchmark-Siege: Das "Überholen" kleiner Modelle

Im GPQA Diamond-Test, der Wissenschaftskenntnisse und logisches Denken misst, erreicht 3.1 Flash-Lite beeindruckende 86,9 %.

Dieser Wert schlägt nicht nur die 82,3 % von GPT-5 mini und die 73,0 % von Claude 4.5 Haiku, sondern auch die größeren und teureren Gemini 2.5 Flash (82,8 %).

Es ist auch in der Multimodalität sehr stark.

Im MMMU-Pro-Test erreicht Flash-Lite 76,8 %, was GPT-5 mini (74,1 %), Gemini 2.5 Flash (66,7 %), Grok 4.1 Fast (63,0 %) und Claude 4.5 Haiku (58,0 %) übertrifft.

Im SimpleQA Verified-Test für Faktengenauigkeit ist der Unterschied noch dramatischer.

Flash-Lite führt mit 43,3 % Genauigkeit weit voran, während Gemini 2.5 Flash 28,1 % erreicht, GPT-5 mini nur 9,5 % (4,5-mal weniger) und Claude 4.5 Haiku sogar nur 5,5 % (fast 8-mal weniger).

In Bezug auf Mehrsprachigkeit gewinnt Flash-Lite im MMMLU-Test mit 88,9 %, was die 86,6 % von Gemini 2.5 Flash und die 84,9 % von GPT-5 mini übertrifft. In seiner Preisklasse hat es keine Konkurrenz.

Im Bereich Video-Verständnis erreicht es im Video-MMMU-Test 84,8 %, ebenfalls der Spitzenwert in seiner Klasse. GPT-5 mini (82,5 %) und Gemini 2.5 Flash (79,2 %) bleiben hinterher.

Natürlich hat 3.1 Flash-Lite auch Schwächen.

Im LiveCodeBench-Test für Code-Generierung erreicht Flash-Lite 72,0 %. Dies ist zwar nicht schlecht, aber GPT-5 mini ist mit 80,4 % deutlich stärker, und Grok 4.1 Fast hat auch 76,5 %.

Im Humanity's Last Exam erreicht Flash-Lite 16,0 %, was fast so viel wie die 16,7 % von GPT-5 mini ist. Aber Grok 4.1 Fast gewinnt mit 17,6 %.

Aber vergessen Sie nicht: Flash-Lite kostet nur einen Bruchteil der Preise seiner Konkurrenten.

Platz 36 weltweit im Chatbot Arena

Benchmark-Ergebnisse sind nur eine Seite der Medaille. Echte Blindtests zeigen die echte Stärke.

Im Textarena von Chatbot Arena erreicht 3.1 Flash-Lite mit 1432 Elo-Punkten Platz 36.

Seine Nachbarn sind o3 (1432 Punkte) und GPT-5 High (1434 Punkte), und dicht dahinter folgt Grok 4.1 Fast Reasoning (1430 Punkte).

Ein leichtes Modell mit einem Preis von 0,25 US-Dollar erreicht die gleichen Elo-Punkte wie OpenAIs Flaggschiff-Modell o3. Dies ist ein unglaublicher Kosteneffizienz-Sieg.

Im Code-Arena erreicht 3.1 Flash-Lite 1261 Punkte und teilt Platz 35.

Seine Konkurrenten hier sind Claude Haiku 4.5 (1308 Punkte, Platz 31) und DeepSeek V3.2 (1321 Punkte, Platz 34). Der Unterschied ist nicht groß, aber es gibt Raum für Verbesserungen.

Nach der Artificial Analysis-Bewertung ist 3.1 Flash-Lite derzeit der beste in Bezug auf Ausgabe-Geschwindigkeit und Kosteneffizienz.

Einstellbare "Denktiefe"

Außer seiner harten Leistung hat 3.1 Flash-Lite auch die "thinking levels"-Funktion. Entwickler können festlegen, wie viele Ressourcen das Modell für jede Aufgabe verwendet.

Für hochfrequente, einfache Aufgaben wie Massenübersetzungen, Inhaltsüberprüfungen und Datenklassifizierungen kann das Modell im "flachen Denkmodus" laufen, um Geschwindigkeit und Kosten zu optimieren.
Für komplexere Aufgaben wie die Erstellung von UI-Schnittstellen, die Simulation von Umgebungen oder die Ausführung mehrschrittiger Befehle kann man auf den "tiefen Denkmodus" umschalten. Die Ergebnisse sind so gut wie bei großen Modellen.

Echtzeit-Test: Leichtes Modell, starke Leistung

Im praktischen Test zeigt 3.1 Flash-Lite Fähigkeiten, die weit über seine Position hinausgehen.

E-Commerce-Szenario: Sofortige Befüllung von Prototypen

Mit einem Befehl kann Flash-Lite in Sekunden eine ganze E-Commerce-Schnittstellenvorlage mit Dutzenden von Kategorien und Hunderten von Produkten füllen, einschließlich Namen, Preisen, Kategorien und Bildplätzen.

Früher hätte ein Designer Stunden brauchen müssen, um dies manuell zu erledigen. Jetzt geht es mit einem Prompt.

Echtzeit-Datenanzeige: Wettervorhersage + historische Analyse

Flash-Lite kann die neuesten Wetterdaten und historische Daten kombinieren, um eine dynamische Wetterdaten-Visualisierung zu erstellen.

Für Entwickler, die schnell eine Datenanzeige erstellen müssen, erspart dies die Arbeit eines "Frontend-Entwicklers".

SaaS AI-Agent

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das neue Modell Google Gemini 3.1 hat in der späten Nacht Wellen geschlagen. Es kann 363 Token pro Sekunde verarbeiten und schlägt Claude mit einem Viertel der Kosten.

Mit einem Viertel des Preises fünfmal so schnell

Benchmark-Siege: Das "Überholen" kleiner Modelle

Platz 36 weltweit im Chatbot Arena

Einstellbare "Denktiefe"

Echtzeit-Test: Leichtes Modell, starke Leistung