Neues Modell GPT-5.3 kollidiert mit Gemini

Günstig, schnell reagierend und ziemlich klug

In der Geheimnisse der Benennung von KI-Modellen haben die Suffixe „Instant“ und „Lite“ seit langem eine gewisse billige Note.

Dafür gibt es Gründe. Die Eindrücke, die in der Vergangenheit von solchen Modellen vermittelt wurden, waren im Wesentlichen: Schnell, aber denkfaul. Sie waren für einfache Textsummarisierungen gerade noch ausreichend, aber sobald es um etwas Komplexeres ging, fingen sie an, unfreiwillig Unsinn zu erzählen.

Mit der Zeit sind leichte Modelle fast zum Synonym für „ausreichend für den Notgebrauch“ geworden.

Gerade jetzt haben OpenAI und Google erneut aufeinandertroffen und jeweils ihre eigenen leichten Modelle veröffentlicht und versuchen, mit echter Leistung dieses stereotype Bild zu ändern. Hier ist die Kurzfassung:

GPT-5.3 Instant: Ein intelligenter Assistent mit mehr „Menschlichkeit“. Es reduziert deutlich die Halluzinationsrate, verringert die „KI-Sprache“ und stärkt die Fähigkeit, detailliert zu schreiben. Die Kommunikation ist natürlicher und präziser, was es für Szenarien geeignet macht, die eine hohe Inhaltsqualität erfordern (Schreiben, Fachfragen, hochrisikoreiche Bereiche).
Gemini 3.1 Flash-Lite: Billig, schnell und unkompliziert. Es unterstützt auch die Funktion der Einstellung der „Denkstufe“ und vereinigt bei hohem Durchsatz auch tiefe logische Schlussfolgerungen. Es eignet sich für massenhafte Aufgaben mit hoher Echtzeitfähigkeit (Inhaltsüberprüfung, UI-Generierung, NPC-Dialoge).

GPT-5.3 Instant: Endlich lernt es, wie ein normaler Mensch zu chatten.

Wer ChatGPT regelmäßig benutzt, kennt vermutlich diese Situation: Man stellt nur eine kleine Frage, und es gibt zuerst eine lange Rede wie „Als Künstliche Intelligenz muss ich Sie darauf hinweisen...“.

Diese „KI-Sprache“, die immer gerne Lehren gibt, ist wirklich ärgerlich. Glücklicherweise hat OpenAI diesmal tatsächlich zugehört.

Das neu veröffentlichte GPT-5.3 Instant hat große Anstrengungen unternommen, um dieses „Problem“ zu lösen. Es lernt, direkt die Antwort zu geben, ohne sich langsam heranzutasten.

Außer dass es weniger unnötige Worte spricht, ist es auch zuverlässiger geworden. Die alte Version hat nach einer Websuche oft eine Reihe von Links und irrelevanten Informationen vor Ihnen hingeschmissen.

Dank der verbesserten Suchfähigkeit kombiniert GPT-5.3 Instant die Webinhalte mit seinen eigenen Hintergrundwissen, überlegt zuerst, was Sie wirklich fragen möchten, und gibt dann eine fokussierte Antwort, anstatt die Arbeit der Suchmaschine einfach an Sie weiterzugeben.

Die von OpenAI veröffentlichte interne Evaluierung zeigt, dass die Halluzinationsrate im Netzwerkbetrieb um 26,8 % gesunken ist und auch bei der alleinigen Nutzung des internen Wissens um 19,7 %. Die Offizielle hat besonders auf hochrisikoreiche Bereiche wie Medizin, Recht und Finanzen hingewiesen, in denen die Vorsicht und Genauigkeit des neuen Modells deutlich verbessert sind.

Das Überraschendste ist eigentlich seine Veränderung beim Schreiben.

OpenAI hat dies anhand eines Gedichtvergleichs erklärt: Bei der Beschreibung des letzten Arbeitstags eines Postboten in Philadelphia neigte die alte Version dazu, lyrische Sätze wie „die Stadt in der Posttasche tragen“ zu verwenden, während die neue Version von der „abgekratzten blauen Stange“ und dem „Gittertor, vor dem immer ein Hund wartet“ schreibt. Die Emotion fließt so ganz natürlich.

Die Anpassung des Tonfalls ist auch eines der Kernziele dieser Aktualisierung.

Sätze wie „Halt an. Atme tief durch.“ werden absichtlich reduziert, und der Gesamton ist direkter und hat weniger unnötige „KI-Sprache“. Die Benutzer können weiterhin in den Einstellungen die Wärme und Enthusiasmus der Antworten anpassen, um ihren gewohnten Interaktionsstil zu erhalten.

GPT-5.3 Instant ist ab sofort für alle ChatGPT-Benutzer verfügbar, und der API-Name lautet „gpt-5.3-chat-latest“. Bezahlende Benutzer können weiterhin das GPT-5.2 Instant in der alten Version verwenden, aber es wird am 3. Juni dieses Jahres endgültig eingestellt.

Easter Egg Zeit

Gemini 3.1 Flash-Lite: Billig, schnell und ziemlich schlau.

Im Gegensatz zu GPT-5.3 Instant, das sich um eine natürliche Kommunikation bemüht, geht Gemini 3.1 Flash-Lite auf reinen praktischen Weg. Sein Ziel ist sehr klar: Es soll schnell und billig sein.

Was die Preise betrifft, beträgt die Eingabepreis von Gemini 3.1 Flash-Lite 0,25 US-Dollar pro Million Tokens, und die Ausgabepreis 1,50 US-Dollar pro Million Tokens.

Was bedeutet das? Wenn Sie ein Entwickler sind, können Sie mit weniger als 2 Yuan RMB die AI dazu bringen, eine Textmenge zu lesen, die der Gesamtmenge von 5 Harry-Potter-Bänden entspricht.

Glauben Sie, dass billig nicht gut sein kann? Denken Sie größer.

Laut den Benchmark-Tests von Artificial Analysis ist die Antwortzeit des ersten Zeichens (TTFT) von 3.1 Flash-Lite im Vergleich zum Vorgänger Gemini 2.5 Flash um das 2,5-fache schneller, und die Gesamtausgabegeschwindigkeit hat sich um 45 % verbessert. Für Produkte, die Echtzeitanworten erfordern, macht dieser Unterschied in der Latenz einen sichtbaren Unterschied in der Benutzererfahrung.

Das bedeutet, dass es schon die Hälfte seiner Antwort generiert hat, während Sie noch blinzeln. Für Anwendungen, die Echtzeitfeedback erfordern – wie Echtzeitübersetzung, NPC-Dialoge in Spielen, Echtzeit-UI-Generierung – ist diese geringe Latenz entscheidend.

Außerdem besitzt Gemini 3.1 Flash-Lite auch die Fähigkeit zu „Denken“.

In AI Studio und Vertex AI hat Google für dieses Lite-Modell die Option der „Denkstufe (Thinking Levels)“ vorgesehen. Entwickler können je nach Komplexität der Aufgabe selbst bestimmen, wie tief das Modell „denken“ soll.

Für einfache Aufgaben mit hohem Durchsatz, wie die Massenübersetzung von Inhalten und die Inhaltsüberprüfung, kann die leichteste Einstellung verwendet werden, um die Aufgabe schnell abzuschließen. Bei Aufgaben wie der UI-Generierung oder der Simulation, die strenge Befolgung von Anweisungen erfordern, kann das Modell etwas mehr Zeit für die Schlussfolgerung nehmen, um bessere Ergebnisse zu erzielen.

Diese Fähigkeit, beides zu kombinieren, hat ihm auch eine ziemlich gute Leistungsergebnisse eingebracht. In der Rangliste von Arena.ai hat es eine Elo-Punktzahl von 1432 erreicht und in der GPQA Diamond-Test (Fachfragen auf Graduiertenebene) eine Genauigkeit von 86,9 %.

Mit einer Punktzahl von 86,9 % in der akademischen Evaluierung GPQA Diamond und 76,8 % in der multimodalen Verständnisprüfung MMMU Pro hat es nicht nur im Vergleich zu anderen Modellen seiner Klasse gut abgeschnitten, sondern sogar das größer dimensionierte Gemini 2.5 Flash übertroffen.

Beachten Sie, dass hier der Vergleich mit Gemini 2.5 Flash und nicht mit Gemini 3 Flash erfolgt. Offensichtlich hat Google auch nicht viel Vertrauen in dieses Modell.

Derzeit ist 3.1 Flash-Lite in Form einer Vorschauversion über Google AI Studio und die Gemini API für Entwickler verfügbar. Unternehmensbenutzer können über Vertex AI zugreifen. Frühe Partner wie Latitude, Cartwheel, Whering haben es in der Produktionsumgebung getestet und sind sich einig, dass es bei massenhaften Aufrufen stabil ist und die Anweisungen gut befolgt.

Wenn man diese beiden Modelle vergleicht, wird man feststellen, dass „Instant“ und „Lite“ vielleicht endlich ihren passenden Platz finden.

Nehmen wir das derzeit sehr beliebte OpenClaw als Beispiel. Sein Kern ist es, Benutzern bei der E-Mail-Verwaltung und Terminkalender zu helfen. Im Wesentlichen handelt es sich um einen Agenten, der Aufgaben autonom ausführen muss.

Die Anforderungen an das Modell für solche Produkte sind völlig anders als für normale Chatbot-Chattools: Es muss nicht besonders intelligent erscheinen, sondern muss menschliche Sprache sprechen, keine Fehler machen und hohen Aufrufhäufigkeiten standhalten.

Die deutliche Reduzierung der Halluzinationsrate von GPT-5.3 Instant bedeutet, dass der Agent bei der autonomen Ausführung von Aufgaben weniger Fehler macht. Das Verschwinden der „KI-Sprache“ bedeutet, dass die generierten E-Mails und Dokumente natürlicher für Menschen zu lesen sind.

Gemini 3.1 Flash-Lite entspricht eher der dritten, am wichtigsten Anforderung. Wenn der Agent im Hintergrund arbeitet, muss er oft eine Vielzahl von Teilaufgaben parallel verarbeiten und ist sehr empfindlich gegenüber der Antwortzeit und den API-Kosten.

Die extrem schnelle Antwortzeit und der niedrige Preis von Flash-Lite, zusammen mit der flexiblen Einstellung der „Denkstufe“, machen diese elastische Architektur für hochparallele automatisierte Aufgaben unbedingt erforderlich.

Obwohl die Langzeitstabilität beider Modelle noch beobachtet werden muss, ist die Richtung klar: Ein Modell soll die Interaktion menschlicher machen, und das andere soll schneller und kostengünstiger sein. In einer Zukunft, in der jeder einen „Krebse“ hat, werden le

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade hat das neue Modell GPT-5.3 mit Gemini kollidiert. OpenClaw: Vielen Dank an euch.

GPT-5.3 Instant: Endlich lernt es, wie ein normaler Mensch zu chatten.

Gemini 3.1 Flash-Lite: Billig, schnell und ziemlich schlau.