Die großen Sprachmodelle beginnen wirklich damit, "Arbeitsplätze wegzunehmen".
Seit einem Monat ist die Konkurrenz im Bereich der großen AI-Modelle deutlich verschärft. Google und OpenAI, die beiden Anbieter, die seit langem Spitze der Branche einnehmen, haben den Rhythmus der Produkt-Updates fast auf "wöchentliche Zyklen" beschleunigt. Bevor die vorherigen Modelle richtig Fuß gefasst haben, folgen schon die nächsten Updates, was zu ständigen Frontalkollisionen führt.
Der neueste Schlag kommt von Google.
Um Mitternacht am 18. Dezember (Beijing-Zeit) hat Google die offizielle Veröffentlichung von Gemini 3 Flash angekündigt. Dies ist das schnellste und kostengünstigste Modell der Gemini 3-Serie und die vierte substantielle Aktualisierung der großen Modelle von Google innerhalb eines Monats. Dies wird als "präziser Schlag" gegen OpenAI interpretiert.
1
OpenAI löst "Rotes Alarmzeichen" aus
Werfen wir einen Blick zurück auf November. Die beiden weltweit einflussreichsten AI-Unternehmen, Google und OpenAI, haben fast gleichzeitig ihre Flaggschiffmodelle vorgestellt: Gemini 3 und GPT-5.1.
Anschließend hat Gemini 3 Pro in mehreren Benchmarks die bestehenden Flaggschiffmodelle wie Gemini 2.5 Pro, GPT-5.1 und Claude Sonnet 4.5 deutlich übertroffen und in kurzer Zeit ein gutes Rufbild aufgebaut.
Fast gleichzeitig hat auch OpenAI nicht nachgegeben.
Nachdem sein neues Produkt GPT-5.1 in der Konfrontation mit Google Gemini 3 zurückgeblieben war, hat OpenAI schnell in den Notfallmodus geschaltet. Am 2. Dezember wurde von ausländischen Medien berichtet, dass OpenAI-CEO Sam Altman in einer internen Mitteilung an die Mitarbeiter klar gemacht hat, dass das Unternehmen in den "Code Rot"-Notfallzustand eingetreten ist.
In diesem Zustand wurden die Ressourcen und das Augenmerk von OpenAI wieder auf das Kernprodukt - ChatGPT - gelenkt. Figgie Simo, Anwendungsdirektorin von OpenAI, hat bestätigt, dass dieser "Alarm" den Veröffentlichungsrhythmus von GPT-5.2 beschleunigt hat.
Also, nur eine Woche später, anlässlich des zehnten Jubiläums von OpenAI, ist GPT-5.2 schnell auf den Markt gekommen, und zwar mit drei Versionen: Instant, Thinking und Pro.
Aus den offiziell veröffentlichten Kernbenchmarks geht hervor, dass GPT-5.2 äußerst stark performt. In mehreren Vergleichstests hat GPT-5.2 Thinking gegenüber GPT-5.1, Gemini 3 Pro usw. fast in allen Kategorien die Spitzenposition erreicht. Dies bedeutet, dass der von Gemini 3 Pro erst seit weniger als einem Monat aufgebauten Vorsprung wieder gebrochen wurde.
2
ChatGPT
Soll es tatsächlich die Arbeitskräfte ersetzen?
Im Vergleich zu den verwirrenden Benchmark-Systemen liegt die bemerkenswerteste Veränderung von ChatGPT 5.2 in einem völlig anderen Bewertungssystem - GDPval.
GDPval misst nicht, ob das Modell "Fragen beantworten kann", sondern direkt seine Fähigkeit, reale und klare wissensbasierte Arbeitsaufgaben zu erledigen. Diese Bewertung umfasst 44 Berufe in 9 Kernbranchen, die am stärksten zum US-BIP beitragen. Die Testinhalte bestehen nicht aus Multiple-Choice-Fragen oder Q&A, sondern erfordern, dass das Modell reale und lieferbare Arbeitsergebnisse erstellt - z. B. Verkaufs-PowerPoint-Präsentationen, Buchhaltungs- und Finanzierungs-Tabellen, Notaufnahmen-Schichtpläne, Datencharts für die Fertigungsindustrie und sogar Inhalte für Kurzvideos.
Mit anderen Worten, dieses Bewertungssystem setzt das Modell nicht nur in eine Arbeitssituation, sondern "bringt es direkt in den Arbeitsplatz".
Nach den Ergebnissen der Blindbewertung durch menschliche Experten hat GPT-5.2 Thinking in 70,7 % der anspruchsvollen wissensbasierten Arbeitsaufgaben eine bessere oder zumindest gleichwertige Leistung wie die Spitzeneexperten in der Branche gezeigt.
In Bezug auf die Effizienz ist der Unterschied noch deutlicher: GPT-5.2 Thinking erledigt ähnliche Aufgaben etwa dreimal so schnell wie menschliche Experten, und die Gesamtkosten betragen nur etwa 1 % der menschlichen Kosten.
In einem repräsentativeren Finanzszenario wurde diese Verbesserung ebenfalls bestätigt. Im Test zur Erstellung von Tabellenmodellen für "Junior Investment Banking Analysten" erreichte GPT-5.2 Thinking eine Gesamtnote von 68,4 %, was eine deutliche Verbesserung gegenüber den 59,1 % von GPT-5.1 Thinking darstellt und es zum besten Modell von OpenAI für diese Art von Aufgaben macht.
Insgesamt betrachtet hat GPT-5.2 Thinking in den von GDPval abgedeckten wissensbasierten Arbeitsaufgaben in 70,9 % der Fälle "die Branchenexperten geschlagen oder mit ihnen gleichgestellt". Bei der vorherigen Version, GPT-5 Thinking, lag dieser Wert nur bei 38,8 %.
Die Produktschichtung von GPT-5.2 ist nun äußerst klar: Die Thinking-Version ist bei der langfristigen Kontextanalyse stabiler, hat verbesserte Fähigkeiten in Bezug auf Tabellen, PowerPoint-Präsentationen und komplexe Lösungen und richtet sich an echte Profis; die Instant-Version hat ein natürlicheres Dialogverhalten, erklärt Fragen klarer, schreibt Tutorials und Anleitungen und ist effizienter für den täglichen Arbeitsgebrauch; die Pro-Version hat die stärksten Analyse- und Codierungsfähigkeiten und ist die erste Wahl für die Forschung und die Entwicklung komplexer Systeme.
Zusammengefasst: Die Thinking-Version übernimmt die anspruchsvollen Aufgaben, die Instant-Version kümmert sich um den Alltag, und die Pro-Version setzt die Spitzenleistungen.
Deshalb wird GPT-5.2 Thinking von der Öffentlichkeit auch als die Modellgeneration bezeichnet, die tatsächlich beginnt, "mit den normalen Arbeitskräften um Jobs zu konkurrieren".
3
Arbeitsplatz: "Experte" oder "Faulhund"?
Welchen soll man wählen?
Der offensichtlich "hastige" Veröffentlichungsrhythmus der beiden Tech-Riesen hat eine weitere, direkte Reaktion auf dem Markt ausgelöst - zahlreiche negative Bewertungen von Nutzern sind aufgetaucht. Einige Internetnutzer haben die "Noten" von GPT-5.2 im SimpleBench geteilt. GPT-5.2 hat dabei schlechter abgeschnitten als Claude Sonnet 3.7, einem Modell, das vor etwa einem Jahr veröffentlicht wurde; auch die Leistung von GPT-5.2 Pro war nicht viel besser und hat nur knapp GPT-5 übertroffen.
Quelle: SimpleBench
SimpleBench wurde entwickelt, um die Leistung von großen Modellen in logischen Schlussfolgerungsaufgaben zu testen, die für Menschen einfach erscheinen, aber für Maschinen eine große Herausforderung darstellen.
Die Zweifel enden nicht hier. Bindu Reddy, ein ehemaliger High-Level-Manager von AWS und Google, hat in einem Beitrag auf einer sozialen Plattform festgestellt, dass GPT-5.2 im LiveBench schlechter abgeschnitten hat als Opus 4.5 und Gemini 3.0. Es verursacht auch viel höhere Token-Kosten und verbraucht mehr Tokens als GPT-5.1. Derzeit lohnt sich ein Upgrade von 5.1 möglicherweise nicht.
GPT-5.2 steht in Frontalkonfrontation mit Google's "neuem Trumpf", Gemini 3 Flash. Wenn das Stichwort für GPT-5.2 "Professionalität" ist, dann betont Google ein anderes Wort: Kosteneffizienz.
Dies bedeutet nicht einfach "billiger", sondern eine systematische Neuausrichtung der Beziehung zwischen "Leistung, Kosten und Skalierbarkeit".
Google-CEO Sundar Pichai hat in einem offiziellen Blogeintrag direkt gesagt, dass Gemini 3 Flash sowohl in Bezug auf Leistung als auch Effizienz die "Pareto-Grenze" überschritten hat: Seine Gesamtleistung übertrifft das vorherige Flaggschiffmodell Gemini 2.5 Pro, die Inferencespeed hat sich um etwa das Dreifache verbessert, während die Kosten deutlich gesunken sind.
Pichai sagte: "Gemini 3 Flash beweist, dass Geschwindigkeit und Skalierbarkeit nicht auf Kosten der Intelligenz gehen müssen."
Aus den Bewertungsergebnissen geht hervor, dass dies kein einfacher Marketing-Slogan ist.
Nach den Daten von Imarena.ai liegt Gemini 3 Flash derzeit in den Bereichen Text, Bild und Programmierung unter den Top 5, in der Kategorie Mathematik und kreative Schreibarbeit auf Platz 2. Es ist das kostengünstigste Spitzenmodell, mit einem Input von nur 0,5 US-Dollar pro Million Tokens und einem Output von 3 US-Dollar pro Million Tokens.
Zum Vergleich: Der Output von Claude Sonnet 4.5 liegt bei 15 US-Dollar pro Million Tokens, der von GPT-5.2 bei 14 US-Dollar pro Million Tokens, fast das Fünffache des Preises von Gemini 3 Flash.
Tulsee Doshi, Senior Director für die Produktverwaltung von Gemini, hat erklärt, dass Google Gemini 3 Flash als "Faulhund"-Modell positioniert. Das Modell behält eine ähnliche Inferenzfähigkeit wie Gemini 3 Pro bei, hat aber dreimal so hohe Geschwindigkeit wie Gemini 2.5 Pro und nur ein Viertel der Kosten von Gemini 3 Pro.
4
Intelligente Agenten sind der zukünftige Wettbewerbspunkt
Betrachtet man die intensiven Updates von OpenAI und Google in letzter Zeit, ist es noch schwer zu sagen, wer kurzfristig gewinnt. Aber aus der Produktdesign, der Schwerpunktsetzung in der Werbung und dem Implementierungsweg wird der nächste Trend in der Entwicklung von großen Modellen immer deutlicher.
Ob es sich um die wiederholte Betonung von "Fokus auf intelligente Agenten" auf der Werbeseite von ChatGPT 5.2 oder die direkte Umsetzung von "Hochleistung" in groß angelegten Anwendungen von Gemini 3 Flash handelt, beide Wege führen letztendlich zum gleichen Ziel - den intelligenten Agenten.
Der Wettbewerb um die großen AI-Grundmodelle hat sich von der "Fähigkeit der Cloud-Modelle" vollständig auf die "Endgeräte- und Systemebene" verlagert.
Aus den jüngsten Aktionen geht hervor, dass der Wettbewerb zwischen Google und OpenAI längst nicht mehr nur auf die Parametergröße, die Inferenzfähigkeit und die Benchmark-Ergebnisse beschränkt ist.
Seitens der Endgeräte hat Gemini 3 den traditionellen Google Assistant vollständig ersetzt und ist nun das Zentrum der Android-Ökosystem. Dies ist besonders in der neuesten Android Auto-Update deutlich zu sehen. Benutzer können während der Fahrt mit einem natürlichen Sprachbefehl komplexe, mehrstufige und über Anwendungen hinweggehende Aktionen ausführen, wie z. B. die Abfrage von E-Mail-Informationen, die Initiierung der Navigation und die Benachrichtigung der relevanten Kontakte.
Im Büroszenario versucht Google, diese "Systemfähigkeit" auf das Workspace auszuweiten. Mit einem überlangen Kontextfenster von 1M bis 2M Tokens werden Drive, Docs und Gmail zu einem einheitlichen Wissensraum integriert, mit dem direkt gesprochen werden kann. Benutzer müssen nicht mehr ständig zwischen Dateien und E-Mails wechseln, sondern können direkt auf der Grundlage aller historischen Daten analytische Fragen stellen und strukturierte Ergebnisse erhalten. Diese Veränderung auf der Arbeitsablagebene erhöht die Bindung der Unternehmensnutzer deutlich.
Die Reaktionen auf dem Unternehmensmarkt ändern sich daher.
Marc Benioff, Gründer von Salesforce, hat kürzlich öffentlich erklärt, dass er aufgrund der Inferenzgeschwindigkeit und -genauigkeit von Gemini 3 seine persönliche und die interne AI-Wahl des Unternehmens von ChatGPT auf Gemini umgestellt hat. Anschließend hat Salesforce angekündigt, dass es Gemini in die Agentforce 360-Plattform integrieren wird. Dieser Schritt wird als wichtiger Durchbruch von Google im von Microsoft und OpenAI dominierten Unternehmens-SaaS-Bereich angesehen.
Angesichts der vertikalen Integration von Google hat OpenAI sich entschieden, sich mit Tech-Riesen zu verbünden, um zu expandieren. Auf dem Verbrauchermarkt kommt es hauptsächlich auf Apple an. Die voraussichtlich zwischen Ende 2025 und Anfang 2026 veröffentlichte iOS 26 wird GPT-5.1 tiefgreifend integrieren. Dies ist nicht nur eine Verbesserung der Backend-Fähigkeiten von Siri, sondern auch eine System-Level-Vision-Intelligenz. Über die Kamera am Gerät können Benutzer direkt das GPT-Modell aufrufen, um die reale Umgebung zu erkennen und zu verstehen.
Für OpenAI ist dieser "Hardware-zu-Modell"-Pfad der Schlüssel, um auf mobilen Geräten gegen die Vorteile des Android-Ökosystems anzukämpfen. Im Unternehmens- und Bürobereich bleibt Microsoft der stabilste Partner von OpenAI. Über Windows 11 und Microsoft 365 bringt Microsofts Künstliche-Intelligenz-Assistent Copilot ständig GPT-5.1 in die Kernprozesse von Unternehmen. Die langjährige Erfahrung von Microsoft auf der Betriebssystemebene und im Unternehmens-Cloud-Service bleibt eine wichtige Schutzmauer für OpenAI.
Wenn wir die letzten drei Jahre betrachten, seit ChatGPT 2022 auf den Markt kam, hat sich der Wettbewerb in der Branche immer um zwei Punkte gedreht: natürliches Gespräch und umfangreiches Wissen. Aber im Jahr 2