GPT-5 strebt nicht nach AGI. Es repräsentiert das kommerzielle Ambiten von OpenAI.
Um Mitternacht am 8. August (Pekingzeit) hat OpenAI sein neuestes GPT-Modell, GPT-5, vorgestellt.
Diesmal fehlte bei der Modellveröffentlichung jedoch die aufsehenerregende Präsenz, die die Veröffentlichungen von ChatGPT und GPT-4 hatten, und es führte nicht wie die Veröffentlichung von o1 zu einem neuen Paradigma in der Modellentwicklung.
GPT-5 führt seine Konkurrenten mit einer einstelligen Differenz an.
Aus den bei der Pressekonferenz vorgestellten Benchmark-Ergebnissen geht hervor, dass es seine Leistung zwar mit einer einstelligen Differenz gegenüber den SOTA-Modellen anderer Anbieter, die 2025 veröffentlicht wurden, übertrifft, aber den früheren Generationenvorsprung verloren hat.
Dennoch konnten wir bei dieser Veröffentlichung einige bemerkenswerte Punkte beobachten, die wir hier kurz analysieren und mit Unternehmern und Technologieexperten, die sich für KI interessieren, teilen möchten.
1. Die Nutzbarkeit synthetischer Daten
Bei der Pressekonferenz erklärten die Technologieexperten von OpenAI, dass sie bei der Trainierung von GPT-5 die Vorgängermodelle wie GPT-4o und o3 dazu nutzten, Trainingsdaten zu generieren, wodurch GPT-5 Fähigkeiten in Bezug auf Inferenz, Planung und Aufgabenaufteilung erwarb.
Diese Daten unterscheiden sich jedoch von solchen, die nur zur Füllung dienen. OpenAI hat einen "Syntheseprozess" entwickelt, der es dem Modell ermöglicht, "richtige Datentypen" zu generieren, was die Rolle synthetischer Daten bei der Modelltrainierung verbessert.
Diese neue Anwendung synthetischer Daten ermöglicht es, dass fortschrittliche Vorgängermodelle hochwertige Daten generieren, wodurch die nachfolgenden vortrainierten Modelle immer stärker werden. Durch die Verstärkung des Inferenzmodells mittels Reinforcement Learning eröffnen sich neue Möglichkeiten für die Trainierung fortschrittlicher Modelle.
Natürlich ist es für die Lösung komplexerer Probleme oder die Verbesserung des "Geschmacks" eines Modells weiterhin auf hochwertige, von Menschen annotierte Daten angewiesen, sowie auf ein zuverlässiges System zur Bewertung der Datenqualität.
2. Agenten werden immer wichtiger
Agenten sind das heißeste Stichwort im Bereich der KI-Anwendungen in 2025, und diese Welle wurde von der im Februar von OpenAI veröffentlichten Funktion "Deep Research" ausgelöst. Laut den früheren Aussagen von OpenAI-Technikern ist ein Agent nicht nur ein Modell plus Werkzeug, sondern seine Fähigkeiten müssen bereits in der Trainingsphase für die Agentenoptimierung ausgerichtet sein.
Deshalb gibt es in 2025 immer mehr KI-Modelle, die auf Agentic AI abzielen, seien es die ausländischen Modelle wie o3 und Claude4 oder die inländischen Modelle wie Qwen3 und Kimi K2.
GPT-5 ist natürlich keine Ausnahme. Es wurde speziell auf die Verbesserung der Fähigkeit zur Werkzeugaufrufung hin optimiert. In der Testmenge Tau², die reale Szenarien simuliert, hat es in den Tests im Telekommunikationsbereich deutliche Verbesserungen gegenüber o3 und GPT-4.1 gezeigt.
Bei den Tests von GPT-5, die von latent.space mit Unternehmern und Technologieexperten durchgeführt wurden, konnten einige neue Merkmale bei der Werkzeugaufrufung von GPT-5 beobachtet werden.
Einerseits kann man GPT-5 einfach durch natürliche Sprachbeschreibung dazu bringen, Werkzeuge aufzurufen.
Andererseits ist GPT-5 sehr gut darin, Werkzeuge parallel zu nutzen. Dies ist ein Bereich, in dem viele andere Modelle zwar versuchen, aber nicht so gut abschneiden. Denn das Verständnis, welche Werkzeuge parallel oder sequentiell laufen können oder sollten, erfordert eine relativ hohe Intelligenz.
Die Fähigkeit, Werkzeuge parallel zu nutzen, bedeutet, dass GPT-5 über einen längeren Zeitraum laufen kann und eine geringere Latenz hat. Diese Verbesserung macht es möglich, komplexere Agentenprodukte auf der Grundlage von GPT-5 zu entwickeln.
Zusammenfassend lässt sich sagen, dass GPT-5 in Verbindung mit Werkzeugen denkt und dann mit diesen Werkzeugen Programme erstellt.
3. Die Programmierung von GPT-5 wurde speziell verbessert
Programmierung ist eine weitere Fähigkeit, auf die alle KI-Modelle besonderen Wert legen. GPT-5 hat in Tests wie SWE-bench und Aider Polyglot im Vergleich zu o3 deutliche Verbesserungen gezeigt, aber bei dem SWE-bench-Index liegt es nur um 0,4 % vor seinem direkten Konkurrenten Claude 4.1 Opus.
Die Programmierleistung von GPT-5
Die Programmierleistung von Claude 4.1 Opus
In der praktischen Programmierfähigkeit hat GPT-5 jedoch größere Fortschritte gemacht. Einerseits ist es gut in der Agenten-basierten Programmierung, andererseits hat es eine bessere Fähigkeit, "Bugs" zu beheben. Diese beiden Verbesserungen entsprechen einerseits der kommerziellen, komplexen Programmierung und andererseits der persönlichen "Vibe Coding".
latent.space, das bereits erwähnt wurde, hat auch die Agenten-basierte Programmierung von GPT-5 getestet. Ihre "Testaufgaben" waren relativ schwierig, und weder o3 + Cursor noch Claude 4 Opus konnten die Probleme lösen, während GPT-5 es in einem Durchgang schaffte.
Der Schlüssel hierfür liegt in der unterschiedlichen Art, wie die Modelle Werkzeuge aufrufen. Im Vergleich zu Claude 4 Opus denkt GPT-5 während des Programmierprozesses öfter nach, ähnlich wie beim "Denken-whilst-Tun" und ständigen Iterieren, während Claude 4 Opus eher "denkt, bevor es handelt".
Vergleich von GPT-5 und Claude 4 Opus in der Agenten-basierten Programmierung (Quelle: latent.space)
Warum legen sowohl die Modellhersteller als auch die Anwendungsunternehmen so viel Wert auf die KI-Programmierung? Weil die Programmierung derzeit einer der Bereiche mit der größten bekannten Marktgröße im Bereich der KI-Anwendungen ist, was hilft, den Umsatzdruck zu lindern.
Anthropic hat mit Claude 3.5 Schritt für Schritt die Position des stärksten Programmiermodells eingenommen, und OpenAI hat von o1 über o3 bis hin zu GPT-5 immer mehr in die Programmierung investiert und sowohl in den "Benchmark-Tests" als auch in der praktischen Anwendung immer bessere Ergebnisse erzielt.
4. GPT-5 ist nicht auf die AGI-Optimierung ausgerichtet, sondern ein Produkt der weiteren Verstärkung der Kommerzialisierung durch OpenAI
Obwohl OpenAI, insbesondere sein CEO Sam Altman, immer wieder betont, dass es sich um ein Unternehmen mit dem langfristigen Ziel der AGI handelt, deutet sowohl GPT-5 selbst als auch die Reihe von Produkten und Funktionen, die OpenAI seit 2025 veröffentlicht hat, auf eine weitere Verstärkung seiner kommerziellen Eigenschaften hin.
Im Jahr 2025 haben sie in ChatGPT die Funktion DeepResearch veröffentlicht, die die Agenten-Welle ausgelöst hat; die Funktion Canvas verbessert, sodass man direkt im visuellen Interface Inhalte bearbeiten kann; der Funktion GPT-4o die Bildgenerierungsfunktion hinzugefügt, sodass die Welt in die Welt des Studio Ghibli-Stils eintauchte; und auch den Lernmodus (Study Mode) hinzugefügt, sodass ChatGPT ein persönlicher Lehrer werden kann.
Diese Reihe von Upgrades, die auf die Verbesserung der Benutzererfahrung und nicht auf die Erforschung der AGI abzielen, haben die Anzahl der ChatGPT-Nutzer und das Einkommen stark erhöht. Laut den neuesten Statistiken hat ChatGPT mehr als 700 Millionen wöchentliche aktive Nutzer und 5 Millionen zahlende Nutzer, und das Abonnementeinkommen beträgt 2,7 Milliarden US-Dollar.
Im Bereich der Unternehmenskommerzialisierung hält GPT-5 die Preise für seine API auf 1,25 US-Dollar pro Million Tokens für die Eingabe und 10 US-Dollar pro Million Tokens für die Ausgabe, was direkt mit Gemini 2.5Pro konkurriert und deutlich niedriger als bei Claude 4 Opus ist, was für Unternehmen und Entwickler attraktiv ist.
Darüber hinaus hat GPT-5 die Halluzinationen des Modells stark reduziert, die Kontextlänge erheblich erhöht (auf 400.000 erweitert), und die Anzahl der Tokens, die GPT-5 thinking bei der Lösung komplexer Probleme verwendet, ist um 50 % - 80 % gesunken. All dies verbessert die Nutzbarkeit des Modells und senkt die Kosten.
5. Ist das Stagnieren des Fortschritts der Modelle für Unternehmer ein Problem?
Im Jahr 2025 haben wir gesehen, wie das Open-Source-Modell DeepSeek R1 die Welt erobert hat und wie Gemini 2.5Pro zum neuen SOTA-Modellstandard geworden ist. Gleichzeitig haben wir aber auch das Stagnieren der Fortschrittgeschwindigkeit der Large Language Models beobachtet.
Ob es sich um Grok4 von xAI, das mit Hunderten von Tausenden von Grafikkarten trainiert wurde, oder um das lang erwartete GPT-5 handelt, obwohl sie stark sind, ist ihr Fortschritt eher progressiv als sprunghaft. Möglicherweise hat die Leistungsverbesserung der Large Language Models unter der bestehenden Technologieparadigma vorübergehend ein Plateau erreicht.
Was bedeutet es also für die Unternehmer im Anwendungsbereich, wenn die Large Language Models an einem Engpass stoßen? Werden die Modellhersteller nach Schwierigkeiten bei der Modelltrainierung mehr Energie auf den Anwendungsbereich legen? Werden die Unternehmer von großen Unternehmen verschlungen?
Wir glauben nicht, denn die KI-Anwendung ist ein Spiel, in dem die schnellen Fische die langsamen fressen, nicht die großen die kleinen. Beim Wettlauf um Geschwindigkeit, Innovation und das Verständnis der Nutzer haben die großen Unternehmen gegenüber den Start-ups keine Vorteile.
Kürzlich sagte Ivan Zhao von Notion in einem Interview, dass sich in der KI-Zeit die Materialien und Methoden zur Produktentwicklung grundlegend unterscheiden, und er sei sehr erregt, diesen neuen Herausforderungen zu begegnen. Dieser Unternehmer- und Innovationszustand gefällt uns.
Dieser Artikel stammt aus dem WeChat-Account "Alpha Community" (ID: alphastartups), und der Autor ist die Alpha Community, die außergewöhnliche Unternehmer entdeckt. Dieser Artikel wurde von 36Kr mit Genehmigung veröffentlicht.