StartseiteArtikel

Gerade hat Ultraman GPT-5 veröffentlicht. Jeder kann die "doktorwürdige" KI kostenlos nutzen. Ein Fehler in der Referenzgrafik hat die ganze Welt im Netz zum Geplapper gebracht.

机器之心2025-08-08 11:00
GPT-5 scheint nicht so zufriedenstellend zu sein.

Nach Jahren der Wartezeit wurde GPT-5 endlich in der frühen Morgenstunde veröffentlicht.

Wir waren voller Erwartungen, und die Nervosität einiger Kernmitglieder von OpenAI war während der Live-Übertragung augenscheinlich.

Während der Live-Übertragung veröffentlichte Altman auch mehr als ein Dutzend Tweets, in denen er die Highlights von GPT-5 vorstellte.

Da es viele Informationen gibt, stellen wir Ihnen diese anhand von Altmans Tweets vor.

Zunächst einmal handelt es sich um ein integriertes Modell. Das bedeutet, dass Sie beim Verwenden dieses Modells nicht zwischen verschiedenen Modellen wechseln müssen. Es entscheidet selbst, wann es tiefgründiger nachdenken muss.

Obwohl Altman betont hat, dass Benchmarks nicht wichtig seien, haben sie dennoch viele Benchmark-Ergebnisse veröffentlicht, beispielsweise in den Bereichen Mathematik, Programmierung, visueller Wahrnehmung und Gesundheit. Die genauen Benchmark-Ergebnisse sind wie folgt:

Mathematikbereich: In der AIME-Testung 2025 erreichte es ohne Hilfsmittel 94,6%.

Einsatz in der praktischen Programmierung: Im SWE-bench Verified erreichte es 74,9%, im Aider Polyglot 88%.

Multimodale Verständnis: Im MMMU erreichte es 84,2%.

Gesundheitsbereich: Im HealthBench Hard erreichte es 46,2%.

Dank der erweiterten Inferenzfähigkeit von GPT-5 Pro hat dieses Modell auch im GPQA-Test einen neuen SOTA (State of the Art) erzielt und ohne Hilfsmittel 88,4% erreicht. 

In Bezug auf die Kosten gibt es drei Versionen von GPT-5: eine kostenlose Version, die Plus- und die Pro-Version. Laut Altman kann man auch in der kostenlosen Version „eine Intelligenz auf Doktorlevel“ nutzen (die normale Version von GPT-5, aber mit Inferenzfunktion). Plus-Nutzer haben weniger Einschränkungen bei der Nutzungsfrequenz, während Pro-Nutzer die GPT-5 Pro-Version nutzen können.

Für Entwickler sind die API-Preise der drei Versionen von GPT-5 wie folgt: Die Standardversion von GPT-5 kostet 1,25 US-Dollar pro Million eingegebener Token und 10 US-Dollar pro Million ausgegebener Token. Die Mini- und Nano-Versionen von GPT-5 sind günstiger.

Obwohl die Live-Übertragung länger als eine Stunde dauerte, hat OpenAI den größten Teil der Zeit damit verbracht, zu erklären, wie „nützlich“ GPT-5 ist.

Beispielsweise im Bereich der Bildung kann es innerhalb weniger Minuten Hunderte von Codezeilen generieren und interaktive Inhalte erstellen, um komplexe Konzepte wie den Bernoulli-Effekt zu erklären.

Im Bereich des Schreibens ist die Schreibweise von GPT-5 besser als die von GPT-4o.

Im Bereich der Programmierung kann es in wenigen Minuten eine Website zum Lernen von Französisch erstellen, die Ihnen beim Üben der Aussprache hilft und auch Übungen und Spiele anbietet.

Das Sprachmodell wurde ebenfalls verbessert. Die Sprachintonation klingt natürlicher, man kann so lange wie man möchte chatten, und die Sprechgeschwindigkeit kann beliebig eingestellt werden. Dies eignet sich hervorragend für das Lernen von Fremdsprachen.

Die zuvor von uns berichtete Funktion „AI-Medizinberatung“ wurde ebenfalls optimiert. Ein Krebs Patient wurde eingeladen, um seine Erfahrungen zu teilen und wie ihm ChatGPT bei der Erklärung seiner Krankheit geholfen hat. Altman sagte, dass GPT-5 das bisher beste Gesundheitsmodell sei.

Allerdings gab es auch einige kleine Fehler vor Ort. Beispielsweise war das Benchmark-Diagramm falsch. Altman hat auch den Fehler eingeräumt:

Es gab nicht nur einen solchen Fehler: 

Noch peinlicher war es, dass Elon Musk auch dazwischenfunkte und die Nachricht weiterleitete, dass GPT-5 im ARC-AGI-2 nicht besser als Grok 4 war:

Selbst bei der Demo zur Reduzierung von Halluzinationen wurden Fehler gefunden:

Einige sagen jedoch, dass es sich nicht um ein Problem mit „Halluzinationen“ handelt, sondern um ein Problem mit der Datenquelle.

Insgesamt hat die Leistung von GPT-5 bei vielen Menschen nicht die Erwartungen erfüllt.

Wie performt GPT-5 in allen Aspekten? Schauen wir uns die ausführlichen Informationen in einem technischen Blog an.

Einheitliches Intelligenzsystem

GPT‑5 ist ein integriertes System, das aus drei Modellen besteht: Einem effizienten Antwortmodell für die meisten alltäglichen Fragen, einem tiefgreifenden Inferenzmodell für komplexe Probleme („GPT‑5 Thinking Mode“), und einem Echtzeit-Router, der basierend auf der Gesprächsart, Problemkomplexität, Werkzeuganforderungen und expliziten Benutzeranweisungen (z.B. Eingabe von "Denke tiefgründig über dieses Problem nach") automatisch das optimale Verarbeitungsmodell zuweist.

Dieser Router-System wird kontinuierlich anhand von Echtzeitsignalen wie Benutzerverhalten beim Modellwechsel, Antwortpräferenzdaten und Genauigkeitsrückmeldungen optimiert. Wenn das Nutzungslimit erreicht wird, übernehmen vereinfachte Versionen der Modelle die nachfolgenden Abfragen.

OpenAI plant, diese Fähigkeiten in naher Zukunft in ein einziges ultimatives Modell zu integrieren.

GPT‑5 schneidet nicht nur in Benchmark-Tests besser ab als seine Vorgänger, sondern ist auch schneller. Noch wichtiger ist, dass es reale Bedürfnisse effizienter bearbeiten kann.

OpenAI hat mitgeteilt, dass GPT5 in drei Schlüsselfaktoren signifikante Fortschritte erzielt hat: Die Reduzierung von Halluzinationen, die Verbesserung der Präzision bei der Befolgung von Anweisungen und die Reduzierung von anpassenden Antworten. Gleichzeitig hat GPT‑5 in den drei am häufigsten genutzten Anwendungsfällen von ChatGPT (Texterstellung, Programmierung und Gesundheitsberatung) insgesamt bessere Ergebnisse erzielt.

Evaluierung

Schauen wir uns nun die Ergebnisse von GPT-5 in verschiedenen Benchmark-Tests an.

Nach dem Blog hat GPT‑5 in allen Fähigkeiten signifikante Verbesserungen erzielt, insbesondere in den Bereichen Mathematik, Programmierung, visuelles Verständnis und Gesundheit. Im mathematischen Bereich erreichte GPT-5 in der AIME 2025-Testung ohne Hilfsmittel 94,6%. In der realen Programmieranwendung erzielte GPT-5 74,9% im SWE-bench Verified und 88% im Aider Polyglot. Im Bereich multimodalen Verständnis erreichte es 84,2% im MMMU, und im Gesundheitsbereich 46,2% im HealthBench Hard. Die GPT‑5 Pro-Version mit erweiterten Inferenzfähigkeiten hat im GPQA-Benchmark-Test sogar einen neuen Rekord von 88,4% (ohne Hilfsmittel) erzielt.

Die Ergebnisse der AIME-Testung mit Werkzeugen sollten nicht direkt mit der Leistung von Modellen ohne Werkzeuge verglichen werden. Dies ist ein Beispiel dafür, wie effektiv GPT-5 verfügbare Werkzeuge nutzen kann.