Wer ist der stärkste "Arbeits-AI"? OpenAI hat es selbst getestet, und das Ergebnis zeigt, dass es nicht sich selbst an erster Stelle ist.
OpenAI hat eine neue Studie veröffentlicht und dabei Claude gelobt.
Sie haben einen neuen Benchmark namens GDPval vorgeschlagen, um die Leistung von KI-Modellen bei realen, wirtschaftlich wertvollen Aufgaben zu messen.
Genauer gesagt deckt GDPval 44 Berufe aus 9 Branchen ab, die den größten Beitrag zum US-BIP leisten. Diese Berufe erwirtschaften zusammen jährlich 3 Billionen US-Dollar. Die Aufgaben wurden anhand der repräsentativen Arbeit von Branchenfachleuten mit durchschnittlich 14 Jahren Berufserfahrung entwickelt.
Professionelle Bewertungsreferenten haben die Ausgabe von führenden Modellen mit den Ergebnissen von menschlichen Experten verglichen.
Nach den Tests hat sich Claude Opus 4.1 als das beste Modell erwiesen, wobei 47,6 % seiner Ergebnisse als vergleichbar mit denen von menschlichen Experten bewertet wurden.
Mit 38,8 % lag GPT-5 noch hinter Claude und belegte den zweiten Platz. GPT-4o gewann oder erreichte nur in 12,4 % der Fälle ein Unentschieden im Vergleich zu Menschen.
Da OpenAI nicht das beste Modell hatte, hat es sich selbst entschuldigt: Unterschiedliche Modelle haben verschiedene Stärken. Claude Opus 4.1 zeichnet sich besonders in puncto Ästhetik aus, während GPT-5 in Bezug auf die Genauigkeit besser abschneidet.
OpenAI hat auch darauf hingewiesen, dass die Fortschrittsdynamik der Modelle bemerkenswert ist. Die Spitzenmodelle haben ihre Gewinnquote in nur einem Jahr fast verdoppelt.
Schließlich hat OpenAI eine hochwertige Teilmenge von 220 Aufgaben open source gemacht und einen öffentlichen automatischen Bewertungsdienst angeboten.
Nachdem die Netizens die Studie gelesen hatten, haben sie alle gesagt, dass es eine sehr beeindruckende Studie sei:
Die Leistung der verschiedenen Generationen von OpenAI-Modellen steigt linear. Vielen Dank für die Anerkennung des Wettbewerbers.
Einige Netizens denken auch, dass dies möglicherweise eine von Altman sorgfältig geplante Werbestrategie ist, um Geld zu sammeln, indem er die Möglichkeit der KI zur Steigerung des BIP preist.
Schauen wir uns nun genauer diese Studie an.
Testen der „Geldverdungsfähigkeit“ von KI
OpenAI hat festgestellt, dass GDPval im Vergleich zu bestehenden KI-Evaluierungen in folgenden Punkten besser ist:
- Die Aufgaben beruhen auf realen Arbeitsergebnissen und beziehen Zeit und Kosten ein und sind daher realitätsnah;
- Es deckt die meisten beruflichen Tätigkeiten ab, die von O*NET (US-amerikanisches Berufsinformationsnetzwerk) verfolgt werden, und hat eine repräsentative Breite;
- Die Aufgaben erfordern die Verarbeitung von Dateien in verschiedenen Formaten und die Analyse mehrerer Referenzdateien und betreffen somit die Computernutzung und Multimodularität;
- Außer der Richtigkeit müssen auch subjektive Faktoren wie Struktur und Stil berücksichtigt werden. Der Datensatz kann auch als Testplattform für die Leistung von automatischen Bewertungssystemen dienen;
- Der Haupterfolgskriterium ist die Gewinnquote ohne Obergrenze, was eine kontinuierliche Bewertung ermöglicht;
- Die Aufgaben sind schwierig. Branchenfachleute brauchen durchschnittlich 7 Stunden, um sie zu bewältigen, und komplexe Aufgaben können sogar mehrere Wochen in Anspruch nehmen.
Der Prozess zur Erstellung der Aufgaben beginnt mit der Bestimmung der Kernbranchen und Berufe.
OpenAI hat zunächst 9 Branchen ausgewählt, die mehr als 5 % zum US-BIP beitragen (basierend auf den Daten über den prozentualen Anteil des Bruttoinlandsprodukts der einzelnen Branchen im zweiten Quartal 2024). Dann hat es in jeder Branche 5 Berufe ausgewählt, die den größten Lohnbeitrag leisten und hauptsächlich digitale Aufgaben umfassen.
Bei der Beurteilung, ob ein Beruf „hauptsächlich aus digitalen Aufgaben besteht“, wurden alle Aufgaben des Berufs in ONET herangezogen. Mit Hilfe von GPT-4o wurden die Aufgaben in „digitale/nicht-digitale“ Kategorien eingeteilt. Unter Berücksichtigung der Relevanz, Wichtigkeit und Häufigkeit der Aufgaben in ONET wurde eine gewichtete Berechnung durchgeführt. Wenn mehr als 60 % der Aufgaben digitale Aufgaben sind, wurde der Beruf aufgenommen.
Schließlich hat OpenAI 44 Berufe ausgewählt, die zusammen jährlich 3 Billionen US-Dollar erwirtschaften.
Anschließend wurden Branchenfachleute rekrutiert. Die Experten, die an der Aufgabeerstellung teilnehmen sollten, mussten mindestens 4 Jahre Berufserfahrung haben. Ihr Lebenslauf musste ihre fachliche Anerkennung, Beförderungsgeschichte und Managementverantwortung widerspiegeln.
Statistisch gesehen hatten die rekrutierten Branchenfachleute durchschnittlich 14 Jahre Berufserfahrung.
Diese Personen mussten zunächst einen Videointerview, eine Hintergrundprüfung, eine Schulung und einen Test bestehen, bevor sie an dem Projekt teilnehmen konnten (OpenAI hat auch eine gute Vergütung angeboten). Ihre ehemaligen Arbeitgeber umfassten viele bekannte Unternehmen und Institutionen wie Apple, Google, Microsoft, Meta, Samsung, Oracle, IBM und JPMorgan Chase, um sicherzustellen, dass die Experten eine solide Branchenpraxisbasis haben.
Beim Erstellen der Aufgaben besteht jede GDPval-Aufgabe aus einem „Anforderungsteil“ und einem „Lieferungsteil“. Die Branchenexperten haben die Aufgaben anhand der Berufstätigkeiten in O*NET entworfen, um die Breite und Repräsentanz der Aufgaben zu gewährleisten.
Um die Qualität der Aufgaben zu bewerten, hat OpenAI die Experten gebeten, die Schwierigkeit, Repräsentanz, Bearbeitungszeit und die Gesamtqualität jeder Aufgabe anhand der tatsächlichen Standards ihres Berufs zu bewerten. Unter Berücksichtigung der mittleren Stundenlöhne der entsprechenden Berufe in den OEWS-Daten (US-amerikanische Berufseinsatzstatistik) wurde der wirtschaftliche Wert jeder Aufgabe durch „durchschnittliche Bearbeitungszeit × Stundenlohn“ berechnet.
Schließlich enthält der gesamte GDPval-Datensatz insgesamt 1320 Aufgaben. Alle Aufgaben haben einen iterativen Prozess durchlaufen, der aus „Automatisierte Modellauswahl + mehrfache Überprüfung durch menschliche Experten“ besteht. Jede Aufgabe wurde mindestens 3 Mal und durchschnittlich 5 Mal von Menschen überprüft.
Die Experten haben in jeder Überprüfungsphase detaillierte Kommentare abgegeben. Die Aufgaben wurden entsprechend den Kommentaren wiederholt verbessert.
Claudes Leistung ist mit der von menschlichen Experten vergleichbar
OpenAI hat eine hochwertige Teilmenge von 220 Aufgaben open source gemacht und die Methode der blinden paarweisen Vergleichsbewertung durch Experten (d. h. die paarweise Vergleichsbewertungsmethode, bei der die Experten nicht wissen, woher die zu bewertenden Ergebnisse stammen) angewendet, um diese Teilmenge zu bewerten.
Die paarweise Vergleichsbewertung einer Aufgabe dauerte durchschnittlich über 1 Stunde. OpenAI hat auch zusätzliche Experten aus verschiedenen Berufsfeldern eingeladen, um die Ergebnisse von menschlichen Experten und Modellen zu bewerten. Die Experten mussten detaillierte Gründe für ihre Auswahl und Reihenfolge angeben.
Für die hochwertige Teilmenge hat OpenAI auch einen experimentellen automatischen Bewertungsmesser entwickelt. Die Übereinstimmung zwischen diesem automatischen Bewertungsmesser und der menschlichen Expertenbewertung beträgt 66 %, nur 5 % weniger als die Übereinstimmung zwischen menschlichen Bewertungen (71 %).
Nach der Bewertung von Modellen wie GPT-4o, o4-mini, o3, GPT-5, Claude Opus 4.1, Gemini 2.5 Pro und Grok 4 ergab sich Folgendes:
Claude Opus 4.1 war das insgesamt beste Modell bei den Aufgaben in der hochwertigen GDPval-Teilmenge, insbesondere in puncto Ästhetik (z. B. Dokumentformatierung, Folienlayout).
47,6 % seiner Ausgabe wurden als besser oder gleichwertig mit den Ergebnissen von menschlichen Experten bewertet.
Die Leistung der verschiedenen Generationen von OpenAI-Modellen bei GDPval hat im Allgemeinen eine lineare Verbesserung gezeigt.
Wie aus dem folgenden Diagramm hervorgeht, hat GPT-5 in Bezug auf die Genauigkeit (z. B. strikte Befolgung der Anweisungen, korrekte Berechnung) deutliche Vorteile.
Mit anderen Worten, GPT-5 schneidet bei reinen Texttasks besser ab, während Claude bei der Verarbeitung von Dateitypen wie.pdf,.xlsx und.ppt besser abschneidet und eine stärkere visuelle Wahrnehmung und Designfähigkeit zeigt.
Bei etwas mehr als 50 % der Aufgaben in der gesamten hochwertigen GDPval-Teilmenge war die Ausgabe mindestens eines Modells besser oder gleichwertig mit der von menschlichen Experten.
OpenAI hat auch darauf hingewiesen, dass die Kombination von KI-Modellen mit menschlicher Überwachung möglicherweise wirtschaftlicher und effizienter ist als die alleinige Arbeit von menschlichen Experten.
Entweder das Modell zuerst probieren lassen und es bei Unzufriedenheit selbst ändern, oder direkt die Modellausgabe nutzen, oder das Modell nur einmal probieren lassen und dann selbst handeln, alle diese Modelle können Menschen Zeit und Kosten sparen.