StartseiteArtikel

OpenAI-Tests besagen, dass GPT-5 mit Experten vergleichbar ist.

36氪的朋友们2025-09-26 09:26
OpenAI hat den GDPval-Benchmark vorgestellt. GPT-5 und Claude Opus 4.1 nähern sich dem Expertenniveau.

OpenAI hat angegeben, dass sein GPT-5-Modell sowie das Claude Opus 4.1 des Wettbewerbers Anthropic "schon der Arbeitsqualität von Branchenexperten nahekommen".

Am Donnerstag (25. September, Ortszeit) hat das Künstliche-Intelligenz-(KI)-Forschungsunternehmen OpenAI einen neuen Benchmark-Test veröffentlicht, um die Arbeitsleistung seiner KI-Modelle mit der von Fachleuten aus verschiedenen Branchen zu vergleichen.

Dieser Test heißt GDPval und ist ein erster Versuch, um zu bewerten, wie nahe OpenAIs Systeme der Übertreffung von Menschen bei arbeitsaufwändigen Aufgaben mit wirtschaftlichem Wert sind. Und arbeitsaufwändige Aufgaben mit wirtschaftlichem Wert sind ein Schlüsselschritt bei der Entwicklung von allgemeiner Künstlicher Intelligenz (AGI) durch OpenAI.

OpenAI hat am Donnerstag angegeben, dass sein GPT-5-Modell sowie das Claude Opus 4.1 des Wettbewerbers Anthropic "schon der Arbeitsqualität von Branchenexperten nahekommen".

Das bedeutet nicht, dass OpenAIs Modelle sofort menschliche Arbeitsplätze ersetzen werden. Obwohl einige CEOs vorhersagen, dass KI in wenigen Jahren Menschen ersetzen wird, gibt OpenAI zu, dass GDPval derzeit nur einen begrenzten Teil der tatsächlichen Arbeitsaufgaben von Menschen abdeckt. Dennoch ist dies eine der neuesten Methoden des Unternehmens, um den Fortschritt der KI in Richtung dieses Meilensteins zu messen.

GDPval basiert auf neun Branchen, die den größten Beitrag zum US-Bruttoinlandsprodukt (BIP) leisten, einschließlich Gesundheitswesen, Finanzwesen, Fertigungsindustrie und Regierung. Der Test deckt 44 Berufe ab, von Softwareingenieuren über Krankenschwestern bis hin zu Journalisten.

In der ersten Version, GDPval-v0, hat OpenAI erfahrene Fachleute eingeladen, von KI generierte Berichte mit den Ergebnissen anderer Fachleute zu vergleichen und den besseren auszuwählen.

Beispielsweise wurde in einer Aufgabe gefordert, dass Investmentbanker eine Wettbewerbsanalyse für die "Letzte-Meile-Lieferbranche" erstellen und diese mit einem von KI generierten Bericht vergleichen. OpenAI hat anschließend den "Gewinnanteil" des KI-Modells im Vergleich zu menschlichen Berichten in allen 44 Berufen durchschnittlich berechnet.

Die Ergebnisse zeigen, dass GPT-5-high (die Hochleistungsversion von GPT-5) in 40,6 % der Fälle als besser oder gleichwertig wie die Branchenexperten bewertet wurde.

Das Claude Opus 4.1-Modell von Anthropic wurde hingegen in 49 % der Aufgaben als nicht schlechter als die Branchenexperten bewertet, was die Leistung von OpenAIs Modell übertrifft.

OpenAI hat dies damit erklärt, dass Claude teilweise höhere Punktzahlen erzielt, weil es tendenziell ansprechender gestaltete Diagramme erzeugt, und nicht weil es rein technisch besser performt.

Es sei angemerkt, dass die Arbeit in den meisten Berufen weit über das Einreichen von Forschungsberichten hinausgeht, was jedoch alles ist, was GDPval-v0 testet. OpenAI gibt dies zu und plant, in Zukunft umfassendere Tests zu entwickeln, die mehr Branchen und interaktive Arbeitsabläufe abdecken.

Trotzdem hält OpenAI den Fortschritt von GDPval für von großer Bedeutung.

Der Chefökonom von OpenAI, Aaron Chatterji, hat in einem Interview angegeben, dass die Testergebnisse von GDPval zeigen, dass Menschen in diesen Positionen KI-Modelle nutzen können, um Zeit zu sparen und sich auf sinnvollere Aufgaben zu konzentrieren.

"Da die Modelle inzwischen sehr gut in manchen Dingen geworden sind, können Menschen mit zunehmender Fähigkeit des Modells immer mehr Aufgaben an es abgeben und sich auf potentiell wertvollere Dinge konzentrieren", sagte Chatterji.

Tejal Patwardhan, Leiterin der Bewertungen bei OpenAI, hat angegeben, dass sie von der Geschwindigkeit des Fortschritts von GDPval ermutigt sei.

Patwardhan hat darauf hingewiesen, dass das vor etwa 15 Monaten veröffentlichte GPT-4o-Modell nur einen Anteil von 13,7 % (Gewinn oder Gleichstand gegenüber Menschen) erreichte, während die Leistung von GPT-5 fast verdreifacht wurde. Sie erwartet, dass dieser Trend auch weiterhin anhält.

Dieser Artikel stammt aus dem WeChat-Account "Kechuangban Daily", Autor: Xia Junxiong, veröffentlicht von 36 Kr mit Genehmigung.