Vorabmeldung zur internen Testphase von GPT - 5: Schlägt erstmals Menschen bei alltäglichen Schlussfolgerungen und zeigt starke Fähigkeiten in Programmierung, Mathematik und Wissenschaft

OpenAI hat eine Pressekonferenz um 1:00 Uhr heute Nacht angekündigt.

Die Ankündigung der angeblichen Veröffentlichung von GPT-5 ist erst vor kurzem herausgekommen, und die Möglichkeit, die interne Testversion auszuprobieren, ist bereits verfügbar.

Die logische Denkfähigkeit übertrifft erstmals die der Menschen und schlägt alle anderen großen Sprachmodelle.

Dies sind die Ergebnisse einer praktischen Testung eines Internetnutzers. Er hat alle Modelle in den Denkmodus versetzt und 10 Fragen gestellt. Nur GPT-5 hat nur eine Frage falsch beantwortet, was eine höhere Trefferquote als die der Menschen bedeutet.

Fast immer wurde die Antwort bei einem Versuch richtig gegeben, maximal bei zwei Versuchen. Andere große Sprachmodelle benötigten jedoch mehr Versuche.

Es ist kein Einzelfall. Einige Leute haben angegeben, dass ihre eigenen Testresultate sehr ähnlich waren und dass GPT-5 ebenfalls nur eine von 10 Fragen falsch beantwortet hat.

Außer seiner hervorragenden logischen Denkfähigkeit haben auch diejenigen, die Zugang zur internen Testversion haben, angegeben, dass GPT-5 auch in der Programmierung, in der Mathematik und bei der Lösung wissenschaftlicher Probleme sehr gut ist.

Kein Wunder also, dass einige Leute schon darüber Witze machen, dass GPT-5 Doktoren ersetzen könnte.

Wir wissen jetzt, dass OpenAI eine Pressekonferenz heute Abend angekündigt hat und dass das "s" in "livestream" durch eine "5" ersetzt wurde.

Und Sam Altman hat gerade ein Bild gepostet... Lasst uns mal raten.

Alles deutet darauf hin, dass die Veröffentlichung von GPT-5 bald ansteht. Lassen Sie uns zunächst einen Blick auf die vorab gemachten Entdeckungen werfen!

Logische Denk- und Programmierfähigkeiten sind aufmerksamkeitswert

Bislang sind die aufmerksamkeitswerten Fähigkeiten von GPT-5:

Logisches Denken

Programmierung

Lösung wissenschaftlicher Probleme

Mathematik

Zunächst in Bezug auf das logische Denken: Der Internetnutzer @invincibleHunter hat diese Fähigkeit in Copilot erlebt.

Obwohl das Modell seine Version nicht preisgegeben hat, kann man aufgrund der Tatsache, dass kürzlich bekannt wurde, dass das Smart-Modul von Copilot GPT-5 integriert, davon ausgehen, dass es sich um GPT-5 handelt.

Er hat insgesamt 10 Fragen getestet, ähnlich dieser logischen Aufgabe:

Beth legt am Anfang der ersten Minute vier komplette Eisklötze in eine Pfanne, am Anfang der zweiten Minute fünf, am Anfang der dritten Minute noch einige und in der vierten Minute keine. Wenn die durchschnittliche Anzahl der pro Minute in die Pfanne gelegten Eisklötze während des Bratkuchens fünf beträgt, wie viele komplette Eisklötze befinden sich am Ende der dritten Minute in der Pfanne?

Dann schaltet das Modell in den Denkmodus und beginnt mit der logischen Analyse.

Die einzige Frage, bei der es fehlgeschlagen ist, lautet:

Es gibt zwei Schwestern. Amy lügt immer, und Sam lügt auch immer. Sie können nicht unterscheiden, welche Schwester welche ist. Sie können einer der Schwestern eine Frage stellen, um zu ermitteln, welcher der beiden Wege zum Schatz führt. Welche Frage sollten Sie stellen, um den Schatz zu finden (wenn es zwei oder mehr Fragen gibt, die funktionieren, ist die richtige Antwort die kürzere Frage)?

A) Wenn ich Ihre Schwester fragen würde, welcher Weg zum Schatz führt, was würde sie sagen? B) Wie heißt Ihre Schwester? C) Wie lautet der Weg zum Schatz? D) Wenn Sie raten müssten, welchen Weg denken Sie, dass ich wählen würde? E) Was befindet sich im Schatz? F) Wie lautet die Telefonnummer Ihrer Schwester?

Die richtige Antwort ist C, GPT-5 hat A gewählt.

Der Tester hat jedoch angegeben, dass diese Frage sehr schwierig ist und dass er selbst auch fehlgeschlagen wäre.

Einige Leute haben Einwände gegen die Testresultate erhoben und argumentiert, dass diese Fragen aus öffentlichen Datensätzen stammen und möglicherweise in den Trainingsdaten des Modells enthalten sind.

Der Tester hat angegeben, dass die Antworten von GPT-5 lang und sehr genau waren und dass dies darauf hindeutet, dass GPT-5 tatsächlich denkt, um die Probleme zu lösen.

Außerdem wurde seine multimodale Fähigkeit getestet, und es konnte direkt ein Einhorn in SVG-Format generiert werden.

Im Vergleich zu den Ergebnissen von GPT-4 ist dies ein sprunghafter Fortschritt.

Zusätzlich haben zwei Personen, die Zugang zur internen Testversion haben, angegeben, dass sie der Meinung sind, dass GPT-5 in der Programmierung und bei der Lösung wissenschaftlicher/mathematischer Probleme sehr stark ist.

Allerdings haben sie auch angegeben, dass der Fortschritt von GPT-4 zu GPT-5 scheinbar nicht so deutlich ist wie der Fortschritt von GPT-3 zu GPT-4.

Die Gründe dafür könnten in den Trainingsdaten und der KI-Infrastruktur liegen.

Der sprunghafte Fortschritt von GPT-4 war hauptsächlich auf mehr Trainingsdaten und stärkere Rechenleistung zurückzuführen. OpenAI hat kontinuierlich an der Expansion seiner Rechenkapazität gearbeitet und keine erheblichen Hindernisse erlebt, aber das Problem des Mangels an Trainingsdaten ist schwer zu lösen.

Es gab auch Gerüchte, dass OpenAI Wissenschaftler eingestellt hat, um Trainingsdaten für GPT-5 zu schreiben.

Neuere Nachrichten deuten darauf hin, dass die Parameteranzahl von GPT-5 viel größer ist als die von GPT-4.

Ein weiterer Faktor ist die KI-Infrastruktur. Aufgrund der großen Größe des Modells ist die Vorhersagekomplexität exponentiell gestiegen. Forscher müssen warten, bis eine Vorhersage abgeschlossen ist, um die Leistung des Modells zu bestimmen, was Monate dauern kann und somit auch die Veröffentlichung von GPT-5 verzögert.

Andererseits ist der Wettbewerb auf dem Markt sehr stark. Google, Anthropic und andere Wettbewerber drängen OpenAI.

Beispielsweise haben diese beiden Unternehmen in der gleichen Woche, in der die Ankündigung von GPT-5 gemacht wurde, neue Modelle vorgestellt, um die Aufmerksamkeit zu erregen.

Es gibt auch Nachrichten, dass Google ein Open-Source-Modell veröffentlichen wird, um direkt mit OpenAI zu konkurrieren.

Deshalb ist Altmans Propagandastrategie in den letzten Wochen verständlich (nicht wirklich).

Alles deutet darauf hin, dass die Online-Veröffentlichung von OpenAI um 1 Uhr morgens (China-Zeit) am 8. August wahrscheinlich die Veröffentlichung von GPT-5 sein wird. Also, bleibt dran!

Schließlich war Altmans jüngster Tweet so verwirrend, dass viele Menschen nicht verstehen konnten, was er meint. Deshalb bitten viele Leute @grok, es zu erklären.

Die Antworten von Grok variieren. Nehmen Sie sie als Anhaltspunkt.

1. Dieses Foto zeigt die Todessternstation aus "Star Wars", eine Station, die Planeten zerstören kann. Sam Altman verwendet wahrscheinlich diese Metapher, um zu sagen, dass das kommende GPT-5 von OpenAI ein sehr starkes KI-Modell sein wird, das möglicherweise wie Googles Gemini 3.0 seine Konkurrenten dominieren wird. "Das ist kein Mond..." bedeutet, dass es viel mehr ist, als es auf den ersten Blick scheint.

2. Das ist kein Mond, sondern eine Raumstation. Genauer gesagt, ist dies ein künstlich generiertes Bild der Todessternstation aus "Star Wars", das von Sam Altman gepostet wurde. Es deutet wahrscheinlich auf eine wichtige Ankündigung von OpenAI wie die Veröffentlichung von GPT-5 hin. Spannende Zeiten liegen vor uns!

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Vorabmeldung zur internen Testphase von GPT-5: Bei alltäglichen Schlussfolgerungen hat es erstmals den Menschen geschlagen und verfügt über starke Fähigkeiten bei Programmier-, Mathematik- und Wissenschaftsfragen.

Logische Denk- und Programmierfähigkeiten sind aufmerksamkeitswert