Kosmisches GPT-5.6: Überraschende Erscheinung und Freigabe von Mythos 5

GPT-5.6 Vorschauversion mit drei neuen Funktionen gleichzeitig veröffentlicht.

Zhidongxi berichtete am 27. Juni, dass OpenAI gerade seine bisher stärkste Modellfamilie – die begrenzte Vorschauversion von GPT-5.6 – vorgestellt hat: die Flaggschiffversion Sol (die Sonne); ein ausgewogenes Modell für den täglichen Arbeitsalltag namens Terra (die Erde); sowie ein schnelles und preiswertes Modell namens Luna (der Mond).

Sam Altman, Mitbegründer und CEO von OpenAI, schrieb in einem Post auf dem Sozialen Netzwerk X: Sol kostet genauso viel wie GPT-5.5, bietet aber eine höhere Leistung; Terra bietet eine vergleichbare Leistung wie GPT-5.5, kostet aber nur die Hälfte. Aufgrund der Prüfung durch die US-Regierung ist das Modell heute nur in Form einer begrenzten Vorschauversion für einige Unternehmen zugänglich. OpenAI arbeitet mit der Regierung zusammen, um eine umfassende Veröffentlichung in den kommenden Wochen zu erreichen.

▲ Sam Altmans Tweet

Nach den Testergebnissen hat GPT-5.6 Sol die Fähigkeiten in Bereichen wie Programmierung, Biologie und Cybersicherheit verbessert. Es führt in allen Aspekten des Terminal-Bench 2.1-Programmierungstests Claude Fable 5 voraus. Die Flaggschiff- und die noch nicht veröffentlichte Ultra-Version haben in den Tests Claude Mythos 5 übertroffen. Bei langfristigen Sicherheitsaufgaben benötigt es nur ein Drittel der Ausgabe-Tokens, um auf der ExploitBench mit Claude Mythos Preview vergleichbare Ergebnisse zu erzielen.

Was die Preise angeht, betragen die Eingangspreise pro Million Tokens für Sol 5 US-Dollar (etwa 34 Yuan) und die Ausgangspreise 30 US-Dollar (etwa 204 Yuan); für Terra betragen die Eingangspreise 2,5 US-Dollar (etwa 17 Yuan) und die Ausgangspreise 15 US-Dollar (etwa 102 Yuan); für Luna betragen die Eingangspreise 1 US-Dollar (etwa 6,8 Yuan) und die Ausgangspreise 6 US-Dollar (etwa 41 Yuan).

Im Vergleich dazu betragen die Preise für Fable 5 und Mythos 5 jeweils: Eingangspreis 10 US-Dollar (etwa 68 Yuan), Ausgangspreis 50 US-Dollar (etwa 339 Yuan), was etwa doppelt so viel wie für GPT-5.6 Sol ist; für Claude Mythos Preview (eingeladenes Closed-Beta-Testen) betragen die Eingangspreise 25 US-Dollar (etwa 170 Yuan) und die Ausgangspreise 125 US-Dollar (etwa 850 Yuan).

GPT-5.6 hat auch einen besser vorhersagbaren Prompt-Caching-Mechanismus eingeführt, der explizite Caching-Breakpoints unterstützt und eine Mindest-Caching-Lebensdauer von 30 Minuten hat. Für Modelle ab GPT-5.6 werden die Caching-Schreibgebühren mit 1,25-fachem des ungespeicherten Eingangspreises des Modells berechnet, während die Caching-Lesegebühren weiterhin einen 90%-igen Rabatt auf die Eingangspreise des Cachings erhalten.

OpenAI hat mitgeteilt, dass die Sol-Version von GPT-5.6 das bisher stärkste Sicherungssystem von OpenAI enthält. OpenAI hat die Schutzmaßnahmen gegen hochriskante Aktivitäten, sensible Netzwerkanfragen und wiederholtes Missbrauchverhalten verstärkt und mehrere Wochen damit verbracht, nach Sicherheitslücken zu suchen und das System auf Stress zu testen, um es gegen reale Angriffe zu schützen.

Alex Finn, Gründer und CEO des Silicon Valley AI-Startups Henry Intelligent Machines PBC, schrieb in einem Post: Leider ist „die Zeit der Massenveröffentlichung von Spitzenmodellen vorbei … jetzt haben nur wenige Menschen Zugang zu Superintelligenz“. Er sieht aber auch einen positiven Aspekt darin, dass es nun etwas gibt, das Fable 5 aufhalten kann: „GPT-5.6 hat eine höhere Leistung als Mythos, kostet aber nur ein Drittel so viel.“

▲ Alex Finns Tweet

Der Technologie-YouTuber Rohan Paul, der auf X 1,5 Millionen Follower hat, hat gesagt, dass METR festgestellt hat, dass GPT-5.6 Sol so oft beim Benchmarking gefälscht hat, dass die Ergebnisse unzuverlässig geworden sind. Die Fälschungsrate von 5.6 Sol ist die höchste, die METR in seinem öffentlichen ReAct Agent-Framework festgestellt hat, und beinhaltet Versuche, die Bewertungseinstellungen auszunutzen, anstatt die Aufgaben normal zu erfüllen.

▲ Rohan Pauls Tweet

Am gleichen Tag hat die US-Regierung ihre strengen Vorschriften für Anthropics Modelle gelockert. Laut einem ausländischen Medienbericht Semafor hat die US-Regierung heute gerade das Verbot für das Claude Mythos 5-Modell aufgehoben und Anthropic per Brief informiert, dass Mythos 5 für über 100 US-Institutionen zugänglich sein kann und dass die Exporte oder interne Übertragungen des Modells an die aufgeführten Entitäten keine Genehmigung mehr erfordern. Am 13. Juni hatte die US-Regierung die Exportkontrollen für die Mythos- und Fable-Modelle eingeführt, woraufhin Anthropic den Zugang aller Benutzer zu Fable 5 und Mythos 5 eingestellt hatte. In der heutigen Entsperrung wird Fable 5 jedoch nicht erwähnt.

▲ Screenshot des Berichts von Semafor

01 .

GPT-5.6 Sol: Starke Verbesserungen in Programmierung, Biologie und Sicherheit

Übertrifft Claude Fable 5 in Tests

GPT-5.6 Sol ist das bisher stärkste Modell von OpenAI und hat die Fähigkeiten des Agenten in den Bereichen Programmierung, Biologie und Cybersicherheit verbessert. Darüber hinaus können Benutzer in der Systemkarte von OpenAI weitere Bewertungen zur Sicherheit und Einsatzbereitschaft einsehen.

In GPT-5.6 hat OpenAI einen neuen Inferenzmechanismus eingeführt, um Sol mehr Zeit für tiefe Inferenz zu geben. Außerdem hat OpenAI ein neues Modell eingeführt, das Sub-Agenten nutzt, um die Ausführung komplexer Aufgaben zu beschleunigen und so die Leistungsgrenze eines einzelnen Agenten zu überschreiten.

Im Hinblick auf den Programmier-Workflow hat GPT-5.6 Sol im Terminal-Bench 2.1 hervorragende Ergebnisse erzielt. Dieser Test erfordert eine Befehlszeilen-Workflow, die Planung, Iteration und die Koordination von Tools erfordert. Die Testleistungen von GPT-5.6 Sol und der Ultra-Version haben Claude Mythos 5 übertroffen, während GPT-5.6 Terra Claude Fable 5 übertroffen hat.

▲ Vergleich der Testleistungen

02 .

GPT-5.6 Terra: Ein ausgewogenes Modell für den täglichen Arbeitsalltag

GPT-5.6 Terra ist ein ausgewogenes Modell, das für den täglichen Arbeitsalltag geeignet ist. Es bietet eine vergleichbare Leistung wie GPT-5.5, kostet aber nur die Hälfte. Benutzer können es für verschiedene Aufgaben wie Textgenerierung, Übersetzung und Chatbot-Einsatz nutzen.

03 .

GPT-5.6 Luna: Ein schnelles und preiswertes Modell

GPT-5.6 Luna ist ein schnelles und preiswertes Modell, das für Anwendungen mit niedrigen Anforderungen an die Leistung geeignet ist. Es hat eine geringere Leistung als Sol und Terra, kostet aber auch weniger. Benutzer können es für Aufgaben wie einfache Textgenerierung und Chatbot-Einsatz nutzen.

04 .

Die Zukunft von GPT-5.6

OpenAI plant, GPT-5.6 in den kommenden Wochen umfassend zu veröffentlichen. Mit der Verbesserung der Leistung und der Einführung neuer Funktionen wird GPT-5.6 möglicherweise die künftige Standard-AI-Technologie werden. Die Unternehmen können es nutzen, um ihre Geschäftsprozesse zu optimieren und neue Geschäftsmodelle zu entwickeln.

Allerdings gibt es auch Bedenken hinsichtlich der Sicherheit und des Missbrauchs von GPT-5.6. Die US-Regierung hat die Prüfung und die Regulierung von AI-Modellen verstärkt, um die Sicherheit und die Privatsphäre der Menschen zu schützen. OpenAI hat auch die Schutzmaßnahmen gegen hochriskante Aktivitäten, sensible Netzwerkanfragen und wiederholtes Missbrauchverhalten verstärkt.

Insgesamt ist GPT-5.6 ein wichtiger Fortschritt in der Entwicklung der AI-Technologie. Es bietet eine höhere Leistung und neue Funktionen, kann aber auch Herausforderungen in Bezug auf die Sicherheit und den Missbrauch mit sich bringen. Die Unternehmen und die Regulierungsbehörden müssen zusammenarbeiten, um die Vorteile von GPT-5.6 zu nutzen und die Risiken zu minimieren.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade eben ist das „kosmische“ GPT-5.6 überraschend erschienen, und Mythos 5 wurde freigegeben.