StartseiteArtikel

Gerade haben ChatGPT und Claude beide eine große Aktualisierung erhalten. Arbeiter, die nicht in der Lage sind, KI als Mitarbeiter zu managen, werden aus der Konkurrenz gedrängt.

爱范儿2026-02-06 07:00
Der Mars stößt auf die Erde.

Gerade eben hat sich im Silicon Valley AI-Szene ein Schauspiel wie "Mars trifft die Erde" abgespielt.

OpenAI und Anthropic haben, als hätten sie sich verabredet, gleichzeitig ihre sensationellen Updates präsentiert: Claude Opus 4.6 und GPT-5.3-Codex.

Wenn wir noch gestern Abend darüber diskutierten, wie man gute Prompts schreibt, um die Arbeit zu unterstützen, müssen wir vielleicht ab heute lernen, wie man als Boss künstliche Intelligenz-"Mitarbeiter" managt.

KI schafft KI und übernimmt deinen Computer

Gerade gestern hat Sam Altman auf der Plattform X über das Meilenstein von "Millionen aktiver Nutzer" von Codex gefeiert. Nur einen Tag später hat OpenAI erneut auf den Sieg aufgebaut und eine Bombe geworfen -

GPT-5.3-Codex.

In der technischen Dokumentation verbirgt sich ein äußerst wichtiger Satz: "Dies ist unser erstes Modell, das bei seiner eigenen Schaffung eine Schlüsselrolle gespielt hat."

Mit anderen Worten: Die KI hat gelernt, selbst Code zu schreiben, eigene Fehler zu finden und sogar die nächste Generation von KI zu trainieren. Diese Fähigkeit zur Selbstentwicklung spiegelt sich auch direkt in einer Reihe von Benchmark-Daten wider.

Erinnern Sie sich noch an den OSWorld-Verified-Benchmark, der menschliche Computerbedienungen simuliert? Das Vorgängermodell erreichte nur eine Genauigkeit von 38,2 %, was nicht einmal die Passnote erreichte. Aber diesmal ist die Genauigkeit von GPT-5.3-Codex direkt auf 64,7 % gestiegen.

Beachten Sie, dass der durchschnittliche menschliche Wert nur bei 72 % liegt. Dies bedeutet, dass die KI nur noch einen Katzensprung entfernt ist, um so geschickt wie Sie mit der Maus umzugehen, zwischen Fenstern zu wechseln und Software zu bedienen. Es fehlt nur noch das letzte Stück.

Und im Terminal-Bench 2.0 (Benchmark für Befehlszeilenoperationen) hat es sogar eine beachtliche 77,3 % erreicht und GPT-5.2 (62,2 %) weit hinter sich gelassen.

Im SWE-Bench Pro-Benchmark, der vier Programmiersprachen abdeckt, nicht nur resistent gegen Störungen ist, sondern auch aus echten, anspruchsvollen Engineering-Problemen besteht, hat GPT-5.3-Codex ebenfalls ein SOTA-Niveau erreicht und dabei weniger Token als jedes andere bisherige Modell verwendet.

OpenAI hat sogar seine Fähigkeit zur unabhängigen Entwicklung gezeigt:

Innerhalb weniger Tage hat es von Grund auf ein Rennspiel v2 mit mehreren Karten erstellt und gleichzeitig ein Tiefseetauchspiel mit einem Sauerstoffmanagementsystem entwickelt.

Am beeindruckendsten an GPT-5.3-Codex ist seine Fähigkeit, unklare Absichten zu verstehen.

Beim Erstellen einer Landingpage hat es automatisch das Jahresabonnement in einen ermäßigten monatlichen Zahlungsbetrag umgerechnet und sogar automatisch eine Benutzerbewertungs-Slideshow ergänzt - all dies ohne dass Sie es ihm sagen mussten.

OpenAIs Ambitionen stehen auf der Hand: Früher hat Microsoft oft gesagt, dass die KI der Beifahrer (Copilot) des Menschen werden würde. Aber jetzt will die KI lieber der Fahrer sein, der das Lenkrad in der Hand hat und sogar das Auto reparieren kann.

Übrigens, da ist noch ein interessanter Detail.

Bisher hat es Gerüchte gegeben, dass OpenAI mit den NVIDIA KI-Chips nicht zufrieden sei. Aber in diesem offiziellen Blogbeitrag wird speziell betont, dass die Entwicklung, das Training und die Implementierung von GPT-5.3-Codex auf dem NVIDIA GB200 NVL72-System durchgeführt wurden.

Diese geschickte "Danksagung an NVIDIA" hat Huang Renxun sicherlich gefreut.

Abschied von der "Goldfisch-Gedächtnis" - Claude kehrt mit einem Gegenangriff zurück

Fast gleichzeitig mit der Veröffentlichung von GPT-5.3-Codex hat Anthropic auch sein eigenes "Frühlingsgeschenk" präsentiert.

Die schlechte Nachricht ist, dass das erwartete Claude "Mittelglas" - das Sonnet-Modell - nicht aktualisiert wurde. Aber die gute Nachricht ist, dass Anthropic direkt das "Extra-Large-Glas" - Claude Opus 4.6 - herausgeholt hat.

Im Gegensatz zu OpenAIs aggressiver Vorgehensweise setzt Anthropic mit der heutigen Veröffentlichung von Claude Opus 4.6 auf Nachdenklichkeit und Zuverlässigkeit.

Viele Unternehmensnutzer haben ein Problem namens "Context Rot" (Kontextverschlechterung): Die KI soll 200.000 Kontext-Token unterstützen, aber sobald man zu viele Daten eingibt, verliert sie den Überblick.

Diesmal hat Claude Opus 4.6 Daten präsentiert, die wie eine "Dimensionale Attacke" wirken.

Im MRCR v2-Test (Suchen im Heuhaufen) hat Claude Opus 4.6 eine Recall-Rate von 76 % erreicht.

Zum Vergleich: Das Vorgängermodell Sonnet 4.5 erreichte nur erbärmliche 18,5 %. In gewisser Weise ist dies eine qualitative Veränderung von praktisch unbrauchbar zu hochzuverlässig.

Dies liegt daran, dass Claude Opus 4.6 erstmals ein wirklich nutzbares 1-Millionen-Kontextfenster eingeführt hat.

Was bedeutet das? Das bedeutet, dass Sie Hunderte von Seiten Finanzberichten oder Hunderttausende von Codezeilen direkt an es geben können, und es kann nicht nur alles lesen, sondern auch präzise sagen, dass die Zahl in der Fußnote auf Seite 342 falsch ist.

Darüber hinaus unterstützt es jetzt auch eine maximale Ausgabe von 128.000 Token. Was heißt das? Sie können es bitten, einen umfangreichen Forschungsbericht oder einen komplexen Codebase in einem Zug zu schreiben, ohne dass Sie wegen der Zeichenbegrenzung abbrechen müssen.

Außer gutem Gedächtnis hat Opus 4.6 diesmal auch im Bereich Intelligenz dominiert:

Im GDPval-AA-Test (eine Bewertung für finanzielle, rechtliche und andere hochwertige Aufgaben) hat Opus 4.6 einen Elo-Score von 144 Punkten höher als das zweitbeste Modell auf dem Markt (OpenAIs GPT-5.2) und 190 Punkte höher als sein Vorgänger erreicht.

Im komplexen Multidisziplinär-Inferenz-Test "Humanity's Last Exam" hat es alle führenden Modelle hinter sich gelassen.

Im BrowseComp-Test, der die Fähigkeit, "schwer zu findende Informationen" im Internet zu finden, misst, hat es ebenfalls die beste Leistung gezeigt.

Über diese Daten scheint Anthropic ein Signal zu senden: Wenn Sie Code schreiben möchten, wenden Sie sich an OpenAI. Wenn Sie komplexe geschäftliche Entscheidungen, rechtliche Dokumente oder Finanzanalysen bearbeiten möchten, ist Claude die einzige Wahl.

Noch beeindruckender für die Arbeitnehmer sind seine Produktivitätsfunktionen.

Einerseits hat Anthropic jetzt Claude direkt in Excel und PowerPoint integriert. Es kann direkt auf der Grundlage von Excel-Daten eine Präsentation erstellen, dabei nicht nur das Layout beibehalten, sondern auch Schriftarten und Vorlagen anpassen. Im Claude Cowork-Zusammenarbeitsumfeld kann es sogar autonom Mehrfachaufgaben bearbeiten.

Andererseits hat Anthropic in Claude Code die experimentelle Funktion "Agent Teams" eingeführt, so dass auch normale Entwickler das Gefühl haben können, "ein Heer von Truppen zu befehligen":

Rollenaufteilung: Sie können eine Claude-Sitzung als Teamleiter (Team Lead) festlegen. Dieser übernimmt keine mühsamen Aufgaben, sondern ist speziell für die Aufgabezerlegung, die Arbeitsaufteilung und den Code-Merge zuständig. Die anderen Sitzungen sind die Teammitglieder (Teammates), die ihre Aufgaben selbst erledigen.

Unabhängiger Einsatz: Jedes Teammitglied hat ein eigenes Kontextfenster (keine Sorge um Token-Überschreitung). Sie können sogar untereinander Nachrichten senden (Inter-agent messaging), um technische Details zu besprechen und am Ende nur das Ergebnis an den Teamleiter zu melden.

Paralleles Rennen: Wofür ist das gut? Stellen Sie sich vor, Sie suchen einen hartnäckigen Fehler. Sie können fünf Agenten erstellen, die jeweils fünf verschiedene Hypothesen überprüfen, wie beim "Pferderennen" parallel die Fehler ausschließen. Oder bei der Code-Review können Sie ein Teammitglied als "Sicherheitsexperten" einsetzen, um Sicherheitslücken zu finden, und ein anderes als "Architekten", um die Leistung zu prüfen, ohne sich gegenseitig zu stören.

Um die Grenzen von Opus 4.6 zu zeigen, hat Anthropics Forscher Nicholas Carlini ein verrücktes Experiment durchgeführt: Agent Teams (Intelligenz-Agenten-Teams).

Er hat nicht selbst Code geschrieben, sondern stattdessen 20.000 US-Dollar an API-Kontingent zur Verfügung gestellt und 16 Claude Opus 4.6-Systeme zu einem "vollautomatischen Softwareentwicklungsteam" zusammengeschlossen.

Das Ergebnis war, dass diese KIs innerhalb von nur zwei Wochen über 2.000