StartseiteArtikel

Der stärkste "Niu Ma" (eine chinesische Bezeichnung für Leute, die hart arbeiten) und Sniper, der König des Programmierens. OpenAI und Anthropic haben in der späten Nacht gleichzeitig große Schritte unternommen.

字母AI2026-02-06 09:12
Claude Opus 4.6 vs. GPT-5.3 Codex, Countdown zur Börsengangseröffnung

Dieser Tag im Jahr 2026 wird bestimmt in die Geschichte der Künstlichen Intelligenz eingehen.

Claude Opus 4.6 und GPT-5.3 Codex wurden innerhalb von weniger als einer Stunde nacheinander veröffentlicht.

Es scheint, dass beide Unternehmen einen Wettlauf anlegen und sich an einem bestimmten Zeitpunkt gegenseitig zeigen wollen, was sie können.

Hinter diesem "Kollisionskurs" verbirgt sich ein Wettstreit um Kapital, Technologie und Marktmacht.

Vor nur zwei Wochen hat Nvidia gerade angekündigt, 10 Milliarden US-Dollar in Anthropic zu investieren. Diese Summe hat den Unternehmenswert von Anthropic auf 350 Milliarden US-Dollar katapultiert.

Weniger als 72 Stunden nach Bekanntgabe dieser Nachricht hat Nvidia sich umgedreht und OpenAI 20 Milliarden US-Dollar zugeführt.

Jensen Huang hat seinen Plan gut durchdacht: Indem er auf beide Seiten setzt, gewinnt er auf jeden Fall.

Aber für Anthropic und OpenAI geht es nicht nur darum, Geld zu bekommen.

Beide Unternehmen planen, im zweiten Halbjahr 2026 bis etwa 2027 den Börsengangsprozess zu starten. Jetzt ist es der entscheidende Moment, um ihre technologischen Fähigkeiten zu beweisen und die Marktmacht zu erringen.

Investoren wollen nicht nur Versprechungen auf Papier sehen, sondern reale Produkte.

Wer das stärkere Modell hat und in der Praxis überzeugender ist, kann beim IPO einen höheren Preis verlangen und mehr Spielkarten in die Hand bekommen.

Zwei Tiger können nicht auf einem Berg leben. Anthropic und OpenAI müssen dem anderen beweisen, wer der Boss ist.

Deshalb ist dieser Produktionsrhythmus kein Zufall, sondern ein gezieltes Gegenübertreten.

Beide Unternehmen wissen, dass jeder Produktstart zu diesem Zeitpunkt eine Art Finanzierungsroadshow ist und jeder technologische Durchbruch direkt die Urteile der Investoren und die Markt-Erwartungen beeinflusst.

Aber wenn man sich die Produkte selbst ansieht, haben beide Unternehmen wirklich ihr Bestes gegeben.

Claude Opus 4.6

Beim Upgrade der Claude Opus-Serie hat Anthropic den Schwerpunkt auf "klügeres Denken" gelegt.

Die markanteste Veränderung an Opus 4.6 ist, dass es "adaptive thinking" gelernt hat. Das Modell passt automatisch die Tiefe des Denkens an die Komplexität der Aufgabe an. Es verbringt mehr Zeit mit schwierigen Fragen und arbeitet einfache Aufgaben schnell ab.

In Bezug auf die Codierungsfähigkeiten hat Opus 4.6 in der Terminal-Bench 2.0-Testung die Höchstnote erreicht.

Dieser Test misst speziell die Fähigkeit der KI, in einer Terminalumgebung zu operieren. Das Modell muss wissen, wann welches Kommando verwendet werden soll, wie verschiedene Tools kombiniert werden können und wie man aus Fehlermeldungen das Problem findet.

Das ist vergleichbar damit, zu prüfen, ob ein Programmierer verschiedene Entwicklungstools beherrscht. Es geht nicht nur darum, Code zu schreiben, sondern auch, ihn zu debuggen, zu deployen und Logs zu lesen, um Fehler zu finden.

Noch wichtiger ist, dass Opus 4.6 das erste Opus-Modell von Anthropic ist, das ein Kontextfenster von 1 Million Tokens bietet. Diese Zahl bedeutet, dass das Modell auf einmal die Textmenge von zwei mittelformatigen Romanen verarbeiten kann.

In der Langtextverarbeitungstestung hat Opus 4.6 in der 8-needle 1M-Variante von MRCR v2 76 % erreicht, während die Vorgängerversion Sonnet 4.5 nur 18,5 % erreichte.

Einfacher ausgedrückt: Man gibt dem Modell eine Menge Dokumente und stellt dann eine Frage, die eine Synthese aus verschiedenen Informationen erfordert.

Frühere Modelle "vergaßen" die vorherigen Inhalte oder konnten die wichtigen Informationen nicht finden. Opus 4.6 kann in einer riesigen Textmenge die benötigten Informationen genau lokalisieren und zeigt keine Leistungseinbußen aufgrund der Länge der Dokumente.

In der Bewertung der Fähigkeiten für geistige Arbeit (GDPval-AA) hat Opus 4.6 etwa 144 Elo-Punkte mehr als OpenAIs GPT-5.2 und 190 Punkte mehr als seine Vorgängerversion Opus 4.5 erreicht. Dieser Test umfasst reale Arbeitsaufgaben aus den Bereichen Finanzen, Recht usw., wie z. B. die Erstellung von Finanzanalysen, Rechtsdokumenten und Marktforschungen.

Anthropic hat auch auf Produktebene viele Anpassungen vorgenommen.

Claude Code unterstützt jetzt die Funktion "agent teams". Dadurch können mehrere KI-Agenten gleichzeitig gestartet werden, die jeweils verschiedene Teilaufgaben übernehmen und ihre Arbeit automatisch koordinieren.

Diese Funktion ist besonders nützlich für große Code-Bibliotheken, da die Arbeit auf verschiedene Agenten aufgeteilt und parallel bearbeitet werden kann.

In Bezug auf die Integration in Bürosoftware hat Anthropic eine Forschungs-Vorschauversion von Claude in PowerPoint veröffentlicht und Claude in Excel stark verbessert.

Jetzt kann Claude direkt in Excel komplexere Aufgaben bearbeiten, wie z. B. die Bearbeitung von Pivot-Tabellen, die Änderung von Diagrammen und die bedingte Formatierung. In PowerPoint kann Claude die bestehenden Layouts, Schriftarten und Master-Designs verstehen und dann neue Folien in diesem Stil erstellen.

Das bedeutet, dass die KI tatsächlich in Ihre täglichen Arbeitswerkzeuge integriert wird. Sie müssen nicht mehr hin und her kopieren und einfügen, sondern können direkt in der Seitenleiste von Excel oder PowerPoint mit Claude kommunizieren, und es hilft Ihnen, Tabellen zu bearbeiten, Diagramme zu erstellen und Präsentationen zu generieren.

Außerdem lernt es Ihren Stil, so dass die Ergebnisse nicht fremd aussehen.

Auf API-Ebene hat Anthropic den Parameter "effort" eingeführt, der vier Stufen (niedrig, mittel, hoch, höchst) bietet.

Entwickler können je nach Komplexität der Aufgabe die geeignete Stufe auswählen und so einen Kompromiss zwischen Kosten, Geschwindigkeit und Qualität finden. Es gibt auch die Funktion "context compaction". Wenn das Gespräch sich der Grenze des Kontextfensters nähert, wird der frühere Inhalt automatisch zusammengefasst und ersetzt, so dass langlaufende Aufgaben nicht wegen Überschreitung der Grenze unterbrochen werden.

Man kann es sich als mehr Kontrolle für die Entwickler vorstellen.

Für einfache Aufgaben verwendet man die niedrige Stufe, um Geld und Zeit zu sparen. Für komplexe Aufgaben wählt man die hohe Stufe, um die Qualität zu gewährleisten. Wenn das Gespräch zu lang wird, komprimiert das System automatisch den früheren Inhalt, so dass man weiter kommunizieren kann.

In Bezug auf die Sicherheit hat Anthropic die umfassendste Sicherheitsbewertung aller Zeiten durchgeführt.

Opus 4.6 zeigt in der automatisierten Verhaltensprüfung eine niedrige Rate an unangemessenem Verhalten, einschließlich Täuschung, Schmeichelei, Ermutigung von Nutzerwahnvorstellungen und Mitwirkung bei Missbrauch.

Da die Fähigkeiten von Opus 4.6 in Bezug auf die Netzwerksicherheit deutlich verbessert sind, hat Anthropic sechs neue Netzwerksicherheits-"Sonden" entwickelt, um potenziellen Missbrauch zu erkennen.

Gleichzeitig verwenden sie dieses Modell auch, um Open-Source-Software auf Sicherheitslücken zu prüfen und diese zu beheben, um auch den Verteidigern die Macht der KI zur Verfügung zu stellen.

Advancing Finance: Tiefe Anwendung im Finanzsektor

Anthropic hat einen Artikel veröffentlicht, in dem die Anwendung von Claude Opus 4.6 im Finanzsektor ausführlich beschrieben wird.

In der Finanzarbeit müssen Fachleute von der KI drei Dinge erwarten: Recherche, Analyse und die Erstellung von Ergebnissen. Opus 4.6 hat in all diesen drei Dimensionen Spitzenwerte erreicht.

In Bezug auf die Recherchefähigkeiten hat Opus 4.6 in den beiden Benchmark-Tests BrowseComp und DeepSearchQA Verbesserungen erzielt.

Diese beiden Tests messen die Fähigkeit des Modells, spezifische Informationen aus einer großen Menge unstrukturierter Daten zu extrahieren.

Für Finanzanalysten bedeutet das, dass sie eine Reihe von Unternehmensberichten, Branchenstudien und Nachrichtenartikeln an die KI geben können und dann eine sehr spezifische Frage stellen, und die KI kann eine gezielte Antwort geben, anstatt eine allgemeine Zusammenfassung.

Wenn Sie früher der KI einen Unternehmensbericht gegeben und gefragt haben, wie die Rentabilität des Unternehmens sei, hätte sie Ihnen vielleicht einen langen Text gegeben und dann den Berichtinhalt einfach wiederholt.

Jetzt kann sie Ihnen direkt sagen, was die Schlüsselindikatoren sind, wie es im Vergleich zum Branchendurchschnitt aussieht und welche Risikofaktoren es gibt.

In Bezug auf die Analysefähigkeiten hat Opus 4.6 im externen Benchmark-Test Finance Agent eine Genauigkeit von 60,7 % erreicht, was 5,47 Prozentpunkte mehr als Opus 4.5 ist.

Im Steuerbewertungstest TaxEval hat Opus 4.6 ebenfalls das Spitzenergebnis von 76 % erreicht.

Anthropic hat einen Vergleich mit einer geschäftlichen Due-Diligence-Aufgabe durchgeführt. Sie haben Claude Opus 4.6 aufgefordert, ein potenzielles Akquisitionsziel zu bewerten. Eine solche Aufgabe würde normalerweise einen erfahrenen Analysten zwei bis drei Wochen dauern.

Aber die erste Ausgabe von Opus 4.6 war in Bezug auf Struktur, Inhalt und Format näher an einem direkt verwendbaren Standard als die von Opus 4.5.

Das bedeutet, dass Sie die Ergebnisse jetzt nur noch geringfügig anpassen müssen, um sie verwenden zu können. Dies ist für Finanzfachleute, die schnell Berichte und Präsentationen erstellen müssen, eine echte Effizienzsteigerung.

Anthropics interne "echte Welt der Finanzanalyse" umfasst etwa 50 Anwendungsfälle für Investitionen und Finanzanalysen, einschließlich der Erstellung und Überprüfung von Tabellen, Folien und Dokumenten.

Dies sind übliche Aufgaben für Analysten in Investmentbanken, Private-Equity-Firmen, öffentlichen Märkten und Unternehmensfinanzen. Opus 4.6 hat im Vergleich zu Sonnet 4.5 vor einigen Monaten um mehr als 23 Prozentpunkte verbessert.

In Kombination mit der neuen Funktion Cowork können Finanzteams mehrere Analyseaufgaben gleichzeitig starten. Cowork ermöglicht es Claude, auf einen bestimmten lokalen Ordner zuzugreifen und direkt darin Dateien zu lesen, zu bearbeiten und zu erstellen.

Für Finanzteams bedeutet das, dass sie mehrere Analyseaufgaben auf einmal zuweisen können und gleichzeitig den Prozess der Erstellung jeder Ausgabe durch Claude überwachen können, um sicherzustellen, dass er ihren Standards entspricht.

GPT-5.3 Codex: Ein sich selbst trainierendes Modell

Wenige Minuten nach der Veröffentlichung von Claude Opus 4.6 hat Sam Altman plötzlich einen Post auf X gepostet und die Veröffentlichung von GPT-5.3 Codex angekündigt.

Hier stell ich mich auch im Namen von Alphabet AI Sam Altman und Dario Amodei gegenüber und habe ihre Posts geliked und geteilt.

Das beeindruckendste an GPT-5.3 Codex ist, dass es wie ein menschlicher Kollege arbeiten kann und während der Arbeit mit Ihnen überlegen kann.

Frühere KIs arbeiteten "wie Sie es sagen". GPT-5.3 Codex fragt "bei Problemen sofort nach".

Wenn Sie es mit einer komplexen Aufgabe betrauen, kann es sich selbst einige Stunden oder sogar Tage Zeit nehmen, meldet Ihnen zwischendurch den Fortschritt und fragt um Ihre Meinung. Sie können jederzeit eingreifen und die Richtung ändern.

Interessanterweise hat OpenAI die frühen Versionen von GPT-5.3 Codex genutzt, um die späteren Versionen zu entwickeln. Das heißt, die KI hilft bei der Fehlersuche, der Optimierung des Trainingsablaufs und des Systems. Das OpenAI-Team sagt, dass dies die Entwicklungsgeschwindigkeit enorm beschleunigt hat.

GPT-5.3 Codex hat in mehreren Benchmark-Tests neue Branchenrekorde aufgestellt. In SWE-Bench Pro hat es eine Genauigkeit von 56,8 % erreicht. Dies ist eine strenge Bewertung der Softwareentwicklung in der realen Welt.

Im Gegensatz zu SWE-Bench Verified, das nur Python testet, deckt SWE-Bench Pro vier Programmiersprachen ab. Es ist resistenter gegen Störungen, anspruchsvoller, vielfältiger und näher an der Branche.

In Terminal-Bench 2.0 hat GPT-5.3 Codex 77,3 % erreicht, weit über den vorherigen 64 %.

Dieser Test misst die Terminalfähigkeiten, die ein Code-Agent benötigt, d. h. die Fähigkeit, verschiedene Operationen in einer Befehlszeilenumgebung auszuführen. Bemerkenswerterweise verwendet GPT-5.3 Codex weniger Tokens als jedes andere vorherige Modell, was bedeutet, dass die Nutzer mit den gleichen Kosten mehr erreichen können.

In OSWorld-Verified hat GPT-5.3 Codex 64,7 % erreicht, während GPT-5.2-Codex nur 38,2 % erreichte.

Dies ist ein Benchmark-Test für die Nutzung eines Computers. Die KI muss in einer visuellen Desktop-Umgebung Produktivitätsaufgaben erledigen. Menschen erreichen in diesem Test etwa 72 %. GPT-5.3 Codex ist bereits nahe am menschlichen Niveau.

In Bezug auf die Webentwicklung hat OpenAI ein Vergleichsbeispiel gezeigt: GPT-5.3 Codex und GPT-5.2-Codex sollten jeweils eine Landingpage für ein SaaS-Produkt erstellen.

GPT-5.3 Codex zeigt das Jahresabo automatisch als ermäßigten monatlichen Preis an, so dass das Angebot klarer und zielgerichteter erscheint, anstatt einfach die Jahresgesamtsum