Elon Musk hat versehentlich preisgegeben, dass Claude Opus 5T Parameter hat und Sonnet 1T.
Oh, hat Elon Musk versehentlich die Parameter von Claude preisgegeben?
Kurz gesagt: Sonnet 1T, Opus 5T.
Der Grund war, dass Musk in einem Beitrag schrieb, dass die Colossus 2 Supercomputer von xAI derzeit 7 Modelle trainiert, wobei das größte Modell direkt auf 10 Billionen Parameter kommt.
Vollständige Liste:
Imagine V2
2 Variantenmodelle mit 1 Billion (1T) Parametern
2 Variantenmodelle mit 1,5 Billionen (1,5T) Parametern
Ein Modell mit 6 Billionen (6T) Parametern
Ein Modell mit 10 Billionen (10T) Parametern
P.S. Colossus 2 ist Teil von Musks Macrohard - Plan. Laut Informationen, die im August 2025 veröffentlicht wurden, wurden in Colossus 2 119 luftgekühlte Kältemaschinen installiert, die eine Kühlleistung von etwa 200 MW bieten und für etwa 110.000 GB200 NVL72 GPU ausreichen.
Nach dem damaligen Plan sollen in der ersten Phase von Colossus 2 110.000 NVIDIA GB200 GPU eingesetzt werden, und das Endziel ist es, über 550.000 GPU zu erreichen. Der Spitzenleistungsbedarf wird auf über 1,1 GW geschätzt.
Dieser Tweet war auch einer der wenigen Fälle, in denen Musk den konkreten Trainingsplan des Colossus - Supercomputers öffentlich machte.
Sobald die Nachricht verbreitet wurde, wurden die Netizens neugierig, und Musk schien auch gut drauf zu sein und beantwortete viele Fragen.
Beispielsweise fragte jemand: "Wie lange dauert es ungefähr, ein 10T - Modell zu trainieren?" Musk antwortete, dass die Vor-Trainingsphase etwa 2 Monate dauert.
Nun, es gab so ein Gespräch.
Die Anzahl der Parameter von Grok 4.2 beträgt nur 5 % des größten derzeit von xAI trainierten Modells. Das heißt, 500 Milliarden (500B) im Vergleich zu 10 Billionen (10T), wobei letzteres das 20 - fache des ersteren ist.
Hat Grok 4.2 wirklich insgesamt 500B Parameter? Oder ist es nur, dass in einem größeren MoE - Modell die aktivierten Parameter 500 Milliarden betragen?
Angesichts der Fragen antwortete Musk persönlich:
Die Gesamtzahl der Parameter beträgt 0,5T (500 Milliarden). Das aktuelle Grok hat die halbe Anzahl von Parametern wie Sonnet und ein Zehntel wie Opus. Bei seiner Größe ist es ein sehr starkes Modell.
Die Netizens bemerkten sofort die auffälligen Informationen. Das heißt, Sonnet hat 1T und Opus hat 5T Parameter.
Also fragte jemand nach:
Reine Neugier: Wie weißt du (Musk), wie groß Sonnet und Opus sind?
Hierzu schweigte Musk. Die von den Netizens gestellten Punkte sind durchaus berechtigt: "Spitze Talente wechseln zwischen diesen wenigen Unternehmen, und es scheint, dass keine Geheimnisse lange verborgen bleiben können."
Die Parameter der verschiedenen Claude - Versionen, geschätzt von Netizens
Seit der Einführung der Claude - Modellreihe hat Anthropic die Parametergröße streng geheim gehalten. Ob Opus oder Sonnet, nichts wurde preisgegeben.
Je weniger sie sagt, desto aktiver diskutieren die Netizens.
Wir haben mit KI die verschiedenen von den Netizens analysierten und diskutierten Parametergrößen der Claude - Versionen zusammengefasst.
Tatsächlich stimmen die neuesten Modelle Claude 4.6 Sonnet ~1 - 2T, Claude 4.6 Opus ~1,5 - 2,5T/2 - 5T mit Musks versehentlich preisgegebenen "Sonnet 1T, Opus 5T" überein.
Schauen wir uns konkret an, was die Netizens diskutiert haben.
Derzeit gibt es vier Hauptmethoden zur Schätzung:
Rückschluss aus Inferenzkosten und Durchsatz: Die Inferenzkosten eines Modells stehen in einer annähernd linearen Beziehung zur Anzahl der aktivierten Parameter, und die Gesamtzahl der Parameter kann anhand des Architekturtyps und branchenüblichen Erfahrungskoeffizienten geschätzt werden.
Vergleich mit Leistungsmaßen: Durch Vergleich der Leistung eines geschlossenen Modells mit einem Open - Source - Modell mit bekannten Parametern auf einem standardisierten Benchmark kann die Parametergröße des geschlossenen Modells abgeleitet werden.
Analyse von internen Dokumenten und Gerüchten: Versehentlich preisgegebene Informationen von der offiziellen Seite und einige Gerüchte.
Analyse der Architektureigenschaften: Durch Beobachtung der Verhaltensmerkmale des Modells kann der Architekturtyp abgeleitet werden, und so der Schätzungsbereich für die Parameter verengt werden.
Schauen wir uns zunächst die Claude 3 - Reihe an. Sie wurde im März 2024 veröffentlicht und war die erste Claude - Reihe mit einer klaren Produktmatrix, die drei Versionen mit unterschiedlicher Ausrichtung enthält.
Das kleine "Haiku", das mittlere "Sonnet" und das große "Opus". Die Kosten und Leistung steigen in dieser Reihenfolge.
Für ihre Parametergröße hat Alan D. Thompson, der Gründer von LifeArchitect.ai, eine Schätzung gegeben:
Claude 3 Haiku (~20B), Claude 3 Sonnet (~70B), Claude 3 Opus (~2T).
Für Claude 3 Sonnet hat die Reddit - Community auch eine kontinuierliche Diskussion geführt. Einige Netizens haben auch basierend auf der Leistung und anderen Faktoren geschätzt, dass die Anzahl der Parameter von Claude 3 Sonnet zwischen 150 - 250B liegt.
Schauen wir uns nun Claude 3.5 an. Dies war ein großer Schritt bei der Verbesserung von Claude, und viele Schlüsselindikatoren übertrafen GPT - 4o.
Anfangs veröffentlichte Anthropic jedoch nur das einzige Claude 3.5 Sonnet.
Es ist doppelt so schnell wie Claude 3 Opus, aber die Kosten betragen nur ein Fünftel von denen des letzteren.
Zu den Modellparametern hat Microsoft u.a. eine Studie veröffentlicht.
Daraus geht hervor, dass laut branchenüblichen Schätzungen die Parameter von Claude 3.5 Sonnet etwa 175B betragen.
Hier sind noch die geschätzten Parameter anderer Modelle: ChatGPT etwa 175B, GPT - 4 etwa 1,76T, GPT - 4o etwa 200B, o1 - mini etwa 100B, o1 - preview etwa 300B.
Anschließend übersprang Anthropic die Bezeichnung 3.5, veröffentlichte kein 3.5 Opus und wechselte nach Claude Sonnet 3.7 direkt zur 4 - Reihe und veröffentlichte zwei Modelle:
Claude Opus 4 und Claude Sonnet 4.
Es gibt große Meinungsverschiedenheiten bei der Schätzung der Parameter von Claude 4.
Branchenschätzungen gehen davon aus, dass die Parameter von Claude Opus 4 zwischen 300 - 500B liegen und die von Claude Sonnet 4 zwischen 50B - 100B.
Als nächstes wurde Claude Opus 4.1 veröffentlicht.
Seine Programmierleistung hat sich erneut verbessert und übertrifft Claude Opus 4. Es gibt auch weitere