Willkommen zurück von OpenAI auf dem Laufstreifen der Open-Source-Großmodelle. Ich möchte einige Punkte besprechen, die mich interessieren.
Am 5. August 2025, westküstenamerikanischer Zeit, hat OpenAI zwei Open-Source-Großmodelle vorgestellt: GPT-OSS 120B und GPT-OSS-20B. Derzeit können beide Modelle über die Plattform Hugging Face heruntergeladen werden, und Benutzer können sie anpassen und kommerziell nutzen. Hauptstrom-Cloud-Provider wie Amazon AWS und Microsoft Azure bieten bereits Dienste auf Basis dieser beiden Modelle an. Dies ist die erste Veröffentlichung eines Open-Source-Großmodells seit November 2019.
Die Geschichte ist wirklich ironisch. Der Name OpenAI leitet sich von „offen“ und „Open-Source“ ab, was Sam Altman einst als das Kernprinzip und Überlebensstrategie der KI-Era betrachtete. Doch seit Anfang 2019 hat OpenAI bewusst den Open-Source-Pfad verlassen: Im Februar jenes Jahres weigerte es sich unter dem Vorwand von „Sicherheitsproblemen“, alle Parametergewichte von GPT-2 preiszugeben und veröffentlichte nur ein „Teilmodell“ mit 774 Millionen Parametern. Erst im November 2019, als GPT-2 kaum Beachtung fand, gab es schließlich alle 1,5 Milliarden Parameter bekannt. Bei den späteren erfolgreichen Großmodellen GPT-3, GPT-3.5 und der GPT-4-Serie wurden weder die Parametergewichte noch die technischen Whitepapers veröffentlicht.
Bis gestern gehörte OpenAI zu den wenigen Entwicklern in der Spitzengruppe der globalen KI-Großmodell-Forschung, die keine neuen Open-Source-Großmodelle haben. Eine andere Firma ist Anthropic, die seit ihrer Gründung noch nie ein Open-Source-Großmodell veröffentlicht hat. Angesichts der Tatsache, dass Anthropic von Mitarbeitern gegründet wurde, die mit OpenAI unzufrieden waren, bestätigt dies tatsächlich das Sprichwort: „Vogel mit gleichem Federvieh flockt zusammen.“
Unter seinen Wettbewerbern hat Google seit 2024 das Open-Source-Großmodell der Gemma-Serie aufrecht erhalten, das parallel zu den proprietären Modellen der Gemini-Serie entwickelt wird. Die LLaMA-Serie von Meta ist die geistige Quelle der heutigen Hauptstrom-Open-Source-Großmodelle, was sich von selbst versteht. Das erste Modell von Mistral aus Frankreich ist auch in einer Open-Source-Version erhältlich. Grok von Elon Musk wurde ebenfalls von Anfang an als Open-Source-Modell veröffentlicht. Alibaba's Qwen ist bereits eines der Open-Source-Großmodelle mit den meisten abgeleiteten Versionen. Ganz zu schweigen von DeepSeek, das ohne Open-Source kaum so viel Einfluss und Anwendungsmöglichkeiten gehabt hätte.
Jemand wird sicherlich fragen: Warum Open-Source? Für Wettbewerber ist Open-Source natürlich von Vorteil, da es das gegenseitige Lernen (und Kopieren) erleichtert. Für die Menschheit insgesamt ist Open-Source natürlich von Vorteil, denn die Geschichte hat immer wieder gezeigt, dass Offenheit den technologischen Fortschritt fördert. Aber warum sollte ein führender Entwickler wie OpenAI Open-Source betreiben? Offenlegung würde zwar die Aufmerksamkeit der technologischen Community erhöhen und die Bildung eines guten Ökosystems fördern, aber GPT ist bereits das am meisten beachtete Großmodell der Welt. Was hätte Open-Source dann noch für eine praktische Bedeutung? (Außer sich selbst zu rehabilitieren und die Schublade „CloseAI“ loszuwerden?)
Die Antwort ist klar: Open-Source-Großmodelle können auf lokalen Hardwaregeräten heruntergeladen und installiert werden und vollständig lokal ausgeführt werden, was für einen Teil der Kunden sehr attraktiv ist. Lassen Sie uns das zusammenfassen:
Kunden können alle Daten lokal speichern, anstatt sie auf eine Drittplattform hochzuladen, wodurch die Datensicherheit maximiert wird. Dies ist sowohl für Staatsgeheimnisse als auch für Geschäftsgeheimnisse von großer Bedeutung.
Kunden können Open-Source-Großmodelle auf ihre eigenen Bedürfnisse hin „feintunen“ (fine-tune), um sie an spezifische Branchenanwendungen anzupassen. Branchen wie Medizin und Finanzen haben hierfür ein besonders hohes Bedürfnis.
Für Kunden mit begrenztem Budget kann es wirtschaftlicher sein, ein Großmodell auf lokaler Hardware auszuführen, anstatt die Nutzung eines proprietären Großmodells zu erwerben. Beispielsweise kann GPT-OSS-2B sogar auf einem Laptop laufen.
Natürlich bedeutet die lokale Bereitstellung eines Open-Source-Großmodells, dass die Kunden für die Informationssicherheit und die technische Wartung selbst verantwortlich sind. Nach einer Abwägung der Vor- und Nachteile bevorzugen viele große Branchenkunden dennoch Open-Source-Großmodelle. Dies ist der Grund, warum die LLaMA-Serie in Europa und den USA bei großen Unternehmen so beliebt ist und warum DeepSeek Anfang dieses Jahres die öffentlichen Verwaltungen und Unternehmen in China erobert hat. Die technische Leistung von DeepSeek mag mit der von GPT-4o1 vergleichbar sein, aber ohne Open-Source wäre seine Verbreitungsgeschwindigkeit sowohl für B2B- als auch für B2C-Kunden sehr langsam!
Nach fast sechs Jahren hat OpenAI endlich wieder in das Feld der Open-Source-Großmodelle zurückgekehrt. Dies ist sicherlich in gewissem Maße auf die Stimulation durch Open-Source-Großmodelle wie LLaMA, DeepSeek, Qwen und sogar Grok zurückzuführen. Aber aus kommerzieller Sicht war diese Entscheidung früher oder später unvermeidlich. Denn schließlich werden einige Unternehmenskunden niemals ihre wichtigsten Daten auf eine Drittplattform hochladen, und staatliche Verwaltungen erst recht nicht. Anstatt diesen weiten Markt an die Wettbewerber zu überlassen, ist es besser, ihn selbst zu erobern. Wenn die Wettbewerber langsamer vorankommen, würde OpenAI möglicherweise auch langsamer in den Open-Source-Sektor zurückkehren, aber nur etwas langsamer.
Dies bedeutet, dass das Jahr 2025 ein „Jahr des Open-Source“ geworden ist: Baidu, das in China einst führend war, und OpenAI, das weltweit immer noch führend ist, haben beide Open-Source-Großmodelle veröffentlicht. Meta hat eine neue Open-Source-Version herausgebracht, und Alibaba hat die Veröffentlichung von Open-Source-Versionen deutlich beschleunigt. Im Moment gibt es nur zwei Hauptstrom-Entwickler von Großmodellen weltweit, die keine Open-Source-Versionen haben. Neben der oben erwähnten Anthropic ist es auch ByteDance aus China – das Großmodell Doubao (und seine Vorgängerversion Yunque) hat bisher keine Open-Source-Version, und ByteDance hat auch keine Pläne für Open-Source veröffentlicht. Rein technisch gesehen gehört Doubao jedoch nicht zur globalen Spitzengruppe, und die Offenlegung oder Nicht-Offenlegung hat wenig Einfluss auf den technologischen Fortschritt der Großmodelle.
Lasst uns nun das nächste Thema besprechen: Welchen Einfluss hat die Open-Source-Entwicklung von OpenAI auf die globale Großmodelltechnologie? Ich bin kein technischer Entwickler und kann nur aus der Sicht des gesunden Menschenverstandes sprechen. Meine Meinung ist, dass es einen Einfluss gibt, aber dieser begrenzt ist. Einerseits hat OpenAI seine neuesten Versionen und Technologien nicht offen gelegt (selbstverständlich, wer würde das schon tun?), und andererseits waren die „Spekulationen“ der Außenwelt über die Technologie von OpenAI in den letzten zwei Jahren ziemlich erfolgreich.
Die Trainingsdaten der beiden veröffentlichten Versionen von GPT-OSS enden im Juni 2024, und das Training wurde im August 2024 abgeschlossen. Ihre Leistung ist ungefähr mit der von GPT-4o3 und o3 mini vergleichbar – letztere Modelle wurden vor vier Monaten veröffentlicht. Viele Tests haben gezeigt, dass GPT-OSS-120B besser als die neuesten Versionen von DeepSeek und Qwen abschneidet. Dies bringt jedoch keine neuen Informationen, da GPT-4o3 sowieso besser ist. Dies beweist nur, dass OpenAI gegenüber seinen Wettbewerbern noch einen Vorsprung von einigen Monaten hat, was wir bereits wussten.
Was die Technologie betrifft, können wir aus dem Whitepaper von OpenAI ungefähr folgende Informationen entnehmen:
GPT-OSS nutzt eine Mixed-Expert-Architektur, was von der Außenwelt bereits vermutet wurde. Die Mixed-Expert-Architektur ist derzeit der Standard, und fast alle Großmodelle verwenden sie. GPT-OSS 120B hat pro Schicht 128 Experten, GPT-OSS 20B hat 32 Experten pro Schicht, und jeder Pfad aktiviert die vier besten Experten zur Antwort – diese Details sind noch nützlich.
GPT-OSS wird auf der Grundlage von Standardtexten trainiert, und die Chain-of-Thought (CoT)-Architektur wird nicht während des Pre-Trainings, sondern während des Post-Trainings implementiert. CoT ist die Grundlage für sogenannte „Deep-Reasoning“-Großmodelle. Jetzt können wir feststellen, dass OpenAI wie seine Wettbewerber CoT während des Post-Trainings hinzufügt.
Während des Post-Trainings nutzt GPT-OSS wie GPT-4o3 die CoT RL-Technologie. Auch externe APIs und RAG Agents werden während des Post-Trainings verwendet, aber darauf gehen wir hier nicht weiter ein. Dies bestätigt in gewissem Maße die Spekulationen der Außenwelt.
OpenAI hat sich entschieden, während des Post-Trainings nicht das „Großmodell-Halluzinationsphänomen“ zu unterdrücken, da dies die Transparenz von CoT verringern würde. Daher hat GPT-OSS in der Deep-Reasoning-Modus eine hohe Halluzinationsrate, was möglicherweise ein unvermeidliches Problem für alle Deep-Reasoning-Modelle ist.
Insgesamt waren die meisten dieser Technologien von der Außenwelt bereits vermutet oder diskutiert worden. Einige technische Details, wie die genauen Methoden und Werkzeuge des Post-Trainings, können der Außenwelt möglicherweise viele Anregungen geben, aber die Verbesserungen sind begrenzt. Übrigens würde OpenAI wahrscheinlich nicht alle seine „Geheimrezepte“ in einem Whitepaper offen legen. Dieses Whitepaper beweist, dass die Spekulationen und Nachahmungen der globalen Großmodell-Entwickler über die Technologie von OpenAI in den letzten zwei Jahren zum größten Teil richtig waren (oder genauer gesagt, OpenAI hat nur die richtigen Teile zugestanden). Die Macht der menschlichen Nachahmung ist unendlich, und daher hat es in der Geschichte nur wenige technologische Führer gegeben, die allein durch ihre eigene Kraft eine langfristige Monopolstellung auf dem Gebiet der führenden Technologien aufrechterhalten konnten.
Es ist wichtig zu betonen, dass GPT-OSS nur ein „Open-Weight“-Großmodell ist, nicht ein vollwertiges Open-Source-Großmodell. Es werden nur die Parameter und ihre Werte (Gewichte), ein 34-seitiges technisches Whitepaper und einige wenige andere ausgewählte Informationen veröffentlicht. Wenn wir tatsächlich ein fertiges Produkt auf die gleiche Weise „nachbauen“ wollten, fehlen uns mindestens die folgenden Elemente:
Die verschiedenen „Scaffolding-Modelle“ während des Trainings, einschließlich des Modells zur Qualitätsprüfung der Trainingsdaten, des Modells zur Erkennung der Ähnlichkeit der Trainingsdaten, des Modells zur Reinigung der Trainingsdaten und des Reward-Modells zur „Ausrichtung“ auf menschliche Werte. Einige Wettbewerber geben diese teilweise preis, aber OpenAI hat dies noch nicht getan.
Das Trainingskorpus, das während des Pre-Trainings verwendet wird, ist ein Kerngeheimnis der Technologie, insbesondere wenn die Menge der verwendeten Trainingsdaten für Großmodelle immer größer wird und es immer schwieriger wird, hochwertige Trainingsdaten zu finden. Meta hat teilweise das Trainingskorpus von LLaMA veröffentlicht, aber OpenAI hat dies nicht getan.
Andere Werkzeuge, die während des Trainings verwendet werden. Wenn es sich um standardisierte Werkzeuge handelt, ist es noch in Ordnung. Wenn es sich um exklusive Werkzeuge handelt, kann die Außenwelt sie auch dann nicht nachahmen, wenn ihr Name bekannt ist.
Großmodelle, die alle oben genannten Open-Source-Bedingungen erfüllen, sind sehr selten, insbesondere bei kommerziellen Unternehmen. Es ist fast unmöglich, dass sie solche „vollständig offene“ Großmodelle veröffentlichen. Der Grund ist einfach: Man veröffentlicht Open-Source-Großmodelle, um die Bedürfnisse eines Teils der Kunden zu befriedigen und die Entwicklung eines Ökosystems von Entwicklern zu fördern, nicht um anderen das Kopieren zu erleichtern. Die Informationen, die OpenAI diesmal bereitstellt, sind wertvoll, aber nicht ausreichend. Dies ist wahrscheinlich das gewünschte Ergebnis. Das bringt mich an die Prospekte einiger Technologiegiganten – hunderte Seiten lang, die scheinbar eine Menge finanzieller und geschäftlicher Informationen liefern, aber wenn es um die wichtigsten Fragen der Benutzer und der Technologie geht, werden diese auf verschiedene Weise umgangen. Ich nenne hier keine Namen.
Übrigens hat OpenAI die Trainingsdetails von GPT-OSS veröffentlicht: Basierend auf NVIDIA H100 GPUs hat die 120-Milliarden-Parameter-Version 2,1 Millionen H100-Stunden verbraucht, und die 20-Milliarden-Parameter-Version hat ein Sechstel davon verbraucht. Aus diesem Informationen können wir die Größe des Rechenclusters schätzen, das für das Training von GPT-OSS verwendet wurde – wenn wir annehmen, dass das Training 30 Tage dauerte, wurden 2.917 H100 GPUs verwendet; wenn es 45 Tage dauerte, wurden 1.944 H100 GPUs verwendet. Angesichts der Tatsache, dass die Trainingsdaten im Juni 2024 enden und das Training Ende Juli oder Anfang August abgeschlossen wurde, ist es unwahrscheinlich, dass das Training deutlich länger als 45 Tage gedauert hat.
Daher hat GPT-OSS noch nicht die neuesten Blackwell-Serie von GPUs verwendet, und es wurde auch kein Cluster mit Tausenden von GPUs oder ein noch größeres Cluster eingesetzt. Bedeutet dies, dass die Rechenleistung, die für das Training von Spitzen-Großmodellen benötigt wird, tatsächlich nicht so hoch ist? Lassen Sie uns keine voreiligen Schlüsse ziehen, denn GPT-OSS ist schließlich nicht das Hauptmodell von OpenAI, sondern nur eines von vielen intern trainierten Modellen. GPT-4 hat eine Parameteranzahl von 1,37 Billionen, mehr als zehnmal so viel wie OSS, und die Rechenleistung, die es benötigt, wird sicherlich viel höher sein. Die wertvollen B100/200 GPUs werden wahrscheinlich vollständig für das Training von GPT-4.5 und GPT-5 verwendet. Leider wird OpenAI wahrscheinlich keine Details über das Training dieser beiden Modelle veröffentlichen.
Ich vermute, dass GPT-OSS eines der letzten Großmodelle von OpenAI sein könnte, das mit Hopper-Architektur-GPUs trainiert wurde; Großmodelle nach GPT-4.5 werden möglicherweise vollständig auf der Grundlage von Blackwell trainiert. Dies ist jedoch nur meine Vermutung. Die nicht mehr für das Training verwendeten H100 GPUs werden stattdessen für die Inferenz eingesetzt, denn die Verbreitung von Deep-Reasoning-Modellen bedeutet einen großen Anstieg des Inferenzbedarfs. Unabhängig davon, ob das Scaling Law noch gilt oder nicht, wird die Rechenleistung weltweit wahrscheinlich um das 3- bis 4-fache steigen müssen, um den stark wachsenden Bedarf an Training und Inferenz zu decken.
Dieser Artikel wurde nicht von OpenAI oder einem seiner Wettbewerber finanziert oder unterstützt.
Der Autor dieses Artikels besitzt keine Anteile an OpenAI und auch keine direkten Anteile an seinen Wettbewerbern. Jedoch ist es fast unvermeidlich, dass er über Fonds, Treuhandgesellschaften usw. Anteile an seinen Wettbewerbern besitzt.
Dieser Artikel stammt aus dem WeChat-Account „Internet Phantom Thieves“ (ID: TMTphantom), geschrieben von Pei Pei, dem Leiter der