OpenAI hat die Open-Source-Funktion wiederhergestellt und in der späten Nacht zwei Inferenzmodelle veröffentlicht. Sie erreichen das Niveau von o4-mini und können auf Notebooks und Mobiltelefonen laufen.
Endlich ist die neue Veröffentlichung von OpenAI da.
Obwohl es nicht der lang erwartete GPT-5 ist, ist es dennoch „something big-but-small today.“
Das heißt neue Open-Source-Sprachenmodelle.
Es ist zu beachten, dass dies seit Jahren (seit GPT-2) das erste Mal ist, dass OpenAI ein Modell Open-Source macht.
Wie der Tsinghua-Alumnus Weng Jiayi, ein Forschungsingenieur bei OpenAI, enthüllt hat, wurde seit 2022 innerhalb von OpenAI über die Open-Source-Freigabe von Modellen diskutiert und es war mehrmals nahe an der Umsetzung, doch wurde es erst heute realisiert.
Diesmal wurden sogar zwei Inferenzmodelle Open-Source gemacht.
GitHub-Adresse: https://github.com/openai/gpt-oss Hugging Face-Adresse: https://huggingface.co/openai/gpt-oss-20b Hugging Face-Adresse: https://huggingface.co/openai/gpt-oss-120b Blog-Adresse: https://openai.com/index/introducing-gpt-oss/
Sam Altman behauptet, dass die Leistung von gpt-oss der von o4-mini entspricht und dass es auf einem High-End-Laptop laufen kann (WTF!!) (es gibt auch eine kleinere Version, die auf einem Smartphone läuft).
Ein Vergleich der Leistungsergebnisse der beiden Open-Source-Modelle mit o3 und o4-mini ist wie folgt:
Zusammenfassend lassen sich die Highlights der beiden Open-Source-Modelle wie folgt beschreiben:
Lockerer Apache 2.0-Lizenzvertrag: Freies Bauen ohne Copyright-Einschränkungen oder Patentrisiken – ideal für Experimente, Anpassungen und kommerzielle Deployment.
Anpassbare Inferenzstärke: Leicht anpassbare Inferenzstärke (niedrig, mittel, hoch) gemäß spezifischen Anwendungsfällen und Latenzanforderungen.
Vollständige Denkprozesskette (CoT): Vollständiger Zugang zum Inferenzprozess des Modells, was das Debugging erleichtert und das Vertrauen in die Ausgabe erhöht. Es ist nicht geplant, dies Endbenutzern anzuzeigen.
Anpassbar: Das Modell kann vollständig an spezifische Anwendungsfälle angepasst werden, indem die Parameter feinjustiert werden.
Agentische Funktionen: Nutzung der Modellfunktionen für Funktionsaufrufe, Webbrowsing, Python-Codeausführung und strukturierte Ausgabe.
Native MXFP4-Quantifizierung: Das Modell wird mit nativer MXFP4-Präzision für MoE-Schichten trainiert, sodass gpt-oss-120b auf einer einzelnen H100-GPU und gpt-oss-20b mit 16 GB Arbeitsspeicher läuft.
OpenAI hat außerdem ein Playground erstellt, damit Entwickler die beiden Open-Source-Modelle einfach im Webbrowser testen können. Interessierte Leser können es gerne ausprobieren.
Testadresse: https://www.gpt-oss.com/
In den letzten Stunden hat sich die internationale AI-Community in Aufruhr versetzt und hat begonnen, die neuen Modelle herunterzuladen und zu testen. Der CTO von Hugging Face hat sogar online gebeten, nicht alle gleichzeitig herunterzuladen, da der Server an seine Grenzen stößt!
Im Folgenden werden die technischen Details der beiden neuesten Open-Source-Modelle vorgestellt.
Neue Höhepunkte bei Open-Source-Modellen
Als zwei SOTA-Open-Source-Sprachenmodelle bieten gpt-oss-120b und gpt-oss-20b eine starke Leistung in der Praxis und haben Kostenvorteile.
Beide Modelle übertreffen bei Inferenzaufgaben Open-Source-Modelle gleicher Größe, zeigen eine starke Fähigkeit zur Werkzeugnutzung und sind optimiert, um effizient auf Verbrauchererhardware deployed zu werden. Der Trainingsprozess kombiniert verstärktes Lernen und Techniken, die von den fortschrittlichsten internen Modellen von OpenAI inspiriert sind, einschließlich o3 und anderer führender Modelle.
Das gpt-oss-120b-Modell erreicht in Kerninferenz-Benchmarks fast die gleiche Leistung wie o4-mini und kann effizient auf einer einzelnen 80-GB-GPU laufen. Das gpt-oss-20b-Modell zeigt in gängigen Benchmarks eine ähnliche Leistung wie o3-mini und läuft mit nur 16 GB Arbeitsspeicher, was es für Edge-Geräte geeignet macht und es ideal für lokale Inferenz, Geräteverwendung oder schnelles Iterieren ohne kostspielige Infrastruktur macht.
Beide Modelle zeigen eine ausgezeichnete Leistung bei der Werkzeugnutzung, few-shot-Funktionsaufrufen, CoT-Inferenz und HealthBench-Tests und übertreffen sogar proprietäre Modelle wie o1 und GPT-4o.
Beide Modelle haben eine starke Systemkompatibilität und eignen sich für Agenten-Workflows, die exzellente Befehlsfolgung, Werkzeugnutzung (z. B. Websuche oder Python-Codeausführung) und Inferenzfähigkeiten erfordern. Sie können die Inferenzstärke gemäß der Komplexität der Aufgabe anpassen, um an Aufgaben anzupassen, die keine komplexe Inferenz erfordern und/oder auf eine sehr geringe Latenz der Endausgabe ausgelegt sind. Beide Modelle sind vollständig anpassbar, bieten eine vollständige CoT und unterstützen strukturierte Ausgabe.
Sicherheit ist natürlich die Grundlage für alle von OpenAI veröffentlichten Modelle, insbesondere für Open-Source-Modelle. Daher hat OpenAI neben umfassenden Sicherheitsausbildungen und Evaluierungstests auch eine gegenläufige Feinjustierungsversion von gpt-oss-120b basierend auf seinem eigenen Preparedness-Framework getestet und zusätzliche Evaluierungsschichten eingeführt. Die Ergebnisse zeigen, dass das gpt-oss-Modell in internen Sicherheitsbenchmarks eine ähnliche Leistung wie die fortschrittlichsten Modelle von OpenAI zeigt und die gleichen Sicherheitsstandards wie seine jüngsten proprietären Modelle bietet.
OpenAI hat bereits mit frühen Partnern wie AI Sweden, Orange und Snowflake zusammengearbeitet, um die Anwendungen der beiden Open-Source-Modelle in der Realität zu verstehen, einschließlich der lokalen Hosting, um die Datensicherheit zu gewährleisten, und der Feinjustierung auf professionellen Datensätzen.
Prä-Training und Modellarchitektur
Das gpt-oss-Modell nutzt die fortschrittlichsten Prä-Training- und Post-Training-Techniken von OpenAI, mit besonderem Augenmerk auf Inferenz, Effizienz und die reale Anwendbarkeit in verschiedenen Deployment-Umgebungen.
Beide Modelle verwenden die Transformer-Architektur und nutzen das Expert Mixture (MoE), um die Anzahl der aktiven Parameter bei der Verarbeitung der Eingabe zu reduzieren. GPT-OSS-120B aktiviert 5,1 Mrd. Parameter pro Token, während GPT-OSS-20B 3,6 Mrd. Parameter aktiviert. Die Gesamtanzahl der Parameter der beiden Modelle beträgt 117 Mrd. bzw. 21 Mrd.
Außerdem verwenden beide Modelle ein abwechselnd dichtes und lokal bandförmig sparendes Attention-Muster, ähnlich wie GPT-3. Um die Inferenz- und Arbeitsspeichereffizienz zu verbessern, wird auch die gruppierte Multi-Query-Attention mit einer Gruppengröße von 8 verwendet. Gleichzeitig wird die Rotations-Positionskodierung (RoPE) für die Positionskodierung eingesetzt und es wird nativ eine maximale Kontextlänge von 128.000 Tokens unterstützt.
Für das Training wurden beide Modelle auf einem hauptsächlich englischen Textdatensatz trainiert, mit besonderem Augenmerk auf STEM, Programmierung und Allgemeinwissen. Dabei wurde ein breiterer Tokenizer (o200k_harmony) als bei o4-mini und GPT‑4o verwendet, der ebenfalls Open-Source veröffentlicht wurde.
Post-Training
OpenAI behauptet, dass die Open-Source-Modelle einen ähnlichen Post-Training-Prozess wie o4-mini verwenden, der überwacht Feinjustierung und hochberechnendes verstärktes Lernen umfasst. Darüber hinaus trainiert OpenAI das Modell, bevor es eine Antwort ausgibt, eine Denkprozesskette und Werkzeugaufrufe durchzuführen. Durch die Verwendung der gleichen Techniken wie bei den proprietären Inferenzmodellen von OpenAI zeigen diese Modelle nach dem Post-Training ausgezeichnete Fähigkeiten.
Ähnlich wie bei den OpenAI o-Serie-Inferenzmodellen in der API unterstützen diese beiden Open-Source-Modelle die Einstellung der Inferenzstärke in drei Stufen („niedrig“, „mittel“, „hoch“). Entwickler können dies einfach durch Hinzufügen einer Anweisung in der Systemnachricht einstellen, um ein Gleichgewicht zwischen Latenz und Leistung zu erreichen.
Leistungsbewertung
OpenAI hat GPT-OSS-120B/20B mit OpenAI-Inferenzmodellen wie o3, o3-mini und o4-mini auf standardisierten akademischen Benchmarks verglichen, einschließlich Dimensionen wie Programmierung, Wettbewerbsmathematik, Medizin und Agenten-Werkzeugnutzung:
Eine Reihe von Testergebnissen zeigt, dass GPT-OSS-120B in Programmierwettbewerben (Codeforces), der Lösung komplexer Probleme (MMLU und HLE) und Werkzeugaufrufen (TauBench) o3-mini übertrifft und das Niveau von o4-mini erreicht oder sogar übersteigt.
In den Bereichen medizinische Abfragen (HealthBench) und Wettbewerbsmathematik (AIME 2024 & 2025) zeigt es eine bessere Leistung als o4-mini. Trotz seiner kleinen Größe erreicht GPT-OSS-20B in diesen Tests die gleiche Leistung wie o3-mini oder übertrifft es, insbesondere in den Bereichen Wettbewerbsmathematik und Medizin.
Codeforces-Wettbewerbs-Programmierbenchmark
Letzter menschlicher Test – interdisziplinäre Expertenfragen
HealthBench-Benchmark
AIME 2024 und AIME 202