Die drei Giganten aus dem Silicon Valley setzen alle ihre besten Karten auf den Tisch. Jetzt warten wir nur noch auf Liang Wenfeng.
Der Kampf der Giganten im Silicon Valley AI-Szene hat am Abend des 5. dieses Sommers offiziell begonnen – OpenAI hat nach GPT-2 endlich wieder den Open-Source-Weg eingeschlagen und ein sogenanntes stärkstes Open-Source-Inferenz-Großmodell namens gpt-oss veröffentlicht.
Google war ebenfalls nicht untätig und hat ein bahnbrechendes Waffengewicht ins Feld geschleudert – Genie 3. Es ermöglicht es Benutzern, mit einem Satz einen interaktiven dreidimensionalen virtuellen Raum von mehreren Minuten Länge zu generieren, was beeindruckende Ergebnisse liefert.
OpenAIs alter Widersacher, Anthropic, das sich nicht um AGI kümmert und stattdessen im Bereich der AI-Programmierung vornherein vorwärts rast, wollte auch nicht hinten stehen. Es hat sein angesagtestes Großmodell, Claude Opus 4.1, aktualisiert und damit die Obergrenze der AI-Programmierfähigkeit erneut angehoben.
Obwohl die Veröffentlichung dieser drei neuen Produkte in verschiedenen Dimensionen von erheblicher Bedeutung ist, ist dies nur der Auftakt des kommenden "Kampfes der Götter" in der Silicon Valley AI-Szene. Die besten Dinge kommen noch.
Wie bei allen Produkten der "Großen Drei" zuvor, sind auch diesmal chinesische Wissenschaftler und Ingenieure die tragenden Säulen hinter den Teams. Selbst die Zuschauer in Silicon Valley erwarten daher mit Spannung die Produkte DeepSeek und Qwen aus Asien. Man hofft, dass die chinesischen AI-Kräfte an diesem AI-Fest am Ende des Sommers nicht fehlen werden.
01 OpenAI hat endlich seinen DeepSeek-Moment erreicht
OpenAI hat erstmals in sechs Jahren ein "Open-Weight"-Großsprachmodell vorgestellt: gpt-oss-120b und gpt-oss-20b. Beide Modelle basieren auf der Transformer-Architektur und integrieren das MoE-Design. Gpt-oss-120b hat insgesamt 117 Milliarden Parameter und 5,1 Milliarden aktive Parameter. Gpt-oss-20b hat 21 Milliarden Parameter und aktiviert pro Token 3,6 Milliarden Parameter.
Das Modell nutzt den Grouped Multi-Query Attention-Mechanismus mit einer Gruppengröße von 8 sowie die Rotating Position Encoding (RoPE) und unterstützt nativ einen Kontext von 128k.
Was die Leistung betrifft, behauptet OpenAI offiziell, dass es das State-of-the-Art-Modell unter den Open-Source-Inferenzmodellen gleicher Größe ist:
Das gpt-oss-120b-Modell erreicht in Kern-Inferenz-Benchmarks eine Leistung, die der von OpenAI o4-mini nahe kommt und kann effizient auf einer einzelnen 80-GB-GPU ausgeführt werden. Gpt-oss-20b kann in gängigen Benchmarks eine ähnliche Leistung wie OpenAI o3-mini erzielen und kann auf Endgeräten mit nur 16 GB Arbeitsspeicher laufen.
Betrachtet man die Größe der Modelle, zielen die beiden von OpenAI veröffentlichten Modelle auf die lokale Bereitstellung ab und schließen somit eine Lücke in ihrer Produktpalette. Darüber hinaus gibt es in der Lizenz noch einige restriktive Bestimmungen, es ist nicht erlaubt, die Modelle kommerziell zu nutzen, wenn das Jahreseinkommen eines Unternehmens über 100 Millionen US-Dollar liegt oder die tägliche aktive Benutzerzahl über eine Million beträgt.
Nach der Veröffentlichung haben die Internet-Nutzer beeifert damit begonnen, die Modelle lokal zu installieren, und die Rückmeldungen zur Leistung waren positiv.
Auf einem RTX5090 kann die 20B-Version mit einer Ausgabe-Geschwindigkeit von 160-180 Tokens pro Sekunde laufen.
Was die Fähigkeiten des Modells betrifft, sind die tatsächlichen Rückmeldungen der Benutzer ebenfalls positiv. Dieser Nutzer hat auf einem M4 MacBook drei gängige Programmierfähigkeits-Tests auf einmal bestanden.
Nach den Ergebnissen einer von der Großmodell-Fähigkeitsteststelle Intelligence Evaluation veröffentlichten Crowd-Testing-Studie erreichen die beiden OpenAI-Modelle trotz ihrer viel kleineren Größe im Vergleich zu DeepSeek R1 und Qwen 3 eine Leistung, die den beiden chinesischen Open-Source-Modellen nahe kommt.
Objektiv betrachtet liegt die größte Bedeutung dieser Modell-Veröffentlichung darin, dass OpenAI wieder an den Open-Source-Tisch zurückkehrt und den Benutzern ein weiteres Modell zur Verfügung stellt, das sich gut für die lokale Bereitstellung eignet und eine gute Leistung hat. Dies kann jedoch nur als eine Art "Aufholarbeit" angesehen werden. Die Erwartungen an OpenAI richten sich weiterhin auf das kommende GPT-5. Wir werden gespannt darauf sein, welche Überraschungen OpenAI der Branche noch bereiten kann.
02 Google Genie 3: beeindruckend, aber noch nicht auf dem Markt
Obwohl OpenAI kein GPT-5 herausgebracht hat, wird Google nicht zulassen, dass OpenAI alle Aufmerksamkeit auf sich zieht und hat ein sehr "zukünftiges" Modell namens Genie-3 veröffentlicht.
Wie im Anfangsvideo gezeigt, ist dies ein Modell zur Generierung von virtuellen Welten aus Text. Es ermöglicht es Benutzern, einen 720p-Weltmodell mit 24 FPS-Glätte zu generieren, der in Echtzeit interagierbar ist und eine sehr gute Konsistenz und Realität erzeugt. Benutzer können den virtuellen Raum mit Text oder Buttons steuern und die Details erkunden.
Bildunterschrift: Gehen Sie zu einem Aluminiumgestell und dann zu der großen roten industriellen Mühle.
Einfacher ausgedrückt, wenn Text-zu-Video-Modelle wie Sora oder Veo 3 einem Film entsprechen, dann erzeugt Genie-3 eher ein Spiel oder ein virtuelles Role-Playing-Game. Benutzer können nicht nur den virtuellen Raum betrachten, sondern auch aktiv mit ihm interagieren.
Im Gegensatz zu Video-Modellen erfordert ein solcher "Weltmodell" eine Echtzeit-Reaktion auf die Aktionen des Benutzers und muss den physikalischen Gesetzen der realen Welt entsprechen. Wenn Sie beispielsweise einen schwebenden Ball mit der Hand zurückstoßen, sollte der Ball nicht nach oben fliegen, sondern zurück. Wenn Sie ein Auto leicht stoßen, sollte es nicht sofort mit hoher Geschwindigkeit losfahren.
Wenn Benutzer bei Video-Modellen noch kleinere Unzulänglichkeiten tolerieren können, muss ein Weltmodell die physikalischen Reaktionen jedoch sehr präzise verarbeiten. Auch wenn es möglicherweise nicht das Niveau erreicht, das LeCun als "Verständnis der realen Welt" fordert, ist ein virtueller Raum, der die physikalischen Interaktionslogiken nicht richtig verarbeitet, sinnlos.
In den von Google bereitgestellten Demos können wir sehen, dass der virtuelle Raum in Echtzeit auf unterschiedliche Anweisungen des Benutzers reagiert und verschiedene Inhalte generiert. Dies erfordert jedoch erhebliche technische Herausforderungen.
Wenn Google in Zukunft wirklich einen Durchbruch in dieser Richtung schaffen kann, wird die Technologie hinter dem "Weltmodell" nicht nur die Robotik und das autonome Fahren revolutionieren, sondern auch die Branchen von VR, Spielen und Text-zu-Video-Generierung auf den Kopf stellen.
Es ist bedauerlich, dass Genie 3 zwar beeindruckend wirkt, aber noch auf der offiziellen Demonstrationsebene bleibt. Alle veröffentlichten Inhalte stammen von Google, und es gibt keine Möglichkeit für normale Benutzer, es zu testen. Es ist also ein klassisches Google-Produkt, das noch nicht auf dem Markt ist.
Aber obwohl es noch nicht auf dem Markt ist, scheint nur Google, das mit einer großen Anzahl von AI-Projekten arbeitet, in der Lage zu sein, solche bahnbrechenden Produkte und technologischen Durchbrüche zu erzielen.
Technisch gesehen kann selbst ein Startup wie OpenAI nur in der Transformer-Modellklasse mit Google mithalten. Obwohl OpenAI vor über einem Jahr mit Sora die Welt beeindruckt hat und die Erwartungen an Text-zu-Video-Modelle in die Höhe geschossen hat, ist es Google mit Veo, das die Fähigkeit hat, kontinuierlich in die Forschung zu investieren und langfristig führend zu bleiben. Genie 3 ist das Ergebnis von Jahren an stetem Wachstum und Iterationen.
Angesichts der Tatsache, dass selbst der Transformer von Google stammt, hoffen wir, dass es jede Chance nutzt, um uns bald die Flutwelle der Revolution zu zeigen.
03 Die Hartnäckigkeit des Spezialisten: 2 % Steigerung
Ein Bild sagt mehr als tausend Worte: Anthropic hat die Obergrenze der AI-Programmierfähigkeit um 2 % gesteigert.
Es ist jedoch