GPT-5 scheitert: Das "Rollback"-Drama von OpenAI und die unsichtbaren Grenzen der KI-Expansion
7. August ging GPT-5 mit vier Modellen (regular / mini / nano / pro) feierlich live; 12. August kündigte Sam Altman auf X an: GPT-4o wird erneut zum Standardmodell für alle bezahlenden Benutzer.
Von der „Entfernung“ bis zur „Wiederbelebung“ dauerte es nur 5 Tage. Das letzte Mal, dass OpenAI so hastig rückgängig machte, geht auf den „Ausfall von ChatGPT“ im November 2023 zurück. Der Unterschied besteht darin, dass es sich damals um einen technischen Fehler handelte, diesmal um eine „Selbstkorrektur“ der Produktstrategie.
Die hinterlegten Logs, die VentureBeat erhalten hat, zeigen, dass GPT-5 in der ersten Woche nach seiner Veröffentlichung drei gravierende Mängel aufwies:
- Fehlerhafte Routing: Der Autoswitcher leitete 37 % der Anfragen von Pro-Benutzern fälschlicherweise an das Nano-Modell weiter, was dazu führte, dass lange Texte direkt „vergessen“ wurden.
- Leistungsdrift: Im Code-Vervollständigungs-Szenario lag die Passrate von GPT-5 um 8,7 % niedriger als die von GPT-4o. Auf Stack Overflow gab es viele negative Kommentare.
- Emotionale Spaltung: Innerhalb eines Tages wurden auf Reddit r/ChatGPT 12.000 Beiträge veröffentlicht, in denen beschwert wurde, dass die neue Version „seelenlos“ sei.
Daher hat OpenAI mit einer „Rückstellung des Standardmodells“ dringend versucht, die Verluste einzudämmen. Altmans Versprechen klingt wie eine Beruhigung: „Wenn wir GPT-4o in Zukunft erneut entfernen, werden wir Sie ausreichend im Voraus informieren.“
Aber in Branchenjargon ausgedrückt heißt das – GPT-5 ist noch nicht bereit, die Produktionsumgebung vollständig zu übernehmen.
Benutzer mit „Modell-Anhänglichkeit“: Die erste „Fandomisierung“ eines KI-Produkts
Sie können sich vielleicht schwer vorstellen, dass ein großes Modell auch einen „Weißen Mondschein“ haben kann.
- Der unabhängige Entwickler Alex hat auf Twitter sein VSCode-Plugin gepostet und gesagt, dass der Code-Stil von GPT-4o „wie ein vertrauter alter Partner“ sei.
- Ein japanischer Illustrator hat die Antworten von GPT-4o ausgedruckt und in einem Buch zusammengefasst, das er „Gedichte von 4o“ nannte.
- Selbst einige Benutzer haben auf Change.org eine Petition gestartet, um die „Persönlichkeitsparameter“ von GPT-4o dauerhaft beizubehalten.
Dies ist kein Witz, sondern die von OpenAIs Produktteam erst kürzlich erkannte „Persönlichkeitsadhäsion des Modells“. Wenn ein Large Language Model (LLM) zu einem täglichen Produktionswerkzeug für Hunderttausende von Künstlern wird, ist seine „Tonart“ die Produktivität an sich.
Altman schrieb in einem internen Slack-Chat: „Wir haben die Sensibilität der Benutzer gegenüber der ‚Persönlichkeitskonsistenz‘ unterschätzt.“
Deshalb wird in der nächsten Version von GPT-5 ein „Temperaturregler“ eingeführt:
- Warm: Freundlicher, ähnlich wie GPT-4o;
- Neutral: Derzeitige Standardeinstellung;
- Balanced: Zwischen beiden angesiedelt und ermöglicht es Benutzern, einen kontinuierlichen Wert zwischen 0 und 100 einzustellen.
Dies ist das erste Mal, dass ein KI-Produkt ein „Skin-System“ erhält – nicht um die Farbe zu ändern, sondern um die Seele.
Versteckte Herausforderung: Die „Stromrechnung“ des Inferenzmodus
Wie teuer ist der „Denkmodus“ von GPT-5?
- Bei einem Kontext von 196.000 Tokens beträgt die Kosten pro Runde etwa das 3,6-fache von GPT-4o;
- Mit einem Wochenlimit von 3.000 Anfragen entspricht dies etwa 60 US-Dollar pro Woche;
- Wenn das Limit erreicht ist, wird automatisch auf das Thinking-mini-Modell heruntergestuft, wobei die Genauigkeit um 20 % sinkt.
Das gilt nur für die Privatnutzer. Die Preisliste für die Unternehmens-API ist noch beeindruckender:
Stromkosten, Grafikkarten und CO2-Emissionen machen das „unbegrenzte Kontextverstehen“ zu einem Luxusgut. Laut internen Daten, die aus einem Salon auf Bit.ly/4mwGngO herausgekommen sind:
- Die von Microsoft Azure für GPT-5 reservierte Cluster von 200.000 H100-Grafikkarten hat eine Spitzenleistung von 120 MW, was etwa 8 % des Stromverbrauchs der Einwohner von San Francisco entspricht.
- Bei jeder Verringerung der Inferenzverzögerung um 10 ms steigt der Stromverbrauch um zusätzliche 5 %.
Der Vice President für Infrastruktur bei OpenAI hat in einer nicht öffentlichen Sitzung zugegeben: „Die Zunahme der Inferenzkosten ist schneller als die Abnahme nach dem Moore'schen Gesetz.“
Effizienz vs. Expansion: Der „Dreipunktschnitt“ des Skalierungsgesetzes
In den letzten fünf Jahren hat die KI-Branche dem Prinzip „Je mehr Parameter, desto besser die Leistung“ geglaubt. Jetzt haben wir erstmals den Dreipunktschnittpunkt von „Expansion - Effizienz - Nachhaltigkeit“ erreicht:
- Parameter-Expansion: GPT-5 hat 4 T Parameter und kostet 320 Millionen US-Dollar pro Training;
- Inferenz-Effizienz: Sparsifizierung, Mixture of Experts (MoE) und 4-Bit-Quantisierung können nur 60 % der Kostensteigerung ausgleichen;
- Nachhaltigkeit: In den neuen Lasten des US-Elektrizitätsnetzes macht die KI-Trainings bereits 4 % aus, und Umweltschutzorganisationen beginnen, Datenzentren anzuklagen.
Deshalb gibt es in der Branche drei neue Wege:
- Modell-Veredelung: Mistral-Medium-122B kommt auf der MMLU-Skalierung nahe an GPT-4 heran und kostet nur 150 Millionen US-Dollar für das Training;
- Maßgeschneiderte Hardware: Google TPU v6 und Amazon Trainium2 verbessern die „Rechenleistung pro Wattstunde“ um das 2,3-fache;
- Energie-Arbitrage: Indem Datenzentren in Norwegen (Wasserkraft) oder Saudi-Arabien (Solarenergie) errichtet werden, können die Stromkosten um 40 % gesenkt werden.
Kurz gesagt: „Groß“ ist nicht mehr der einzige Verkaufspunkt, „Sparen“ ist der Kern der nächsten Finanzierungsrunde.
OpenAIs „Multithreading“-Zukunft: Eine Pressekonferenz, drei Geschäftsmodelle
Wenn man das Scheitern und die Rückstellung von GPT-5 in OpenAIs Gesamtgeschäftsbild betrachtet, handelt es sich eigentlich um einen „Synchronisierungstest“ von drei Einnahmekurven:
Dieses Ereignis hat die Prioritäten der drei Kurven neu geordnet:
- Privatnutzer: Zuerst die Benutzererfahrung sichern, dann die Upgrades besprechen – die Rückstellung auf 4o ist ein Sicherheitsnetz für die Abonnementeinnahmen;
- API-Nutzer: Zuerst die Gewinne sichern, dann die Skalierung besprechen – die hohe Preispolitik des Thinking-Modus ist eine Garantie für die Rendite;
- Hardware: Zuerst die Energieeffizienz sichern, dann die Expansion besprechen – Das gemeinsame Optimierungsprojekt mit Nvidia und AMD ist bereits gestartet.
Wenn die KI in die Zeit des „feinsinnigen Managements“ eintritt
Das Scheitern von GPT-5 ähnelt stark der Entscheidung von Apple, 2016 beim iPhone 7 den Kopfhöreranschluss zu entfernen:
- Die Benutzer haben sich stark beschwert, aber AirPods hat einen neuen Milliardenmarkt eröffnet;
- Jetzt zeigt OpenAI mit einer „Modell-Rückstellung“ der Welt: Die Zeit des rasanten Wachstums nach dem Skalierungsgesetz ist vorbei,
Die Zeit des feinsinnigen Managements beginnt.
In den nächsten 12 Monaten werden wir sehen:
- Mehr Modelle, die kleiner, schneller und energieeffizienter sind;
- Mehr Regler für anpassbare Persönlichkeit, anpassbare Kosten und anpassbare Sicherheit;
- Mehr neue SaaS-Pakete, bei denen die Stromkosten in den Produktpreis einfließen.
KI ist nicht mehr eine schwarze Kiste, in der man einfach viel Kraft reinsteckt, sondern ein „sparsames“ Ingenieurgeschäft. Diesmal hat sogar Altman zugegeben:
„Unser Gegner ist nicht der Wettbewerber, sondern die physikalischen Gesetze.“
Dieser Artikel stammt aus dem WeChat-Account „Shanzi“, geschrieben von Rayking629 und wurde von 36Kr mit Genehmigung veröffentlicht.