StartseiteArtikel

Kann ein KI-Design in nur 9 Monaten mit Blackwell mithalten? OpenAI's "scharfe Chips" umgehen Nvidias Hauptgefechtsfeld, aber Nvidias Huang hat ein wackeliges GPU-Geschäft

极客邦科技InfoQ2026-06-25 18:28
9 Monate, KI-gestütztes Design und volle Stack-Kontrolle

Heute hat OpenAI offiziell den ersten maßgeschneiderten Künstliche-Intelligenz-Chip vorgestellt, den das Unternehmen gemeinsam mit Broadcom entwickelt hat: Jalapeño.

Der CEO von Broadcom, Hock Tan, sagte in einem Interview mit Reuters, dass die Leistung des von seinem Team entwickelten Chips mit der des Blackwell-Chips von Nvidia oder der TPU, die von Google, einem Unternehmen von Alphabet, entwickelt wurde, konkurrieren könne.

OpenAI plant, Jalapeño bis Ende dieses Jahres zu deployen. Dies ist auch der erste Schritt in OpenAIs Mehr-Generationen-Chip-Entwicklungsprogramm. OpenAI hat bereits Proben des Chips im Labor getestet, und bei der GPT-5.3-Codex-Spark-KI-Modell haben die Stromaufnahme und die Leistung des Chips die Zielwerte erreicht.

Beim Zusammenspiel der Partner hat OpenAI die Aufgabe, die Chip-Architektur aus Sicht seiner eigenen Modelle, Kernmodule, Service-Systeme und Produktanforderungen zu entwerfen; Broadcom ist für die Chip-Implementierung, Netzwerke und Verbindungstechnologien zuständig; der kanadische Elektronikhersteller Celestica bringt seine Fachkenntnisse auf der Ebene von Platinen, Rack-Systemen und Gesamtsystemen ein, um die Industrialisierung von der Chip-Herstellung über die Server-Systeme bis hin zur Massenproduktion und -deployment zu ermöglichen. Laut Berichten wird OpenAI anschließend das Design an TSMC (Taiwan Semiconductor Manufacturing Company) zur Herstellung übergeben.

Einige Internetnutzer sagten: "Vor einigen Jahren hätte ich nicht gedacht, dass KI-Unternehmen ihre eigenen Chips entwickeln würden. Die Geschwindigkeit, mit der sich diese Branche entwickelt, ist ehrlich gesagt erstaunlich und lässt einen nachdenken: Was wird aus Unternehmen wie Nvidia und AMD in den nächsten Jahren werden, wenn immer mehr KI-Labore eigene maßgeschneiderte Hardware entwickeln?"

Andere Internetnutzer beklagten: "Indem man versucht, sich von Nvidias Monopol zu befreien und eigene Chips entwickelt, und gleichzeitig den Chip Jalapeño nennt, zeigt man schon, wie heftig der Wettbewerb ist."

Viele Internetnutzer verstehen jedoch nicht, warum der Chip Jalapeño genannt wird. Einige sagten: "Was die Benennung angeht, ist OpenAI vielleicht das schlechteste Unternehmen aller Zeiten." Andere haben auch einige Memes erstellt.

1. Neun Monate, KI-beteiligte Entwicklung, um die Kontrolle über den gesamten Stack zu erlangen

Richard Ho, der Leiter der Hardwareabteilung bei OpenAI, sagte, dass der Jalapeño-Prozessor darauf ausgelegt sei, schnell und effizient mit den großen Modellen zusammenzuarbeiten, die viele KI-Anwendungen antreiben. "Wir glauben, dass er in Zukunft bei allen Iterationen von großen Modellen gute Leistung erbringen wird."

Jalapeño ist ein von Grund auf für die Inferenz von großen Modellen entwickeltes Chip. Es wird in Szenarien wie ChatGPT, Codex, API und zukünftigen Agentic-Produkten eingesetzt. Das Ziel ist es, bei massiven interaktiven KI-Produkten gleichzeitig hohe Durchsatzraten, geringe Latenzzeiten und hohe Energieeffizienz zu gewährleisten.

"Die Gewinnmargen auf der Softwareebene können nicht langfristig bei der Gigawatt-Skala der Inferenzrechnungen aufrechterhalten werden. Um die Kosten pro Token weiter zu senken, ist die Entwicklung von maßgeschneiderten ASICs eine notwendige Infrastrukturumstellung." Einige Internetnutzer bewerteten.

Richard Ho, der Leiter des Hardwareprojekts bei OpenAI, erklärte, dass die Schwerpunkte der Architekturoptimierung von Jalapeño aus der engen Zusammenarbeit zwischen OpenAI und dem Forschungsteam resultierten, einschließlich des Verständnisses der wichtigsten Kernmodule, des Speichertransfers, der Netzwerke und der Service-Modelle in den neuesten KI-Modellen.

OpenAI evaluiert immer noch die endgültige Leistung des Chips, aber die frühen Tests zeigen, dass Jalapeño bei wichtigen Arbeitslasten nahe an der theoretischen Hardwaregrenze laufen kann. Laut Berichten reduziert diese Architektur den Datenverkehr und balanciert die Rechen-, Speicher- und Netzwerkressourcen, so dass die tatsächliche Auslastung näher an der theoretischen Spitzenleistung liegt. Im Vergleich zu einer einfachen Skalierung der Rechenleistung legt diese Designphilosophie mehr Wert auf die reale Effizienz bei der Inferenz von großen Modellen. Darüber hinaus hat OpenAI auch angegeben, dass die Wärmeabfuhrleistung des Chips sogar besser als erwartet ist.

Dies erklärt auch, warum OpenAI ihn "Intelligence Processor" und nicht nur "KI-Beschleuniger" nennt.

Die Entwicklung von Jalapeño von der ersten Entwurfsphase bis zur Fertigung des Prototyps dauerte nur neun Monate. OpenAI hält dies für einen der schnellsten ASIC-Entwicklungsprozesse in der Branche der maßgeschneiderten KI-Beschleuniger für hochleistungsfähige Halbleiter.

Die schnelle Entwicklungszeit ist nicht nur auf die enge Zusammenarbeit zwischen OpenAIs Ingenieurteam und Broadcom sowie die langjährige Erfahrung von Broadcom zurückzuführen, sondern auch darauf, dass OpenAI bei Teilen des Entwurfs- und Optimierungsprozesses seine eigenen KI-Modelle eingesetzt hat. OpenAI sagt, dass die Modelle helfen, die Infrastruktur zu verbessern, die für ihren zukünftigen Betrieb benötigt wird.

Dies zeigt, dass KI nicht nur ein Nutzer von Chips ist, sondern auch Teil des Chip-Entwicklungsprozesses wird. OpenAI glaubt, dass, wenn KI Ingenieuren helfen kann, bessere Chips schneller zu entwickeln, dies die Rechenkosten in der gesamten Branche senken und die breitere Zugänglichkeit fortschrittlicher KI fördern könnte.

Bereits zuvor hatte Hock Tan angegeben, dass der Jalapeño-Beschleuniger im Vergleich zu typischen KI-Grafikprozessoren etwa 50 % der Kosten einsparen kann.

Jalapeño ist kein einmaliger Ein-Chip-Projekt, sondern der erste Schritt in der gemeinsamen Entwicklung mehrerer Generationen von Rechenplattformen zwischen OpenAI und Broadcom. Broadcom hat angekündigt, dass die ersten Chips bis Ende dieses Jahres bei Microsoft und anderen Partnern kommerziell eingesetzt werden sollen, aber OpenAI hat angegeben, dass die tatsächliche Massenproduktion erst nächstes Jahr beginnen wird. OpenAIs Ziel ist es, bis 2029 eine Rechenleistung von 10 Gigawatt mit maßgeschneiderten Chips zu erreichen.

"Dies gibt OpenAI die Kontrolle über den gesamten Stack", sagte Ho.

OpenAI glaubt, dass die Veröffentlichung von Jalapeño zeigt, dass das Unternehmen seine Fähigkeiten auf der gesamten Plattformebene erweitert: von Produkten und Modellen bis hin zu den untersten Chip-Ebenen.

"Der Schwerpunkt des nächsten KI-Wettbewerbs liegt vielleicht in der Infrastruktur und nicht nur in der Intelligenz selbst." Einige Internetnutzer beklagten.

Andere Internetnutzer haben OpenAIs Jalapeño-Projekt mit dem Deal zwischen SpaceX und Cursor verglichen und gesagt, dass dies zwar wie ganz unterschiedliche Geschichten aussehen mögen, aber eigentlich auf denselben strukturellen Wandel hinweisen: "Jalapeño" steht für die Kontrolle über die unterste Infrastruktur, die die Intelligenz antreibt, einschließlich Chips, Rechenleistung und Netzwerken; Cursor hingegen steht für die Kontrolle über die "Workflow-Ebene", auf der die Intelligenz tatsächlich eingesetzt wird.

"Mit der stetigen Verbesserung der Fähigkeiten der neuesten Modelle verschiebt sich der Wettbewerbsvorteil allmählich weg vom Modell selbst. Die Unternehmen, die in den nächsten zehn Jahren den KI-Wettbewerb gewinnen werden, sind möglicherweise nicht mehr nur diejenigen, die die klügsten Modelle haben, sondern diejenigen, die die stärkste 'Technologie-Stack' um das Modell herum kontrollieren können." So schloss er seine Ausführungen.

"Die Welt tritt in eine von der Rechenleistung angetriebene Wirtschaft ein." Greg Brockman, Präsident und Mitbegründer von OpenAI, sagte. Jalapeño ist Teil von OpenAIs langfristiger Strategie für die gesamte Infrastruktur. Das Ziel ist es, die Rechenleistung zu erhöhen, damit KI für Privatpersonen und Unternehmen schneller, zuverlässiger und erschwinglicher wird und für die Lösung wichtigerer Probleme eingesetzt werden kann.

Nach Ansicht von OpenAI liegt der Vorteil der Fähigkeiten auf der gesamten Plattformebene darin, dass die verschiedenen Ebenen um dasselbe Ziel herum gemeinsam optimiert werden können: das Modell schneller, zuverlässiger und billiger zu machen. Bessere Infrastruktur kann die Rechenleistung verbessern, und höhere Rechenleistung wiederum kann besseres Training und bessere Inferenz unterstützen, was wiederum stärkere Modelle und bessere Produkte fördert. Mit zunehmender Nutzung der Produkte kann OpenAI die Einnahmen in die nächste Generation der Infrastruktur investieren, was einen Kreislauf um Rechenleistung, Modelle, Produkte und Kommerzialisierung schafft.

2. Chips werden zum Kampfplatz, OpenAI vermeidet Nvidia vorerst

OpenAIs erstes Chip-Produkt vermeidet tatsächlich einen direkten Konflikt mit Nvidia, Google und anderen Unternehmen.

Derzeit ist es offensichtlich, dass sich die Infrastruktur für Training und Inferenz voneinander trennen. Viele Inferenz-Arbeitslasten laufen derzeit noch auf ähnlicher Infrastruktur wie das Training. Aber mit der zunehmenden Verbreitung von Inferenz-Anwendungen wird der Aufruf von Inferenz-Services stark steigen und allmählich die Hauptquelle für die Rechenleistung werden. Im Vergleich zum Training ist die Inferenz empfindlicher gegenüber Kosten, Energieeffizienz und Reaktionsgeschwindigkeit und leichter für bestimmte Anwendungsfälle zu optimieren. Daher wird die Inferenz-Infrastruktur immer stärker auf spezielle Hardware ausgerichtet.

Man kann sehen, dass OpenAI derzeit in diesem Bereich aktiv ist. Das Training hängt weiterhin von externen Chips wie denen von Nvidia ab, und OpenAI entwickelt zunächst die Inferenz-Chips für die interne Nutzung.

Im Gegensatz dazu ist der Kerngedanke von Nvidia nicht, "ein Set von Training-Chips und ein Set von Inferenz-Chips" zu haben, sondern eine universelle GPU-Architektur zu verwenden, die Training, Inferenz und breitere KI-Arbeitslasten in Datenzentren abdecken kann. Beispielsweise können sowohl Hopper als auch Blackwell sowohl trainieren als auch inferenzieren.

Aber Nvidia wird in der Marketing- und Produktgestaltung bestimmte Produkte stärker auf die Inferenz ausrichten. Beispielsweise hat Nvidia die Blackwell-Plattform jetzt sehr klar als Plattform für die Inferenz von großen Modellen positioniert. Es behauptet, dass der GB300 NVL72 in agentic inference-Szenarien die Kosten pro Token stark senken kann und betont "AI inference at scale".

Ähnlich ist die Google TPU ein ASIC, der für Matrixmultiplikationen, Tensorberechnungen und Transformer-Tiefenlernen entwickelt wurde. Das Hauptziel ist es, die Kern-Tensorberechnungen im Training und in der Inferenz effizienter zu gestalten und ihn eng mit seinem eigenen Software-Stack, Datenzentrum und Modell-System zu koppeln, um so in Bezug auf Kosten, Stromverbrauch und Vernetzung besser als die universellen GPUs zu sein.

Natürlich hat Google auch einige Produkte für die Inferenz, aber diese basieren im Wesentlichen auf der "Inferenz-Optimierung" im TPU-System. Beispielsweise integriert die TPU v5e sowohl Training als auch Inferenz (Service), während die v6e-8-Konfiguration für die Inferenz optimiert ist und es ermöglicht, dass acht Chips für dieselbe Inferenz-Arbeitslast eingesetzt werden.

"Sobald die Inferenz die größten Kosten verursacht, beginnt man nicht mehr, Chips zu mieten, sondern entwickelt eigene Chips. Alle, die noch Rechenleistung vermieten, sollten sich heute vielleicht Sorgen machen." Einige Internetnutzer sagten. Darüber hinaus könnte die Entscheidung von OpenAI, seine zukünftigen Chip-Produkte öffentlich zu verkaufen oder nicht, Unternehmen wie Groq, die auf "schnelle und kostengünstige Inferenz, auch in wichtigen Fällen fehlerfrei" setzen, beeinflussen.

Reuters berichtete erstmals 2023, dass OpenAI die Entwicklung eigener Chips in Erwägung zieht. OpenAI hatte überlegt, die Chips vollständig selbst zu entwickeln und Mittel zu sammeln, um ein kostspieliges Projekt umzusetzen, das die Erstellung eines Netzwerks von Chip-Herstellungsfabriken, sogenannter "foundries", beinhaltete. Aber aufgrund der hohen Kosten und der langen Zeit, die für die Erstellung dieses Netzwerks erforderlich wären, hat das Unternehmen dieses ehrgeizige Projekt derzeit auf Eis gelegt und sich stattdessen auf die interne Chip-Entwicklung konzentriert.

Hinter diesem Schritt steht die Schwierigkeit, die von OpenAI repräsentierten KI-Labore, genügend Rechenleistung zu erhalten, um die neuesten und leistungsstärksten KI-Anwendungen auszuführen. Aus diesem Grund haben einige führende Unternehmen sich für die Entwicklung eigener Chips entschieden, um die Kosten zu senken und eine Alternative zu den von Nvidia für die KI verwendeten GPUs zu bieten.

Unternehmen wie Meta, Amazon und Google haben sich ebenfalls für eine Zusammenarbeit mit Unternehmen wie Broadcom und Marvell entschieden. Diese Unternehmen können bestimmte Design-Services und geistiges Eigentum bieten, die oft schwer vollständig intern nachzubilden sind. Im April dieses Jahres berichtete Reuters, dass auch Anthropic über die Entwicklung eigener KI-Chips nachdenkt.

Zukünftige Inferenz: CPU + mehrere maßgeschneiderte KI-Beschleuniger

Es ist unstrittig, dass einer der direktesten Auswirkungen der generativen KI auf die Halbleiterindustrie die steigende Nachfrage nach CPU, GPU und KI-Beschleunigern ist.

McKinsey schätzt, dass bis 2030 die Nachfrage nach logischen Wafern durch nicht-generative KI-Anwendungen etwa 15 Millionen Stück betragen wird. Davon werden etwa 7 Millionen Stück mit einem Prozessknoten von > 3 Nanometern hergestellt, und etwa 8 Millionen Stück mit einem Prozessknoten von ≤ 3 Nanometern. Darüber hinaus wird die generative KI zusätzliche 1,2 bis 3,6 Millionen Stück logischer Wafer mit einem Prozessknoten von ≤ 3 Nanometern benötigen.

Nach den aktuellen Plänen der logischen Waferfabriken wird bis 2030 weltweit etwa 15 Millionen Stück logischer Wafer mit einem Prozessknoten von ≤ 7 Nanometern hergestellt werden können. Dies bedeutet, dass die generative KI einen potenziellen Lieferengpass von 1 bis etwa 4 Millionen Stück fortschrittlicher logischer Wafer verursachen könnte, insbesondere bei den fortschrittlichen Prozessknoten von ≤ 3 Nanometern.

McKinsey schätzt, dass bis 2030 möglicherweise 3 bis 9 neue logische Waferfabriken gebaut werden müssen, um diesen Engpass zu beheben. Da die Investitionen in fortschrittliche logische Waferfabriken enorm sind, die Bauzeit