Mit einer Finanzierung von 3,4 Milliarden investieren ehemalige TPU-Mitarbeiter von Google in neue Chip-Projekte, und Andrej Karpathy hat auch investiert.
Besser als NVIDIA-Chips. Das von ehemaligen Google-TPU-Mitarbeitern gegründete Startup MatX zieht derzeit die Aufmerksamkeit auf sich.
Dass wir auf dieses Unternehmen aufmerksam geworden sind, haben wir dem Propagandabeauftragten Karpathy zu danken (ja, er hat auch an der jüngsten Serie-B-Finanzierung von MatX mit 500 Millionen US-Dollar beteiligt).
Karpathy sagte, angesichts des Marktwerts von 4,6 Billionen US-Dollar von NVIDIA, stelle MatX eine Herausforderung an das "heute interessanteste und am lukrativstenste intellektuelle Rätsel".
Das MatX-Team ist ausgezeichnet. Ich bin stolz, Teil davon zu sein, und gratuliere ihnen zur Finanzierung!
Nicht nur Karpathy spricht sich für MatX aus. Das Unternehmen hat auch seine eigene "Waffen" – eine Technologie, die sich von der derzeitigen Mainstream-Richtung der KI-Chips unterscheidet.
In den letzten Jahren hat sich die KI-Chip-Szene grob in zwei Lager aufgeteilt:
Eine Seite, vertreten durch NVIDIA und Google, setzt stark auf High-Bandwidth-Memory (HBM) und befasst sich vorrangig mit Problemen bei der Massentraining und dem Durchsatz.
Die andere Seite, vertreten durch Cerebras Systems (das Anfang des Jahres auch von AMD investiert wurde), betont das On-Chip-SRAM (statisches Direktzugriffsspeicher) und die geringe Latenz und richtet sich vor allem an Anwendungen im Bereich der Inferenz.
MatXs Haltung ist: Kinder wählen, Erwachsene nehmen beides.
Nach Ansicht des Teams liegt der entscheidende Faktor nicht in der Maximierung einzelner Fähigkeiten, sondern darin, ob es möglich ist, sowohl "Trainingsdurchsatz" als auch "Inferenz-Niedriglatenz" auf einem einzigen Chip zu realisieren – insbesondere in komplexeren realen Workflows wie langen Kontexten und Agent-Schleifen.
Und es ist nicht nur leeres Gerede. Laut dem Gründer von MatX entwickeln sie derzeit einen "LLM-spezifischen Chip" namens MatX One:
Sein Durchsatz ist weit höher als der aller anderen Chips, und gleichzeitig ist die Latenz am geringsten.
Wer ist also MatX? Kann es wirklich eine Bedrohung für die Dominanz von NVIDIA darstellen?
Wir werden es gleich sehen.
Wer ist MatX?
Bei der ersten Vorstellung von MatX kann man das Wort Google nicht umgehen.
Es kann nicht anders, denn beide Gründer stammen aus dem Google-TPU-Team.
Gründer und CEO Reiner Pope trägt deutlich das "Software"-Label.
Als er 2012 bei Google eintrat, war er hauptsächlich für die Entwicklung von Teilen der Google Maps-Website verantwortlich und wurde später Leiter eines kleinen Teams von fünf Personen.
Später entwarf er und beteiligte sich an der Entwicklung des großen maschinellen Lernsystems Sibyl von Google. Dieses System hat YouTube, Gmail, Android und andere Dienste unterstützt, bis es 2017 allmählich durch die flexiblere und Deep Learning unterstützende Plattform TensorFlow Extended (TFX) ersetzt wurde.
Im selben Jahr begann er mit der Chip-Entwicklung – er trat in die interne Projektentwicklungspatform "Moonshot Factory" von Google ein und konzentrierte sich auf die Architekturentwicklung für die nächste Generation der Computingeräte.
Seitdem hat er sich von einem "Systementwickler" zu einem "Versteher der Zusammenarbeit zwischen Modell und Hardware" gewandelt.
Ab 2019 übernahm er die Rolle des Technikleiters und Architekten für die maschinellen Lernchips von Google. Er war an der Entwicklung von zwei Generationen von ML-Chips beteiligt und war einer der Hauptverantwortlichen für den zweiten Chip.
Später beteiligte er sich auch am Training des damaligen größten Modells von Google, PaLM, und war für die Software/Hardware-Effizienz von PaLM verantwortlich.
Man kann sagen, dass Reiner Pope einer der wichtigen Mitglieder des frühen Google-TPU-Softwarestapels war und nicht einfach nur ein Chip-Schaltkreistechniker ist. Er versteht, wie man einen Chip effektiv für große Modelle einsetzen kann.
Gründer und CTO Mike Gunter trägt dagegen deutlich das "Hardware"-Label.
Er ist ein alter Hase der Hardwareentwicklung, der von den untersten logischen Schaltkreisen bis zur Systemarchitektur vorgearbeitet hat.
Vor seinem Eintritt bei Google war er bereits ein mehrfacher Unternehmer – schon 2000 gründete er zusammen mit anderen das drahtlose Kommunikationschip-Unternehmen Gossett and Gunter, das später von Google übernommen wurde, und er wechselte ebenfalls zu Google.
Bei Google arbeitete er an drahtloser Kommunikation, Mehrantennensystemen, ASIC-Entwicklung und war sogar der erste Logikdesigner und der erste "offiziell bezahlte Haskell-Programmierer" bei Google.
Ab 2008 leitete er das erste Hardware-Beschleunigungsprojekt von Google, das schließlich die Kosteneffizienz der rechenintensiven Aufgaben von Google um mehr als das Zehnfache erhöhte.
Später kam es zu mehr Schnittmengen zwischen ihm und Reiner Pope –
Er war an der Entwurf und Implementierung des Sibyl-Systems beteiligt, trat fast zur gleichen Zeit wie Reiner Pope in die Moonshot Factory ein und war an dem ML-Chipprojekt beteiligt (als Chefingenieur) und so weiter.
Zusammen gesagt, wenn Reiner Pope in der Zeit des explodierenden Modellsizes das Problem "wie man ein Modell effizient auf einem Chip ausführt" löst, dann denkt Mike Gunter eher in einem früheren Stadium darüber nach, "wie ein Chip für zukünftige Rechenformen entworfen werden sollte".
Zusammen haben sie fast den gesamten "Software-Hardware-Stack" abgedeckt. Der eine steht an der Spitze der Modelleffizienz und hat an PaLM-Level-Trainings teilgenommen; der andere steht auf der untersten Ebene des Chips und baut von Transistoren und Mikroarchitekturen bis zum System auf.
Und die Kombination von Software und Hardware ist auch ein großer Vorteil von MatX, was sich bei dem in Entwicklung befindlichen MatX One-Chip zeigt –
Der MatX One-Chip basiert auf einer teilbaren Systolischen Array (splittable systolic array)-Architektur. Diese Architektur erbt die Vorteile großer systolischer Arrays in Bezug auf Energieeffizienz und Flächennutzung und kann auch bei kleineren und flexibleren Matrixberechnungen eine hohe Nutzungsrate aufrechterhalten.
Dieser Chip kombiniert die Niedriglatenzeigenschaften von SRAM-first-Designs mit der Fähigkeit von HBM (High-Bandwidth-Memory), lange Kontexte zu verarbeiten. Darüber hinaus wird mit einer neuen numerischen Berechnungsmethode (numerics design) erreicht, dass der Durchsatz bei großen Sprachmodellen alle bisher veröffentlichten Systeme übertrifft und die Latenz auf das Niveau von SRAM-first-Designs sinkt.
Um es besser zu verstehen, können wir Karpathys Ansicht heranziehen.
Nach Karpathy ist das Problem, dem wir heute gegenüberstehen, mit dem Anstieg des Token-Verbrauchs –
Wie kann man "Rechenleistung" und "Speicher" optimal aufeinander abstimmen, damit große Modelle schneller und kostengünstiger mehr Token ausgeben können?
Viele Menschen bemerken nicht, dass beide Mainstream-Chip-Richtungen derzeitige Einschränkungen haben:
Die HBM-Richtung, vertreten durch NVIDIA, basiert auf der Idee, dass "das Training von großen Modellen ein Bandbreitenspiel" ist. Das heißt, je größer das Modell, je mehr Parameter und je länger der Kontext, desto mehr müssen Gewichte und Aktivierungen zwischen den Chips schnell transportiert werden.
Deshalb ist es die Mainstream-Lösung, HBM, Bandbreite und Interkonnektivität zu erhöhen, um das Durchsatzproblem zu lösen.
Die On-Chip-SRAM-Richtung, vertreten durch Cerebras Systems, basiert auf der Idee, dass "im Zeitalter der Inferenz nicht die Bandbreite, sondern die Reaktionsgeschwindigkeit der Schlüssel ist".
Deshalb ist es die Lösung, so viele Daten wie möglich im On-Chip-SRAM zu speichern, um den externen Speicherzugriff zu reduzieren und die Latenz bei einzelnen Abfragen zu senken. Letzteres löst das Latenzproblem.
Aber das Problem ist, dass das Training und die Inferenz von heutigen großen Modellen nicht mehr zwei getrennte Welten sind –
Wenn man nur auf die HBM-Bandbreite setzt, ist es schwierig, die Latenz zu senken; wenn man nur auf das On-Chip-SRAM setzt, ist es schwierig, die Skalierbarkeit zu erhöhen.
Deshalb fragte Karpathy, ob es eine bessere physikalische Platine gibt, bei der das Verhältnis von Rechenleistung und Speicher von Anfang an für große Modelle ausgelegt ist?
MatXs Antwort ist: Anstatt auf bestehende Architekturen aufzubauen, sollte man lieber die Beziehung zwischen Rechenleistung und Speicher auf Architekturebene neu gestalten.
Ja, von Grund auf neu.
Nachdem sie 2022 Google verließen und MatX gründeten, waren sie entschlossen, einen besseren Chip von Grund auf neu zu entwickeln –
Ziel ist es, eine neue, wettbewerbsfähige Hardwareproduktlinie zu entwickeln, die die beiden völlig unterschiedlichen Methoden anderer Chiphersteller kombiniert.
MatX versucht zu zeigen, dass zukünftige KI-Chips nicht zwischen "Geschwindigkeit" und "Kapazität" wählen müssen, denn eine echte Kombination von Software und Hardware kann einem Chip beide Vorteile verleihen. Wie Reiner Pope es ausdrückt:
Tatsächlich kann man beides in einem einzigen Produkt gleichzeitig erreichen, und so erhält man ein besseres Produkt.
Und der in Entwicklung befindliche MatX One trägt zweifellos diese Philosophie.
Wenn es erfolgreich ist, bedeutet die gleichzeitige Realisierung von höherem Durchsatz + niedrigerer Latenz –
Bei demselben Budget können Sie größere Modelle trainieren, längere Kontexte verarbeiten, komplexere Agent-Schleifen unterstützen und gleichzeitig jede Benutzerinteraktion schneller beantworten.
Dies ist die praktische Umsetzung von Karpathys Aussage, "die optimale physikalische Platine zu entwerfen, Speicher und Rechenleistung zu organisieren, um die Token so schnell und kostengünstig wie möglich zu erhalten".
Offensichtlich hat MatX von Team über Philosophie bis hin zum Produkt alles vorbereitet.
Und der Markt hat auch genug Aufmerksamkeit und Unterstützung für ein solches Team gezeigt.
Ab nächstem Jahr liefern, Schätzungswert bereits mehrere Milliarden US-Dollar
Bis jetzt hat dieses Unternehmen bereits 600 Millionen US-Dollar an öffentlicher Finanzierung erhalten und einen Schätzungswert von mehreren Milliarden US-Dollar erreicht.
Nach der MatX-Website erhielt das Unternehmen im März 2025 100 Millionen US-Dollar an Serie-A-Finanzierung. Die Leitung übernahm Spark Capital, ein früherer Investor von Anthropic.
Top-Quantisierer Jane Street Group, bekannte Investoren wie Daniel Gross (früherer Investor in Figma/Notion usw.), Nat Friedman (ehemaliger CEO von GitHub), Adam D‘Angelo (Mitorgründer und CEO von Quora) und andere beteiligten sich an der Investition.
Damals machte Reiner Pope eine Zwischenbilanz für MatX:
Innerhalb von zwei Jahren haben wir alle technologischen Investitionen in maschinelles Lernen, Chip-Entwicklung und -Implementierung, Software- und Systementwicklung validiert und alle notwendigen Partnerschaften aufgebaut, um unseren Chip zu entwickeln.
Mit dieser Runde an Investitionen haben wir jetzt genug Kapital, um unser System auf den Markt zu bringen.
Nach fast einem Jahr des schnellen Wachstums hat das etwa 100 Mitarbeiter starke MatX jetzt eine neue Serie-B-Finanzierung in Höhe von 500 Millionen US-Dollar (etwa 3,4 Milliarden Yuan) erhalten, und die Liste der Investoren wächst weiter.
Konkret übernahm die Leitung der Serie-B-Finanzierung nun zwei Parteien: Jane Street und Situational Awareness LP.
Die bestehenden Investoren wie Spark Capital, Triatomic Capital, Harpoon Ventures und andere blieben an Bord, und es kamen neue Investoren wie Dwarkesh Patel, Karpathy, Patrick Coll