KI - Kosten senken: MoXin bekommt fast eine Milliarde Yuan in Serie - C

Wer die Generierungskosten von Tokens senken kann, hat möglicherweise die Eintrittskarte für den nächsten Wettbewerb.

Der Wettlauf um KI-Rechenleistung tritt in eine neue Phase ein. Die Anzahl der Parameter großer Modelle steigt von hunderten Milliarden auf Billionen, und die Anzahl der Tokens, die für eine einzelne Inferenz erforderlich sind, wächst exponentiell. Die Inferenzkosten werden zum zentralen Engpass, der die skalierbare kommerzielle Umsetzung der gesamten Branche einschränkt. Wer die Generierungskosten pro Token senken kann, hat möglicherweise die Eintrittskarte für den nächsten Wettlauf.

"Aufgrund der Vorteile der Sparse-Computing-Technologie können die Kosten pro Token der Produkte von MoXing deutlich niedriger sein als die der Marktführenden Konkurrenten." Wang Lüyu, der Unternehmenssprecher und der Leiter der Unternehmensentwicklung und des Kapitalmarktes von MoXing Artificial Intelligence, gab diese Antwort.

Was ist Sparse-Computing?

Kurz gesagt verwendet die herkömmliche KI-Chip-Technologie ein "Dense-Computing"-Modell, bei dem alle Parameter in einer Matrix gleichermaßen berechnet werden. Dabei werden viele Berechnungen für ineffektive oder redundante Daten durchgeführt. Sparse-Computing erkennt und überspringt diese "unnötigen Arbeiten" durch Algorithmen im Voraus und berechnet nur die wirklich effektiven Parameter. Dadurch kann die effektive Rechenleistung unter denselben Hardwarebedingungen erheblich gesteigert und der Energieverbrauch und die Kosten gesenkt werden.

Kürzlich hat Touzhongwang erfahren, dass MoXing, das sich auf die Bereitstellung von KI-Rechenleistungsprotokollen für Cloud- und Endgeräte konzentriert, eine Serie-C-Finanzierung von fast einer Milliarde Yuan RMB abgeschlossen hat. Institutionen wie Shenzhen Capital Group, Greater Bay Area Common Home Fund, LD Capital und Yuncheng Capital haben beteiligt, und alte Aktionäre wie Triumph Venture Capital, Shengjing Capital und Yanshan Technology haben weiter investiert.

"Die Branche befindet sich derzeit noch in einer Phase des schnellen Wachstums und der verstärkten Kapitalinvestitionen. Die gesamte Marktchance ist enorm." Wang Lüyu beschrieb den gegenwärtigen KI-Rechenleistungsmarkt. "Aber die Inferenzkosten sind die zentrale Karte, die entscheidet, ob ein Unternehmen den Branchenzyklus überstehen und in den nächsten Wettlauf einsteigen kann."

Im Bereich der chinesischen KI-Chips hat MoXing einen differenzierten Innovationsweg eingeschlagen: Indem es auf seine eigenentwickelten Sparse-Algorithmen setzt, um die Chip-Berechnungen zu "verringern", und durch die koordinierte Gestaltung von Algorithmen, Software und Hardware, hat es eine wirklich innovative Rechenleistungslösung entwickelt, die die Generierungskosten pro Token auf ein höheres Niveau optimiert.

Derjenige, der "Subtrahiert"

Im Jahr 2018 trafen sich zwei Alumnen der Carnegie Mellon University im Silicon Valley und starteten gemeinsam ein Unternehmen im Bereich der KI-Chips, um MoXing Artificial Intelligence zu gründen.

Der Gründer und CEO Wang Wei ist ein Master der Elektrotechnik und Informatik an der Carnegie Mellon University und ein Silicon Valley-Chipexperte mit über 15 Jahren Erfahrung. Er war der Kernarchitekt der CPU-Prozessoren von der fünften bis zur zehnten Generation von Intel und hat zuvor bei Qualcomm und Intel gearbeitet. Die von ihm geleiteten und mitentwickelten Chips wurden in einer Gesamtmenge von über 5 Milliarden Stück in Serie produziert.

Der Mitgründer und Chefwissenschaftler Dr. Yan Enxü ist ebenfalls von der Carnegie Mellon University abgeschlossen und hat sich mehr als zehn Jahre lang auf das Gebiet des maschinellen Lernens spezialisiert. Er ist der Erfinder des dynamischen Sparse-Algorithmus für neuronale Netze und hat einen doppelten Sparse-Algorithmus entwickelt. Dies ist ein revolutionärer Ansatz, der die Effizienz der KI-Berechnungen durch die "Gewichts-Sparsamkeit + Aktivierungs-Sparsamkeit" von neuronalen Netzen weiter verbessert. Dr. Yan Enxü hat über 40 Artikel in internationalen Spitzen-KI-Zeitschriften in Bezug auf das relevante Gebiet veröffentlicht.

Der andere Mitgründer Lu Yong hat an der Zhejiang University Elektrotechnik studiert und hat zuvor in namhaften Halbleiterunternehmen wie SK Hynix und Marvell gearbeitet. Er hat mehrere weltweit in Serie produzierte SSD-Controller-Chips entwickelt.

Die drei ergänzen sich perfekt in ihrer Fähigkeiten. Einer ist gut in der Produktarchitektur, einer in der Algorithmusinnovation und Systemoptimierung und einer in der Hardwareentwicklung und Produktumsetzung. Alle drei sind sich einig, dass die Sparsamkeit die Zukunft der KI-Berechnungen ist. Sie setzen die Theorie der Sparsamkeit auf akademischer Ebene Schritt für Schritt um und iterieren sie zu einer kommerziell verwertbaren Rechenleistungslösung.

Der von MoXing entwickelte doppelten Sparse-Algorithmus optimiert die Berechnungselemente im Modell vorab durch Software und eliminiert ineffektive und nicht zentrale Elemente. Dadurch wird die Berechnungsaufgabe in eine effiziente und genaue Sparse-Berechnungsaufgabe umgewandelt.

"Viele Parameter eines KI-Modells sind auf Null gesetzt und nehmen nicht an der Berechnung teil. Der Kern der Sparsamkeitstechnologie besteht darin, dass das KI-Modell eine echte bedarfsgerechte Berechnung durchführt." Wang Lüyu erklärte.

Dieser Ansatz ist in der Branche kein neues Konzept. Aber MoXing ist die erste Firma, die die "Gewichts-Sparsamkeit + Aktivierungs-Sparsamkeit" in ein Serienprodukt und eine Software-Hardware-Koordinationslösung umgesetzt und es zuerst kommerzialisiert hat. Bisher hat MoXing mehr als 100 globale Patente in Bezug auf das relevante Gebiet angemeldet.

Eine überzeugendere Bestätigung kommt von der internationalen autoritativen KI-Benchmark-Testung MLPerfTM. Die S30-Rechenkarte von MoXing hat dreimal hintereinander die Spitze der MLPerfTM-Inferenz-Rangliste erreicht, und ihre harten technischen Fähigkeiten wurden auch von internationalen autoritativen Institutionen bestätigt.

Und der Rhythmus der Kapitalinvestitionen ist die ehrlichste Stimme.

Bereits vor und nach der ersten Chip-Produktion von MoXing haben namhafte Finanzinstitutionen wie Shenzhen Angel Mother Fund, Triumph Venture Capital, Jiemen Investment, ZhenFund und Cornerstone Capital nacheinander investiert.

Aber der wirkliche Wendepunkt kam im Jahr 2024. Mit der Umstellung der großen Modelle von der technologischen Konkurrenz zur kommerziellen Umsetzung haben die Investoren begonnen, in KI-Rechenleistung-Unternehmen mit Umsetzungskapazität zu setzen.

Hinter der beschleunigten Finanzierung steckt die bahnbrechende Entwicklung der Produkte. Basierend auf der Sparsamkeitsoptimierung der KI-Inferenzlösung hat MoXing in mehreren realen Szenarien den kommerziellen Wert seiner Lösung bestätigt. Durch praktische Tests wurde festgestellt, dass bei der KI-Inferenzleistung mit der MoXing-Rechenkarte nicht nur die gesamten Inferenzkosten erheblich gesenkt werden, sondern auch die Inferenzgeschwindigkeit um ein Vielfaches erhöht wird.

Laut einer Prognose der IDC wird der Anteil der Inferenz-Arbeitslast im Jahr 2028 73% erreichen. Der chinesische KI-Rechenleistungsmarkt befindet sich an der Branchenwende von "Training ist König" zu "Inferenz ist König". Unter dieser Hintergrund wird die Fähigkeit zur maximale Kostensenkung und Effizienzsteigerung zu der stärksten Kernkonkurrenzvorteil von MoXing in der Phase der kommerziellen Umsetzung.

"Schutzgraben" und "Beschleunigung"

Können andere Konkurrenten die Sparse-Computing-Technologie schnell kopieren oder umgehen?

Wang Lüyu glaubt, dass MoXing drei Kernbarrieren hat:

Die erste ist die Patentbarriere. MoXing hat bereits seit seiner Gründung im Silicon Valley ein globales PCT-Patentportfolio aufgebaut, das alle Dimensionen von Hardware, Algorithmen und Software abdeckt.

Die zweite ist die technische Erfahrung. Obwohl die Theorie der Sparsamkeit öffentlich zugänglich ist, erfordert die Umsetzung des Algorithmus in ein Software-Hardware-Koordinations-Chip in Serie Produktion viele Jahre systematischer Investitionen. Seit der ersten Chip-Produktion von MoXing im Jahr 2021 hat es in den letzten drei bis vier Jahren die Szenarien von drei Typen von Leitkunden aus Internet, Branchenvertikalen und KI-Rechenzentren angepasst.

Die dritte ist die Vorsprung in der Ökosystementwicklung. Sparse-Computing ist nicht nur eine einzelne Chip-Technologie, sondern ein gesamtes Koordinationssystem, das Chips, Compiler, Toolchains und Kundenmodelle umfasst. MoXing hat sich in der Branche viele Jahre lang engagiert und hat tiefe Partnerschaften mit vielen großen Kunden aufgebaut. Diese Zeitkosten und Vertrauensbarrieren können nicht über Nacht überwunden werden.

Es ist diese Barriere, die MoXing die einzigartige Zuversicht für seine kommerzielle Umsetzung gibt.

Bis jetzt hat MoXing strategisch KI-Rechenzentren in den vier Regionen Nordwesten, Südwesten, Ostchina und Nordchina aufgebaut. Die Tausend-Karte-Inferenz-Cluster in der Nordwestregion haben mehrere Fabrik-Sicherheitsprojekte in Szenarien wie Elektronikherstellung und Konsumgüterproduktion umgesetzt und eine Echtzeit-KI-Analyse am Rand durchgeführt. In der Südwestregion wird in Verbindung mit den lokalen grünen Stromressourcen ein energieeffizienter grüner Rechenleistungspool aufgebaut. In der Ostregion wird für hochwertige Dienstleistungen wie Bioinformatikanalyse und Gesundheitswesen zusammen mit Branchenführern der Datenanalyseprozess der Gensequenzierung beschleunigt. In der Nordregion wird die städtische Verwaltung und die intelligente Modernisierung von Gemeinden unterstützt.

Um den Zyklus zu überstehen, reicht ein einzelner Markt nicht. Als er gefragt wurde, was für ein Unternehmen MoXing werden möchte, zitierte Wang Lüyu die Vision des Gründers Wang Wei: MoXing soll der Führer in der Sparse-Computing-Technologie werden, die KI-Inferenzkosten durch technologische Innovation senken und die KI für alle Menschen zugänglich machen.

Es ist bekannt, dass die Finanzierungsgelder hauptsächlich für die Serienproduktion und die kommerzielle Umsetzung der neuen Generation von Rechenkarten SparsePrime® sowie für die weitere Expansion des nationalen Rechenleistungssnetzwerks eingesetzt werden.

"Die Inferenzkosten sind der Schlüsselengpass für die Verbreitung der KI, und die Sparse-Computing-Technologie gibt eine grundlegende Antwort. Aus Investitionsgesichtspunkt sollte man den Wert eines KI-Chip-Unternehmens nicht nur anhand der theoretischen Rechenleistung einer einzelnen Karte beurteilen, sondern auch anhand der effektiven Rechenleistung und des Energieeffizienzverhältnisses bei der Erledigung gleicher KI-Aufgaben in einer realen Clusterumgebung. Die mehrörtliche Installation und die kontinuierliche Erweiterung der Kundenbasis von MoXing sind eine harte Bestätigung der Produktstärke und des kommerziellen Werts." Wang Lüyu sagte.

Dieser Artikel stammt aus dem WeChat-Account "Touzhongwang", Autor: Riemann, Redakteur: Wang Qingwu. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kosten für KI senken: MoXin erhält fast eine Milliarde Yuan in Serie-C-Finanzierung

Derjenige, der "Subtrahiert"

"Schutzgraben" und "Beschleunigung"