Exklusives Interview mit Ding Tian: Zwei Finanzierungsrunden in zwei Monaten - Was hat das KI- und Computing-Startup Zhizi Xinyuan richtig gemacht?

Schließen Sie die letzte Lücke bei der Implementierung von Rechenleistung.

36Kr hat erfahren, dass das von KI angetriebene Unternehmen für Rechenbeschleunigungsinfrastruktur Zizixin Yuan kürzlich die Angel+-Runde der Finanzierung abgeschlossen hat. Diese Finanzierungsrunde wurde von Dingfeng Kechuang (Wuyuefeng Venture Capital), Inno Capital und Shoucheng Capital angeführt, und alte Aktionäre wie Tongchuang Weiye und andere Institutionen haben übermäßig mitinvestiert.

Dies ist ein aufsehenerregendes Start-upunternehmen mit starkem "Kontrastgefühl". Angesichts des starken Anstiegs des KI-Rechenbedarfs und der doppelten Beschränkungen bei der Chipversorgung und der Rechenleistungseko - System ist Zizixin Yuan weder ein Chiphersteller noch ein Anbieter von Large - Model - Tokens. Dennoch hat es in zwei Monaten zwei aufeinanderfolgende Finanzierungsrunden abgeschlossen und fast 100 Millionen Yuan an Finanzierungen erhalten, was die Gunst von führenden Institutionen im Bereich Hard - Tech gewonnen hat.

Wie hat sich dieses Unternehmen präzise in die Schnittstelle zwischen KI - Infrastruktur und Rechenleistungseko - System eingeschoben? Kürzlich hat 36Kr einen exklusiven Interview mit Ding Tian, dem Gründer von Zizixin Yuan, geführt, um die zugrunde liegende Logik hinter dem rasanten Wachstum dieses Unternehmens aufzuklären.

KI - Rechenbeschleunigung, die nächste Generation der Recheninfrastruktur

Die Entwicklung der menschlichen Wissenschaft und Industrie hat stets mit der Verbesserung der Rechenleistung einhergegangen. In den letzten Jahrzehnten hat die Evolution der Hardwarearchitektur von allgemeinen Chips über GPU bis hin zur Clusterrechnung die Rechenleistung stetig vorangetrieben.

Allerdings hat in der neuen Phase das Kernproblem der Rechenleistungswirtschaft zunehmend an Bedeutung gewonnen.

Derzeit hat die Iteration von Large - Modellen den KI - Rechenbedarf rapide ansteigen lassen. Doch aufgrund der physikalischen Grenzen der Fertigungstechnologie, der Kosten pro Chip, des Energieverbrauchs und der Reife des Ökosystems für chinesische Chips werden die Beschränkungen auf der Hardwareseite immer deutlicher.

An diesem Punkt des Ungleichgewichts zwischen Angebot und Nachfrage liegt der Schlüssel für die zukünftige Konkurrenz in der Rechenleistung nicht nur in der Herstellung von mehr Chips, sondern in der effektiven Rechenleistung, d. h. der Rechenleistung, die ein Chip in der realen Geschäftspraxis stabil entfalten kann.

Bei dem exklusiven Interview mit 36Kr hat Ding Tian, der Gründer von Zizixin Yuan, erwähnt: "In der gegenwärtigen chinesischen Rechenleistungseko - System bedeutet für viele Kunden 'den Chip zu kaufen' nicht unbedingt, sofort 'verfügbare Rechenleistung' zu haben."

Ein häufiges Phänomen ist, dass Unternehmen teure chinesische Rechenleistungskarten kaufen, die zwar eine hohe theoretische Leistung haben, aber bei der tatsächlichen Implementierung von Geschäftsmodeln möglicherweise nur 30 % bis 40 % ihrer theoretischen Rechenleistung entfalten können. Die unzureichende Entfaltung der Rechenleistung wirkt sich direkt auf die Kosten pro Token von Large - Model - Anbietern aus und verzögert auch den Lieferzeitraum von neuen Produkten und Branchenanwendungen.

Der Grund für diese Lücke liegt nicht nur in unzureichenden Hardwareparametern.

Derzeit sind viele führende Modelle und fortschrittliche Algorithmen ursprünglich aus dem NVIDIA CUDA - Ökosystem hervorgegangen. Ding Tian sagte: "Viele Algorithmen von Large - Modellen sind von Anfang an so konzipiert worden, dass sie auf NVIDIA - Chips schneller laufen und daher natürlicherweise eher mit GPU kompatibel sind, während wenig Rücksicht auf die effiziente Ausführung auf anderen heterogenen Chips genommen wird."

Wenn diese Modelle auf chinesische Karten oder andere heterogene Plattformen migriert werden, ist das Problem nicht einfach die Übersetzung des Codes. Es sind die Hardwarearchitektur auf unterster Ebene, die Operatorabdeckung, die Speicherverwaltung, der Kommunikationsmechanismus und die Kompilierungsoptimierung betroffen. Ein ungelöster Schritt kann die endgültige Leistung beeinträchtigen.

In der Vergangenheit war die Behebung dieser Lücken im untersten Ökosystem stark von seltenen erfahrenen Systemingenieuren abhängig, die manuell anpassen mussten. Die Ingenieure mussten die Modellstruktur, die Operatorimplementierung, die Hardwareeigenschaften und die Laufzeitrückmeldungen verstehen und dann durch wiederholtes Parametern einstellen, Testen und Validieren die Leistung Schritt für Schritt verbessern.

Diese Methode konnte in der Anfangsphase das Problem lösen, aber es ist schwierig, den schnell wachsenden Rechenleistungsebedarf zu decken. Die Optimierungserfahrungen lassen sich oft nicht zwischen verschiedenen Chips, Modellen und Geschäftslasten wiederverwenden. Bei jedem neuen Typ von Hardware oder neuen Algorithmen muss das Team möglicherweise eine neue Runde an Anpassungen durchführen.

Wie Ding Tian sagte, wird es für Rechenleistungsexperten schwierig, wettbewerbsfähig zu bleiben, "wenn jede Anpassung mehrere Monate in Anspruch nimmt".

Dies ist kein Problem, das durch fleißigere Programmierarbeit der Ingenieure gelöst werden kann. Zizixin Yuan will das Problem lösen, indem es die Rechenleistungsanpassung von einer handwerklichen manuellen Abwicklung in eine wiederverwendbare, automatisch durchsuchbare und kontinuierlich konvergierende Engineering - Pipeline verwandelt, um die theoretische Rechenleistung so weit wie möglich in effektive Rechenleistung in der realen Geschäftspraxis umzuwandeln.

Für Zizixin Yuan ist die Anpassung an das chinesische Rechenleistungseko - System der Schlüsselpunkt für die Validierung seines Technologiemusters.

Langfristig will es eine universelle Rechenbeschleunigungsschicht aufbauen, die über Modelle, Frameworks, Compiler und Hardware hinweg funktioniert. Unabhängig davon, ob es sich um chinesische Chips oder internationale heterogene Hardware handelt, kann die Planung und Optimierung auf automatische Weise erfolgen.

Der Kernwert der von Zizixin Yuan definierten "nächsten Generation der Recheninfrastruktur" liegt darin, die Anpassungskosten zwischen Modell und Hardware für Rechenaufgaben durch eine von KI angetriebene automatische Methode zu senken.

Einerseits kann durch die automatische Optimierung der Lieferzeitraum von Modellen auf verschiedenen heterogenen Rechenleistungsplattformen von Monaten auf kürzere Zeiträume verkürzt werden. Dies wirkt sich direkt auf die Geschwindigkeit der Modellmigration, der privaten Implementierung und des Starts neuer Geschäfte für Modellanbieter, Cloudanbieter und Branchenkunden aus.

Andererseits können, wenn die Rechenleistung verbessert und die Kosten gesenkt werden, Szenarien, die bisher aufgrund der hohen Rechenleistungskosten oder der unüberwindlichen Leistungsschranken nicht realisierbar waren, wie z. B. komplexe wissenschaftliche Berechnungen und hochpräzise industrielle Simulationen, neue Chancen zur Realisierung erhalten.

Die Übernahme eines Teils der Optimierungsarbeit des Rechensystems durch KI ist eine neue Lösung für den Sprung in der Rechenleistung, und Zizixin Yuan setzt sich genau in diesen Bereich ein.

Im Suchraum, der wie ein Nadel im Heuhaufen ist, bringt KI und Operationsforschung "Autopilot" in das Rechensystem

Basierend auf der tiefgreifenden Einsicht in die Probleme der Rechenleistung hat Zizixin Yuan sich als ein "KI für Rechenleistung" - Unternehmen positioniert und ist darauf verpflichtet, die Infrastruktur für Rechenbeschleunigung durch KI - angetriebene automatische Technologien neu zu gestalten und die Rechenleistungssystematisch zu verbessern.

Nach Ansicht von Ding Tian besteht die Kernherausforderung bei der Rechenbeschleunigung darin, unter den physikalischen Beschränkungen eines bestimmten Chips den Weg zur optimalen Leistung zu finden.

Dies ist ein äußerst komplexer Suchraum. Die Anzahl der möglichen Implementierungswege für eine bestimmte Rechenaufgabe auf einem bestimmten Chip kann astronomisch hoch sein - wie die Daten aufgeteilt werden, wie der Speicher verwaltet wird und wie die Hardwareparallelität konfiguriert wird. Jede kleine Änderung in einer Dimension kann zu völlig unterschiedlichen Leistungsergebnissen führen. Noch wichtiger ist, dass diese Dimensionen stark miteinander gekoppelt sind und sich stark je nach Chiparchitektur ändern. Es gibt keine feste Regel, die alle Probleme lösen kann.

Das ist wie die Planung der schnellsten Route in einer sich ständig ändernden Stadt. Straßen, Ampeln, Verkehrsströme und Ziele ändern sich ständig. Die Route, die gestern funktioniert hat, ist heute möglicherweise nicht mehr die beste. Ebenso ist es bei der Rechenbeschleunigung. Die eigentliche Schwierigkeit besteht darin, unter ständig wechselnden Beschränkungen die beste Implementierungsmethode zu finden.

Daher ist die Rechenbeschleunigung im Wesentlichen ein Optimierungsproblem unter komplexen Hardwarebeschränkungen.

Dies erklärt auch, warum Zizixin Yuan drei Ebenen von Fähigkeiten kombinieren muss: Large - Modelle sind gut darin, Rechenanforderungen zu verstehen, Leistungsschwachstellen zu erkennen und schnell Kandidatenlösungen zu generieren, aber sie können nicht präzise in einem hochdimensionalen Parametersraum lösen. Operationsforschung - Optimierungsalgorithmen füllen genau diese Lücke und können in einer riesigen Anzahl von Parameterkombinationen effizient an die optimale Lösung heranreichen. Die automatische Entdeckung von Algorithmen ermöglicht es dem System, neue Rechenstrategien autonom zu erkunden, anstatt nur bekannte Erfahrungen zu wiederverwenden. Nur die Zusammenarbeit dieser drei Faktoren kann die Leistungsobergrenze des Chips wirklich erreichen.

Um dieses Problem zu lösen, hat Zizixin Yuan das Kerntechnologiemuster "Large - Model + Operationsforschung - Optimierung + Automatische Algorithmentdeckung" festgelegt.

Ding Tian hat 36Kr ein Analogie gegeben. Nehmen wir als Beispiel die Lösung einer komplexen Physikaufgabe. Das Large - Modell ist die Person, die die Aufgabe liest und die Lösungsmethode bestimmt. Es kann verstehen, was die Aufgabe fragt, die gegebenen Bedingungen und die Beschränkungen erkennen und einen groben Lösungsansatz geben. Aber um das genaue Ergebnis zu berechnen, muss die Aufgabe in ein lösbares mathematisches Modell umgewandelt werden, und dann muss durch Operationsforschung - Optimierungsalgorithmen Schritt für Schritt gesucht und validiert werden. Wenn die Richtung falsch bestimmt wird, ist die nachfolgende Berechnung sinnlos. Wenn man nur bei der Richtungsbestimmung bleibt, kann das Problem nicht wirklich gelöst werden.

In dem von Zizixin Yuan aufgebauten System ist das Large - Modell für das Verständnis der Rechenanforderungen, die Erkennung von Leistungsschwachstellen im Code und die Entwicklung einer ersten Rechenstrategie und des Codes verantwortlich. Anschließend übernimmt der Operationsforschung - Optimierungsalgorithmus die konkrete Parameterkonfiguration und die Suche nach der optimalen Planung.

Durch kontinuierliche Überprüfung und Testung auf der Hardware iterieren und konvergieren beide in einem "Hardware - in - Loop" - Rückkopplungsmechanismus und bestimmen schließlich die optimale Lösung, die die Leistungsobergrenze des Chips erreichen kann.

Dieser neue Technologierichtung entspricht dem Einbau eines "Autopiloten" in das Rechensystem. Es bricht mit der traditionellen Entwicklungsweise, die auf der manuellen Codierung, Parametereinstellung und wiederholten Fehlersuche durch Ingenieure beruht, und gibt dem unteren System die Fähigkeit, autonom Algorithmen zu implementieren, Ressourcen zu planen und Rechenbeschleunigungslösungen automatisch zu liefern.

KernelCAT: Der intelligente Beschleunigungs - Engine für die Rechenleistungsbasis

Ob die Theorie funktioniert, hängt am Ende von den Ergebnissen der Lieferung ab.

Basierend auf dem Technologiemuster "Large - Model + Operationsforschung - Optimierung + Automatische Algorithmentdeckung" hat Zizixin Yuan das Kernprodukt für die kommerzielle Nutzung - den Rechenbeschleunigungs - Agenten KernelCAT - eingeführt und es als die Kerninfrastruktur der Rechenzeit definiert.

Nachdem die Rechenbeschleunigungsaufgabe an KernelCAT übergeben wurde, wird es zunächst eine globale Erkenntnis der Aufgabe aufbauen, da es die Kontrolle über das untere Rechensystem hat. KernelCAT kann die oberflächlichen Anforderungen durchdringen, das Wesen der Modellarchitektur und die logische Struktur des Rechengraphen verstehen, die echten Engpässe der Geschäftslast identifizieren und in Kombination mit dem Verständnis der Mikroarchitektur des Zielhardwaresystems unter den komplexen Beschränkungen von Latenzzeit, Durchsatz und Energieverbrauch autonom den global optimalen Pfad für die Leistungsevolution ableiten.

Nach der globalen Ableitung wird KernelCAT nahtlos anschließen und die hochgradige Strategie in eine tiefe Ausführung auf unterster Ebene umsetzen. Es geht direkt auf die Ebene der Befehlssatzarchitektur und generiert dynamisch optimierte Rechencode für die Aufgabe und stellt eine geschlossene Schleife zur Überprüfung sicher, um die Genauigkeit der Logik zu gewährleisten. Bei der komplexen Parameterkonfiguration und Planungslogik wird es diese in ein lösbares hochgradiges mathematisches Modell umwandeln und den Operationsforschung - Optimierungsalgorithmus einsetzen, um in einem Milliarden - Kombinationsraum nach der optimalen Lösung zu suchen.

Die auf Papier vorhandene Rechenleistung muss in der realen physischen Welt getestet werden. KernelCAT wird die Kandidatenstrategien autonom auf das Zielchip projizieren und mikroskopische Leistungsdaten wie Zeitverbrauch, Speicherzugriff und Auslastung der Recheneinheiten erfassen. Dies ist ein dynamisches Spiel: Sobald es Engpässe beim Speicherzugriff erkennt, wird das System die Datenaufteilung und die Planungsstrategie anpassen. Wenn das Ergebnis der Kompilierung oder Ausführung nicht zufriedenstellend ist, wird es automatisch in die vorherigen Schritte zurückkehren, um neu zu generieren, zu validieren und zu konvergieren.

Hiermit wird der Prozess "Analyse - Codierung - Optimierung auf der Hardware - Lieferung" von KernelCAT in eine vollautomatische intelligente geschlossene Schleife umgestaltet, in der alle Schritte eng miteinander verbunden sind. Die Aufgaben, die früher von Spitzeningenieuren durch wiederholtes Fehlersuchen erledigt wurden, werden nun von dem intelligenten Agenten autonom bewältigt.

Noch wichtiger ist, dass es sich bei jedem Prozess der Grenzsuche "selbstentwickelt" - die Spitzeneinstellungen von Experten und die komplexen Regeln der Hardware - Software - Beschränkungen werden kontinuierlich als untere Erkenntnis des Systems abgespeichert und werden zu einem immer intelligenteren und skalierbar wiederverwendbaren Kernasset - Pool.

Bis jetzt hat KernelCAT die automatische Optimierung von verschiedenen heterogenen Operatoren abgeschlossen und gute Testergebnisse erzielt.

Nehmen wir als Beispiel die Migration des Attention - Operators im vLLM - Framework. Dieser Operator ist an sich schwierig zu optimieren. Zizixin Yuan hat mit KernelCAT die Hochleistungs - Migration von GPU auf Ascend NPU automatisch durchgeführt. Unter der Voraussetzung einer 100 % - Genauigkeitsübereinstimmung wurde die Laufzeit von 132 Mikrosekunden auf 10,6 Mikrosekunden reduziert, was einer 12 - fachen Leistungssteigerung entspricht. Die relevanten Ergebnisse wurden in die offizielle Ascend Triton - Operatorbibliothek aufgenommen.

Bei der Lieferung von Modellen und Szenarien kann KernelCAT auch die reibungslose Umschaltung zwischen verschiedenen komplexen Geschäftslasten unterstützen. In der realen Produktionsumgebung ist es nur ein Teil, dass ein einzelner Operator schneller läuft. Schwieriger ist es, ob verschiedene Architekturen stabil kompatibel und kontinuierlich lie

Dieser Artikel wurde ursprünglich von「晓曦」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Exklusives Interview mit Ding Tian: Zwei Finanzierungsrunden in zwei Monaten – Was hat das KI- für Computing-Startup Zhizi Xinyuan richtig gemacht?

KI - Rechenbeschleunigung, die nächste Generation der Recheninfrastruktur

Im Suchraum, der wie ein Nadel im Heuhaufen ist, bringt KI und Operationsforschung "Autopilot" in das Rechensystem

KernelCAT: Der intelligente Beschleunigungs - Engine für die Rechenleistungsbasis