Wu Qiang, Gründer und CEO von Houmo Intelligence: Wendepunkt des Engpasses bei generischer künstlicher Intelligenz-Rechenleistung an Endgeräten und Netzwerkrand - Speicher-Rechner-Integration wird Branchenökologie neu gestalten

Edge- und Rand-AI-Berechnungen werden allmählich aufsteigen und zum Hauptschlachtfeld des AI-Wettbewerbs werden.

Die Geschäftswelt im Jahr 2025 steht am Scheideweg zwischen Altem und Neuem. In einer Zeit, in der die geschäftliche Erzählweise neu gestaltet wird und die Welle der Technologie über die Welt hinweg rollt, verfolgt die WISE2025 Business King Conference das Motto „Hier ist die Landschaft einzigartig“ und versucht, in der Unsicherheit die sichere Zukunft des chinesischen Geschäfts zu bestimmen. Hier dokumentieren wir den Anfang dieses Gedankenschmausess und erfassen die Stimmen derer, die auch in Zeiten des Wandels unerschrocken vorwärts gehen.

Am 27. und 28. November fand die von 36Kr organisierte WISE2025 Business King Conference, die als „jährlicher Leitfaden für Technologie und Geschäft“ gilt, im Conduction Space im 798 Kunstviertel in Peking statt.

Die WISE-Conference in diesem Jahr ist nicht mehr eine herkömmliche Branchenkonferenz, sondern eine immersive Erfahrung in Form einer „Technologie-Sensation-Drama-Serie“. Von der Umgestaltung der Hardwaregrenzen durch KI bis zum Öffnen der Türen zur realen Welt durch Embodied AI; von der Globalisierung von Marken in der Auslandsausdehnungswelle bis zur Modernisierung traditioneller Branchen mit „künstlichen Gliedmaßen“ – wir rekonstruieren nicht nur die Trends, sondern erfassen auch die Erkenntnisse, die in unzähligen Geschäftspraktiken gewonnen wurden.

In den folgenden Abschnitten werden wir die tatsächliche Logik hinter diesen „Sensation-Dramen“ Schritt für Schritt aufschlüsseln und gemeinsam die „einzigartige Landschaft“ des Geschäfts im Jahr 2025 entdecken.

„In den nächsten fünf bis zehn Jahren wird die Edge- und Endgeräte-Computing von einer Logiksteuerung hin zu einer KI-gesteuerten Computing richtung nehmen. Wir stehen am Vorabend eines Aufbruchs der Edge- und Endgeräte-KI.“ Diese Einschätzung machte Wu Qiang, Gründer und CEO von Houmo Intelligence, auf der Konferenz.

Er meint, die Edge- und Endgeräte-KI-Computing durchläuft derzeit eine ähnliche „Paradigmenverschiebung“ wie die Datencentren in den letzten zehn Jahren – von einer Steuerungsorientierung hin zu einer Datenorientierung. Die Kernkraft hinter dieser Veränderung ist die Nachfrage nach einer Umstrukturierung der Rechenleistung durch die Implementierung von Large Language Models.

Wu Qiang weist darauf hin, dass die aktuelle Edge- und Endgeräte-Computing noch hauptsächlich von der CPU und der Logiksteuerung dominiert wird, während die KI nur eine Nebenrolle spielt. Aber mit der zunehmenden Bedeutung von Wahrnehmungs-, Verständnis- und Entscheidungsaufgaben auf Endgeräten wird der Markt für allgemeine KI-Chips explodieren. Die Branchenanalysen von STL Partners sagen voraus, dass der Markt für Edge- und Endgeräte-Computing in den nächsten fünf bis zehn Jahren ein Volumen von 400 Milliarden US-Dollar erreichen könnte.

Aber die allgemeinen Edge- und Endgeräte-KI-Chips stehen vor großen Herausforderungen: Die traditionellen Architekturen sind durch die „Speicherwand“ und die „Energieverbrauchswand“ eingeschränkt. Etwa 90 % des Energieverbrauchs geht für die Datenverschiebung und nicht für die eigentliche Berechnung verloren.

Um dieses Problem zu lösen, hat Houmo Intelligence den Technologiepfad der „Speicher-Rechen-Integration“ gewählt, um die Rechenleistung zu verbessern. Im Juli dieses Jahres hat die Firma den ersten Chip M50 für Edge- und Endgeräte-Large Language Models vorgestellt. Der Chip bietet eine Rechenleistung von 100 - 160 Teraflops bei einem Energieverbrauch von nur 10 Watt und kann Large Language Models mit Hunderten von Milliarden Parametern auf Endgeräten ausführen. Derzeit arbeitet die Firma bereits mit Kunden in Bereichen wie AIPC, intelligentem Büro, Begleitrobotern und 5G + KI zusammen.

Nach Meinung von Wu Qiang wird Embodied AI neben den bestehenden Anwendungsbereichen der Schlüsselmarkt für die nächste Generation von Edge- und Endgeräte-KI sein. „Embodied AI-Roboter benötigen ein „Superhirn“ mit Echtzeitfähigkeit, starker Denkfähigkeit und Interaktivität, und dies ist genau der Vorteil der Speicher-Rechen-Integrationsarchitektur.“ Er sagte, dass die Firma derzeit gemeinsam mit Roboteralgorithmen- und Lösungsanbietern an einer Chip-Lösung für ein „Superhirn“ basierend auf dem nächsten Generationen DRAM PM Speicher-Rechen-Integrations-Chip arbeitet.

Mit der allmählichen Implementierung des M50 ab nächstem Jahr und der kontinuierlichen Erweiterung von Anwendungsbereichen wie Trusted Computing PCs, intelligentem Büro und Begleitrobotern baut Houmo Intelligence gemeinsam mit Partnern in der gesamten Wertschöpfungskette ein Ökosystem für Edge- und Endgeräte-KI auf.

Wu Qiang betonte, dass die Edge-Computing nicht nur ein Wettlauf um Rechenleistung, sondern auch ein Wettlauf um das Ökosystem ist – „Wir hoffen, gemeinsam mit unseren Partnern die KI auf Endgeräten zu verbreiten und zugänglich zu machen.“

Im Folgenden finden Sie die geschnittene Transkription des Vortrags von Wu Qiang, Gründer und CEO von Houmo Intelligence:

Hallo zusammen, ich bin Wu Qiang von Houmo Intelligence. Wir sind ein Unternehmen, das sich auf Edge- und Endgeräte-KI-Chips spezialisiert hat. Heute möchte ich an dieser Stelle einige Überlegungen und Praktiken zu Edge- und Endgeräte-KI-Computing mit Ihnen teilen.

Large Language Models haben die KI in die Ära 2.0 geführt. Dies hat nicht nur die Rechenlandschaft in Cloud-Datencentern verändert, sondern auch Nvidia zum ersten Unternehmen der Welt gemacht, das einen Marktwert von 5 Billionen US-Dollar überschritten hat. Wir glauben, dass in den nächsten Jahren auch die Edge- und Endgeräte-Segmente riesige Chancen haben werden. Aufgrund der natürlichen Anforderungen an Echtzeitfähigkeit und Datenschutz auf Edge- und Endgeräten sowie der Entwicklungstrends der KI-Vereinheitlichung sind wir überzeugt, dass die Edge- und Endgeräte-KI-Computing allmählich aufsteigen und zum Hauptschlachtfeld des KI-Wettbewerbs werden wird.

Derzeit ist der Markt für Edge- und Endgeräte-Computing erst am Anfang, aber wir erwarten, dass er in den nächsten fünf bis zehn Jahren einen explosionsartigen Wachstum erfahren wird. Beispielsweise sagt STL Partners voraus, dass der Marktvolumen möglicherweise 400 Milliarden US-Dollar oder sogar mehr erreichen könnte.

Heute ist die Edge- und Endgeräte-Computing noch hauptsächlich logikgesteuert. Wie wird sich die Landschaft der Edge- und Endgeräte-Computing in den nächsten fünf bis zehn Jahren gestalten? Wir glauben, dass es allmählich von der gegenwärtigen Logiksteuerung hin zu einer datenzentrierten KI-Computing richtung nehmen wird.

Wenn wir uns die Entwicklung der Datencentren in den letzten zehn Jahren ansehen, können wir eine ähnliche Veränderung beobachten. Früher wurden 80 % der Ausgaben in Datencentern für logikgesteuerte Berechnungen wie Webseitenverarbeitung und Datenbankoperationen verwendet, nur 20 % für datenbezogene Berechnungen. Heute hat sich dieses Verhältnis umgekehrt: 80 % werden für KI-Berechnungen verwendet, 20 % für Logiksteuerung. Diese Verschiebung des Rechenparadigmas wird von der Veränderung der Anwendungsfälle angetrieben.

Können wir auf der Edge- und Endgeräte-Ebene ebenfalls eine ähnliche Veränderung vorhersagen? Derzeit wird die Berechnung auf Endgeräten noch hauptsächlich von der CPU dominiert, und die KI spielt eher eine unterstützende Rolle. Aber wir erwarten, dass in den nächsten fünf bis zehn Jahren die Aufgaben auf Edge- und Endgeräten mehr in Richtung Wahrnehmung, Verständnis und Entscheidung gehen werden und sich der Fokus auf Daten und KI richten wird. Dies ist unsere erste Einschätzung.

Speziell betrachtet kann die Edge- und Endgeräte-KI-Computing in zwei Kategorien unterteilt werden: vertikale Anwendungen und allgemeine Anwendungen. Vertikale Anwendungen wie Mobiltelefone und autonome Fahrzeuge haben aufgrund ihrer klar definierten Szenarien und großen Marktanteilen bereits breite Aufmerksamkeit erhalten, und es wurden umfangreiche Hardware-Software-Kooptimierungen bei Algorithmen und Chiparchitekturen vorgenommen.

Die andere Kategorie ist die allgemeine Edge- und Endgeräte-KI-Computing, die Tausende von verschiedenen Anwendungsfällen abdeckt. Jeder Anwendungsfall ist nicht sehr groß, aber die Summe ist sehr beträchtlich. Diese Art von Rechenanforderungen ist vielfältig, und es muss sowohl Effizienz als auch Allgemeingültigkeit gewährleistet werden. Derzeit wird diese Kategorie gerade erst beachtet, und hier möchten wir uns im Folgenden näher auf konzentrieren.

Was sind die Merkmale und Herausforderungen von allgemeinen Edge- und Endgeräte-KI-Chips? Erstens befinden sie sich auf der Edge- und Endgeräte-Ebene, sind kostensensitiv, energieeffizient und die Bandbreite kann schnell zum Engpass werden, insbesondere in der Ära der Large Language Models. Zweitens müssen sie als allgemeine Chips für alle Branchen und zahlreiche Anwendungsfälle geeignet sein und eine hohe Allgemeingültigkeit aufweisen, um alle Anforderungen zu erfüllen. Wir müssen die Effizienz auf der untersten Architekturebene verbessern, ohne die Allgemeingültigkeit zu verlieren, um die Anforderungen der Edge- und Endgeräte-Ebene zu erfüllen. Dies ist die Richtung, in die die Branche in den letzten Jahren geforscht hat.

Um dieses Problem zu lösen, müssen wir zunächst die Engpässe der gegenwärtigen Architekturen verstehen. Die traditionellen Architekturen sind flexibel, aber heute stoßen sie auf die „Speicherwand“ und die „Energieverbrauchswand“ – die Datenverschiebung wird zum Hauptengpass, und bis zu 90 % des Energieverbrauchs kann für die Datenverschiebung und nicht für die eigentliche Berechnung verloren gehen. Daher müssen wir diese beiden Engpässe grundlegend überwinden, um die Effizienz der allgemeinen Edge- und Endgeräte-KI zu verbessern.

Wir glauben, dass die Speicher-Rechen-Integration einer der besten Wege ist, um die Speicherwand und die Energieverbrauchswand zu überwinden. Im Wesentlichen wird die Distanz zwischen Daten und Berechnung verkürzt, um die Datenverschiebung zu reduzieren und somit die Energieeffizienz zu verbessern. Es gibt verschiedene Möglichkeiten, die Speicher-Rechen-Integration zu realisieren, beispielsweise auf der Grundlage von SRAM und DRAM. SRAM ist besser geeignet, um die Rechenleistung und Energieeffizienz zu verbessern, während DRAM besser in der Lage ist, das Bandbreitenproblem zu lösen.

Seit seiner Gründung hat sich Houmo Intelligence auf die Forschung und Entwicklung von Hochleistungs-Chips mit Speicher-Rechen-Integration konzentriert und war auch das erste Unternehmen, das die Hochleistungs-Speicher-Rechen-Integration von der Theorie in die Praxis umsetzte. Nach vier bis fünf Jahren technischer Akkumulation haben wir bereits zwei Generationen von Serienprodukten auf den Markt gebracht. Im Juli dieses Jahres haben wir unseren neuesten Flagschiff-Chip, den M50, vorgestellt.

Der M50 ist unser erster Chip, der speziell für Edge- und Endgeräte-Large Language Models entwickelt wurde. Er bietet eine Rechenleistung von etwa 100 - 160 Teraflops bei einem Energieverbrauch von nur 10 Watt und kann Large Language Models mit 14 Milliarden, 20 Milliarden, 30 Milliarden bis hin zu 120 Milliarden Parametern unterstützen. Wir bieten verschiedene Produktformen an, wie z. B. M.2-Karten und Duo M.2-Karten. Die kleinste M.2-Karte ist nur so groß wie eine Kaugummipackung, kann aber Modelle mit 14 Milliarden oder sogar 30 Milliarden Parametern ausführen, was unseren Kunden in den Edge- und Endgeräte-Anwendungen sehr beeindruckt hat.

Seit der Veröffentlichung arbeiten wir ständig mit unseren Kunden an der Implementierung des M50. Auf der Endgeräte-Ebene umfassen unsere Kooperationsbereiche intelligente Sprachgeräte, AIPC, Begleitroboter, AI NAS usw.; auf der Edge-Ebene konzentrieren wir uns hauptsächlich auf AI-Gateways, 5G + KI, Rechenboxen usw.

Ein guter Chip benötigt eine gute Toolchain. Für den M50 bieten wir eine vollständige Toolchain an, die es ermöglicht, alle Arten von trainierten Modellen (einschließlich Open-Source-Modelle) direkt auf die Hardware zu übertragen und auszuführen, ohne erneut trainiert zu werden. Da der M50 bFP und andere Gleitkomma-Präzisionen unterstützt, verläuft der gesamte Kompilierungsprozess sehr reibungslos, und die Kunden können die Modelle schnell anpassen.

Seit der Veröffentlichung im Juli haben wir eng mit Partnern in der gesamten Chip-Ökosystem zusammengearbeitet und die Anpassung an verschiedene Betriebssysteme (einschließlich Windows, Linux sowie Trusted Computing-Betriebssysteme wie Kylin und Tongxin) abgeschlossen. Wir haben auch die Zusammenarbeit mit verschiedenen Hauptprozessoren (x86, ARM und chinesischen CPUs) koordiniert. Gleichzeitig führen wir umfangreiche Anpassungsarbeiten mit Partnern auf Algorithmus- und Lösungsebene durch. Wir erwarten, dass ab Anfang nächsten Jahres mehr Implementierungsanwendungen auf den Markt kommen werden. Wir hoffen, mit mehr Partnern zusammenzuarbeiten, um ein Ökosystem für Edge- und Endgeräte-KI aufzubauen.

Abschließend möchte ich zusammenfassen, dass die gegenwärtige Edge- und Endgeräte-Computing noch hauptsächlich von der Steuerung und Logik dominiert wird, aber wir sind überzeugt, dass es in den nächsten fünf bis zehn Jahren in Richtung KI gehen wird und die allgemeine Edge- und Endgeräte-KI-Computing einen Aufbruch erleben wird. Dies ist ein historischer Trend. Hou

Dieser Artikel wurde ursprünglich von「欧雪」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Wu Qiang, Gründer und CEO von Houmo Intelligence: Der Engpass der generischen künstlichen Intelligenz-Rechenleistung an Endgeräten und am Netzwerkrand erreicht einen Wendepunkt, und die Speicher-Rechner-Integration wird die Branchenökologie neu gestalten | WISE 2025 Business King

Im Folgenden finden Sie die geschnittene Transkription des Vortrags von Wu Qiang, Gründer und CEO von Houmo Intelligence: