StartseiteArtikel

Gespräch mit Wu Qiang von Houmo Intelligence: Der spannende Sprung vom Wissenschaftler zum Unternehmer

晓曦2025-08-06 08:00
Mit In-Memory Computing als Speer durchbricht man die letzte Meile der Edge- und Endgeräte-Chips für große Modelle.

Sobald Sie die Halle H1 der gerade beendeten WAIC 2025 (World Artificial Intelligence Conference) besucht haben, werden Sie feststellen, dass die heißesten Themen in China's Rechenleistungsbereich dieses Jahr zweifellos "Supernodes" und Edge-AI-Chips sind.

Dies bestätigt, dass sich die Rechenleistung seit der aufsehenerregenden Entwicklung von Large Language Models (LLMs) in Richtung Zwei-Poligkeit entwickelt hat.

Einerseits ist das Training von LLMs zu einem unverzichtbaren Bedarf geworden, und die Rechenleistung in der Cloud muss kontinuierlich erweitert werden. "Supernodes" unterstützen die kontinuierliche Verbesserung der Rechenleistung in der Cloud in China. Auf der WAIC haben Huawei und mehrere Cloud-AI-Chipunternehmen beeindruckende Rechen-"Supernodes" gezeigt.

Andererseits, wenn AI in immer mehr Branchen eingesetzt wird, insbesondere seit die Popularität von Deepseek die Rechenanforderungen für generative AI erheblich gesenkt hat und die Implementierung von LLMs in der Inferenz, vor allem in Edge- und Endgeräten, vorangetrieben hat. Auf der WAIC haben mehrere Unternehmen kompakte Edge-AI-Chips und die dazugehörige intelligente Hardware präsentiert.

Man kann sagen, dass die zukünftige Berechnung von generativer AI eine perfekte Kombination aus Cloud- und Edge-Berechnung sein wird. Wu Qiang, CEO von Houmo Intelligence, schätzt, dass bei der zukünftigen Inferenzberechnung von generativer AI etwa 90 % der Datenverarbeitung an den Edge- und Endgeräten erfolgen wird, und nur etwa 10 % der komplexen Inferenzaufgaben müssen in die Cloud übertragen werden. Nur so kann AI wirklich verbreitet werden und in jedes Haushalt gelangen und überall verfügbar sein.

In den letzten zwei Jahren hat die Chancen in der Cloud den Marktwert von NVIDIA verzehnfacht, und der Unternehmenswert hat die 4 Billionen US-Dollar-Marke überschritten, was NVIDIA zum größten Gewinner dieser AI-Welle gemacht hat. Die noch unerschlossene Märkte an den Edge- und Endgeräten öffnen sich langsam, und es gibt Chancen, dass hier der "nächste NVIDIA" entsteht. Selbst möglicherweise ist der Markt an den Edge- und Endgeräten größer als der Cloud-Markt und kann mehr Akteure aufnehmen.

Houmo Intelligence ist eine bemerkenswerte Firma auf diesem Gebiet. Wu Qiang, Gründer und CEO von Houmo Intelligence, hat ein Hintergrund in Hochleistungs-Chips und verteilter Berechnung. Er hat zunächst bei Intel, AMD und Facebook gearbeitet und später in China bei Horizon hinzugefügt. Vor über vier Jahren hat er seine eigene Chip-Startup gegründet, Houmo Intelligence. Ihre Strategie ist klar: Sie möchten mit dem Speicher-Berechnung-Integrations-Technologieansatz die letzte Meile der Edge- und Endgeräte-LLM-Berechnung bewältigen.

Aber warum wurde die Speicher-Berechnung-Integration als Kerntechnologie gewählt, um in den Edge-Chipmarkt einzusteigen? Was kann die Speicher-Berechnung-Integration für die AI-Berechnung bringen?

Wie viele Menschen bemerkt haben, werden die Probleme der "Memory Wall" und der "Power Wall" in der klassischen von-Neumann-Architektur immer gravierender, insbesondere da die Anzahl der Parameter von LLMs ständig zunimmt, oftmals in die Milliarden oder Billionen geht. Die Energieaufnahme für das Datenverschieben neigt dazu, die eigentliche Berechnung zu übertreffen. Ein Branchenvertreter hat einmal ironisch gesagt: "Das Ende von AI liegt in der Energie." Die Speicher-Berechnung-Integration ist eine radikale Lösung, die die Matrixmultiplikation und -addition direkt im Speicherelement durchführt und somit den Datenverschiebeprozess eliminiert.

Vor der WAIC 2025 hat Houmo Intelligence den Edge-Chip "Houmo Manjie M50" basierend auf der Speicher-Berechnung-Integration veröffentlicht. Laut Wu Qiang ist das größte Merkmal des M50 die innovative Berechnungsarchitektur durch die eigenentwickelte Speicher-Berechnung-Integrationstechnologie. Beispielsweise wurde eine neue Generation von Speicher-Berechnung-IP eingesetzt, die die Energieeffizienz und die Flächeneffizienz erheblich verbessert.

Wu Qiang, Gründer und CEO von Houmo Intelligence, stellt den Houmo Manjie M50 vor.

Darüber hinaus verwendet der M50 auf der Ebene der AI-Prozessorarchitektur die eigenentwickelte "Tianxuan-Architektur" IPU, die die direkte Ausführung von Floating-Point-Modellen in der Speicher-Berechnung-Integrationsarchitektur ermöglicht und die Anwendungsleistung verbessert. Gleichzeitig ist der M50 mit der neuen Generation von Compiler-Toolchains "Houmo Dadao" ausgestattet, um die Benutzerfreundlichkeit zu erhöhen und die Unterstützung für die gängigen Deep Learning-Frameworks zu gewährleisten, damit die Kunden mühelos die Anpassung und Migration des Chips vornehmen können.

Dank verschiedener technischer Innovationen zeichnet sich der M50 auch durch hervorragende Leistung aus. Er erreicht eine physische Rechenleistung von 160 TOPS@INT8 und 100 TFLOPS@bFP16, verfügt über einen maximalen Speicher von 48 GB und eine ultrahohe Bandbreite von 153.6 GB/s, bei einem typischen Leistungsverbrauch von nur 10 W, was der Leistung eines schnellen Ladegeräts für Mobiltelefone entspricht. Diese Leistungsindikatoren bedeuten, dass intelligente mobile Endgeräte wie Tablets/PCs, intelligente Sprachgeräte und Roboter lokale LLMs mit 7 bis 70 Milliarden Parametern effizient ausführen können, ohne auf die Cloud angewiesen zu sein.

Houmo Manjie M50

Wu Qiang sagte, dass die Eigenschaften von Edge-AI darin bestehen, verteilt und extrem zu sein. Daher verwendet die M50-Serie für die Aktivierung von LLMs in Edge- und Endgeräten das Modell "Originalkonzept + AI", um sich an die gängigen Prozessorarchitekturen wie X86 und ARM anzupassen und die vielfältigen Anforderungen an Edge-Geräte zu erfüllen.

Nach der Festlegung des Produkts hat Houmo Intelligence auch seine kommerzielle Aktivität schnell erweitert. Wu Qiang sagte, dass sie derzeit mehrere markante potentielle Kunden haben, darunter Lenovo's AI-PC-Produkte, die intelligenten Sprachgeräte von iFlytek Hearing und die 5G+AI-Implementierung von China Mobile.

Während eines fast zweistündigen Interviews war Wu Qiang, Gründer von Houmo Intelligence, sehr offen. Er teilte mit uns die Gründungshistorie von Houmo Intelligence, wie er den riskanten Sprung von Wissenschaftler zu Unternehmer absolvierte und wie er die technologischen Chancen von Edge-Chips und Speicher-Berechnung-Integration im Rahmen der AI-Boom sieht.

Im Folgenden ist die Transkription des Interviews zwischen 36Kr und Wu Qiang, Gründer und CEO von Houmo Intelligence:

01. Schmerzhafte Transformation und zufällig auf den LLM-Trend getroffen

36Kr: Die ersten Produkte von Houmo waren hauptsächlich auf den Markt für intelligentes Fahren ausgerichtet, jetzt wird mehr über die Anwendungen von allgemeinen Edge- und Endgeräte-LLMs gesprochen. Welche Überlegungen und Strategien liegen hinter der Transformation von intelligenter Fahrweise zu konsumorientierten Endgeräten wie AI-PCs?

Wu Qiang: Von Anfang an war es unser Ziel, effizientere AI-Chips mit der Speicher-Berechnung-Integrationstechnologie zu entwickeln. Dieser Richtung hat sich seitdem nicht geändert. Aber in welchen Anwendungsbereichen sollen diese AI-Chips eingesetzt werden? Dies war eine ständige Herausforderung, und es gab auch Veränderungen. Anfang 2021, als wir die Gründung unseres Unternehmens planten, entschieden wir uns aufgrund unserer vorherigen Erfahrungen und des Marktes für intelligentes Fahren. Damals sah man, dass das Konzept von "Software definiertes Auto" von Tesla das Bewusstsein der Verbraucher geschärft hatte, und es gab große Chancen auf dem Markt für intelligentes Fahren in China.

Aber nach der Entwicklung unseres ersten Produkts wurde uns im zweiten Halbjahr 2023 klar, dass dieser Weg nicht funktioniert. Einerseits war der Wettbewerb auf diesem Markt sehr hart, und die Dominanz der etablierten Unternehmen und Pioniere wurde immer stärker, was die Chancen für neue Anbieter immer geringer machte. Andererseits hatte unser erstes Produkt einen großen Mangel.

Damals wollten wir die Vorteile der Speicher-Berechnung-Integrationstechnologie und der Energieeffizienz zeigen, daher hatten unser erster Chip eine sehr hohe Rechenleistung (256T physische Rechenleistung, bis zu 512T bei sparsamer Rechenleistung). Aber eine hohe Rechenleistung bedeutet auch hohe Kosten, was nicht mit den Marktansprüchen im Jahr 2023 übereinstimmte. Im zweiten Halbjahr 2023 war der Markt von Preiskämpfen geprägt, und es wurde von intelligenten Fahrsystemen mit Preisen unter 1.000 Yuan gesprochen, und die Meinung war weit verbreitet, dass Level 3 Autonomie niemals erreicht werden würde (immer noch auf Level 2+++++ beschränkt), und es sei keine hohe Rechenleistung erforderlich.

Unsere Rechenleistung war also zu weit voraus und überdimensioniert. Ganz zu schweigen davon, dass es für andere Unternehmen schwierig war, sich an unser Software-System anzupassen. Wir versuchten auch, die Rechenleistung in unserem zweiten Produkt zu reduzieren und die Kosteneffizienz zu verbessern, aber wir sahen, dass das Zeitfenster für den Einstieg in den Markt für intelligente Fahrchips immer enger wurde, und es war möglich, dass das Marktfenster geschlossen sein würde, wenn unser zweites Produkt fertig wäre.

Wenn wir uns sicher waren, dass der aktuelle Weg nicht funktionierte, mussten wir uns ändern. Aber eine Veränderung war sehr schmerzhaft. Einerseits war die Entwicklung unseres zweiten Fahrchips bereits halb fertig, und es war für unsere Entwickler sehr bedauerlich, alles aufzugeben. Ich war auch sehr widersprüchlich und schmerzlich, und ich befürchtete, dass wir als unkonsequent und als Flüchtlinge angesehen würden, wenn wir uns änderten. Aber schließlich gewann der Druck zum Überleben die Oberhand, und wir beschlossen entschlossen, uns zu ändern und zu transformieren.

Die nächste Frage war, wohin sich die Transformation richten sollte. Ab 2023 begann ich, auf LLMs zu achten, und unser Team führte umfangreiche Recherchen über die Technologie und den Markt von LLMs durch. Wir erkannten, dass LLMs sowohl hohe Rechenleistung als auch hohe Bandbreite erfordern, was genau mit der Speicher-Berechnung-Integrationstechnologie übereinstimmt, da diese Technologie die Probleme von Datenverschiebung und Berechnung löst.

Außerdem breitet sich die Berechnung von LLMs von der Cloud in Richtung Edge- und Endgeräten aus. Vielleicht ist die Entwicklung von allgemeinen Edge- und Endgeräte-LLMs eine passende Chance für Houmo. Nach dieser Erkenntnis haben wir Anfang 2024 unser erstes Produkt angepasst und den M30 entwickelt, der speziell für LLMs optimiert ist.

Unser erstes Auftreten war auf der China Mobile Barcelona Messe Anfang 2024. Wir haben mit dem M30 ein 6 Milliarden Parameter großes LLMs von Zhipu AI ausgeführt und waren sehr zufrieden mit den Ergebnissen. Dies gab uns viel Vertrauen, und China Mobile, unser Investor, ermutigte uns, die Anwendungen von allgemeinen Edge- und Endgeräte-LLMs weiter zu erforschen. Aufgrund all dieser Faktoren haben wir uns entschieden, uns auf die Entwicklung von allgemeinen Edge- und Endgeräte-AI-Chips zu konzentrieren. Unser Team hat sich sehr bemüht, und nach mehr als einem Jahr haben wir den M50 entwickelt.

36Kr: Sie haben mehrere potentielle Kunden, darunter Lenovo, iFlytek Hearing und China Mobile. Welche Anwendungsbereiche möchten Sie in Zukunft erweitern?

Wu Qiang: Wir entwickeln allgemeine Edge- und Endgeräte-AI-Chips. Derzeit konzentrieren wir uns auf einige Anwendungsbereiche. Einer ist der Bereich der konsumorientierten Endgeräte wie Tablets und PCs, wo LLMs als Produktivitätstools sehr nützlich sind.

Der zweite Bereich ist das intelligente Sprachsystem, insbesondere die Anwendungen von LLMs in der Sprachverarbeitung und Konferenztechnologie. Der dritte Bereich ist der Edge-Berechnung von Telekommunikationsanbietern, da die Kombination von 5G und AI ein Trend ist. China Mobile hat uns investiert, und es gibt große Chancen in diesem Bereich.

Natürlich haben wir begrenzte Ressourcen, daher konzentrieren wir uns zunächst auf diese Bereiche. Andere Anwendungen, die Edge- und Endgeräte betreffen und eine hohe Rechenleistung und Energieeffizienz erfordern, könnten auch unsere potenziellen Kunden sein. Dies erfordert eine schrittweise Erweiterung. Derzeit sind die Hauptrichtungen die konsumorientierten Endgeräte, die intelligente Büroarbeit, die intelligente Industrie und die Robotik.

36Kr: Sie haben erwähnt, dass Sie auch im Markt unterwegs sind. Welche Merkmale hat der Markt für Edge-Chips?

Wu Qiang: Der Markt ist preis- und energieeffizienzempfindlich, und die Produkte müssen klein sein, nicht wie große Karten. Außerdem gibt es hohe Anforderungen an die Wärmeableitung, da die Anwendungen an den Edge- und Endgeräten sehr extrem sind.

36Kr: Ihr Forschungsgebiet war früher Hochleistungs-Chips, und jetzt haben Sie sich für die Speicher-Berechnung-Integrationstechnologie entschieden, die genau mit der Berechnung von LLMs kompatibel ist. Bei der Transformation waren Sie genau auf den Trend von LLMs getroffen. Ich habe das Gefühl, dass viele Ihrer früheren Erfahrungen genau auf diesen Moment vorbereitet haben.

Wu Qiang: Ja, vielleicht war alles vorher genau auf diesen Moment vorbereitet. Das Land und die Branche haben uns diese Chance gegeben, und wir haben diese neue Chance von LLMs ergriffen. Im Nachhinein betrachtet haben wir uns recht früh transformiert, obwohl es damals sehr schmerzlich war. Ich denke, man muss sich gut positionieren und vorbereiten und auf den richtigen Moment warten.

02. Speicher-Berechnung-Integration: Vom Rand zum Mittelpunkt

36Kr: Die Speicher-Berechnung-Integrationstechnologie ist sehr neu. Welche Konsens- und Nicht-Konsens-Punkte gibt es derzeit? In welchem Stadium befindet sich die Branche?

Wu Qiang: Die Situation der Speicher-Berechnung-Integrationstechnologie hat sich seit meinem Eintritt in den Bereich vor vier Jahren stark verändert.

Erstens sprechen immer mehr Mainstream-AI-Chipunternehmen über Speicher-Berechnung-Integration. Viele börsennotierte AI-Chipunternehmen oder Unicorn-Unternehmen planen, die nächste Generation von Chiparchitekturen zu entwickeln, die auf der Speicher-Berechnung-Integration basieren und die von-Neumann-Architektur ersetzen sollen. Vor vier Jahren war dies nicht der Fall. Damals sprachen nur einige Speicherunternehmen wie Samsung Semiconductor über Speicher-Berechnung-Integration.