StartseiteArtikel

Wer definiert die KI-Hardware im Jahr 2026?

晓曦2026-05-22 13:45
All-Szenario-Symbiose verändert die kommerzielle Logik von KI-Hardware

Im Jahr 2026 hat die AI-Hardware, die sich in einer kritischen Phase des industriellen Aufstiegs befindet, die Phase der losen Konzeptanhäufung hinter sich gelassen.

Die von der Ministerin für Industrie und Informationstechnologie, dem Ministerium für Handel und der Marktaufsichtsbehörde gemeinsam herausgegebenen nationalen Standards der Reihe "Intelligente Klassifizierung von Künstlicher-Intelligenz-Endgeräten" haben für diesen aufgebrachten Wettlauf eine klare Skala festgelegt. Sie teilen die Endgeräteintelligenz in vier Stufen von L1 bis L4 ein, die von der Reaktionsstufe allmählich zur Kooperationsstufe ansteigen.

Dieses Standardsystem definiert fünf Fähigkeitselemente: Wahrnehmung, Kognition, Ausführung, Gedächtnis und Lernen. Es umfasst sieben Kategorien, darunter Mobiltelefone, Computer, Fernseher, Brillen, Autositze, Lautsprecher und Kopfhörer. Dadurch wird im Wesentlichen die erste Generation von AI-Hardwareformen festgelegt, die mit hoher Wahrscheinlichkeit in Massen verbreitet werden, und es werden konkrete Testmethoden angegeben.

Für die Verbraucher bedeutet dies, dass sie nicht mehr mühsam die technische Logik verstehen müssen, um herauszufinden, wie intelligent ein Gerät ist, und auch nicht mehr auf die Selbstlobreden der Hersteller hören müssen.

Fast gleichzeitig mit der Veröffentlichung der Standards hat Alibaba Cloud auf der am 20. Mai abgehaltenen Alibaba Cloud Summit mehrere Umsetzungsergebnisse von AI-Hardware präsentiert. Gleichzeitig hat es angekündigt, gemeinsam mit Tmall das "Qwen Intelligent Hardware X Tmall Cooperation Plan" zu veröffentlichen. Das Plan umfasst exklusive Rechte des Qwen-Modells, die Unterstützung von Milliarden von Traffic auf Tmall sowie Ressourcen für die Markenpräsentation auf der ganzen Plattform. Beide Parteien werden gemeinsam über 100 Millionen Yuan an Ressourcen investieren, um die Hardwarehersteller in drei Dimensionen - Technologie, Marke und Vertriebskanäle - bei der Wertsteigerung zu unterstützen und das Aufkommen neuer AI-Hardwarearten zu beschleunigen.

Der grosse Tmall 618-Sonderverkauf steht kurz bevor. Mehrere AI-Hardwareprodukte mit Qwen-Fähigkeiten werden auf Tmall vorgestellt. Beide Plattformen bieten gemeinsam Traffic und Markenpräsentationsressourcen an, um die kommerzielle Umsetzung von AI-Hardware zu beschleunigen. Der Staat hat für die AI-Hardware eine Pyramide gezeichnet, während die Cloud-Anbieter die nötigen Fähigkeiten für den Aufstieg auf die Pyramide bieten.

All diese raschen Veränderungen weisen auf einen gemeinsamen Trend hin:

Die AI-Hardware geht von der Konzeptprüfung auf der Geräteebene zur massenhaften Verbreitung mit der Zusammenarbeit zwischen Gerät und Cloud über, und die Freisetzung der Fähigkeiten von AI-Cloud-Diensten trifft genau auf diesen Wendepunkt.

01. Wer bleibt bei L1 stehen, wer strebt nach L4?

Von L1 bis L4 steigt bei jeder Stufe die Fähigkeitsgrenze.

Geräte der Stufe L1 können nur voreingestellte Befehle ausführen und sind im Wesentlichen eine intelligente Version traditioneller Elektrogeräte. Geräte der Stufe L2 haben bereits Werkzeugeigenschaften, und die Benutzer können bestimmte Funktionen aktiv aufrufen.

Yu Xiuming, stellvertretender Direktor des China National Institute of Standardization für Elektronik, hat bei der Erläuterung der Standards darauf hingewiesen, dass nach Umfragen und Testanalysen die Produkte mit hoher Benutzerrate derzeit hauptsächlich in den Stufen L1 und L2 liegen, und einige neue Produkte können die Stufe L3 erreichen.

Insgesamt entwickelt sich die AI-Endgerätetechnologie parallel auf drei Wegen: die Verbesserung traditioneller Endgeräte, die Erweiterung der neuen Endgeräte und die Erforschung zukünftiger Endgeräte.

Die echte Wasserscheide liegt bei der Stufe L3 (Assistentenstufe). Das Kernmerkmal von L3 ist, dass das Endgerät die Befehle und Absichten der Benutzer vollständig verstehen und die Fähigkeit zur aktiven Erkennung und aktiven Bereitstellung von Diensten haben kann.

Nehmen wir ein intelligentes Klimaanlagegerät als Beispiel. Ein Gerät der Stufe L3 kann automatisch erkennen, ob der Benutzer am Kopf schwitzt, und dann die Temperatur automatisch senken. Wenn der Benutzer den "Abreise-Modus" aktiviert, wird die Kamera zuerst prüfen, ob noch jemand zu Hause ist, und erst nach dem Verlassen des Hauses das Licht ausschalten. Diese Aktionen erfordern die Integration von Audiosignalen, Videosignalen und Sensoren, um komplexe Absichtserkennungen und -entscheidungen zu treffen. Die Standards verlangen, dass das Gerät die Fähigkeiten zur komplexen Absichtserkennung, kettenförmigen Schlussfolgerung und Langzeitgedächtnis haben muss. Dies bedeutet, dass das Gerät nicht nur wissen muss, was etwas ist, sondern auch verstehen muss, warum es so ist, und sogar vorhersagen kann, was als Nächstes passieren soll.

Einige Hardwarehersteller haben in den letzten Jahren auf der Stufe L1 festgefahren und weisen einige typische Merkmale auf.

Eines ist, dass die Produktdefinition zu eingeschränkt ist und nur eine einzelne Funktion löst, ohne Sensoren oder Rechenleistung für zukünftige Upgrades vorzusehen. Ein anderes ist, dass sie zu stark auf leichte Modelle auf der Geräteebene angewiesen sind, was dazu führt, dass ihre Fähigkeiten in komplexen Szenarien versagen.

Es gibt auch eine noch verstecktere Art: Die Funktionen von L1 werden als Attraktionen von L2 oder L3 verkauft. Solche Produkte werden schnell bei den Standardtests aufgedeckt, und die Verbraucher werden mit ihrem Geld abstimmen.

Chen Liwei, stellvertretender Leiter der Lösungsarchitekturabteilung der öffentlichen Cloud-Business-Unit von Alibaba Cloud Intelligence Group, ist der Meinung, dass die gesamte Hardwareindustrie sich derzeit in der Phase des Übergangs von L2 zu L3 befindet. Wer die Infrastruktur für L3 zuerst aufbauen und die Produkt-Erfahrung der Stufe L3 erreichen kann, wird einen grösseren Marktanteil erobern.

Bei L1 oder sogar L2 zu bleiben ist keine sichere Zone mehr. Um problemlos in die Stufe L3 einzutreten, ist die Zusammenarbeit zwischen multimodaler Wahrnehmung und generalisierter Schlussfolgerung erforderlich.

Auf der Alibaba Cloud Summit wurde auch das Qwen3.7-Max, das Flaggschiffmodell von Qwen, vorgestellt. In der globalen Blindtest-Rangliste von Arena, einer unabhängigen Institution, belegte Qwen3.7-Max die erste Stelle unter den chinesischen Modellen und ist mit den weltweit besten Modellen konkurrenzfähig.

Das Qwen3.7-Max wurde entwickelt, um das Kernmodell eines Agenten zu sein, das die Fähigkeiten zur autonomen Planung, kontinuierlichen Iteration und Kooperation zwischen verschiedenen Geräten hat. Diese technische Verbesserung entspricht genau den Anforderungen der Stufe L3 an die Wahrnehmungs- und Kognitionselemente. Derzeit unterstützt das multimodale Interaktions-Entwicklungsset von Alibaba Cloud für die AI-Hardwarebranche vollständig den Zugang zu Qwen3.7-Max.

Je stärker die generalisierte Fähigkeit der Cloud ist, desto niedriger ist die Anpassungskosten der Hardware an die Stufe L3. Chen Liwei hat auch darauf hingewiesen: "Heute kann kein Hardwareprodukt durch ein einzelnes Modell eine end-to-end-geschlossene Benutzererfahrung erreichen. Die Lösung muss eine Kombination mehrerer Modelle sein."

02. Die Zusammenarbeit zwischen Gerät und Cloud wird zur Mussoption

Nach der Stufe L3 (Assistentenstufe) wird die Stufe L4 (Kooperationsstufe) ein noch grösserer Sprung sein.

Nach der bestehenden Definition liegt der Schwerpunkt von L4 nicht darauf, dass ein einzelnes Gerät intelligenter wird, sondern dass mehrere Geräte ein intelligentes System bilden. Wenn der Benutzer nach Hause kommt, teilen sich die Brille, der Lautsprecher, der Roboter und der Autositze automatisch das Gedächtnis und dienen dem Benutzer in der physischen Welt.

Deshalb ist die grösste Herausforderung, der sich die Hardwarehersteller gegenübersehen, wenn sie die Technologie und das Produkt problemlos auf die Stufe L4 bringen möchten, die Systemintegration und die Gerätekooperation.

In der Standardsortierungstabelle ist bei den meisten Produkten von Mobilendgeräten bis hin zu Brillen und Kopfhörern die Zusammenarbeit zwischen Gerät und Cloud angegeben. Die dahinter liegende Logik ist einfach: Die Echtzeitreaktion hängt von der Geräteebene ab, während die komplexe Schlussfolgerung von der Cloud abhängt. Dies ist die beste Lösung für die gegenwärtige Intelligenz.

Der Haushaltsroboter "Bajie" von Ecovacs ist ein typisches Beispiel. Aus Gründen der kontinuierlichen Iterationsfähigkeit von Open-Source-Modellen hat Ecovacs frühzeitig entschieden, sich an das Qwen-Grossmodell anzuschliessen.

Die Kernherausforderung des Haushaltsroboters liegt in der Nicht-Standardisierung der Haushaltsumgebung, die eine hohe Sicherheitsstufe, eine grosse Informationsdichte und sehr lange Schwänze an Anforderungen hat. Eine Lösung von Ecovacs "Bajie" besteht darin, die atomaren Fähigkeiten des Roboters (Greifen, Aufnehmen, Abstellen, Wahrnehmen, Planen) in API-Schnittstellen zu verpacken, die vom Modell leicht verstanden werden können. Die Cloud verarbeitet komplexe Aufgaben wie Umgebungsperzeption und Aktionsextraktion auf der Grundlage von Qwen3.6-Plus.

Wenn der Benutzer einen unscharfen Befehl wie "Den Wohnraum aufräumen" gibt, kann die Cloud zuerst verstehen, welche Gegenstände sich im Wohnraum befinden und was die Aufräumstandards sind, und dann eine Reihe von Aktionsbefehlen an den Roboterarm senden. Hinter dieser Reihe von Verständnissen muss keine Vorprogrammierung erfolgen. Der Intelligenzagent auf "Bajie" verbindet die Aufgaben aktiv.

Derzeit hat Ecovacs auch das System, die atomaren Fähigkeiten und die Simulationsplattform von "Bajie" geöffnet, um es mehr Ökosystempartnern zu ermöglichen, sich über "Bajie" bequem an der Algorithmentwicklung und der Anwendungsumsetzung von Haushaltsrobotern zu beteiligen.

Die Produkte der Shenmu-Serie von Hangzhou Yanjimicro bestätigen ebenfalls die Notwendigkeit der Zusammenarbeit zwischen Gerät und Cloud. Als ein Unternehmen, das sich auf energieeffiziente intelligente Bildverarbeitung spezialisiert hat, hat Yanjimicro das Problem der Stromversorgung und der Netzwerkkommunikation der Kamera optimiert und es ermöglicht, ohne Netz und Strom zu funktionieren. Die Herausforderung, die durch die geringe Energieaufnahme entsteht, ist, dass die Rechenleistung des Chips auf der Geräteebene begrenzt ist und nicht die Inference-Last eines grossen Modells tragen kann.

Ihre Lösung besteht darin, dass die Geräteebene die Echtzeit-Markierung und die vorläufige Verarbeitung vornimmt. Das AI-Chip auf der Geräteebene erkennt Personen, Autos und nicht-motorisierte Fahrzeuge im Bild und überträgt dann die Text- und Bildinformationen über ein energieeffizientes 4G-Signal auf die Cloud. Die Cloud führt dann auf der Grundlage des Qwen-Grossmodells eine tiefe Verarbeitung und eine strukturierte Speicherung durch, so dass der Benutzer wie bei der Suche in einem Fotoalbum nach Informationen von der Kamera fragen kann, z. B. "Welche Farbe hatte die Katze gestern Nachmittag vor der Tür?". Eine solche Erfahrung ist bei einer reinen Geräteebenenlösung fast unmöglich.

Basierend auf dieser Architektur hat das Unternehmen die Bezahlkonversionsrate um 25 % erhöht, den durchschnittlichen Kundenpreis um 30 % gesteigert und die kontinuierliche Retentionsrate der bezahlenden Benutzer auf über 75 % gebracht. Die AI-Fähigkeiten haben sich direkt in kommerzielle Wettbewerbsfähigkeit umgewandelt.

Das Aufgabenteilungsmuster der Zusammenarbeit zwischen Gerät und Cloud wird zum Industriekonsens, und die Rolle der Cloud-Anbieter hat sich ebenfalls stark verändert.

In der Vergangenheit boten die Cloud-Anbieter nur Cloud-Ressourcen wie Rechenleistung und Speicherplatz an. Jetzt bieten sie die Infrastruktur für die Zusammenarbeit zwischen Gerät und Cloud und um Agenten herum. Sie packen die Fähigkeiten der visuellen Verarbeitung, der Aufgabenplanung und sogar der Front-End-Codegenerierung in aufrufbare Dienste und senken von der Entwicklungsseite her die Schwelle für die Hardwarehersteller, um AI-Fähigkeiten in ihre bestehenden Systeme zu integrieren.

Chen Liwei hat auch die vier Kernherausforderungen von Alibaba Cloud zurzeit zusammengefasst: die Kombination von Modellen, die Komplexität der Engineering, die Fähigkeit zur kontinuierlichen Betriebsführung und die geschlossene Schleife der Daten.

Bei der Erwähnung der Modellkombination und der Engineering ist das zuvor veröffentlichte neue Allmodus-Grossmodell Qwen3.5-Omni erwähnenswert.

Das Qwen3.5-Omni hat in 215 Aufgaben wie Audio- und Videoverarbeitung, -erkennung und -interaktion die beste Leistung (SOTA) erzielt, die Echtzeit-Interaktionserfahrung stark verbessert und "hohe Emotionalintelligenz" entwickelt. Noch überraschender ist, dass das Qwen3.5-Omni die Fähigkeit zur Audio- und Video-Vibe-Coding gezeigt hat. Wenn der Benutzer seine Anforderungen vor der Kamera formuliert, kann das Modell automatisch komplexe Produktcodes wie APPs, Webseiten und Spiele generieren. Die Echtzeit-Allmodus-Fähigkeit bietet die entscheidende technische Grundlage für die AI-Hardware, um von L1 und L2 zu L3 und L4 zu gelangen.

Während sich die Allmodus-Modelle ständig verbessern, erkunden die Hardwarehersteller auch unterschiedliche Umsetzungspfade.

Zum Beispiel ist Leishen Robotics, ein Unternehmen, das sich auf toC-Humanoidroboter spezialisiert hat, an einer interessanten Zusammenarbeit zwischen Gerät und Cloud beteiligt. Die Benutzer können über das Heimnetzwerk ihren Computer oder lokalen Intelligenzagenten verwenden, um das AI-System des Roboters vollständig zu übernehmen, so dass der Roboter die Fähigkeiten zur Steuerung von Smart Home, Dialektgesprächen und individuellen Themen haben kann.

Guangfan Technology, das kürzlich das weltweit erste AI-Kopfhörerprodukt mit visueller Wahrnehmungsfähigkeit auf den Markt gebracht hat, hat bemerkt, dass die grösste Veränderung in der AI-Hardwarebranche im vergangenen Jahr die "Schnelligkeit" war. Die Iterationsgeschwindigkeit von Hardware und Software war erstaunlich. Die AI hat sich von der einfachen Chat-Funktion zu Intelligenzagenten und Selbstlernfähigkeiten entwickelt, und die Möglichkeiten wachsen täglich stark. Guangfan's Umsetzungspfad besteht darin, ein AI-ursprüngliches Betriebssystem zu entwickeln, das einen breiteren Bereich als OpenClaw abdeckt und multimodale Interaktion, Hardware-Scheduling, Software-Scheduling und Rechenleistungsscheduling umfasst.

Die Erkundungen der "Top-Spieler" haben bewiesen, dass die Zusammenarbeit zwischen Gerät und Cloud ein "schwieriges, aber richtiges" langfristiges Thema ist. Die Intelligenz der