StartseiteArtikel

AI-Brillen und AI-Smartphones: Die Kombination von Hardware und Software der Giganten

高见观潮2025-12-02 09:52
In der Ära der Künstlichen Intelligenz können Unternehmen, die keine Hardware herstellen, möglicherweise die Kontrolle über die nächste Runde verlieren.

Hören Sie auf, sich über die Größe der Parameter von Large Language Models Gedanken zu machen. Der echte Wettlauf hat erst gerade begonnen.

Innerhalb eines Monats hat Alibaba sechs verschiedene Arten von AI-Brillen auf den Markt gebracht. Heute hat ByteDance direkt seinen Chatbot Doubao in das Mobiltelefon-System integriert und 500.000 neue Mobiltelefon-Prototypen im Lager. Dies ist kein Leichtsinn, sondern ein gezielter Angriff auf den Zugangspunkt.

So stark ein Modell auch sein mag, wenn die Benutzer es nicht spüren, ist es vergeblich. Wenn alle von Agenten und "direkter Intentionseingabe" reden, werden Sie feststellen, dass es bei KI nicht darum geht, "wer schlauer antwortet", sondern "wer am ehesten wie Ihr Betriebssystem ist".

Einmal die Brille, die sich vom Mobiltelefon löst, und einmal der Assistent, der das Mobiltelefon neu definiert. Im Wesentlichen kämpfen beide um die Fahrkarte für die "nächste Generation der Mensch-Maschine-Interaktion". Hinter diesem Wettlauf steckt nicht nur eine Veränderung der Interaktionsweise, sondern auch eine Verschiebung der Plattformkontrolle.

Nachdem der Kampf in der Cloud vorbei ist, ist es jetzt an der Zeit, sich auf den Geräten zu messen.

I. Nach dem Höhepunkt der Large Language Models entscheidet der Zugangspunkt über den Sieg

In der ersten Hälfte der KI-Welle waren die Large Language Models die absoluten Hauptakteure. Wer größere Parameter, umfangreichere Trainingsdaten und schnellere Inferenzgeschwindigkeiten hatte, konnte in der Branchenkonkurrenz die Spitze erobern. Aber im zweiten Halbjahr 2024 zeigte dieser Modellwettlauf Anzeichen von Müdigkeit.

Unternehmen wie OpenAI und Anthropic haben die Veröffentlichung ihrer nächsten Generation von Modellen hinausgeschoben, und die Leistungsunterschiede zwischen den führenden chinesischen Large Language Models haben sich schnell verringert. Der Kampf zwischen Quark, Doubao, Wenxin Yiyan und Tongyi Qianwen um die Verständnisleistung hat die Wahrnehmung der Benutzer verwirrt. Die technologischen Grenzen sind noch nicht erreicht, aber das Benutzerinteresse hat stagniert. Das Modell selbst kann kaum mehr der entscheidende Faktor sein.

Deshalb hat sich der Fokus verschoben - von der "Stärke" des Modells selbst hin zu seiner "Nutzbarkeit" und hin zum Menschen.

Der Mensch nutzt das Modell jedoch nicht direkt, sondern den Dienst über ein Terminal. Das bedeutet, wer die näher am Benutzer liegenden Kontaktpunkte kontrollieren kann, hat die Macht, die Modellfähigkeiten in Dienstleistungs-Wert umzuwandeln. Im Kontext von KI sind diese Kontaktpunkte KI-Mobiltelefone und KI-Brillen, also eingebettete Hardware.

Jin Xian, der Leiter des Produkts für intelligente Endgeräte bei Alibaba, hat die Logik direkt offen gelegt: "Alle Daten, die für das Training von Large Language Models verwendet werden, basieren auf Geschäftsdaten, die am Endgerät gesammelt werden. Viele Modelle werden durch die Nutzungsszenarien von Mobiltelefonen, Tablets und Computern trainiert, um diesen Szenarien zu dienen." Das heißt, das Endgerät ist nicht nur der Verteiler des Modells, sondern auch seine "Rückkopplungsschleife". Jede Benutzeranfrage, jeder Interaktionspfad und jeder Bedienungsaufzeichnung stärken die Modellfähigkeit rückwirkend.

Der bekannte IT-Kommentator Peng Deyu sagte uns: Wenn KI in die "Agentenphase" eintritt, wird dieser Trend noch deutlicher. Die herkömmliche "Frage-Antwort"-Logik von Chatbots reicht nicht mehr. Die neuen Benutzererwartungen sind, dass man nur ein Wort sagt und der Assistent die Aufgabe erledigt. Das bedeutet, dass KI nicht nur Sprache verstehen, sondern auch in die tatsächliche Aufgabenausführung eingreifen muss.

Nehmen wir als Beispiel den neuen Doubao-Mobiltelefon-Assistenten. Wenn der Benutzer sagt: "Schreibe einen positiven Kommentar für meine Bestellung von letzter Woche auf Meituan", muss der Assistent über mehrere Apps hinweg navigieren, die Elemente auf der Seite erkennen und die Klickpfade simulieren, um eine vollständige Aufgabenkette abzuschließen. Ohne ausreichende Betriebssystemrechte und die Fähigkeit eines multimodalen Large Language Models, die Bildschirminhalte zu verstehen, ist dies fast unmöglich.

Und genau diese Fähigkeiten benötigen das Endgerät als Umsetzungsszenario.

Der Wert des Endgeräts liegt nicht nur in der "Interaktions-effizienz", sondern auch in der "Ökosystemkontrolle". Für die großen Unternehmen entscheidet, welches Gerät die Benutzer nutzen, auf welchem System sie Aufgaben ausführen und wer die Rechte hat, den Zugangspunkt aufzurufen, das Grundgerüst der zukünftigen Plattformlandschaft.

OpenAI hat im Mai dieses Jahres die Hardwarefirma IO, gegründet vom ehemaligen Chefdesigner von Apple, Sir Jony Ive, für fast 6,5 Milliarden US-Dollar übernommen. Dies wird als strategisches Signal für den Einsatz in Agent-Hardware angesehen. Das Gemini-Team von Google arbeitet mit Samsung an der Endgerätebereitstellung zusammen. In China haben Xiaomi, Li Auto, Alibaba und ByteDance auf verschiedene Weise in die Transformation der Endgeräteform eingegriffen.

Dies ist nicht die Leidenschaft für die "Herstellung von Hardware", sondern die Angst, "den Zugangspunkt zu verlieren".

Wenn GPT die Menschen in die KI-Zeit geführt hat, dann wird die Tür, durch die KI ab 2025 wirklich in das Leben der Benutzer eintritt, möglicherweise nicht in der Cloud, sondern in der Brille vor Ihren Augen oder im Mobiltelefon in Ihrer Hand liegen.

II. Zwei Wege, ein Ziel: Der Kampf um den Zugangspunkt der nächsten Generation

Obwohl beide auf dem Gebiet der KI-Hardware tätig sind, gehen die Wege von Alibaba und ByteDance fast in entgegengesetzte Richtungen.

Alibaba hat sich entschieden, eine neue Spezies zu erschaffen - die KI-Brille. Die sechs Arten von Quark-KI-Brillen, die am 27. November vorgestellt wurden, haben in meiner Meinung fast alle den Stil eines Prototyps, bei dem die Funktionalität im Vordergrund steht. Sie achten nicht auf Mode und kompromittieren nicht bei der Form, sondern gehen direkt auf die Praktikabilität zu. Ihre Mission ist es nicht, normale Verbraucher zu überzeugen, sondern die Logik der "sensorischen Mensch-Maschine-Interaktion" zu testen.

Alibaba sieht die KI-Brille als die nächste Generation des "persönlichen mobilen Zugangspunkts". Sie ist kein Zubehörteil für das Mobiltelefon, sondern ein allmählicher Ersatz für die Mobiltelefon-Szenarien. Song Gang, der Leiter des Geschäfts für intelligente Endgeräte bei Alibaba, hat auf der Pressekonferenz klar gesagt: "Es ist das Gerät, das in Zukunft die beste Chance hat, das Mobiltelefon zu ersetzen." Dies ist keine Marketing-Sprache, sondern eine vollständige Neubewertung der Interaktion.

In der Mobiltelefon-Ära mussten Benutzer eine Aufgabe durch "Herunterladen einer App - Öffnen - Suchen - Bedienen" erledigen. Die KI-Brille möchte, dass der Benutzer nur einen Satz sagen muss, wie "Mache ein Foto und lade es auf Weibo hoch", und die KI kann dann die Kamera aufrufen, die Szene erkennen und den Inhalt veröffentlichen. Die zugrunde liegende Logik ist nicht mehr die App, sondern der Agent: ein Interaktionszentrum, das die Absicht verstehen und aktiv handeln kann.

Hinter diesem Ansatz steckt die typische Strategie von Alibaba, das Cloud-Modell und das Endgerät zu koordinieren. Die zukünftige Weiterentwicklung von Large Language Models hängt von den Geschäftsdaten ab, die am Endgerät gesammelt werden. Nur wenn man seine eigene Hardware hat, hat man genügend Rechte, den gesamten Prozess von Datensammlung, Systemaufruf und Benutzerinteraktion zu verbinden.

Im Gegensatz dazu hat ByteDance einen fast entgegengesetzten Weg gewählt: Es baut keine Mobiltelefone, sondern will das "Mobiltelefon-System neu schreiben".

Der Prototyp des Mobiltelefons nubia M153, der am 1. Dezember in Zusammenarbeit mit ZTE vorgestellt wurde, ist keine neue Hardware. Sein Kernvorteil ist der "Doubao-Mobiltelefon-Assistent" - ein KI-Agent, der in das Betriebssystem integriert ist und die Fähigkeit zur vollständigen Aufgabenausführung hat. Er kann die Bildschirmoberfläche verstehen, Klicks simulieren und zwischen Apps springen, um die "direkte Umsetzung von Absichten" zu erreichen.

Im Gegensatz zu herkömmlichen Sprachassistenten, die nur einfache Befehle ausführen können, geht der Doubao-Assistent in die Tiefe des Betriebssystems. Mit Hilfe eines multimodalen Large Language Models versteht er die grafische Oberfläche und kann "komplexe Aufgaben innerhalb des virtuellen Bildschirms" ausführen. Wenn der Benutzer sagt: "Ich werde nächsten Monat nach Paris reisen. Markiere die Restaurants, die ich gespeichert habe, auf der Karte", kann Doubao die Aufgabe in sechs Schritte aufteilen, darunter die Extraktion aus sozialen Medien, die Markierung auf der Gaode-Karte, die Buchung auf Ctrip und die Organisation im Notizbuch. Er kann wie ein Mensch handeln.

Dies ist eigentlich eine "Neukonstruktion der Hauptlogik des Mobiltelefon-Betriebssystems", um KI zum "ersten Zugangspunkt" des Systems zu machen, anstatt nur eine Funktion in einer App zu sein.

ByteDance hat eine flexiblere Strategie gewählt: Es arbeitet mit Mobiltelefonherstellern zusammen und integriert seine Softwarefähigkeiten tief in das Geräteökosystem. Laut GeekPark, das auf Informationen eines ehemaligen ZTE-Produktmanagers verweist, hat die Erstauflage des nubia M153 500.000 Stück erreicht. Für ein Projekt zur systemweiten Vorinstallation eines KI-Assistenten ist dies eine sehr aggressive Zahl.

Dies ist nicht der erste Versuch von ByteDance, sich in die Hardware-Branche einzubringen. Bereits 2018 hat es das Team von Smartisan erworben, um in das Mobiltelefon-Ökosystem einzusteigen. 2021 hat es PICO erworben, um in die VR-Branche einzudringen. Anfang 2024 hat es Oladance erworben, um in die KI-Hörerkopfhörer-Branche einzusteigen. Jetzt sind alle diese Hardware-Ressourcen in die "Byte Ocean-Abteilung" integriert, die von Liu Chengcheng, dem Gründer von 36Kr, geleitet wird und an Zhu Jun, dem Leiter von Flow, berichtet. Organisationell gesehen ist dies eine der wenigen strategischen Abteilungen von ByteDance.

Alibaba baut einen neuen Zugangspunkt-Gerät, während ByteDance das bestehende Zugangspunkt-System umgestaltet. Das eine nutzt "Gerät + Szenario", um die App-Logik zu überwinden, das andere nutzt "System + Modell", um das Interaktionsprotokoll neu zu schreiben. Aber das Ziel ist dasselbe - wer die Initiative am Endgerät ergreifen kann, hat möglicherweise den nächsten Ökosystem-Zugangspunkt in der KI-Plattform-Ära.

Egal wie unterschiedlich die Wege sind, diese beiden Internetriesen haben diesmal dieselbe Antwort gegeben: Das Haupttheater der KI-Zeit verschiebt sich zum Endgerät.

III. Blase oder Anfang? Die Realität und die Unsicherheiten der KI-Hardware

KI-Hardware klingt wie der nächste "Hype", aber die Realität der Umsetzung ist viel komplexer als erwartet.

Betrachten wir zunächst das Doubao-KI-Mobiltelefon. Obwohl die Erstauflage 500.000 Stück beträgt, was für ein Unternehmen wie ZTE eine erhebliche Investition ist, liegt es immer noch deutlich hinter den Verkaufszahlen von 2 bis 3 Millionen Stück, die für Mainstream-Flaggschiffsmodelle üblich sind. Darüber hinaus kostet es 3.499 Yuan, was bedeutet, dass es nicht wirklich für den Massenmarkt, sondern für Entwickler und Tech-Enthusiasten bestimmt ist. Dieses Produkt ist eher ein "technologischer Test-Zugangspunkt": Es dient dazu, die Umsetzungserfahrung des KI-Assistenten zu testen, die Systemaufruf-Logik zu optimieren und die Vorlage für die Zusammenarbeit über Systemrechte zu sammeln, anstatt ein echter Konsumelektronikartikel zu sein.

Aber selbst als "Vorschauversion" hat der Doubao-Assistent nicht wenige technische Unsicherheiten. Ob die "Aufgabenausführung" stabil ist, ob die "Bildschirmerkennung" genau ist, oder wie die Fehlerbehandlung, die Fehlklickerkennung und die Sicherheitsausfallsicherheit beim Ausführen von Aufgaben zwischen mehreren Apps funktionieren, die KI-Kontrolle auf Systemebene ist im Grunde eine Neukonstruktion der Betriebssystemarchitektur. Und jeder Bug kann die Benutzererfahrung zerstören.

Die offizielle Dokumentation weist auch darauf hin, dass die aktuelle Funktion "Mobiltelefon bedienen" sich noch in der technischen Vorschauphase befindet und es noch einen langen Weg bis zur massenhaften stabilen Umsetzung gibt. Dieser Zustand zwischen "Fantasie" und "Realität" zeigt auch, dass der KI-Agent derzeit noch in der Optimierungsphase ist.

Das Gleiche gilt für die KI-Brillen von Alibaba. Obwohl die gleichzeitige Einführung von sechs Produkten ein hohes strategisches Engagement zeigt, gibt es derzeit in China fast keine klare Marktgrundlage für diese Geräte. In Bezug auf die Produktform folgt die Quark-KI-Brille dem minimalistischen Ansatz von "Sensorik-gesteuert + Agent-Bedienung" und strebt nach "Einschalten und nutzen, Sprechen und interagieren". Dies hat zwar das Potenzial, das Mobiltelefon zu ersetzen, aber die technischen Voraussetzungen sind noch nicht reif.

Insbesondere bei der Sensorik, der Akkulaufzeit und der Rechenleistungsintegration stehen die aktuellen KI-Brillen vor erheblichen Engpässen. Um wirklich "Umgebung erkennen + Absicht verstehen + Aktion ausführen" zu können, muss das Gerät zumindest eine stabile multimodale Inferenzfähigkeit und eine vollständige Szenariomodellierungsfähigkeit haben. Dies ist für 2025 noch eine hohe Hürde.

Eine noch realistischere Frage ist, ob die Benutzer wirklich bereit sind, die "Interaktionsbefugnis" an KI zu übertragen?

Der Doubao-Assistent hat bereits die Fähigkeit, im Hintergrund "automatisch zu handeln" und kann den Benutzerumweg über die aktive Klickhandlung umgehen, um die Aufgabenkette abzuschließen. Aber dies hat auch ein weiteres Problem verursacht: Wie können die Dateneingabe, die Privatsphäre und die Zahlungssicherheit gewährleistet werden? In der offiziellen Demonstration bleibt zwar der Zahlungsschritt noch unter der manuellen Bestätigung, aber die Fähigkeit des KI-Agents, die App zu umgehen und direkt die Interaktion zu simulieren, birgt immer noch das Risiko der Missbrauch. Vor allem in einer Phase, in der die Sicherheitsgrenzen noch nicht festgelegt und die Systemrechte-Standards nicht einheitlich sind, können diese "übermäßigen Fähigkeiten" von KI-Produkten zu einem Regulierungsgraubereich werden.

Trotzdem bedeutet diese Welle der KI-Hardware-Hype nicht eine Blase.

Im Gegenteil, es ist eine notwendige Phase in der Entwicklung der Large Language Model-Plattform. Wenn Chatbots nicht mehr neu sind, die App-Nutzerzahl stagniert und die Modellfähigkeiten nicht mehr spürbar sind, kann KI nur durch die Neukonstruktion der Interaktionsform ihre "Benutzerwert-Wahrnehmungs-Oberfläche" neu gestalten.

Die Hardware ist nicht das Ziel, sondern eine plattformweite Neukonstruktion von "Zugangspunkt öffnen - System aufrufen - Daten sammeln - Modell zurückkoppeln".

Im Moment hat das KI-Brillen-Projekt von Google die POC-Phase erreicht. Xiaomi und Li Auto haben jeweils mit KI-Brillen und einem fahrzeugintegrierten KI-Assistenten experimentiert. OpenAI hat IO erworben, um Agent-Hardware-Geräte zu entwickeln. ByteDance testet die ganzheitliche Systemintegration mit dem Doubao-Assistenten. Alibaba setzt auf die Brillenform, um die Dominanz des Mobiltelefons herauszufordern - auf der ganzen Welt beginnen Technologieunternehmen eine neue Runde der Planung