Im ersten Kampf um AI-natives Hardware: Wie antwortet Alibaba mit einer Brille?
Wenn sich die großen Modelle vom Stadium der Generierung zum Abschluss nähern, stellen alle Technologieunternehmen dieselbe Frage: Wo wird der Moment beginnen, in dem KI wirklich in das menschliche Leben integriert wird? Auf der Webseite? In einer App? Oder in einem neuen tragbaren Endgerät? Die Antwort wird allmählich klar: Die Hardware könnte der wichtigste Ausgangspunkt für die KI-native Ära sein.
Große Technologieunternehmen erkunden die Form des nächsten Eingangsports mit KI-Hardware. Diese Versuche weisen auf einen Konsens hin: Das Smartphone ist möglicherweise nicht der beste Behälter für KI, da der Bildschirm es schwer hat, kontinuierliche Gespräche, Wahrnehmungen und aktive Dienstleistungen zu unterstützen.
Technologieunternehmen, die genug Ehrgeiz für KI haben, werden die Hardware nicht aufgeben.
Vor diesem Hintergrund hat Alibaba auf der Weltkonferenz für Künstliche Intelligenz 2025 seine erste selbst entwickelte KI-Brille – die Quark KI-Brille – vorgestellt.
Seit KI-Hardware im vergangenen Jahr ein heißes Thema in der Branche wurde, gibt es unzählige Produktvorstellungen und Demos. Aber diese Vorstellung ist nicht nur die Premiere eines Konsumelektronikprodukts, sondern auch der erste echte Schritt von Alibaba, um KI-Fähigkeiten in ein physisches Endgerät zu integrieren, seit es seine KI-To-C-Geschäftstätigkeiten zusammengeführt hat.
Alibaba ist damit nach Meta das zweite globale Technologieplattformunternehmen, das tatsächlich ein intelligentes Brillengerät mit der Kraft eines großen Modells umsetzt.
KI + Hardware + Ökosystemsynergie: Die physische Repräsentation von Alibabas Full-Stack-Fähigkeiten
Alibaba plant intensiv, die Szenario-Pfade für die Endverbraucher zu erschließen. Ende 2024 wurde die Tongyi-App in die Geschäftsgruppe für intelligente Informationen von Alibaba integriert und hat gemeinsam mit Quark die KI-To-C-Strategie umgesetzt. Dabei wurde Quark als das Flaggschiffprodukt für KI bei Alibaba festgelegt. Diese Änderung der Unternehmensstruktur hat den strategischen Weg von Alibaba in der Ära der großen Modelle grob festgelegt.
Nachdem das Jahr 2025 begonnen hat, ist Quark allmählich der klarste und mächtigste Schnittstelle in diesem System geworden:
Im März kündigte Quark an, sich vollständig zu einem "KI-Superfeld" zu entwickeln – einem intelligenten Aufgabenhub, der Gespräche, Suche, Ausführung und Entscheidungen integriert und nicht mehr ein herkömmliches Suchfeld ist;
Während der Hochschulaufnahmeprüfungen im Juni hat Quark Funktionen wie "Tiefensuche für Hochschulaufnahmeprüfungen", "Intelligenter Studienplatzbericht" und "Intelligente Studienplatzauswahl" eingeführt. Insgesamt wurden über 12 Millionen individuelle Studienplatzberichte generiert, und mehr als die Hälfte der Bewerber stammten aus kleineren Städten und ländlichen Gebieten;
Im Juli, als sich die großen KI-Unternehmen um die "KI + Gesundheit"-Szenarien stritten, hat das Quark-Gesundheitsmodell die Prüfung auf der Ebene eines leitenden Arztes in 12 Kernfächern in China bestanden und ist damit der erste "Chefarzt-KI" in das Konsumproduktsystem gelangt.
Jeder dieser gegenwärtigen Durchbrüche ist eigentlich das Ergebnis früherer langfristiger Investitionen. Auch die Einführung der Quark KI-Brille ist ein logischer Schritt.
Dass dieser Weg schließlich von Quark übernommen wird, ist kein Zufall – als eines der wenigen "neutralen" Werkzeugprodukte im Alibaba-System hat Quark ein hervorragendes Ansehen bei jungen Menschen. Darüber hinaus verfügt es über langjährige Erfahrungen in den Grundlagen von Sprache, Semantik und Bildverarbeitung. Zusammen mit dem überprüften Produkt-Algorithmus-Kopplungsmechanismus in Szenarien wie Suche, Gesundheit und Bildung macht es Quark zum besten Träger für die Umsetzung der KI-Assistentenform.
Schon im Januar 2025 berichtete 36Kr, dass das Quark-Team an KI-Brillen arbeitete. Diesmal hat Alibaba sich entschieden, mit einer Brille in den Markt für Hardware-Endgeräte in der Ära der großen Modelle einzusteigen.
Es ist nicht nur die Premiere eines Produkts, sondern auch eine konkrete Umsetzung von Alibabas KI-To-C-Strategie. Die KI-Brille wird als physischer Träger für einen Super-Eingangspunkt definiert, um einen echten tragbaren KI-Assistenten mit Wahrnehmungs- und Handlungsfähigkeiten zu schaffen.
Diese Positionierung spiegelt auch Alibabas Einschätzung der neuen Endgeräteform wider: Der nächste Eingangspunkt muss nicht nur ein zusammengesetztes Produkt aus Software und Hardware sein, sondern die geschlossene Ausgabe der integrierten Fähigkeiten von "Modell + Hardware + Ökosystem".
Konkret gesehen, integriert diese Brille Alibabas Fähigkeiten in mehreren Dimensionen:
Von der Hardware her hat das Quark KI-Brille-Team umfangreiche Erfahrungen in der Endgeräteentwicklung. Die meisten Kernmitglieder stammen aus der Hardwarebranche;
In Bezug auf Software und Algorithmen haben die Fähigkeiten von Quark in Spracherkennung, Semantikverstehen und Bildfragenbeantwortung in den letzten Jahren in der App bestätigt und auf dieser Grundlage mehrere vertikale Szenariomodelle basierend auf Tongyi Qianwen entwickelt;
Schließlich bildet die Kombination der Ökosystemfähigkeiten von Fliggy, Alibaba Business Travel, Gaode, Alipay, Taobao usw. eine mehrstufige Synergiekette von Szenario, Befehl, Aufruf bis hin zur Rückmeldung.
Genau diese Fähigkeiten definieren die wichtigsten Merkmale, die Quark KI-Brille von ähnlichen Produkten unterscheiden. Song Gang, der Leiter des Quark KI-Brille-Projekts, sagte uns: Zunächst muss es eine bequeme Brille sein; zweitens ein rund um die Uhr nutzbares intelligentes Endgerät; und am wichtigsten, ein tragbarer KI-Super-Assistent. "Wir setzen den Super-KI-Assistenten an die erste Stelle."
Die Transformation von einem Gerät zu einem Assistenten ist nicht nur ein Slogan, sondern auch in der Funktionsdefinition umgesetzt. Das Team hat sich entschieden, nicht von der Anzeigeseite her voranzukommen, sondern hat stattdessen auf Sprachinteraktion, Erstpersonenaufnahmen, Erkennungsfragen und andere "häufig benötigte" Szenarien geachtet und sich in der frühen Produktphase auf die Schaffung grundlegender, nachhaltig nutzbarer Fähigkeiten konzentriert.
Bei der tatsächlichen Interaktion ist die Quark KI-Brille mit einer Sprach- und Multimodalität-Großmodell ausgestattet und verfügt über Kernfähigkeiten wie Semantikverstehen, mehrstufige Gespräche und eine Milliardenfach-Bildsuche. Selbst unter realen Bedingungen wie unterschiedlichem Licht und Akzenten, die von den Testbedingungen abweichen, ist die Erkennung und Reaktion relativ stabil.
In Kombination mit Alibabas Geschäftstätigkeiten können noch mehr Szenarien erschlossen werden. Beispielsweise kann jetzt eine Stimmprüfungs-Zahlung auf der Grundlage von Knochenleitung erfolgen; oder die Brille kann die Gesundheits- und Bewegungsdaten des Menschen als multimodale Eingabedaten erfassen;
"Wir können ein geschlossenes Erlebnis bieten." sagte Song Gang.
Durch diese umfassenden Fähigkeiten hat sich die Quark KI-Brille von einem einfachen Aufnahmegerät zu einem echten persönlichen Assistenten entwickelt, der den Benutzer bei Arbeit und Alltag begleitet.
Der Weg und die Logik sind relativ klar, aber die tatsächliche Umsetzung ist schwierig. Für Alibaba ist dies nicht nur ein Experiment, um neue Hardwareformen zu erkunden, sondern auch eine entscheidende Schlacht, um zu überprüfen, ob seine KI-Full-Stack-Fähigkeiten in einem geschlossenen System funktionieren können.
Wo liegen die Grenzen einer Brille?
Steve Jobs sagte in einem Interview mit dem Boston Public Television Channel im Jahr 1990: "Die Benutzer können nicht vorhersagen, was sie noch nicht gesehen haben. Erst wenn das Produkt vor ihnen liegt, können sie nützliche Meinungen abgeben."
Bis heute ist es für die meisten Verbraucher noch schwer vorstellbar, wie die endgültige Form von KI-Hardware aussehen wird. Die Einbindung von großen Modellen in die Endverbraucher ist meist noch auf das Smartphone beschränkt.
Aber sowohl Ray-Ban Meta als auch Quark KI-Brille zeigen, dass die großen Unternehmen offensichtlich nach dem nächsten Endgerät suchen – einer physischen Form, die wirklich die Interaktionsweise verändern und sowohl als Eingang als auch als Ausgang fungieren kann.
Quark KI-Brille will nicht einfach eine App in Hardware übertragen, noch will sie wie andere chinesische KI-Brillen Ray-Ban Meta kopieren. Stattdessen will Quark KI-Brille einen Versuch auf der Grundlage einer neuen Interaktionslogik starten.
Obwohl Meta auch an Brillengeräten arbeitet, unterscheiden sich die Logiken der beiden Produkte. Ray-Ban Meta verfolgt einen Ansatz, der auf leichter Sozialität und Foto- und Videoteilen basiert und betont die "Aufzeichnung", während Quark KI-Brille eher auf Verständnis und Ausführung setzt – Meta ist eher wie ein "Aufzeichnungssystem, das die Welt, die Sie sehen, aufnimmt", während Quark "die Welt, der Sie gegenüberstehen, versteht". Das erste ist eher wie ein Hardware-Äquivalent von Instagram, das zweite ist ein echter neuer KI-Assistent.
Genau aus diesem Grund ist es nicht für alle Unternehmen geeignet.
Deshalb beginnt die Produktdefinition von Anfang an mit "häufigen Lebensszenarien". Die KI-Brille deckt nicht nur einzelne, aufshowreiches KI-Funktionen ab, sondern reagiert auf die allgemeinen Bedürfnisse der Benutzer, wie "nicht sehen können, nicht merken können, nicht lösen können". Im Szenario der Reisehinweise von Fliggy auf der Produktvorstellung muss der Benutzer nur sagen: "Wann fliege ich?", und die Brille kann automatisch die Reiseinformationen abrufen und die Gate-Informationen auf der Linse anzeigen, so dass der Benutzer sich nicht die Mühe machen muss, sein Smartphone herauszunehmen und eine App zu öffnen. Wenn man die Innenraumnavigation von Gaode hinzufügt, kann der gesamte Weg per Sprache navigiert werden.
Hinter diesen Szenarien steht ein spezielles Entwicklungsteam, das von mehreren Geschäftseinheiten innerhalb von Alibaba und Quark zusammengesetzt ist. Es geht nicht nur um die einfache Integration von APIs, sondern um eine tiefgehende Anpassung mit dem Ziel der "Agentifizierung", um die Geschäftstätigkeit von einer passiven Reaktion zur aktiven Dienstleistung zu bringen. Neben Fliggy und Alibaba Business Travel haben auch Gaode, Alipay, Taobao und andere ähnliche Partnerschaften begonnen: Funktionen wie Scan-Zahlung, Suche nach ähnlichen Produkten und Preisvergleich, Fahrradnavigation und Expressbenachrichtigungen bilden alle kleine KI-Ketten in verschiedenen Lebenssituationen.
Dieses Vorhaben kann nur von Alibaba umgesetzt werden, weil Alibaba in den letzten Jahren alle Aspekte unseres Lebens behandelt und verbunden hat. Das Ökosystem ist vorhanden und muss nur aktiviert werden. Für andere Unternehmen, auch wenn sie weitreichende Pläne haben, ist es oft nicht die Idee, sondern der Weg, der sie aufhält – sie müssen oft von Grund auf neu aufbauen und jedes Mal einzeln anbinden. Jeder Bruchpunkt kann die endgültige Umsetzung eines KI-Produkts verzögern.
In Bezug auf die Funktionsumsetzung werden die Grenzen, denen KI-Brillen derzeit ausgesetzt sind, allmählich überwunden.
Beispielsweise ist die Quark KI-Brille mit fünf Mikrofonen und einem Knochenleitungssystem ausgestattet. Selbst in lauten Umgebungen kann es präzise aktiviert werden und versteht die Absicht mehrerer Befehlsschritte über das Tongyi Qianwen-Modell. Anschließend verteilt das selbstentwickelte Master Agent-Zentralsystem die Befehle intelligent, wodurch die Reaktionszeit erheblich verkürzt wird. Im Bildfragenbeantwortungs-Szenario (VQA) kombiniert Quark ein selbstentwickeltes Bildunschärfedetektionsalgorithmus, SuperRAW-Technologie und die Fähigkeit zur Milliardenfach-Bildsuche. Zusammen mit der Inferenzunterstützung des Tongyi Qianwen-Großmodells wird die Erkennungsreaktionsgeschwindigkeit und die Qualität der Antworten verbessert.
Die Integration der Multimodalität-Fähigkeiten macht die Quark KI-Brille im Vergleich zu anderen fotoaufnehmenden KI-Brillen nicht nur in der Lage, Fotos zu machen, sondern auch, die Welt zu verstehen. In Situationen wie Museumsbesuchen, Begegnungen mit unbekannten Pflanzen oder Straßenfotografie können Benutzer Fragen an die Dinge vor ihnen stellen und sofort genaue KI-Erklärungen erhalten.
Aber die Grenzen gehen noch weiter.
Ein übliches Problem von Internetunternehmen bei der Entwicklung von Hardware ist, dass sie sich zu sehr auf die Software konzentrieren und die Hardware vernachlässigen. Der Erfolg in der Web- und App-Ära hat Internetunternehmen daran gewöhnt, sich schnell zu verbessern und Schritt für Schritt voranzukommen. Dies ist jedoch nicht günstig für die Entwicklung von Konsumelektronikprodukten, da die Entwicklungszeit für Hardware viel länger ist. Beispielsweise hat Apple fast zwei Jahre an der bahnbrechenden iPhone 4 gearbeitet, bevor es es auf den Markt brachte.
Glücklicherweise hat das Quark-Team genug Hardware-Experten, um die Anforderungen und Engpässe der Hardware zu verstehen. Bei der konkreten Gestaltung hat das Team versucht, das Problem zu lösen, dass es schwierig ist, eine lange Akkulaufzeit und ein gutes Tragegefühl zu vereinbaren. Die austauschbaren Bügel und ein tragbares Batteriewechselladegerät in der Größe einer Kopfhörerbox ermöglichen es den Benutzern, die Batterie jederzeit auszutauschen und rund um die Uhr zu nutzen. Die Brille ist mit einem Zwei-Chip-System ausgestattet, das je nach Last intelligenterweise zwischen den Hauptprozessoren wechselt, um den Stromverbrauch zu reduzieren. Gleichzeitig werden leichte Materialien wie Titanlegierungen verwendet. Die Bügel sind elastisch einstellbar und passen sich verschiedenen Kopfumfängen an. Zusammen mit der ergonomischen Struktur der Nasenauflagen und Ohrbügel wird der Druck beim langen Tragen so gering wie möglich gehalten.
Das Team verbirgt nicht die Komplexität dieser Herausforderung. Wie Song Gang sagte: "Der vollständige Benutzererlebnis-Kreislauf einer KI-Brille ist relativ lang, also darf es keine offensichtlichen Schwächen geben. Sobald es offensichtliche Schwächen gibt, kann das Benutzererlebnis unvollständig werden und die Benutzer können es schwer glauben, dass Sie ein Produkt mit gutem Benutzererlebnis entwickeln können."
Die Mission der KI-Brille als neues Endgerät besteht nicht darin, einfach Funktionen zu stapeln, sondern darin, eine leichte, effiziente und vertrauenswürdige Interaktionsweise zwischen Menschen und Welt zu finden.
Der Wettlauf um den Eingangspunkt ist auch ein Wettlauf um das Paradigma
Tatsächlich beschränkt sich der Versuch, Hardware als KI-Eingangspunkt zu nutzen, nicht nur auf Brill