Interview mit Song Gang, Verantwortlichem für das Geschäft mit intelligenten Endgeräten von Alibaba: Die Evolution der KI-Brillen – Ein harter Kampf um Ökosystem und Akkulaufzeit
Wenn große Modelle vom technologischen Singularitätspunkt zum industriellen Fundament werden und Agenten aus dem Labor in Produktionslinien und Arztpraxen gelangen, formt die dritte Welle der künstlichen Intelligenz die globale Wirtschaftsstruktur mit beispielloser Schärfe um.
China zeigt in dieser Transformation eine doppelte Stärke: Es ist sowohl ein Prüfgelände mit riesigen Anwendungsfeldern als auch ein Ort, an dem Angriffe in tiefen Gewässern wie der Chipentwicklung und der Offenlegung von Algorithmen unternommen werden. Von der Überwindung einzelner technologischer Hindernisse bis hin zur Ökosystem-innovation, von Effizienztools bis hin zum Motor der neuen Produktivität zeichnet sich immer deutlicher ein pfad der künstlichen Intelligenzentwicklung mit orientalischem Charakter ab.
Am 26. Juli lud die Weltkonferenz für Künstliche Intelligenz (WAIC 2025) unter dem Motto „Zeit der Intelligenz – globale Solidarität“ Technologieriesen, akademische Pioniere und Politikgestalter aus dem Bereich der Künstlichen Intelligenz ein. Diese Superveranstaltung, die Technologie, Ethik und Kunst umfasst, zeigt, dass die Künstliche Intelligenz von einer „industriellen Variablen“ zu einer „zivilisatorischen Konstanten“ geworden ist.
Als Veranstalter war 36 Kr nicht nur ein Beobachter der Branche, sondern auch ein Verbindungsglied. Wir haben im Ausstellungsraum einen „Krypton-Livestream-Raum“ aufgebaut und in Form von Gesprächen die zugrunde liegenden Logiken der Weiterentwicklung der Künstlichen Intelligenzindustrie enthüllt.
Im Gespräch sagte Song Gang, Leiter des Geschäfts mit intelligenten Endgeräten von Alibaba: In Zukunft wird der Schlüsselindikator für die Marktstruktur der AI-Brillen die Benutzerbindung sein, d. h. die Benutzeraktivität und die Nutzungsdauer. Das Ziel von Alibaba Brillen ist es, eine bequeme und funktionale Superbrille zu entwickeln, die schließlich der persönliche mobile Zugangspunkt für Benutzer in der Ära der Künstlichen Intelligenz wird.
Im Folgenden finden Sie die Transkription des Gesprächs, bearbeitet von 36 Kr:
36kr: Bitte geben Sie uns zunächst eine kurze Einführung in sich selbst und Ihre Firma. Wie war Ihr Eindruck von der WAIC, und welche Erkenntnisse haben Sie gewonnen?
A: Ich bin Song Gang aus der Geschäftseinheit für intelligente Endgeräte der Alibaba Intelligent Information Business Group. Unser Team konzentriert sich seit langem auf das Design, die Entwicklung, die Produktion und den Vertrieb von intelligenten Endgeräten wie der Wowo-Buddies-Maschine, intelligenten Lautsprechern und den auf der WAIC vorgestellten Quark AI-Brillen. Ich bin sehr froh, an dieser Konferenz teilnehmen zu können und mit internationalen Experten und Branchenpartnern aus aller Welt darüber zu diskutieren, wie die Künstliche Intelligenz das Leben bereichern und Verbrauchern mehr technologisch anspruchsvolle Produkte der Künstlichen Intelligenz bieten kann.
36kr: Gegenwärtig haben AI-Brillen drei Probleme: ungeeignete Anwendungsfälle, kurze Akkulaufzeit und unkomfortables Tragen. Wie erreicht Alibaba Brillen das Dreiecksgleichgewicht zwischen Leistung, Energieverbrauch und Komfort? Welche exklusiven Ingenieurtechnikinnovationen gibt es?
A: In Bezug auf die Anwendungsfälle haben wir die Quark AI-Brillen zu einem „echten persönlichen AI-Zugangspunkt“ gemacht. Durch die Kombination der eigenen Ökosysteme von Alibaba und der Zusammenarbeit mit Branchenpartnern erfüllen wir die vielfältigen Bedürfnisse der Benutzer.
Wir haben auch in Zusammenarbeit mit internen Ökosystemen der Gruppe eine AI-Fähigkeitsmatrix für vertikale Anwendungsfälle wie Suche, Navigation, Zahlung, persönliche Reisen und Geschäftsreisen aufgebaut, damit die Künstliche Intelligenz das Leben der Benutzer besser bedienen kann.
Um das Problem der unzureichenden Akkulaufzeit von AI-Brillen zu lösen, haben die Quark AI-Brillen ein Design mit zwei Chips und zwei Systemen. Durch die intelligente Steuerung des Hochleistungs-Chips und des energieeffizienten Bluetooth-Chips wird die Batterienutzung optimiert. Auch in der Ingenieurtechnik haben wir innoviert und ein Design mit zwei Batterien und austauschbaren Batterien gewählt. Benutzer können die Hauptbatterie schnell austauschen, indem sie die Bügel der Brille auswechseln. Zusammen mit einer austauschbaren Batteriekassette in der Größe einer Kopfhörerbox können die Brillen rund um die Uhr betrieben werden.
Um den Tragekomfort zu verbessern, haben wir die Kontaktflächen der Nasenauflagen und der Ohrbügel mit einer bionischen Kurvenform gestaltet, um die Druckverteilung zu optimieren. Gleichzeitig wird der Schwerpunkt des Geräts genau in der geometrischen Mitte der Brille positioniert, um ein optimales Gleichgewicht beim Tragen zu erreichen. Darüber hinaus verwenden wir Bügel aus Titanlegierung, die einteilig spritzgegossen sind, und kombinieren sie mit einem elastischen Rastgelenk. Dadurch wird die Brille leicht und stabil, auch bei sportlichen Aktivitäten.
Zusammenfassend lässt sich sagen, dass die Quark AI-Brillen durch die tiefgreifende Anpassung und Optimierung des Systems sowie die Fähigkeit zur Eigenentwicklung und zur Anpassung von Industriekomponenten das Dreiecksgleichgewicht erreicht haben.
In Bezug auf das Gesamtgeräte-Architektur haben wir kleinere Lautsprecher mit doppelter Schallspule und großem Membran, eine ultra-schmale integrierte FPC entwickelt und hochbrechende Linsen mit einer Beschichtungstechnologie verwendet, um die Fläche des Beugungsgitters im Wellenleiterbereich zu verkleinern. Dadurch sind die Bügel unserer Wowo-Brillen dünner, der Rahmen schmaler und dünner und die Linsen durchsichtiger.
In Bezug auf das Tragen haben wir die Kontaktflächen der Nasenauflagen und der Ohrbügel mit einer bionischen Kurvenform gestaltet, um die Druckverteilung zu optimieren. Gleichzeitig wird der Schwerpunkt des Geräts genau in der geometrischen Mitte der Brille positioniert, um ein optimales Gleichgewicht beim Tragen zu erreichen. Darüber hinaus verwenden wir Bügel aus Titanlegierung, die einteilig spritzgegossen sind, und kombinieren sie mit einem elastischen Rastgelenk. Dadurch wird die Brille leicht und stabil, auch bei sportlichen Aktivitäten.
In Bezug auf die elektronische Architektur haben wir ein Design mit zwei Batterien und austauschbaren Batterien gewählt. Benutzer können die Hauptbatterie schnell austauschen, indem sie die Bügel der Brille auswechseln. Zusammen mit einer austauschbaren Batteriekassette in der Größe einer Kopfhörerbox können die Brillen rund um die Uhr betrieben werden.
In Bezug auf das Betriebssystem (OS) haben wir ein Dual-System aus Android und RTOS eingesetzt, um die dynamische Ressourcenverwaltung zu ermöglichen. Dadurch wird die Energieeffizienz in anspruchsvollen Szenarien erheblich verbessert, während der Energieverbrauch im Standby-Modus effektiv reduziert wird.
In Bezug auf das Bildgebungssystem haben wir einen Super-Raw-Algorithmus für die Dunkelheitsprozesse selbst entwickelt. Durch die Mehrfachbildfusion im RAW-Bereich und die adaptive Rauschunterdrückung wird das Rauschen in der Dunkelheit effektiv unterdrückt, und das Signal-Rausch-Verhältnis des Bildes wird erheblich verbessert.
36kr: Die Brille integriert Alibabas Dienstökosystem. Welcher Anwendungsfall wird in Ihrer Meinung zur täglichen Notwendigkeit der Benutzer? Welche technologischen Hindernisse müssen hierfür überwunden werden?
A: Wir glauben, dass alle Anwendungsfälle, die sich auf die Lebensbedürfnisse der Benutzer wie Essen, Kleidung, Wohnen und Verkehr beziehen und durch die Fähigkeiten und Dienste der Künstlichen Intelligenz verbessert werden können, zu täglichen Notwendigkeiten werden können. Das Ökosystem von Alibaba kann diese Bedürfnisse der Verbraucher gut unterstützen. Beispielsweise sind verschiedene Informationsbenachrichtigungen (Termine, Nachrichtenbenachrichtigungen) häufige Lebenssituationen. Durch die Zusammenarbeit mit Fliggy können wir die Fluginformationsbenachrichtigungen realisieren.
Mit den AI-Brillen können Benutzer sicher und schnell bezahlen, ohne ihr Handy herausnehmen zu müssen. Insbesondere in Situationen, in denen die Hände frei sein müssen, können die AI-Brillen den Benutzern bequemlichkeit bieten, wie z. B. das Scannen von Barcodes während des Gehens oder das Fotografieren während des Wanderings. In Situationen der interkulturellen Kommunikation sind auch Funktionen wie Übersetzung und Simultanübersetzung sehr wichtig.
Für Situationen, in denen die Effizienz bei der Arbeit oder beim Lernen verbessert werden muss, können Funktionen wie die Protokollierung von Meetings und die Beantwortung von Enzyklopädiefragen der AI-Brillen den Benutzern helfen, effizienter zu arbeiten.
Die ersten technologischen Hindernisse, die überwunden werden müssen, sind die Wahrnehmungs- und Verständnisfähigkeiten der Künstlichen Intelligenz, einschließlich Spracherkennung, Bilderkennung, Semantisches Verständnis, Absichtserkennung und vielen anderen Aspekten. Hierfür ist eine starke AI-Zentralsteuerung erforderlich, die die Aufgaben sinnvoll aufteilt und verschiedene Ökosystemdienstleistungen aufruft. Erst dann kann wirklich „gut gehört, gut gesehen, richtig verstanden und gut geantwortet“ werden, und es wird eine bessere Benutzerbindung entstehen.
Zweitens ist die Fähigkeit der Zusammenarbeit zwischen Endgerät und Cloud erforderlich. Das Endgerät der Brille muss bei niedrigem Energieverbrauch auf Anfragen reagieren können, und die Cloud muss die Cloud-AI-Dienstleistungen verschiedener Ökosystempartner anbinden, um die Informationsverarbeitung durchzuführen. Beide Seiten müssen unter verschiedenen Netzbedingungen zusammenarbeiten und reagieren, um eine schnelle und genaue Benutzererfahrung zu gewährleisten.
Alibabas Stärke liegt darin, dass wir sowohl multimodale AI-Fähigkeiten als auch das Ökosystem und die Systemfähigkeiten der Dienstleistungen besitzen. Wir können diese Technologien in reale Anwendungsfälle integrieren, damit die AI-Brillen wirklich „nützlich, einfach zu bedienen und unverzichtbar“ werden.
36kr: Was ist die Kernkompetenz von Alibaba Brillen im Wettbewerb? Welche technologische Innovation wird in den nächsten drei Jahren die AI-Brillenbranche sprunghaft vorantreiben?
A: Die auf Alibabas eigenentwickelten großen Modellen basierende AI-Anwendung, die Fähigkeit zur Integration innerer und äußerer Ökosysteme sowie die technologische Innovation, die auf der Eigenentwicklung von Hardware und Software basiert, bilden die Kernkompetenz von Alibaba bei der Entwicklung der Quark AI-Brillen.
Die technologischen Innovationen umfassen drei Bereiche: Hardware, AI-Fähigkeiten und Ökosystem. Bei der Hardware müssen die Fähigkeiten in Bereichen wie Nahsichtanzeige, Fotografie und Wahrnehmung verbessert werden. Gleichzeitig ist die Miniaturisierung des Designs ein wichtiger Faktor.
Benutzerfreundliche Tragekomfort: Hochintegrierte flexible Leiterplatten, hochkapazitive und hochdichte Batterien sowie neue innovative Verbundwerkstoffe ermöglichen eine miniaturisierte und optimierte Tragekomfort.
Nahsichtanzeige: Technologische Innovationen in der Miniaturisierung der Doppel-Bildschirme und der Zweiaugenanzeige verbessern die Probleme wie Energieverbrauch und Dünnheit der Anzeige.
Akustik und Audio: Offene akustische Systeme in Kombination mit anpassbaren und individuellen Dienstleistungen verbessern die Benutzererfahrung.
Fotografie und Wahrnehmung: Die Integration von Kamerasensoren, Rechenleistung und Bild- und Wahrnehmungsalgorithmen verbessert die Bild- und visuellen Wahrnehmungsfähigkeiten.
AI-Fähigkeiten: Um echte „Intelligenz“ in den AI-Brillen zu erreichen, ist nicht nur eine starke Spracherkennungsfähigkeit erforderlich, sondern auch eine umfassende Verbesserung der Verständnis- und Entscheidungsfähigkeiten.
Fortschrittliche Spracherkennung und -verständnis: Hohe Genauigkeit bei der Spracherkennung in lauten Umgebungen (Rauschunterdrückung, Trennung), Unterstützung von gesprochener Sprache und leisen Interaktionen, Unterstützung von Echtzeitübersetzungen in mehreren Sprachen, geringe Latenzzeit.
Multimodales Dialogverständnis: Multimodales Dialogverständnis basierend auf Sprache, Text und Bildern kann die Interaktionsabsichten der Benutzer genauer verstehen, sodass Benutzer von „Befehlsausführung“ zu „direkter Ausdrucks der Bedürfnisse in einem Satz“ wechseln können. Das visuelle multimodale Verständnis aus erster Person ermöglicht es, sowohl zu hören als auch zu sehen, was die Benutzererfahrung natürlicher macht.
Super-Intelligent Agent: Die AI-Brillen können zum persönlichen digitalen Assistenten der Benutzer werden, der nicht nur Fragen beantworten und Befehle ausführen kann, sondern auch komplexe Aufgaben bearbeiten kann (Super-Intelligent Agent) und die langfristigen Ziele und Werte der Benutzer verstehen kann.
Zusammenarbeit zwischen Endgerät und Cloud bei der Inferenz: Das AI-Modell muss auf dem energieeffizienten Endgerät schnell laufen können und gleichzeitig die Fähigkeiten des Cloud-Modells nutzen, um komplexe Aufgaben genau zu inferieren. Beide müssen sich unter verschiedenen Netz- und Rechenkapazitätsbedingungen adaptiv anpassen, um eine stabile und sofortige Benutzererfahrung zu gewährleisten.
Kontinuierliches Lernen und Individualisierung: Das Modell muss die Fähigkeit besitzen, die Gewohnheiten und den Kontext der Benutzer kontinuierlich zu lernen, um ein individuelles Dienstsystem zu entwickeln. Dadurch kann die Künstliche Intelligenz von einer „allgemeinen AI“ zu einer „exklusiven AI“ werden und wirklich zum persönlichen intelligenten Assistenten werden.
AI-Inhaltsökosystem: Die Nutzungshäufigkeit und Bindung der AI-Brillen hängen letztendlich von dem um sie herum aufgebauten Inhalts- und Dienstökosystem ab. Wir haben die wichtigsten Inhaltsökosysteme der gesamten Branche integriert und bieten integrierte Inhaltsdienstleistungen aus verschiedenen Perspektiven.
Von der passiven Erfassung zur aktiven Empfehlung: Bei der Bereitstellung von Inhalten und Informationsdienstleistungen werden wertvolle Informationen, Dienstleistungen und Handlungspfade basierend auf der aktuellen Situation und den historischen Verhaltenspräferenzen der Benutzer aktiv vorgeschlagen, um wirklich „das zu tun, was die Benutzer denken“.
Tiefe Integration mit dem Ökosystem: In Bezug auf die Breite der Ökosysteminhalte werden die Kern-Szenarien wie Suche, Navigation, Zahlung, persönliche Reisen und Geschäftsreisen ständig erweitert auf weitere Szenarien wie tägliche Reisen, Einkaufen, Lernen und Arbeiten. Dadurch können Benutzer mit den Brillen die vollständige Schleife von der „Wahrnehmung“ bis zur „Handlung“ schließen.
Tiefe Integration von vertikalen Wissens- und Dienstleistungen: In Bezug auf die Tiefe der Ökosysteminhalte wird durch die Kombination mit vertikalen Brancheninhaltsystemen (z. B. Tourismus, Bildung, Handel) ein hochwertiges, strukturiertes und verständliches AI-Inhaltsquellensystem aufgebaut, das den AI-Brillen einen langfristigen Erhaltungs- und Wiederkehrwert verleiht.
Dritter-System-Inhaltsdienstökosystem: Die Unterstützung des Zugangs von Drittanbietern zu Inhalten und Fähigkeiten fördert die Zusammenarbeit von Inhalts- und Dienstleistungsentwicklern bei der Schaffung eines neuen Ökosystems für die AI-Brillen, sodass die AI-Brillen zu einer wachsenden intelligenten Plattform werden können.
36kr: Nach dem Durchbruch der AI-Brillenbranche, welchen Indikator wird in Ihrer Meinung die endgültige Marktstruktur bestimmen? Was ist das Ziel von Alibaba Br