StartseiteArtikel

Geben Sie dem großen Modell ein echtes „Gesicht“: Vier KI- und Hardware-Unternehmer blicken auf 2025.

王方玉2025-01-13 11:24
Vom "Einsatz von KI" zum "optimalen Einsatz von KI", wie viele Hürden müssen Hardwarehersteller noch überwinden?

Interview | Su Jianxun

Text | Wang Fangyu

Redaktion | Su Jianxun

Wenn auf der CES 2024 KI noch mehr als ein eigenständiges Highlight von wenigen Unternehmen präsentiert wurde, ist die Integration von KI in die Unterhaltungselektronikbranche auf der CES 2025 breiter und tiefgründiger, ganz im Sinne des diesjährigen CES-Themas „Dive In“ (Eintauchen).

Am Beispiel von Smart-Brillenprodukten präsentieren auf der aktuellen CES Rokid, Thunderbird, Xreal, INMO und andere AR-Hersteller sowie Querschnittsanbieter wie Xingji Meizu, Thunderobot und DPVR und Start-ups wie Haliday und Vuzix ihre Innovationen in Form eines „AI-Brillen-Wettstreits“ in den USA.

Auf der CES entdeckte „Intelligenzauftauchen“, dass jede Art von Hardware-Produkt im Alltag, von gitarrenlosen Gitarren, KI-Masken über Ringe, Gehstöcke bis hin zu KI-Fahrrädern, zu neuen „Gesichtern“ für die Schlusspunkte der KI-Großmodelle geworden sind, um nur einige zu nennen. Hinzu kommen all jene Unterhaltungselektronikgeräte, die sehr früh auf die großen KI-Modelle setzen, von KI-Brillen, KI-Kopfhörern bis hin zu KI-Begleitrobotern und schließlich zu KI-PCs, Smartphones und Lernmaschinen.

Thema der CES: „DIVE IN“; Aufnahme: Su Jianxun

KI ist auf dieser „Frühlingsfest-Gala“ der Unterhaltungselektronikindustrie überall präsent; aber hinter der heiteren Oberfläche sind in der KI-Hardware-Branche nachdenkliche „kalte Überlegungen“ nötig:

Von „AI verwenden“ zu „AI gut verwenden“, wie viele Hürden müssen die Hardware-Hersteller noch überwinden? Wird es noch ein Verkaufsargument oder einen Mehrwert geben, wenn Produkte mit KI-Großmodellen ausgestattet sind? Können die eingesetzten intelligenten Hardwarelösungen mit der fortlaufenden Entwicklung von KI-Großmodellen Schritt halten?

Ein Gründer eines intelligenten Hardware-Unternehmens stellte „Intelligenzauftauchen“ sogar die existentiale Frage: Wenn die meisten Spieler in einem Bereich KI nutzen, zeigt das nicht implizit, dass die Eintrittshürde nicht sehr hoch ist?

Auf der CES 2025 interviewte „Intelligenzauftauchen“ vier intelligente Hardware-Hersteller, die sich aktiv mit KI-Großmodellen beschäftigen: Future Intelligence (KI-Kopfhörer), Xueersi (KI-Lernmaschinen), Li-Weike (KI-Brillen) und INAIR (AR-Brillen). Sie teilten ihre Erfahrungen, Erkundungen und Herausforderungen bei der Anwendung von KI-Großmodellen in ihren jeweiligen Nischenbereichen.

Xueersi CTO Tian Mi: Chinesische Nutzer zahlen nur ungern für KI-Software, die Kombination aus Software und Hardware ist die bessere Lösung

1. Derzeit gibt es in der chinesischen Smart-Hardware-Industrie noch keinen Hersteller, der ein Edge-Großmodell wirklich auf einer Produktlinie implementieren kann, alle laufen in der Cloud, weil chinesische Edge-Chips derzeit nicht ausgereift sind und keine Großmodelle ausführen können.

2. Aber in den nächsten 2-3 Jahren erwarte ich, dass einige einfache Großmodelle auf der Edge ausgeführt werden können, wobei die komplexen Berechnungen weiterhin auf die Cloud angewiesen sind.

3. Wir haben die Implementierung von Großmodellen in den Xueersi-Hardware-Produkten erst seit weniger als einem Jahr begonnen, die vorherigen zwei Jahre waren reine Exploration. Wir haben festgestellt, dass sich KI-Software in China schwer unabhängig umsetzen lässt, da chinesische Benutzer nicht bereit sind, für eine App zu zahlen; sie empfinden KI-Technologie als nicht wertvoll.

Die Kombination aus Software und Hardware ist eine sehr gute Lösung, die für den Verbraucher spürbar ist. Wir haben verschiedene KI-Funktionen in die Xueersi-Lernmaschine integriert, und reale Nutzungsdaten zeigen, dass die meistgenutzten Funktionen verschiedene KI-Anwendungen sind, wie KI-Korrektur, KI-Fragestellung und Interaktion mit dem intelligenten Assistenten „Xiaosi“.

Xueersis KI-Lernmaschine Quelle: Unternehmensgenehmigung

4. Zu Beginn wollten wir ein eigenes Modell von Grund auf neu trainieren, aber nach einiger Zeit stellten wir fest, dass immer mehr hervorragende Open-Source-Basis-Modelle verfügbar wurden und eine eigene Vortraining nicht sehr kosteneffektiv war. Später haben wir viele spezielle Wissensdomänen über die besten Open-Source-Basis-Modelle weltweit hinzugefügt und nochmals trainiert.

Unser Ansatz besteht darin, das Vortraining des allgemeinen Wissens zu reduzieren, aber alle anderen Schritte nicht auszulassen. Dazu gehören Vortraining von Fachwissen, Feinabstimmung und verstärkendes Lernen, die kontinuierlich durchgeführt werden.

5. Im Vergleich zu früheren KI-Modellen hat das Großmodell die Funktionalität der Xueersi-Produkte erheblich verbessert, insbesondere hinsichtlich der Genauigkeit von Aufgaben wie der KI-Korrektur und der Fähigkeit, zuvor nicht ausführbare Aufgaben auszuführen.

6. Das kontinuierliche Training von Großmodellen und die Technik des verstärkenden Lernens sind sehr anspruchsvoll und erfordern hochintelligente Talente, die ständig in Experimenten erkunden und probieren. In diesem Bereich benötigen Talente sowohl algorithmische als auch technische Fähigkeiten, sowohl in Forschung als auch Entwicklung.

7. Auch wenn auf die Xueersi-Modelle zugegriffen wird, ist die Akzeptanz von Hardware-Formen für den Benutzer sehr wichtig. Beispielsweise sind Lernmaschinen besser für das Lernen geeignet als Mobiltelefone. Derzeit gibt es viele Unternehmen im Inland, einschließlich Smartphone-, Pad-, PC- und Brillenherstellern, die auf die Xueersi-API zugreifen.

Future Intelligence CTO Wang Song: Großmodelle entwickeln sich in zwei Richtungen, eine ist die Basis, die andere die Edge

1. In Zukunft werden tragbare Geräte zu sogenannten AI Agents, die den Benutzer jederzeit begleiten, ohne dass sie wie ein Mobiltelefon in der Hand gehalten werden müssen. Sie verfügen über verschiedene Sensoren, können für den Benutzer wie Augen oder Ohren sein und die Umgebung wahrnehmen sowie Feedback geben.

2. Der Schwerpunkt von Future Intelligence liegt derzeit auf der Anpassung in Richtung Personalisierung. Wir extrahieren nützliche Informationen aus den Besprechungsinhalten der Benutzer, speichern sie in Datenbanken oder RAG-Formen und formen somit ein langfristiges Gedächtnis des Großmodells. Dieses Gedächtnis wird letztendlich mit dem persönlichen Assistenten des Nutzers verknüpft, der basierend auf den Vorlieben des Nutzers personalisierte und vorzugsweise passende Antworten generiert.

3. KI-Brillen können jetzt einige Rechenkapazitäten bewältigen, zum Beispiel sind auf der Ray-Ban Meta einige lokale Modelle installiert, die durch SOC-Chips in Echtzeit berechnet werden können. Da KI-Kopfhörer jedoch nicht über ausreichende Rechenleistung verfügen, bleibt die Berechnung in der Cloud. Alle derzeit als Intelligent bezeichneten Kopfhörer verlassen sich weitgehend auf die Rechnungen in der Cloud.

4. Wenn die Rechenleistung auf die Edge verlagert wird, antworten Großmodelle schneller und sicherer. Viele Benutzer sind besorgt über den Datenschutz, beispielsweiße könnte eine von Investoren veranstaltete Sitzung sehr sensibel und es unerwünscht sein, dass die Daten in die Cloud hochgeladen werden. Future Intelligences AI-Headset bietet diese Option, wobei die Daten des Benutzers nicht in die Cloud hochgeladen werden müssen, sondern auf den Kopfhörern oder dem Mobiltelefon gespeichert werden können.

Future Intelligences AI-Headset Quelle: Unternehmensgenehmigung

5. KI-Großmodelle entwickeln sich derzeit in zwei Richtungen: eine ist das Basismodell, dessen Parameter und Datenvolumen ständig zunehmen; und die andere Richtung ist die Edge, wo die Effizienz immer höher wird und Sicherheit sowie Datenschutz gewährleistet sind. Diese zwei Richtungen stehen eigentlich nicht im Widerspruch.

6. Die Iteration oder der Fortschritt von KI-Fähigkeiten wird einen bedeutenden Einfluss auf die Zukunft tragbarer Geräte haben. Ich erwarte, dass in fünf Jahren auch auf Kopfhörern einige lokale KI-Großmodelle laufen können. Sobald dies erreicht ist, können Kopfhörer als eigenständige Geräte verwendet werden, ohne auf Mobiltelefone angewiesen zu sein. Das würde die Benutzererfahrung in vielen Interaktionsszenen grundlegend verändern.

7. Derzeit gibt es nur wenige KI-Hardwares, die durch die Einbindung von Großmodellen einen hohen Aufpreis erzielen können. Dies hängt mit dem Entwicklungsstand der Branche zusammen. Derzeit sind die sogenannten intelligenten Kopfhörer noch auf die Software des Mobiltelefons angewiesen, um ihre Funktionen zu realisieren. Ich denke, erst wenn die Kopfhörer in der Lage sind, einige Edge-Modelle lokal auszuführen, kann man sie als wirklich intelligent bezeichnen.

Um wirklich „intelligente Kopfhörer“ zu erreichen, gibt es derzeit zwei wesentliche Hürden, beide im Bereich der Hardware: Einerseits die Rechenleistung der SOC Chips, die sowohl klein sein muss als auch leistungsstark, was schwer zu realisieren ist. Andererseits das Problem der Akkulaufzeit, da SOC Chips in Kopfhörer integriert werden müssten, läge ihr Energieverbrauch hoch und die Laufzeit wäre kurz, was für Benutzer schwer zu akzeptieren ist.

Li-Weike Gründerin Ru Yi: Die Entwicklungskosten für AI-Brillensoftware sind weit unter XR-Ökosystemen, es wird der alte Weg vermieden

1. Ich gebe zu, dass der größte Teil der von Menschen wahrgenommenen Informationen über die Augen empfangen wird. So gehört es zur Intuition, dass AI-Brillen einer der Konsumträger am nächsten bei den Augen sind und als Träger für Sprachinteraktionen dieser Gesprächs-KI ideal sind.

2. In den kommenden zwei Jahren wird es sicher Killer-Anwendungen für AI-Brillen geben, dafür muss Li-Weike sorgen, sonst werden AI-Brillen nur zu einer „Hülle“ ohne großen Wert.

3. Als ich 2021 Li-Weike gründete, hatte ich das Gefühl, dass AI in den kommenden drei Jahren einen explosionsartigen Anstieg erleben würde. Aber ich hatte nicht erwartet, dass es so schnell passieren würde; es fing bereits Ende 2022 an, was die Erwartungen übertraf. Deshalb haben wir im Frühjahr 2023 die Entscheidung getroffen – alles auf AI-Großmodelle zu setzen.

Bei der Produktgestaltung haben wir immer zwei Dinge konsequent verfolgt: erstens die AI-Interaktion gut zu gestalten und zweitens die Personalisierung zu gewährleisten, was Tausenden von Nutzern ein plattformspezifisches Erlebnis bietet.

Natürlich legen wir Wert darauf, unser eigenes vollständiges Großmodell-System aufzubauen, das wir kontinuierlich iterieren können, anstatt Dinge an Dritte Modellunternehmen auszugeben und selbst keine Kontrolle zu haben.

Li-Weikes AI-Brille Quelle: Unternehmensgenehmigung

4. AI-Großmodelle bieten sehr gut integrierte Informationen auf Webseiten, sind aber direkt in Brillen schwer einsetzbar; es braucht einen Integrationsprozess.

Beispielsweise wird auf die Frage nach dem Wetter eher die Standortabfrage gestellt als eine direkte Antwort gegeben. Für ein gutes Erlebnis müssen die auf AI-Modellen basierenden Anwendungen optimiert und angepasst werden.

5. Für ein AI-Brillen-Startup wie unseres, benötigen großmodellspezifische Aufgaben nicht viele Mitarbeiter. Unser komplettes Modellteam besteht vielleicht aus einem Dutzend Mitarbeitern, aber wir können uns auf die Schultern von Riesen stellen für Feinabstimmungen und Optimierungen.

6. Nicht nur intelligente Brillen, sondern jede Branche, die dieses Stadium erreicht, wird mit starkem Wettbewerb konfrontiert. Ein unbestrittenes Marktsegment ist nicht vital, Wettbewerb ist nötig und kann den Markt gemeinsam bildend aufklären und schneller in den Konsumbereich eindringen. In den Jahren mit wenig Konkurrenz in der intelligenten Marktbranche waren die Marktbildungskosten zu hoch.

7. In der Vergangenheit war das XR-Ökosystem nicht sehr ausgereift, was zu schlechten Verkaufszahlen führte, größtenteils wegen unzureichender Infrastruktur und zu hoher App-Entwicklungskosten. AI-Brillen werden diesen alten Weg nicht gehen, da ihre Entwicklungskosten viel niedriger sind als die des XR-Ökosystems. Mit einer geeigneten Anwendungsfall könnte ein oder zwei Entwickler den Agent erstellen.

INAIR Produktdesignleiter Qi Jingxuan: Zukünftige AI Agenten werden eigenständig ein Betriebssystem sein

1. Seit es Betriebssysteme gibt, wünscht man sich einen „kleinen Assistenten“, der Aufgaben im Computerraster erleichtert. Aber bisher, sei es mit Siri, Xiao Ai oder Google Assistant, blieb das unzureichend, da die Nutzer die Grenzen der AI-Gespräche nicht wirklich verstehen. Das Aufkommen von Großmodellen hat dies geändert, alle Herausforderungen werden überbrückt und Konversationen durchgehend ermöglicht.

2. Ende 2022, als ChatGPT explodierte, erkannten wir diesen Trend und es war von Anfang an geplant, AI-Großmodelle in INAIR-Produkte zu integrieren.

In AIRs Anwendung von Großmodellen unterscheidet sich durch den Fokus auf softwareseitige Optimierung und effizientere Systemoperationen, anders als in AI-Brillen, die primär auf der Analyse der Außenwelt basieren.

3. InAIRs Integrierung von Großmodellen ähnelt der Integration von Copilot mit Microsoft Windows PC, wo es als Haupt-Feature dient. Großmodelle verbessern Nutzererlebnisse, bieten natürlichere Interaktionen und schnellere, bequemere Nutzungen.

4. InAIR nutzt viele KI-Großmodelle, mit unterschiedlichen Stärken: zum Beispiel hat Doubao bei der Bildverarbeitung besondere Fähigkeiten, während iFlytek in ASR (Spracherkennung) glänzt. InAIR verwendet je nach Anwendungsszenario das passende Großmodell.

INAIRs AR-Brille Quelle: Unternehmensgenehmigung

5. INAIRs Produktvorteil liegt in der Integration von Soft- und Hardware. Hier kann die KI-Modalität den gesamten Rundgang von Wahrnehmung, Vorhersage, Interaktion bis hin zur Ausführung realisieren.

Zum Beispiel kann ein Nutzer bei der Lektüre eines englischen Artikels die chinesische Übersetzung in Echtzeit auf seiner Brille sehen oder den Agent um eine chinesische Zusammenfassung des Artikels bitten. Beim Filmeschauen können Agenten Fragen zu Figuren oder Objekten im Film beantworten. Solche systemweiten Siri-ähnlichen Funktionen brauchen Anwendungen, die sich flexibel über verschiedenen Programmen bewegen können.

All diese Interaktionen können auch rein über Software realisiert werden, doch mit deutlich mehr Aufwand durch Mausklicks, Kopieren und Einfügen, Umschalten unterschiedlicher App-Fenster, was das Kernunterschied von Soft- und Hardwareintegrierung zeigt.

6. Geräte mit Soft- und Hardware-Kombi können zudem aktive Wahrnehmung und Vorhersagen treffen. Falls Sensoren eine längere Nutzeraufenthaltsdauer feststellen, kann der Systemagent gezielte Dienstvorschläge unterbreiten.

7. Wir hoffen, dass Edge-seitige Großmodelle (technisch) weiter verbessert werden, damit AI-Großmodule auch ohne Online-Verbindung in AR-Brillen genutzt werden können. Dies verspricht schnellere Antworten, da sich Cloud-Modelle durch langsame Reaktionszeiten bemerkbar machen. Zudem schützt die Offline-Nutzung die Nutzerdaten besser und bietet mehr Sicherheit.

8. Gegenwärtig sind alle Nutzergeräte, sei es Computer, Smartphone oder PC, auf Interaktionen zwischen Nutzern und deren Anwendungen ausgelegt, wobei KI als App oder Funktion des Betriebssystems agiert. Zukünftig wird der AI Agent selbst ein eigenständiges OS sein und Aufgaben im Multi-App-Umfeld eigenständig lösen.