Stift und Bildschirm: Warum hat die KI-Hardware zwei Wege eingeschlagen?
Im vergangenen Jahr war das Hauptschlachtfeld der KI-Hardware nicht mehr nur das "Einbetten großer Modelle in Smartphones", sondern es begann der Wettlauf um etwas Grundlegendes: Mit welcher Form möchten Menschen KI tatsächlich nutzen?
In diesem Prozess entstanden zahlreiche KI-Hardwareprodukte, von KI-Hörern, KI-Brillen, KI-Smartphones bis hin zu KI-Aufzeichnungspendern und Aufzeichnungskarten.
Einerseits gibt es die "neuen Spezies" ohne Bildschirm, die tragbar sind, andererseits die Weiterentwicklung traditioneller Endgeräte, die weiterhin den Bildschirm als Zentrum haben und die KI in die Systembasis integrieren.
Wir bezeichnen die erste Richtung allgemein als "Stift": Dies bezieht sich nicht auf die konkrete Form, sondern auf KI-Hardware, die leicht, tragbar und wenig auffällig ist, hauptsächlich über Audio- oder Umgebungsaufnahmen Eingaben erhält und normalerweise keinen Bildschirm hat.
Das radikalste Beispiel für den "Stift" wurde bereits 2024 entwickelt. Humane brachte in diesem Jahr den AI Pin auf den Markt, der als "tragbarer Computer" definiert wurde, der am Kleid befestigt werden kann und darauf abzielt, die Nutzer von Smartphones zu befreien.
Dieses Produkt erhielt jedoch viele schlechte Bewertungen aufgrund von Problemen wie hoher Latenz, nicht sichtbaren Projektionen und einem mangelnden Anwendungsökosystem. Schließlich wurden nur etwa 10.000 Bestellungen erhalten; Humane wurde später von HP übernommen.
Im Vergleich dazu gehen die praktischeren "Stifte" von spezifischen Anwendungsfällen aus. KI-Aufzeichnungshardware wie Plaud, DingTalk A1 und Feishu Recording Bean konzentrieren sich auf klare Szenarien wie Meetings und Interviews. Sie erfassen Sprache mobil und lassen dann die Transkription und Zusammenfassung von großen Modellen durchführen.
Die Vorstellungskraft in dieser Richtung wird nun von OpenAI noch weiter ausgebaut.
OpenAI hat bestätigt, dass es auf Hardwareebene mit dem ehemaligen Apple-Designchef Jony Ive zusammenarbeitet. Das Projekt zielt auf ein neues KI-Gerät ab, das sich von Smartphones und PCs unterscheidet und auf natürliche Interaktion und geringe Präsenz setzt. Die bisher bekannte Form wird auch als "wie ein Stift" beschrieben.
Parallel zu den "Stiften" gibt es die Richtung, die weiterhin den Bildschirm als Zentrum hat. Microsoft definiert Copilot + PC als neue PC-Form und setzt klare Anforderungen an die NPU-Rechenleistung. Meta und verschiedene Smartphonehersteller verbessern hingegen kontinuierlich die Integration von KI in die Anzeige und das System von Brillen und Smartphones.
Wenn man all diese Phänomene betrachtet, wird eine klare Spaltung sichtbar: Neue KI-Unternehmen setzen eher auf die "Stifte" - ohne Bildschirm, nah am Körper, Eingabe vorrangig; traditionelle Internet- und Hardwareunternehmen setzen eher auf die "Bildschirme" - sie erweitern die Anzeige-, System- und Ökosystemfähigkeiten ihrer bestehenden Produkte.
Offensichtlich gibt es in der Branche bei der Kategorie KI-Hardware unterschiedliche Einschätzungen bezüglich des Interaktionsaufwands, der technologischen Reife und des kommerziellen Erfolgs.
1
Im Jahr 2025 beschrieb OpenAI-CEO Altman in einem öffentlichen Gespräch das heutige digitale Leben als "wie auf dem Times Square".
Er sagte, dass Informationen, Push-Nachrichten und Bildschirme ständig um die Aufmerksamkeit kämpfen, während die KI-Hardware, die sie erforschen, genau das Gegenteil bewirken soll - "ruhiger (more calm), weniger ablenkend (less distracting)".
Tatsächlich ist diese Idee nicht neu, aber in den letzten zwei Jahren wurde sie erneut aufgegriffen. Anstatt KI in Smartphones oder PCs zu integrieren, geht es darum, auf eine grundlegendere Ebene zurückzukehren: Zunächst die Welt zu erfassen und zu verbinden. Wir bezeichnen diese Geräte als "Stift-KI" - leicht, nah am Körper, wenig auffällig; in der Produktlogik haben die Sensorfunktionen Vorrang vor der Bedienung.
Aus Branchensicht geht es bei der heutigen "Stift-KI" nicht darum, Smartphones oder PCs als neues Hardware-Eingangsport zu ersetzen, sondern um die erste Eingabe von Personen und Organisationen: Sprache, Umgebung, Perspektive. KI soll in einem relativ unauffälligen Prozess kontinuierlich Informationen empfangen und verarbeiten können.
In den letzten Jahren hat sich jedoch keine erfolgreiche Markteinführung von Produkten in dieser Richtung ergeben.
Zurück in das Jahr 2024: Das AI Pin von Humane und das R1 von Rabbit versuchten, als "KI-Endgeräte ohne Smartphone" zu fungieren, die über Sprache oder Umgebungsaufnahmen sofort reagieren und sogar aufgabenübergreifend arbeiten können. Letztendlich erzielten diese Produkte jedoch wenig Erfolg und öffneten nicht den Markt.
Schlechte Benutzererfahrung war das unmittelbarste Problem. Der Tech-Testberichterstatter Marques Brownlee sagte bei der Prüfung des AI Pin: "Dies ist eines der schlechtesten Produkte, die ich je getestet habe - nicht wegen der Idee, sondern weil es derzeit einfach nicht funktioniert."
Ein weiterer Grund war, dass die Rechenleistung auf Geräteseite damals nicht ausreichte, um komplexe Inferenzen zu unterstützen. Die meisten Geräte ohne Bildschirm hatten häufige Latenzzeiten und Unterbrechungen. Die Tech-Kolumnistin der Wall Street Journal, Joanna Stern, schrieb bei der Bewertung mehrerer KI-Geräte ohne Bildschirm, dass das Humane AI Pin und das Rabbit R1 "mehr wie Forschungsprojekte als wie fertige Produkte" seien. In einem Videotest dauerte es für das Rabbit vier Minuten, um eine "Echtzeitübersetzung" durchzuführen.
Eines der Bewertungskriterien für die Rechenleistung auf Geräteseite ist die Leistung der NPU (Neuronale Verarbeitungseinheit). Institutionen wie die IDC meinen, dass eine Leistung von über 30 TOPS erforderlich ist, um die Inferenzfähigkeit von großen Sprachmodellen grundsätzlich zu unterstützen. Bis Anfang 2024 hatten jedoch nur wenige SoCs diesen Schwellenwert erreicht, wie z. B. der Qualcomm Snapdragon 8 Gen 3 und der Apple A17 Pro.
In einigen spezielleren Anwendungsfällen hat sich die Positionierung der "Stift-KI" schnell eingeschränkt. In China sind eine Reihe von KI-Produkten mit Priorität auf die Aufzeichnung auf den Markt gekommen, wie z. B. die DingTalk A1 Aufzeichnungskarte und die Feishu AI-Aufzeichnungshülse in Zusammenarbeit mit Anker.
Auch auf dem ausländischen Markt gibt es ähnliche Produkte, wie z. B. das Note Pro von Plaud. Diese Geräte konzentrieren sich darauf, fragmentierte Sprache, Meetinginhalte und Umgebungsgeräusche in durchsuchbare, strukturierte Sprachmaterialien umzuwandeln, anstatt auf Echtzeitgespräche oder die Ausführung von Aufgaben.
Das von a16z finanzierte KI-Hardwareunternehmen Limitless (früher Rewind) hat sich auch in eine ähnliche Richtung bewegt. Der Gründer Dan Siroker sagte in einem Interview, dass sie "nicht ein zweites Gerät bauen, sondern die Infrastruktur für die Aufzeichnung von Gesprächen".
Wenn sich die Definition des "Stifts" jedoch weiter ausweitet, steigen auch die Konflikte. In den letzten Jahren haben einige Teams versucht, Kameras in Hörer oder Kopfhüllen zu integrieren, um eine natürlichere Eingabe aus erster Person zu erhalten. Dies bedeutet nicht nur eine neue Verteilung von Batterie und Rechenleistung, sondern auch Bedenken auf gesellschaftlicher Ebene bezüglich der Privatsphäre.
Der Technikanalyst Avi Greengart sagte bei der Diskussion der KI-Tragbare-Trends, dass die Privatsphäreerwartungen der Verbraucher "nicht verschwunden sind, aber sich verlagert haben". Menschen sind bereit, einen Teil ihrer Privatsphäre für Komfort einzubüßen, bleiben aber vorsichtig gegenüber "kontinuierlicher Aufzeichnung".
Genau in diesem Kontext wird das Hardwareprojekt von OpenAI und dem Jony Ive-Team als die größte Variable für den "Stift" angesehen. Chris Lehane, der Leiter für globale Angelegenheiten bei OpenAI, hat bestätigt, dass das Unternehmen voraussichtlich im zweiten Halbjahr 2026 sein erstes Hardwaregerät vorstellen wird. Der Fokus liegt nicht auf der Anzeige, sondern auf einer natürlichen und zurückhaltenden Umgebungsaufzeichnung.
Ive hat das iPhone 4 entwickelt und die Smartphone-Ära geprägt. In seiner Designkarriere wird jedoch auch immer wieder das einfachere und zurückhaltendere iPod erwähnt. Vielleicht wird man auch in zukünftigen OpenAI-Hardwareprodukten noch Anklänge an das iPod finden.
Abgesehen von Ive's "Fixation" verhält sich die "Stift-KI" eher wie die Sensorschicht der KI-Ära. Sie trifft keine Entscheidungen direkt, sondern hat die Umweltaufzeichnung als erste Priorität, um dann die Interaktion des Nutzers anzustoßen. In einigen Szenarien, in denen die Interaktion im Vordergrund steht, scheint die Wichtigkeit des "Bildschirms" jedoch unverzichtbar zu sein.
2
Im Gegensatz zur "Stift-KI", die versucht, ihre Präsenz zu minimieren, haben alle Bildschirm-Hardware - ob traditionelle PCs/Smartphones oder neue Produkte - in den letzten zwei Jahren aktiv die KI integriert.
Der Wendepunkt in dieser Richtung war der Übergang von der "Anwendungsfähigkeit" zur "Systemfähigkeit" der KI.
Im Mai 2024 veröffentlichte Microsoft Copilot + PC, was als Neukonfiguration der KI auf Betriebssystemebene dargestellt wurde. In der offiziellen Dokumentation wird angegeben, dass neue Windows-Geräte eine NPU mit einer Rechenleistung von 40+ TOPS benötigen. Einige KI-Funktionen werden in "Systemnativer" Weise laufen, anstatt über separate Anwendungen aufgerufen zu werden.
Diese Konzeption bedeutet im Wesentlichen, die KI in die Systemebene der Hardware zu integrieren. Yusuf Mehdi, der Leiter des Verbrauchergeschäfts bei Microsoft, sagte bei der Veröffentlichung, dass dies eine Anpassung sei, die "das Windows-Computer" neu definiert.
Ein ähnlicher Gedanke findet sich auch bei Smartphones. Sowohl Apple, Samsung als auch chinesische Hersteller wie Xiaomi und vivo haben in den letzten Jahren die KI-Fähigkeiten direkt in die Systemebene integriert.
Dies zeigt, dass im Zeitalter der KI der Bildschirm weiterhin das Zentrum für die Informationsanzeige, Transaktionsbestätigung und Berechtigungsverwaltung ist. Smartphones mit KI-Unterstützung haben die Möglichkeit, mit Super-Apps um den "ersten Zugang" zu konkurrieren.
Nehmen wir als Beispiel den Doubao Smartphone-Assistenten, der von ByteDance in Zusammenarbeit mit ZTE entwickelt wurde. Er ist nicht als separate App konzipiert, sondern tief in den Systeminteraktionsprozess integriert. Er ist an vielen Prozessen wie Suche, Schreiben, Kalender und Benachrichtigungen beteiligt und verteilt über den systemweiten Zugang neu die Beziehung zwischen Nutzern, Informationen und Diensten.
Als die KI in die Systemebene eingetreten ist, wurde sie von Branchenkollegen aus der Internet-Ära als "ungeheuerliche Gefahr" angesehen. Bereits 2024 führte Microsoft die Recall-Funktion ein, die die Bildschirminhalte periodisch aufzeichnet, um Nutzern die spätere Informationssuche zu erleichtern. Diese Funktion löste von Anfang an heftige Kontroversen aus.
Die Kommunikations-App Signal hat sich öffentlich gegen Recall ausgesprochen und darauf hingewiesen, dass die App in der Designphase nicht genug Kontrollmöglichkeiten hatte und die systemweite Bildschirmaufzeichnungsmöglichkeit möglicherweise verschlüsselte Kommunikationsfenster erfassen könnte. Anschließend haben eine Reihe von Tools Recall standardmäßig blockiert.
Ein Jahr später hat sich ein ähnliches Szenario beim Doubao Smartphone-Assistenten wiederholt. Top-Unternehmen aus den Bereichen Social Media, E-Commerce und Finanzen haben ihre Apps so konfiguriert, dass sie den Doubao Smartphone-Assistenten blockieren.
Zuverlässigkeit ist ein wichtiger Faktor für die Entwicklung von KI in Smartphones. Letztes Jahr hat Apple angekündigt, dass die geplante Siri KI-Funktion bis 2026 verschoben wird. Abgesehen von der hinteren Position von Apples eigenem Modell hat Apple offiziell erklärt, dass diese Funktionen noch nicht die erwartete Zuverlässigkeit erreicht haben.
Im anschließenden Interview hat Greg Joswiak, der Leiter des weltweiten Markting bei Apple, gesagt, dass Apple nicht möchte, dass Nutzer "systemweite Funktionen mit instabilem Verhalten" erleben. Laut neuesten Nachrichten plant Apple, dass die neue Version von Siri ein von Google Gemini angetriebenes Basis-Modell verwenden wird, um die Sprachverständnis- und Dialogfähigkeiten zu verbessern.
Ob die neue Version von Siri die Grenzen der Smartphone-KI weiter ausweiten kann, müssen wir noch auf die offizielle Veröffentlichung warten.
Wenn wir uns die KI-Brillen ansehen, werden die Merkmale der Bildschirm-Richtung noch deutlicher. Die Brille wird als Erweiterung der Bildschirmform von Smartphones und anderen Endgeräten verwendet, um die Informationsanzeige in das Sichtfeld des Nutzers zu bringen.
Die KI-Brillen von Meta in Zusammenarbeit mit Ray-Ban haben den Markt erfolgreich erschlossen. Zunächst wurden Funktionen wie Spracheingabe, Übersetzung und grundlegende visuelle Erkennung für den täglichen Gebrauch optimiert, und in der zweiten Generation wurde die Wellenleitertechnik eingeführt. Vor Meta haben auch Unternehmen wie Rokid, Leion und Alibaba Quark KI-Brillen mit Wellenleiter-Anzeigetechnologie auf den Markt gebracht.
Im Vergleich zu den vorherigen KI-Brillen ohne Anzeige haben die sichtbaren KI-Brillen jedoch die Herausforderungen auf der technischen Ebene nicht verringert, sondern eher stärker zum Vorschein gebracht.
Andrew Bosworth, der Chief Technology Officer von Meta, sagte bei der Diskussion des Orion-Prototyps, dass die Ausbeute der Anzeigekomponenten "unerhört schlecht" sei. Mit anderen Worten, um als KI-Endgerät in der neuen Ära zu fungieren, müssen KI-Brillen noch viele technische Probleme lösen.
Tatsächlich ist die Wellenleitertechnik in der aktuellen technischen Entwicklung fast die einzige Möglichkeit, um Informationen in die reale Welt zu überlagern, während die Sicht frei bleibt. Bis heute ist jedoch die Massenproduktion von Wellenleitern immer noch ein ungelöstes technisches Problem.
Andererseits beeinflusst die hohe Homogenität des technischen Ansatzes auch die Einstellung einiger Hersteller gegenüber KI-Brillen. Kürzlich kursieren Gerüchte, dass ByteDance in Kürze KI-Brillen veröffentlichen wird. Laut Vorhersage des XR Vision Studios wird dieses Produkt jedoch möglicherweise nicht auf den Markt gebracht werden, und ByteDance wird möglicherweise direkt mit der Entwicklung der nächsten Generation beginnen.
Diese Vorhersage des XR Vision Studios beruht auf der allgemeinen Problematik des KI-Brillenmarktes, nämlich "Hardware-Homogenität und funktionelle Ähnlichkeit". Wie in den Kommentaren zur Entscheidung von vivo, das Projekt der KI-Brillen zu stoppen, heißt es, dass die großen Unternehmen in diesem Bereich derzeit vorsichtig sind, da es "schwierig ist, Unterschiede zu machen".
Angesichts der Zeit, die für die technologische Weiterentwicklung benötigt wird, ist die Entwicklung von KI-Geräten mit Bildschirm eher wie ein Langstreckenlauf. Sowohl KI-Smartphones als auch KI-Brillen erfordern eine kontinuierliche Integration