Die Revolution der KI-Hardware ist da.
Während die Eliten der Weltwirtschaftsforum in Davos noch heftig über die Ethik der Künstlichen Intelligenz streiten, wirft Chris Laen, der Leiter für Politik bei OpenAI, eine „Hardware-Bombe“ ins Gespräch:
Im zweiten Halbjahr 2026 wird das erste AI-Gerät vorgestellt. Es hat keinen Bildschirm, einen Sprachkern und ein tragbares Design mit einem Gewicht von 10 bis 15 Gramm.
Das geplante Jahresschifftziel liegt bei beeindruckenden 40 bis 50 Millionen Geräten!
Derzeit vermutet die Außenwelt, dass es sich um einen Stift handeln könnte oder um eine kopfförmige Kopfhörer-Variante (Sweetpea) …
Wie auch immer, wenn es tatsächlich so schnell diese Stückzahl erreichen kann, stellen die Schlagworte „10 bis 15 Gramm“, „ohne Bildschirm“ und „Ersatz für Apps“ zweifellos eine Herausforderung an das in den letzten fast 20 Jahren dominierende Smartphone dar.
Im Wesentlichen handelt es sich hierbei um eine Wette.
Nicht darum, ob das Produkt überhaupt hergestellt werden kann.
Sondern darum, ob der Markt und die gesamte menschliche Gesellschaft bereit sind, das Gefühl der Sicherheit, das mit der Sichtbarkeit der Dinge verbunden ist („Was man sieht, bekommt man“), aufzugeben und sich dem Unbekannten des „Was man sagt, bekommt man“ zu öffnen.
Wird es am Ende eine Welt-verändernde High-Tech-Innovation oder nur teueres Elektronikschrott?
(Frühere Konzeptbilder des „Sweetpea“ im Internet)
01
Revolutionäres Vorhaben
Die größte Herausforderung bei der bildschirmfreien Konstruktion sind die Sensoren.
Ohne Bildschirm kann die Benutzerabsicht nicht durch visuelle Rückmeldung bestätigt werden. Stattdessen müssen multimodale Sensoren die Außenwelt „wahrnehmen“.
Das bedeutet, dass das AI-Gerät eine Wahrnehmungsmatrix aus „Hören + Sehen + Biosensorik“ bilden muss, um von der „Befehlsreaktion“ zur „Situationsvorhersage“ aufzurüsten.
Betrachten wir zunächst das Hörsystem: Es verwendet ein Array hochempfindlicher Mikrofone und xMEMS-Ultraschallantriebseinheiten.
Das Mikrofonarray verfügt über 360°-Sprachaufnahme und AI-Rauschunterdrückung. Es kann die Benutzerstimme auch in lauten Umgebungen präzise extrahieren und sogar Zieldirektiven in Mehrpersonengesprächen unterscheiden.
Der Ultraschallgeber von xMEMS arbeitet mit einer Frequenz von über 40 kHz und hat eine Reaktionszeit von weniger als 10 Mikrosekunden – das ist hundertmal schneller als herkömmliche Dynamic-Coil-Einheiten. In Kombination mit dem adaptiven Ausgleichsalgorithmus des Cypress-Audiocores ermöglicht es sowohl die private Knochenleitungsaudioausgabe als auch die Wiedergabe des gesamten Frequenzbereichs, wodurch das unnatürliche, roboterhafte Klangbild von Sprachassistenten vermieden wird.
Darüber hinaus hat OpenAI ein neues End-to-End-Audiomodell entwickelt, das das gleichzeitige Hören und Sprechen ermöglicht.
Wenn der Benutzer unterbricht, kann das Modell die Ausgabe sofort anpassen, anstatt mechanisch darauf zu warten, dass der Benutzer fertig spricht.
Nur so ein menschenähnlicher Gesprächsrhythmus kann als natürlicher Interaktionsstil angesehen werden.
Betrachten wir nun die optische und Umweltsensorik: Es sind ein integrierter Miniaturkamera und mehrdimensionale Sensoren verbaut.
Die Kamera ist nicht für Fotos gedacht, sondern dient der Umwelterkennung mittels Computervision: Die Erkennung von Szenen (z. B. Konferenzräumen, U-Bahnen, Schlafzimmern), Objekten (z. B. Dokumenten, Whiteboards, Straßenschildern) und sogar Benutzerbewegungen und -ausdrücken. In Kombination mit Beschleunigungsmessern, Gyroskopen und Temperatursensoren kann auch der Benutzerzustand (z. B. Gehen, Sitzen, Müde) erfasst werden.
Beispielsweise kann das Gerät in einer Konferenz automatisch das Diskussions-Thema erkennen, die Sprache in Echtzeit transkribieren und To-Do-Listen erstellen. Auf der Berufsreise kann es den Benutzerzustand als müde erkennen, automatisch entspannende Musik abspielen und die Tagesordnung anpassen …
Wenn dies tatsächlich möglich ist, geht es über die reine „Werkzeug“-Funktion hinaus und wird ein echter „Personenassistent“.
Noch revolutionärer ist der Biosensorik-Modul, ein EMG-Sensor.
Er dient hauptsächlich dazu, leichte elektrische Aktivitäten in den Lippen oder Kehlkopfmuskeln des Benutzers zu erfassen und so eine stumme Sprachinteraktion („Stille Sprechen, Eingabe“) zu ermöglichen.
Stellen Sie sich vor: In der Bibliothek oder in einem Konferenzraum müssen Sie nicht einmal laut sprechen. Sie bewegen nur die Lippen und denken „Suche das mal für mich“ und das Gerät erkennt den Befehl über die EMG-Signale und gibt Ihnen die Antwort diskret über die Knochenleitung.
Diese Technologie wurde bisher nur im medizinischen Rehabilitationsbereich eingesetzt. OpenAI bringt sie erstmals in die Zivilanwendung. Der Abtastrate liegt bei 2000 Hz, was es ermöglicht, die Muskelkontraktionsmuster unterschiedlicher Benutzer zu unterscheiden. Die Fehlauslöserate wird auf unter 0,1 % gehalten.
Die zweite Herausforderung besteht darin, dass das Gerät über eine unabhängige und effiziente lokale Rechenleistung verfügen muss.
Aus den Gerüchten und der Lieferkettensituation geht hervor, dass das „Gehirn“ dieses Geräts wahrscheinlich ein kundenspezifischer 2-Nanometer-Exynos-Chip von Samsung ist. Die stabile Lieferung wird voraussichtlich 2026 möglich sein.
Dieser nur so große Siliziumchip ist die entscheidende Grundlage für die bildschirmfreie Interaktion.
Der 2-Nanometer-Herstellungsprozess ist derzeit die Spitzentechnologie. Die Transistordichte ist um über 30 % höher als bei 3-Nanometer-Chips und erreicht 300 MTr/mm² (300 Millionen Transistoren pro Quadratmillimeter). Die Leckstromrate wird um eine Größenordnung gesenkt und das Verhältnis von Leistung zu Energieverbrauch um 34 % verbessert.
Nur so kann in einem 10- bis 15-Gramm-Gerät ein Chip mit der Rechenleistung eines High-End-Smartphones untergebracht werden und die Akkulaufzeit auf über 18 Stunden begrenzt werden.
Am wichtigsten ist, dass dieser Chip auch die lokale Ausführung eines „gedämpften“ Large Language Models unterstützt.
OpenAI kann die Billionen von Parametern von GPT-5 auf eine Milliarde reduzieren. Durch Techniken wie Quantisierung und Pruning kann das Gerät mit 8 GB LPDDR5X-Speicher und 128 GB UFS 4.0-Speicher offline Sprachverständnis, Kontextspeicherung und mehrfache Dialoge ermöglichen.
Dieses „Edge-first“-Design reduziert die Reaktionszeit von Hunderten von Millisekunden in der Cloud auf Mikrosekunden und löst das zentrale Problem der Datenschutzverletzung: Alle Sprachbefehle und Umweltdaten werden lokal verarbeitet und nicht in die Cloud hochgeladen.
(Quelle: Samsung-Website)
Die oben beschriebenen Szenarien und Funktionen sind sicherlich sehr attraktiv und leistungsstark.
Die Frage ist, ob es tatsächlich so schnell, also im zweiten Halbjahr dieses Jahres, möglich ist.
02
Wird es bald in Serie gehen?
OpenAI hat bereits die Grundlagen für diesen Schritt gelegt.
Im Mai 2025 hat OpenAI stolze 6,5 Milliarden US-Dollar ausgegeben, um das Hardwareunternehmen io zu erwerben, das von Jonny Ive, dem ehemaligen Chefdesigner von Apple, gegründet wurde.
Dieser ist derjenige, der das iPhone, iPad und iPod entworfen hat und als „Vater der Techästhetik“ bekannt ist.
Aus den bisher bekannten Gerüchten über das „kleine Schalen- oder Stiftförmige“ Design geht hervor, dass es tatsächlich deutliche Anklänge an Apple-Produkte hat: Einteiliges Metallgehäuse, leichtes und minimalistisches Design.
Zusätzlich hat OpenAI Hunderte von Hardwareingenieuren von Apple und Google rekrutiert, die in Kernbereichen wie Chipdesign, Sensorintegration und industrieller Fertigung tätig sind.
Nach dem Entwicklungsfortschritt ist das Prototypgerät bereits in der internen Testphase. Wenn man die Zeitlinie betrachtet, wurde das Konzept im vierten Quartal 2023 fertiggestellt, die ersten Prototypen wurden im zweiten Quartal 2024 hergestellt, das AI-Modell und die Sensoren wurden im vierten Quartal 2024 integriert, die API wurde im ersten Quartal 2025 für die Ökosystemanbindung geöffnet und das Endprodukt wird voraussichtlich im zweiten Halbjahr 2026 vorgestellt …
Objektiv betrachtet entspricht dieser Rhythmus eher dem normalen Entwicklungszyklus von Hardwareprodukten und ist keine letzter Minute zusammengeschusterte Marketingaktion.
Natürlich hängt die Massenproduktion in erster Linie von der Lieferkette ab.
(OpenAI erworben io, Quelle: Western Securities)
Obwohl Foxconn bereits exklusiv in die Produktion des Prototypgeräts involviert ist, die Fabriken in Vietnam priorisiert und Kapazitäten in US-Fabriken reserviert hat, um auf die globale Lieferung vorzubereiten.
OpenAIs Kapazitätsziel ist jedoch sehr ambitioniert: Das geplante Erstjahresschifftziel liegt bei 40 bis 50 Millionen Geräten.
Die 2-Nanometer-Kapazität von TSMC wird voraussichtlich 2026 auf etwa 100.000 Wafern pro Monat liegen. Apple hat bereits die Hälfte der Kapazität für iPhone und Mac reserviert, sodass die verbleibende Kapazität für OpenAI sehr begrenzt ist.
Was noch wichtiger ist, sind zwei weitere Risikofaktoren.
Zunächst die technische Anpassung.
Die Anpassung des Edge-Large Language Models an die Hardware, die Datenfusion der multimodalen Sensoren und die Optimierung der Genauigkeit des Situationsrahmens erfordern eine große Menge an Testdaten. Wenn bei den internen Tests große Bugs auftreten (z. B. zu hohe Fehlauslöserate, unzureichende Akkulaufzeit), wird die Veröffentlichung wahrscheinlich verschoben.
Beispielsweise die oben erwähnten EMG-Sensoren und xMEMS-Ultraschalleinheiten.
Diese Komponenten sind keine Standardbauteile und müssen von den Lieferanten speziell hergestellt werden. Die Zeit, um die Ausbeute zu erhöhen, kann bis zu 3 bis 6 Monate dauern.
Wenn die Ausbeute nicht wie erwartet ist, wird dies zwangsläufig zu höheren Kosten führen.
Einige Analysten haben berechnet, dass wenn die Ausbeute der Kernkomponenten von 80 % auf 95 % steigt, die Kosten pro Gerät um etwa 30 US-Dollar gesenkt werden können. Dies ist für die Preisstrategie (voraussichtlicher Preis von 299 bis 399 US-Dollar) von entscheidender Bedeutung.
Zweitens die Kompatibilitätsprobleme.
AI-Geräte müssen die Fähigkeit zur ganztägigen Umwelterkennung und Sprachaufnahme haben. Dies ist sowohl ein Zeichen ihrer Stärke als auch eine Herausforderung an die Datenschutzgesetze.
Beispielsweise erfordert die EU-Datenschutzgrundverordnung, dass Benutzer eine ausdrückliche Genehmigung für die Datenerfassung geben müssen und das unkontrollierte Abhören verboten ist. Das kalifornische Gesetz zum Verbraucherschutz erfordert, dass Benutzer das Recht haben, lokale Daten zu löschen.
OpenAI muss die Datenschutz-Einstellungen für verschiedene Regionen optimieren und die entsprechende Kompatibilitätszertifizierung für die jeweiligen Märkte erhalten. Dieser Prozess kann bis zu einem halben Jahr dauern.
Wenn der Fortschritt bei der Kompatibilität zurückbleibt, wird auch die Veröffentlichung verschoben.
Zusammenfassend lässt sich sagen, dass es möglich ist, im zweiten Halbjahr 2026 eine „Beta-Version“ oder eine „Entwicklerversion“ des AI-Hardwareprodukts vorzustellen. Um eine globale Massenproduktion für die Verbraucher zu erreichen, wird es jedoch mindestens bis 2027 verschoben werden.
Für uns Verbraucher macht es eigentlich keinen großen Unterschied, ob das weltweit erste AI-Hardwareprodukt im zweiten Halbjahr dieses Jahres oder im nächsten Jahr in Serie geht.
Weil in jedem Fall dieser Zeitpunkt sehr nah ist.
Damals wird der Begriff der „Mensch-Maschine-Interaktion“ neu definiert werden.
03
Neue Ära
Die gegenwärtige Internetwirtschaft basiert im Wesentlichen auf der Bildschirmzeit. Ein bildschirmfreies AI-Gerät hingegen ist eindeutig eine Art „Gegenbewegung zur Auf