Der Kampf um die Sprachschnittstelle des Claw - Agenten: Stillschweigend eröffnet!

Die multimodale Ära

Kürzlich hat Xiaomi angekündigt, auf Basis des MiMo-Großmodells "miclaw" zu entwickeln und es in Endgeräten wie Lautsprechern zu implementieren. Es unterstützt die Sprachaktivierung und mehrfache Dialoge.

Dies verspricht, die Verständnisengpässe von Xiaoai Tongxue, wie "nicht verstehen" und "nicht folgen können", zu überwinden. Durch eine nahezu "barrierefreie" natürliche Semantikinteraktion soll die AI-Erfahrung auf dem Massenmarkt wesentlich verbessert werden.

Mit der großen Anzahl an IoT-Geräten hat Xiaomi die Möglichkeit, wertvolle "Entscheidungspfaddaten" in großem Maßstab zu sammeln, die als Trainingsgrundlage für das MiMo-Großmodell dienen können.

Aus Branchensicht ist dieser Trend kein Einzelfall. Neben Xiaomi sind auch Huawei, Baidu und andere Unternehmen dabei, die claw-Audiointeraktionsfunktion zu integrieren, um die Motivation der Benutzer, Agenten aufzurufen, zu erhöhen.

Unter der Logik von "Eingang treibt Datenerzeugung, Interaktion fördert Modelloptimierung" entwickelt sich ein Wettbewerb um die Sprachschnittstelle, die Ausführungskapazität und die Datenkreisläufe beschleunigt.

Die Knappheit von Pfaddaten

Intelligente Lautsprecher oder Sprachassistenten sind keine neuen Dinge mehr.

Die Branche steht vor der realen Schwierigkeit, dass Sprachassistenten wie "Xiaoai Tongxue" aufgrund der traditionellen Technologie in der Vergangenheit oft nur als Werkzeuge für einseitige Befehle wie "Wecker stellen" oder "Song wechseln" fungieren konnten.

Wenn die Benutzeräußerungen unklar oder die Anforderungen komplex sind, neigen diese Sprachassistenten dazu, ihre Schwächen wie "nicht verstehen" und "nicht folgen können" zu zeigen, was die intelligente Erfahrung stark beeinträchtigt.

Mit der Anwendung der Großmodelltechnologie ändert sich diese Branchenlage wesentlich.

Das von Xiaomi auf Basis des MiMo-Großmodells entwickelte "miclaw" deckt nicht nur die PC- und Mac-Plattformen ab, sondern wird auch in Lautsprechern mit Bildschirm eingesetzt.

Das primäre Problem, das die Audioversion von "miclaw" löst, ist die Verbesserung der Intelligenz des Produktes.

Das neueste miclaw auf Xiaomi-Lautsprechern unterstützt es, dass Benutzer mit einem Satz komplexe Aufgabenbefehle geben können. Es verfügt über die Funktionen der Sprachaktivierung und mehrfacher Dialoge und unterstützt die Ausführung auf Mobiltelefonen und PCs.

Dies bedeutet, dass zukünftige Xiaomi-Lautsprecher nicht mehr nur mechanische Empfänger für "Frage-Antwort"-Befehle sein werden. Sie können die Kontextinformationen berücksichtigen, die "implizite Bedeutung" der Benutzer verstehen und komplexere Aufgaben in komplexen, alltäglichen oder umgangssprachlichen Kontexten ausführen.

Neben Xiaomi haben auch Baidus Xiaodu-Lautsprecher, Huweis Xiaoyi claw und andere in verschiedenen Dimensionen Sprachinteraktionsfunktionen integriert.

Nach Ansicht vieler Branchenmitglieder ist die unterliegende Geschäftslogik, dass große Unternehmen die Audioversion von claw in ihre Hardware integrieren, dass diese nahezu "barrierefreie" Interaktion, die keine Menüs zu lernen und keine Bildschirme anzusehen erfordert, die Interaktionsschwelle von AI auf ein Minimum senken und die Massenmärkte wirklich erreichen kann.

"Auf diese Weise wird der Zugang natürlicher und die Nutzungsschwelle sinkt. Das bedeutet, dass alle Familienmitglieder die AI nutzen können und diese so schnell wie möglich in den Alltag integriert werden kann." erklärte ein Architekt eines großen Unternehmens in Peking der All-Weather Technology.

Tatsächlich beteiligt sich Xiaomi auch aktiv an der Grundlagenausbildung von mehrdimensionalen Daten wie Audio, um diese nahezu "barrierefreie" natürliche Interaktion zu unterstützen.

In einem Artikel namens "Xiaomi MiMo-VL-Miloco Technical Report", der von Xiaomi im Dezember 2025 veröffentlicht wurde, wurde klar angegeben: In Zukunft wird Xiaomi auf seiner Hardware-Ökosystem aufbauen und mehr Wahrnehmungsmodalitäten wie Audio und Millimeterwellensignale in einen einheitlichen multimodalen Lernrahmen integrieren. Durch die kombinierte Inferenz von verschiedenen heterogenen Wahrnehmungseingaben soll schließlich ein umfassendes Verständnis von Heimatszenarien und eine feinere Raumwahrnehmung erreicht werden.

Um die umfassende Umsetzung von multimodaler Wahrnehmung bis zur Endgerätebereitstellung zu erreichen, ist die Datenbasis und die Anwendungsumgebung, die von einer großen Anzahl an Hardwaregeräten bereitgestellt werden, unerlässlich. Dies ist tatsächlich ein Vorteil von Xiaomi.

Zum Ende von 2025 betrug die Anzahl der verbundenen IoT-Geräte (ohne Smartphones, Tablets und Laptops) auf Xiaomis AIoT-Plattform 1,079 Milliarden, was einem Anstieg von 19,3 % gegenüber dem Vorjahr entspricht. In der gleichen Periode hatten die monatlichen aktiven Benutzer der Mi Home-App und von Xiaoai Tongxue 113 Millionen bzw. 160 Millionen.

Die Skaleneffekte, die durch die große Anzahl an Geräten entstehen, ermöglichen es Xiaomi, wertvolle "Entscheidungspfaddaten" in großem Maßstab zu erfassen und kontinuierlich zu speichern.

In der realen physischen Welt sind die Entscheidungsdaten für die Nutzung von Agenten und die Steuerung von Geräten äußerst knapp.

Traditionelle Software-Systeme oder Basis-Smart-Home-Systeme protokollieren oft nur den endgültigen "Ausführungsstatus". Tatsächlich ist es die Entscheidungslogik hinter "warum so handeln", die die autonome Funktion von AI antreibt.

Wertvolle Entscheidungsdaten enthalten nicht nur das Ergebnis, sondern auch den gesamten Kontext, der die Aktion auslöst.

Zum Beispiel würde ein System idealerweise protokollieren: "Da der Lichtsensor erkannt hat, dass es dunkler geworden ist und das Türschloss-Protokoll zeigt, dass der Benutzer gerade nach Hause gekommen ist, wird entschieden, das Wohnzimmerlicht einzuschalten und die Vorhänge zu ziehen."

Diese vollständigen Informationen, die multimodale Umgebungsinput, Triggerregeln und Aktionsausgaben kombinieren, sind die Schlüsselbestandteile für die komplexen Entscheidungen von Agenten.

Um diese Art von Daten zu erhalten, muss das System in der "Ausführungspfad" der Benutzer sein, um die Entscheidungen sofort erfassen zu können.

Xiaomis umfangreiches AIoT-Gerätenetzwerk bildet in der konsumorientierten physischen Welt einen sehr weitreichenden Ausführungspfad. Durch die tägliche Zusammenarbeit einer großen Anzahl von Geräten werden diese einzelnen Entscheidungsdaten kontinuierlich gespeichert und können zu einem dynamischen "Kontextgraphen" verschmelzen.

Dies kann die Tagesrhythmen, Temperaturpräferenzen und die Gewohnheiten der Gerätenutzung der Benutzer in verschiedenen Zeiten und Orten objektiv darstellen. Mit der ständigen Verbesserung des Datenkreislaufs erhält das System eine höhere Vorhersagefähigkeit.

Allerdings hängt die tatsächliche Produktivität von effektiven Daten von der Nutzung der Benutzer ab, z. B. ob die Benutzer genug Motivation haben, komplexe Automatisierungsszenarien einzurichten.

Der neue Zugangskampf

Um die Sprachschnittstelle und andere Interaktionsschnittstellen herum werden verschiedene claw-Produkte immer schneller umgesetzt.

Baidu claw, Huweis Xiaoyi claw und andere haben die Sprachinteraktionsfähigkeit in verschiedene Hardware integriert und entwickeln sich von der Einfachbefehlsantwort zu mehrfachen Dialogen und Aufgabenausführung.

Der Tmall Genie von Alibaba, der nicht mit "claw" benannt ist, hat auch die Fähigkeiten des Tongyi-Großmodells in seinem Smart-Home-2.0-System tief integriert und einen "Raumintelligenz-Agenten" geschaffen, um intelligente Entscheidungen zu treffen.

Wenn die Sprachschnittstelle zunehmend agentenbasiert wird, bedeutet die Abwesenheit, dass man in der nächsten Generation der Mensch-Maschine-Interaktion eine Schlüsselposition verliert.

Hinter dieser konzentrierten Anordnung steckt ein Wettbewerb um die "Nutzungsschwelle und die Datensammlung".

Als die Interaktionsart, die der natürlichen Sprache am nächsten kommt, trägt die Sprache im Wesentlichen dazu bei, die Nutzungskosten der Benutzer zu senken und die Penetration zu erhöhen, um die Geräteinteraktion nahtloser zu gestalten.

Nur wenn die Benutzer Agenten in alltäglichen Szenarien häufig nutzen, können die Modelle der verschiedenen Hersteller kontinuierlich echte Aufgabenanforderungen und Ausführungsrückmeldungen erhalten und so die Entscheidungs- und Ausführungskapazitäten ständig verbessern.

Deshalb liegt der Schwerpunkt in der gegenwärtigen Phase darin, die Benutzer dazu zu bringen, "zuerst zu nutzen". Durch die häufige Nutzung wird ein Datenkreislauf gebildet, der wiederum die Kapazitätsentwicklung vorantreibt.

In diesem Prozess wird die Schnittstelle zur Schlüsselinfrastruktur, die die Benutzerverhalten und die Modellevolution verbindet. Dies hat sich bereits in einigen Produktformen gezeigt.

In den Praktiken einiger führender Hersteller wird die Sprache nicht nur verwendet, um ein einzelnes Gerät oder eine Funktion auszulösen, sondern auch um kontinuierliche Aufgaben über mehrere Geräte hinweg zu übernehmen.

Beispielsweise gibt ein Benutzer eine relativ unklare Anfrage ab. Das System zerlegt die Absicht im Hintergrund und koordiniert mehrere Endgeräte, um eine ganze Reihe von Aktionen auszuführen.

In diesem Prozess wird nicht nur ein bestimmtes Gerät aufgerufen, sondern eine ganze Ausführungskette, die vom System organisiert wird.

Nachdem die Interaktion von "punktförmigen Befehlen" zu "Aufgabenketten" gewechselt hat, ist die Rolle der Sprache nicht nur auf die Senkung der Nutzungsschwelle beschränkt, sondern wird auch zum Ausgangspunkt für die tatsächliche Aufgabenplanung.

Die Benutzer wählen nicht mehr explizit Anwendungen oder Geräte aus, sondern übergeben ihre Anforderungen an das System zur zentralen Verteilung.

Das verschiebt auch den Schwerpunkt des Wettbewerbs um die Schnittstelle. Die Hersteller kämpfen nicht nur darum, dass die Benutzer die Sprache nutzen, sondern darum, wer diese Anforderungen zerlegt und den Aufrufpfad bestimmt.

Wenn diese Aufgabe an einen Dritten übertragen wird, können sich die Dienstverteilung und der Benutzerentscheidungspfad auch allmählich verlagern, auch wenn die Hardware noch beim ursprünglichen Hersteller liegt.

Allerdings werden die Unterschiede in den Grundlagen der verschiedenen Hersteller im Wettbewerb immer deutlicher.

Ähnlich wie Xiaomi hat Huawei den Vorteil eines stärker eigenentwickelten Betriebssystems und einer Hardware-Ökosystem. Bereits 2024 hatte die Anzahl der Geräte im Hongmeng-Ökosystem die 900-Millionen-Marke erreicht. Die Xiaoyi-Fähigkeiten decken Smartphones, Tablets, tragbare Geräte und Smart-Home-Geräte ab und bilden ein einheitliches Interaktionsnetzwerk über mehrere Geräte hinweg.

Diese Wettbewerbslogik von "Schnittstelle ist Daten, Gerät ist Ausführung" beeinflusst auch die Strategieauswahl von Internetunternehmen.

Beispielsweise hat ByteDance Vorteile in der Großmodell- und Anwendungsentwicklung, aber ist in Bezug auf die Terminal-Schnittstelle und die systemweite Planungskapazität relativ schwach.

Da es schwierig ist, sich in den alltäglichen Entscheidungsweg der Benutzer einzubetten und hochfrequente, kontinuierliche Rückmeldedaten zu erhalten, wenn man nur auf die App-Form setzt, hat ByteDance seit letzterem Jahr häufig mit Mobiltelefonherstellern über die Zusammenarbeit an "Doubao-Handys" gesprochen.

Im Jahr 2026 geht der Wettbewerb um die AI-Fähigkeiten von der "Interaktionskonkurrenz" zur "Ausführungskonkurrenz".

Dieser Artikel stammt aus dem WeChat-Account "All-Weather Technology" (ID: iawtmt). Autor: Zheng Minfang, Redakteur: Song He. Veröffentlicht von 36 Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Kampf um die Sprachschnittstelle des Claw-Agenten hat sich stillschweigend eröffnet.

Die Knappheit von Pfaddaten

Der neue Zugangskampf