Google startet neue Ära der Sprach-Agenten: Ein Wort erhöht Produktivität

Mit nur einem Wort können Sie entwickeln, und es funktioniert bereits auf dem Smartphone.

Vertretung für sprachgesteuerte Krebse! Googles stärkstes Audio-Modell ist da, mit dem man Apps einfach mit der Stimme erstellen kann.

Nach Informationen von Zhidongxi vom 27. März. In der frühen Morgenstunde gestern hat Google offiziell sein höchstwertiges Audio- und Sprachmodell – das Echtzeit-Sprachmodell Gemini 3.1 Flash Live vorgestellt und es gleichzeitig in Gemini App, Search Live sowie Google AI Studio freigegeben. Letzteres wird den Entwicklern in einer Vorschauversion zur Verfügung gestellt.

Der Kern dieser Version liegt in der Verbesserung der Echtzeit-Sprach-Agent-Fähigkeiten: Sprache kann nun direkt die App-Entwicklung antreiben (vibe coding). Die Echtzeit-Multimodal-Dialogfähigkeit der Gemini App wird ebenfalls verbessert und übertrifft in mehreren Tests Modelle wie GPT-Realtime-1.5, Qwen3 Omni 30B A3B Instruct und GPT-4o Audio preview.

Sobald das Modell veröffentlicht wurde, wurde es von Netznutzern im Ausland als der "Retter" von Siri bezeichnet. Gestern berichteten ausländische Medien, dass die Apple WWDC 2026 auf KI setzen wird und eine neue Version von Siri vorstellen wird. Apple hat die vollständige Direktverbindungsberechtigung für Googles Gemini-Modell erhalten und wird durch Distillation eine eigene leichte Endgeräte-KI auf iPhones deployen.

Dieses Modell ist auf Echtzeit-Sprachinteraktion ausgelegt und optimiert kontinuierliche Dialoge insgesamt, einschließlich Schlüsselfähigkeiten wie Antwortverzögerung, Kontextspeicher, Mehrsprachigkeitsverarbeitung und Toolaufruf.

Das Kontextfenster in Gemini Live wurde auf das Doppelte des vorherigen Werts erhöht. Search Live unterstützt Echtzeit-Mehrsprachigkeitsinteraktion in über 200 Ländern und Regionen. Die Gesamtfähigkeiten richten sich an kontinuierliche Dialoge und komplexe Aufgabenstellungen.

Nach den öffentlichen Testergebnissen hat sich diese Version in den Schlüsselfähigkeiten des Sprach-Agents deutlich verbessert. Im ComplexFuncBench audio-Test erreichte Gemini 3.1 Flash Live eine Genauigkeit bei der Funktionsaufrufs von 90,8%, was im Vergleich zur Version von Gemini 2.5 Flash Native Audio von Dezember letzten Jahres (71,5%) und der Version von September 2025 (66,0%) eine deutliche Verbesserung darstellt.

In der Audio MultiChallenge-Audioausgabe-Liste von Scale erreichte das Modell 36,1%, was höher ist als die 34,7% von GPT-Realtime-1.5, die 24,3% von Qwen3 Omni 30B A3B Instruct und die 23,2% von GPT-4o Audio preview.

Zur gleichen Zeit wurde in dieser Version das Echtzeit-Dialogerlebnis stark optimiert. Das Modell behandelt Intonation, Sprechgeschwindigkeit und Pausen bei der Spracherkennung feiner; in lauten Umgebungen ist die Fähigkeit zur Filterung von Hintergrundgeräuschen verbessert, so dass es stabiler Benutzerbefehle erkennen und Aufgaben ausführen kann; in komplexen Befehlsszenarien ist auch die Fähigkeit zur Einhaltung von Systembeschränkungen verbessert.

Einige Benutzer, die die Aktualisierung erhalten haben, haben bereits neue Spielarten ausprobiert. Manche haben direkt mit Sprachbefehlen das Modell dazu gebracht, kurze Gesangsepisoden zu generieren. Solche Fähigkeiten können jetzt im Dialog ausgelöst werden.

Die API-Preise wurden ebenfalls veröffentlicht: Für Text-Eingabe kostet es etwa 0,5 US-Dollar pro Million Tokens, für Ausgabe etwa 4,5 US-Dollar, für Audio-Eingabe etwa 3 US-Dollar und für Audio-Ausgabe etwa 12 US-Dollar. Es wird auch Multimodal-Eingabe unterstützt.

Sobald das Modell veröffentlicht wurde, gab es bereits erste Rückmeldungen in der Community. Einige Netznutzer bewerteten es als "eine starke Aktualisierung" und wiesen darauf hin, dass eine schnellere Sprachantwort "ein entscheidender Durchbruch auf der Ebene des Benutzererlebnisses" sei. Wenn die Verzögerung und die Kontinuität in mehrfachen Dialogen über einen längeren Zeitraum stabil bleiben, könnte die Akzeptanzrate der Sprachinteraktion deutlich steigen.

Dennoch bleiben einige Benutzer vorsichtig. Ein Entwickler sagte direkt, dass er bereits früher aufgehört habe, Sprachmodelle zu verwenden, da die Qualität der Antworten deutlich schlechter sei als bei Texten, und fragte, ob sich diese Situation wirklich geändert habe.

Zhidongxi hat auch einen ersten Eindruck von dieser Funktion gewonnen. Die chinesische Sprachausgabe wirkt noch mechanisch, und es gibt Unterbrechungen im mehrfachen Dialog. Es war bisher nicht möglich, die kontinuierliche Interaktionsfähigkeit vollständig zu testen. Die aktuelle Version wird in Batches verteilt, und iOS- und Android-Benutzer haben bereits begonnen, die Aktualisierung zu erhalten.

01. Mit der Stimme Code ändern: UI, Interaktion und Stil komplett neu gestalten

Bei dieser Veröffentlichung zeigte Google zunächst Szenarien wie sprachgesteuerte App-Entwicklung (vibe coding). Entwickler können in Google AI Studio während des Sprechens Apps entwickeln, so dass der Entwicklungsprozess dem Tempo des Brainstormings entspricht.

Live Vibe Coder-Seite, auf der Benutzer praktisch arbeiten können

Benutzer können die Benutzeroberfläche kontinuierlich mit der Stimme anpassen. Zu Beginn des Dialogs forderte der Benutzer direkt eine Änderung an: "Mache das Mikrofon größer", und die Oberfläche wechselte sofort. Dann fügte er hinzu: "Füge dem Hintergrund gelbe Punkte hinzu", und der Hintergrund der Seite wurde sofort aktualisiert.

Anschließend stellte der Benutzer weitere Anforderungen, wie z. B. die Hinzufügung von "Feedback-Effekten beim Überfahren mit der Maus" und das kontinuierliche Scrollen des Hintergrundmusters. Alle diese Änderungen wurden im gleichen Dialog schrittweise vorgenommen.

Während des Sprechens wechselte die Oberfläche kontinuierlich. Mitte des Dialogs wechselte der Benutzer plötzlich die Richtung und sagte: "Mach es einfach ganz im Pop-Art-Stil". Das Modell arbeitete dann auf der bestehenden Grundlage den visuellen Stil neu aus. Der gesamte Prozess war ähnlich wie ein Echtzeitgespräch mit einem Designer.

02. Entwurfsarbeit, interlinguale Dialoge und Spieleinteraktion: Drei Szenarien werden gleichzeitig umgesetzt

Außer bei der App-Entwicklung zeigte Google auch drei praktische Anwendungsfälle, einschließlich Zusammenarbeit bei der Oberflächengestaltung, interlingualer Begleitgespräche und Interaktion mit Charakteren in Spielen.

Im Fall des Entwurfstools Stitch kann Sprache auch direkt in den Oberflächenbearbeitungsprozess einbezogen werden. Der Benutzer ließ die Oberfläche zunächst in den "Übungsmodus" wechseln, dann in die "Songbibliothek". Anschließend begann er, spezifische Probleme zu nennen: "Diese gestrichelten Linien und quadratischen Rahmen sehen etwas hart aus. Können die Zahlen enger an den Kreis angepasst werden?" Die Oberfläche wurde daraufhin in eine einfachere Richtung angepasst. Dann wechselte er den Ansatz: "Probiere eine braunere, holzige Farbpalette aus", und eine neue visuelle Version wurde direkt generiert.

Im Interaktionsfall des AI-Hardwaregeräts Ato für ältere Benutzer lag der Schwerpunkt auf der Kontinuität von mehrsprachigen Dialogen. Die Dialoge drehten sich um alltägliche Grüße und Begleitung. Der Benutzer sprach zunächst auf Englisch, dann fügte er eine Bedingung hinzu: "Ich möchte mit meiner Oma sprechen, aber sie spricht nur Spanisch". Das Modell wechselte in demselben Dialog die Sprache und setzte den Austausch fort, ohne dass der Dialoginhalt durch die Sprachänderung unterbrochen wurde.

Sobald im Dialog Informationen aus der realen Welt eingefügt wurden, wie z. B. "Ich bin gerade aus dem Krankenhaus und bin ein bisschen müde", antwortete das Modell entsprechend dem Kontext und führte einen kontinuierlichen Austausch.

Im Fall des RPG-Spiels "Wit’s End" wurde Sprache verwendet, um die Charaktere selbst anzusteuern. Wenn der Spieler fragte, antwortete das Modell in einer entsprechenden Stimme. Beispielsweise wurden Fragen wie "Hast du eine physische Form?" und "Woher stammen deine Fähigkeiten?" behandelt. Der Dialog blieb immer im Charakterkontext. Die Antworten blieben innerhalb der Vorgaben und folgten derselben Weltanschauung, wobei die Stimme und die Ausdrucksweise konsistent blieben.

03. Fazit: Google entwickelt einen "Full-Stack-Sprach-Agent", während chinesische Anbieter Benutzer gewinnen und Fähigkeiten verbessern

Aus dieser Veröffentlichung geht hervor, dass Google die Sprachfähigkeiten zu einem vollständigeren, allgemeinen Fähigkeitssystem ausbauen möchte. Sowohl beim vibe coding in Programmier-Szenarien als auch bei der Interaktion mit AI-Hardware und der mobilen Gemini App werden mehrere Formen gleichzeitig vorangetrieben, und der Anwendungsbereich erstreckt sich auf verschiedene Szenarien.

Beim Produktformat ähnelt die Gemini App bereits chinesischen Produkten wie Doubao. Beide haben den Dialog als Kernzugangspunkt und unterstützen Suche, Toolaufruf und mehrfache Interaktion. Doch die tatsächlichen Benutzererlebnisse sind unterschiedlich. Doubao ist bei der chinesischen Sprache, der Stimmung und der Interaktion aktiver. Die humorvolle Ausdrucksweise fördert die Bindung an die Benutzer, und es hat bereits eine gewisse Benutzerbasis in China aufgebaut.

Im Vergleich dazu konzentriert sich Google derzeit noch auf die Erweiterung der Fähigkeiten. Insbesondere in Szenarien wie der sprachgesteuerten Entwicklung ist die kontinuierliche Änderungsfähigkeit und der Echtzeit-Interaktionsrhythmus von vibe coding bereits vorausgewichen gegenüber den bestehenden Produktformaten.

Zur gleichen Zeit beschleunigt sich auch der Fortschritt in der Entwicklung von Sprachmodellen in China. Das Step-Audio R1.1 von Step-Audio gewann in der Artificial Analysis-Sprachinferenz-Liste den ersten Platz und übertrifft mit einer Genauigkeit von 96,4% Modelle wie Grok, Gemini und GPT-Realtime. Es ist eines der repräsentativen Ergebnisse in der Richtung der Sprachinferenz.

Einerseits versucht Google, die Fähigkeitsgrenze zu erhöhen und mehr Szenarien abzudecken. Andererseits bemühen sich chinesische Anbieter, sowohl die Benutzerbasis als auch die Modellfähigkeiten zu verbessern. Der Wettbewerb um Sprach-Agenten wird immer heftiger.

Dieser Artikel stammt aus dem WeChat-Account "Zhidongxi" (ID: zhidxcom). Autor: Jiang Yu, Redakteur: Bing Qian. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Google startet eine neue Ära der Sprach-Agenten. Mit einem Wort steigert man die Produktivität. Ist dies das stärkste Upgrade für Siri?

01. Mit der Stimme Code ändern: UI, Interaktion und Stil komplett neu gestalten

02. Entwurfsarbeit, interlinguale Dialoge und Spieleinteraktion: Drei Szenarien werden gleichzeitig umgesetzt

03. Fazit: Google entwickelt einen "Full-Stack-Sprach-Agent", während chinesische Anbieter Benutzer gewinnen und Fähigkeiten verbessern