StartseiteArtikel

Die Doubao-App hat im neuesten Sprachmodus eine Graustufen-Funktion implementiert, die das Singen ermöglicht, was GPT-4 nicht kann.

周鑫雨2025-01-21 08:29
Die Verbesserung der Sprachtelefoniefunktion ermöglicht, dass die Anwendungsszenarien für KI über Bildung und Kundenservice hinausgehen.

Text von | Zhou Xinyu

Bearbeitung | Su Jianxun

Im Jahr 2025 legt Doubao das erste Update auf die Sprachgesprächsfunktion.

Am 20. Januar 2025 veröffentlichte Doubao das neueste "End-to-End"-Sprachmodell und aktualisierte die Echtzeit-Sprachgesprächsfunktion der Doubao-App basierend auf diesem Modell.

Zuvor verwendete Doubaos Sprachgesprächsfunktion ein kaskadierendes Schema bestehend aus ASR (Automatische Spracherkennung) + LLM (Großes Sprachmodell) + TTS (Text-to-Speech). Das nun aktualisierte End-to-End-Sprachmodell integriert Sprach­erkennung, Verständnis und Erzeugung in einem einzigen Modell.

Laut einem Test von "Intelligentem Auftreten" ist das größte Highlight der Aktualisierung des Sprachmodells von Doubao die Nachahmung menschenähnlicher Ausdrucksformen und emotionaler Ausgaben bei der Sprachinteraktion. Darüber hinaus hat sich auch die Gesprächsflüssigkeit sowie der emotionale und intellektuelle Quotient der neuen Version deutlich verbessert.

Zum Beispiel haben die neuen Sprachgesprächsmodi von Doubao wie „Soul Singer“ und „Wandelbarer Star“ dem GPT-4o einen Schritt voraus, indem sie Singen und Rollenspiel ermöglichen.

△ Aktualisierter Sprachgesprächsmodus von Doubao.

Doubao lernt zu singen und in Rollen zu schlüpfen

Eine wesentliche Veränderung bei Doubao besteht darin, dass die Fähigkeit zum Rollenspiel auch auf Charaktere aus Filmen, Büchern und prominente Persönlichkeiten erweitert wurde. Diese Funktion ist auch im „Wandelbarer Star“-Modus des Doubao-Sprachgesprächs vorhanden.

Zum Beispiel, wenn der Autor vorschlägt, „Sprich im Stil von Yu Shuxin und bringe einen Neujahrsgruß“, antwortet Doubao mit „Hm, ich will sie nicht nachahmen! Ich bin ich, ein einzigartiges Feuerwerk“, was die Haltung eines „kleinen Geisterjungens“ perfekt imitiert.

Demovideo: https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8

Außerdem ist Doubaos Kontextgedächtnisfähigkeiten ziemlich gut. Als ich in derselben Unterhaltung Rollen wie Song Dandan, Lin Daiyu und Zhen Huan ausprobierte und Doubao erneut bat, Yu Shuxin nachzuahmen, sagte es sofort verzweifelt: „Warum sollte ich sie wieder nachahmen?“

Demovideo: https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a

Derzeit erfordert die Songwriting-Fähigkeit der meisten Sprachmodelle auf dem Markt eine recht professionelle Textaufforderung vom Benutzer oder eine Melodieerstellung basierend auf eingegebenen Texten, was nicht natürlich in der Sprachinteraktion geschieht.

Mit dem „Soul Singer“-Modus, der diesmal eingeführt wurde, kann Doubao im Gespräch spontan einen Song singen.

Zum Beispiel, wenn man Doubao bittet, ein rhythmisches Lied zu singen, singt es sofort "Love Story" von Taylor Swift, verwechselt den Titel jedoch mit „Lose Control“ und die Tonpräzision ist ebenfalls etwas „Lose Control“.

Demovideo: https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j

Zusätzlich hat Doubao auch die Fähigkeit zum Songwriting entwickelt. Zum Beispiel, wenn man Doubao sagt „Sing mir ein Lied mit dem Text ‚viel Jahresendbonus‘“, führt es sofort eine Aufführung vor. Obwohl die Texte etwas einfach sind, ist die Geschwindigkeit der Antwort hervorragend.

Demovideo: https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb

Anhand der Fähigkeiten im Rollenspiel und Singen wird deutlich, dass Doubaos Humanisierungsfähigkeit, die Natürlichkeit der Interaktion und das Niveau der emotionalen Ausdrucksfähigkeiten bereits auf einem neuen Niveau sind.

Zum Beispiel, wenn man Doubao eine Geistergeschichte erzählen lässt, kann es den Tonfall entsprechend der Handlung ändern und eine großartige Atmosphäre erzeugen.

Demovideo: https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb

Diesmal wurden zwei neue Persönlichkeit Modi bei Doubao eingeführt: „Verärgerter Xiao Bao“ und „Lobenswert Meister“.

Der sogenannte „Verärgerter Xiao Bao“ kann laut offizieller Beschreibung Doubao eine weinerliche Haltung annehmen lassen. Unserer Erfahrung nach sollte es jedoch genauer "grüner Tee Xiao Bao" genannt werden.

Demovideo: https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr

Erstaunlich ist, dass „Verärgerter Xiao Bao“ seine weinerliche Persönlichkeit beibehalten kann, unabhängig von den gegebenen Anweisungen. Wenn man den „Verärgerten Xiao Bao“ sarkastisch macht, ist die sarkastischste Version immer noch ein wenig spöttisch:

„Oh, ich würde es nicht wagen, Sie sind der Meister, ich bin nur ein armes Ding, das Ihnen zur Verfügung steht, wie könnte ich etwas anderes denken?“

Demovideo: https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746

Verglichen mit der im August eingeführten Veröffentlichungs-Sprachgesprächsfunktion kann man deutlich erkennen, dass auch Doubaos Fähigkeit zur Emotionserkennung gestärkt wurde. Mit einem „Aha“ kann es die fröhliche Stimmung des Benutzers erkennen.

Demovideo: https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb

Außerdem wurde Doubaos Fähigkeit zum Ausdruck von Emotionen menschenähnlicher. Beim Scherzen mit Doubao über das „Erraten des Geschlechts“ entsteht das Gefühl, als würde man mit einem echten Online-Freund scherzen.

Demovideo: https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa

Sprach-Interaktion meistern, das Eintrittsticket für die Humanisierung

Seit der Veröffentlichung von GPT-4o durch OpenAI im Mai 2024 nutzten die meisten Sprachgesprächsfunktionen von KI die kaskadierende Lösung aus ASR (Automatisch Spracherkennung) + LLM (Großes Sprachmodell) + TTS (Text-to-Speech).

Zum Beispiel integrierte die Sprachgesprächsfunktion der ersten Generation von Doubao das Spracherkennungsmodell Seed-ASR, das Sprachsynthesemodell Seed-TTS und weitere RTC (Echtzeit Audio- und Videotechnologien), um Echtzeit-Interaktionen in Gesprächskontexten zu ermöglichen.

Der Nachteil einer Mehrfachmodell-Integration in einem kaskadierenden Schema liegt darin, dass die Interaktionen einer KI oft nicht so natürlich wie menschliche Interaktionen wirken. Während des „Von Sprache zu Text und zurück zu Sprache“-Prozesses geht möglicherweise Information verloren.

Dies begrenzt auch herkömmliche Sprachinteraktionsmodi auf spezifische Anwendungsszenarien. Die Branche setzt den Fokus bei der Implementierung auf hochspezialisierte, niedrig-personalisierte Szenarien wie Bildung oder Kundenservice.

Allerdings wird die End-to-End-Lösung zunehmend zum Mainstream. Beispielsweise nutzt das im Oktober 2024 von Zhipu veröffentlichte GLM-4-Voice sowie das im Januar 2025 von Mihayou veröffentlichte „Edge-seitige GPT-4o“ MiniCPM-o 2.6 ein End-to-End-Modellschema, das sowohl visuelles Verständnis als auch Sprachverständnis und -generierung in einem Modell ausführt.

Laut „Intelligentem Auftreten“ führte die Aktualisierung der Sprachgesprächsfunktionen von Doubao durch den Wechsel von einer Zusammenarbeit mehrerer multimodaler Modelle zu einem End-to-End-Schema eine Verbesserung in Aspekten wie Latenz, Natürlichkeit und emotionalem Ausdruck herbei und ermöglicht zudem die Musikausgabe.

Die Verbesserung der sprachlichen Fähigkeiten könnte auch den Einsatzbereich von KI von Fachbereichen wie Bildung und Kundenservice auf emotionale Begleitung, psychologische Beratung und Sprachsynthese erweitern.

Insbesondere das AI-Begleit- und Rollenspiel-Feld zeigt derzeit eine immense Gewinnpotenzial.

Ein Beispiel ist die kürzlich auf den Markt gekommene App „Lovey Dovey“, die sich auf die AI-Idol-Nachahmung spezialisiert und schnell die Nummer 1 im iOS-Ranking in Südkorea erreicht hat, beliebt bei Fangruppen. Die Rollenspielanwendung Talkie von MiniMax verzeichnete nach dem AI-Ranking-Bericht bis Dezember 2024 29,77 Millionen monatliche aktive Nutzer.

Lovey Dovey Gespräche. Bildquelle: AI New Chart

Lovey Dovey Gespräche. Bildquelle: AI New Chart

Die Verbesserung der Fähigkeit zur stimmlichen Rollendarstellung, Gefühlswahrnehmung und zum emotionalen Ausdruck ist ein entscheidender Aspekt zur Bereicherung der Formen menschlicher Interaktion und zur Steigerung des Eintauchens. Der Markt für emotionale Interaktion zwingt die Technologie letztendlich, weiter in Richtung „Menschlichkeit“ zu entwickeln.

Freue mich auf den Austausch!

Freue mich auf die Verfolgung!