Dialogorientierte KI wartet auf das nächste "Billionen-Moment"
Wenn Sie, in einer schlechten Laune, Ihrem niedlichen AI-Stofftier "Fu Zai" auf dem Schreibtisch von Ihren Sorgen erzählen, denken Sie vielleicht nicht daran, dass die natürliche Konversation zwischen Menschen und KI eine heimliche Welle neuer Echtzeit-Sprachtechnologien auslöst und ein riesiges kommerzielles Potenzial freisetzt.
Am 31. Oktober hat die von Agora und der RTE-Entwicklergemeinschaft gemeinsam organisierte elfte Echtzeit-Internet-Konferenz Convo AI & RTE 2025 in Peking offiziell begonnen. Auf der Konferenz hat Zhao Bin, Gründer und CEO von Agora, folgende Daten vorgestellt:
Im Jahr 2025 werden 67 % der Unternehmen dialogfähige KI-Agenten in den Mittelpunkt ihrer Strategie stellen, und 84 % der Unternehmen planen, in den nächsten 12 Monaten ihre Investitionen in diese Technologie zu erhöhen (Quelle: Deepgram, Opus Research).
Entsprechend hat der Verbrauch von Agoras dialogfähiger KI im dritten Quartal 2025 einen Quartal-zu-Quartal-Anstieg von 151 % verzeichnet, was auf eine starke Marktnachfrage hinweist.
Dialogfähige KI integriert Technologien wie Large Language Models (LLM), Automatic Speech Recognition (ASR), Text-to-Speech (TTS) und Real-Time Engagement (RTE).
Für die meisten Menschen ist die Konversation mit einer KI eher wie das Hören eines emotionlosen "Manuskripts" von einem Sprecher. Mit dialogfähiger KI kann die KI jedoch wie ein Mensch natürlich, authentisch und flüssig kommunizieren.
So wie in dem Film "Her" die KI-Samantha in die Realität tritt - das kleine Gerät in der Hand des Hauptcharakters kann nicht nur Sprache, Text und Bilder erkennen, sondern auch die Stimme und das Verhalten des Menschen verstehen und darauf angemessen antworten.
Um Unternehmen und Entwicklern zu helfen, die historische Chance der dialogfähigen KI zu nutzen, hat Agora auf der Konferenz die "Whitepaper zur Entwicklung dialogfähiger KI 2025" veröffentlicht. In diesem Whitepaper hat das Agora-Team nach einer Branchenstudie und unter Einbeziehung seiner Erfahrungen in der RTE-Branche ein umfassendes Bild der dialogfähigen KI geschaffen, das Technologiewandel, Kerntechnologien, gängige Lösungen und Geschäftsmodelle, Qualitätsbewertungssysteme, Branchenpraxisfälle und zukünftige Trends umfasst.
Neben der Theorie setzt Agora auch praktische Maßnahmen um, um die Entwicklung dialogfähiger KI voranzutreiben. Auf der Pressekonferenz hat Agora auch eine Reihe von Produkten für dialogfähige KI vorgestellt, darunter einen nächsten Generationen-Engine für dialogfähige KI, ein zugehöriges Entwicklungskit, eine Plattform zur Modellbewertung und eine Plattform zur Modellorchestrierung.
Eine Welle der dialogfähigen KI erhebt sich.
Dialogfähige KI tritt in die Realität
Denken Sie mal darüber nach: Unter welchen Umständen rufen Sie Siri auf Ihrem iPhone auf und sprechen mit ihm?
Die meisten Menschen werden vermutlich antworten, dass sie Siri vor allem benutzen, um einen Wecker zu stellen. Es gibt Daten, die diese Intuition bestätigen: Branchenstatistiken zeigen, dass derzeit nur 21 % der Benutzer mit der bestehenden KI-Konversationserfahrung zufrieden sind, und der Benutzerabwanderungsrate einiger Dienste ist sogar "unannehmbar" hoch.
Tatsächlich möchten Menschen nicht ungern mit KI sprechen, aber die KI versteht einfach nicht genug von Menschen. Im Wesentlichen stammen nur 7 % der Informationen in menschlichen Gesprächen aus der Sprache selbst, während über 90 % der Informationswahrnehmung aus nicht-sprachlichen Faktoren wie Tonfall, Gesichtsausdruck und Körpersprache stammen.
Um KI zu einem "menschähnlichen Gespräch" zu bringen, müssen Unternehmen noch viele technische Herausforderungen meistern.
Beispielsweise liegt die End-to-End-Latenz der meisten dialogfähigen KI-Systeme derzeit allgemein über 3 Sekunden - die Latenz bei menschlichen Gesprächen liegt normalerweise bei etwa 400 Millisekunden. Diese kurzen 3 Sekunden sind ein großer Schmerzpunkt bei der Mensch-Maschine-Interaktion. In der Geschäftswelt führt bereits wenige Sekunden Wartezeit zu einer Verlust der Geduld der Benutzer. Daher ist es eine große Hürde für die dialogfähige KI, die Reaktionslatenz zu überwinden und die menschliche Gesprächsqualität zu erreichen.
Neben der Latenzherausforderung ist die andere technische Herausforderung für dialogfähige KI, wie die KI die "Kernintelligenz" eines Menschen erlangen kann.
Viele Menschen können sich in bestimmten Mensch-Maschine-Interaktionsszenarien identifizieren: Während eines Gesprächs kann die KI durch das Husten des Benutzers, das Tippen auf der Tastatur oder eine kurze Zögerung des Menschen unterbrochen werden, und der Kontext wird unterbrochen. Oder wenn Sie sich in einer lauten Party oder auf einer Messe befinden, kann die KI oft nicht die Stimme des echten Benutzers lokalisieren und verliert die Konzentration.
Obwohl diese Erfahrungen scheinbar unbedeutend erscheinen, sind sie der Schlüssel dafür, ob Menschen und KI Vertrauen aufbauen und eine emotionale Bindung eingehen können. Für die Benutzer ist es nicht nur wichtig, dass die KI die richtigen Antworten gibt, sondern auch, dass sie "menschlich" wirkt.
Deshalb hat Zhao Bin, Gründer und CEO von Agora, die technischen Herausforderungen der dialogfähigen KI in folgenden Punkten zusammengefasst: Niedrige Reaktionslatenz, natürliche Unterbrechung, Kontextverwaltung, emotionale Verständnis und Ausdruck usw.
Um diese technischen Schwierigkeiten zu lösen, ist das derzeit gängige technische Verfahren in der Branche das Kaskadenmodell. Klar gesagt, ist das Kaskadenmodell wie eine "Montagelinie" mit klar definierten Aufgaben. Auf dieser Linie wird die Sprachkonversation in drei unabhängige Schritte aufgeteilt, die nacheinander ablaufen (Sprache-zu-Text ASR - Verständnis des Textes durch das Large Language Model LLM - Text-zu-Sprache TTS).
Im Vergleich zu anderen Modellen ist das Kaskadenmodell modularer. Entwickler können wie beim Bauen mit Bausteinen die besten Anbieter für die drei Schritte wählen, um die Kosten zu optimieren und die Effektivität zu verbessern. Deshalb ist das Kaskadenmodell die technische Lösung für die meisten Anwendungen wie KI-Kundenservice und intelligente Lautsprecher in der Branche.
Nehmen wir Agora als Beispiel. Sie haben um das Kaskadenmodell herum drei Produktformen für verschiedene Kundengruppen entwickelt. Für Anwendungsentwickler, die schnell einen Service starten möchten, hat Agora den Dialogfähigen KI-Engine 2.0 vorgestellt. Als fertige One-Stop-Lösung versucht Agora, die oben genannten Schmerzpunkte der dialogfähigen KI zu beseitigen.
Genauer gesagt kann der Engine 2.0 dank des globalen Echtzeit-Netzes eine schnelle End-to-End-Reaktion und eine extrem niedrige Latenz erreichen. Darüber hinaus verfügt er über fortschrittliche Funktionen wie intelligente Unterbrechung und Stimmganganalyse, um eine intelligente Interaktion zu ermöglichen. Außerdem ist der Engine 2.0 entwicklerfreundlich gestaltet, unterstützt mehrere gängige Large Language Models, und die verschiedenen Modulfunktionen können nach Bedarf ausgewählt werden, um schnell in verschiedene Anwendungsfälle integriert zu werden.
Natürlich bietet Agora auch ein modulares SDK für Unternehmen, die eine flexible Auswahl und eine tiefe Anpassung wünschen, wie z.B. ein SDK für Spracherkennung. Entwickler können damit frei "mit Bausteinen bauen". Für Kunden, die bereits Agoras Echtzeit-Audio- und Video-Service nutzen und die KI-Fähigkeit hinzufügen möchten, ohne die Architektur zu ändern, bietet Agora auch eine Reihe von Erweiterungskits, mit denen eine Reihe von Funktionen für dialogfähige KI "wie ein Plugin" hinzugefügt werden können.
Durch diese drei Produktformen - Engine, SDK und Erweiterungskits - deckt Agora verschiedene Kundengruppen von "Anfängern" bis "Experten" ab und stellt sicher, dass alle Kunden in ihrem Ökosystem die am besten geeignete Lösung finden können, um die dialogfähige KI in die Realität umzusetzen.
Ein "Messgerät" für dialogfähige KI
Ob man mit Menschen oder KI spricht, ist die Konversation immer eine subjektive Angelegenheit. Wenn die dialogfähige KI jedoch langfristig entwickelt werden soll, fehlt der Branche ein umfassendes und objektives Bewertungsrahmenwerk, das wie eine Fahrlinie für die dialogfähige KI fungiert.
Obwohl in der Branche bereits einige Bewertungsmethoden vorgeschlagen wurden, wie die Aufgabenabschlussrate und die Wortfehlerrate, sind dies nur Einzelindikatoren, die zu fragmentiert und begrenzt sind. Die Realität ist jedoch, dass die Elemente wie Sprache und Konversation in dialogfähiger KI zu komplex sind, und die bestehenden Bewertungsmethoden weisen oft einen großen Abstand zur tatsächlichen Benutzererfahrung auf.
Deshalb wird in der von Agora veröffentlichten "Whitepaper zur Entwicklung dialogfähiger KI 2025" ein "Dreidimensionales Zwei-Schienen"-Bewertungsrahmenwerk vorgeschlagen. "Dreidimensional" bezieht sich auf die Fähigkeiten der KI selbst, wie das Verständnis, der Ausdruck und die Interaktion. "Zwei-Schienen" bezieht sich auf zwei Bewertungsmethoden, nämlich die Basistests und die nutzerorientierten Tests.
Das mag zunächst abstrakt erscheinen, aber stellen Sie sich vor, Sie interviewen einen KI-Assistenten. Sie geben ihm den Befehl: "Buchen Sie mir ein italienisches Restaurant für ein geschäftliches Dinner."
Ein KI-Assistent mit besserem Verständnis kann die Schlüsselwörter in Ihrem Befehl wie "heute Abend", "geschäftliches Dinner" und "italienisches Restaurant" extrahieren und verstehen. Ein Assistent mit schwachem Verständnis kann möglicherweise nur das Schlüsselwort "Restaurant" erkennen und Ihnen stattdessen das McDonald's in der Nähe empfehlen.
Dann wird ein KI-Assistent mit gutem Ausdruck in einem natürlichen und angenehmen Tonfall die Besonderheiten der passenden Restaurants vorstellen, während ein Assistent mit durchschnittlichem Ausdruck nur eine lange Adresse in einem steifen Sprechmodus vorliest, wie ein gefühlsloser Sprecher.
Während der KI-Assistent die Restaurants vorstellt, unterbrechen Sie ihn spontan und fragen: "Gibt es in der Nähe des Restaurants einen Parkplatz?"
Ein KI-Assistent mit schwacher Interaktionsfähigkeit kann Ihre Frage einfach ignorieren und die Vorstellung der Restaurants beenden, bevor er stoppt. Ein Assistent mit starker Interaktionsfähigkeit hat ein gutes Gefühl für den Gesprächsrhythmus und kann Unterbrechungen gut handhaben. Er kann möglicherweise sofort anhalten, die Informationen für Sie recherchieren und dann fragen: "Möchten Sie, dass ich auch die Speisekarte für Sie recherchiere?"
Es ist wichtig zu beachten, dass dieses Bewertungsrahmenwerk nicht nur die Grundfähigkeiten der dialogfähigen KI durch Basistests sicherstellt, sondern auch nutzerorientierte Tests in die Praxis-Tests integriert, damit die dialogfähige KI auch subjektive Bewertungen von der Nutzer-Seite erhält.
Wenn das "Dreidimensionales Zwei-Schienen"-Rahmenwerk ein "Messgerät" für dialogfähige KI ist und definiert, was ein guter dialogfähiger KI-Rahmenwerk und welche Prinzipien gelten, geht Agora nicht nur so weit. Sie bieten auch auf der Grundlage dieses Rahmens eine Reihe nützlicher praktischer Werkzeuge für die Entwickler.
Agoras AI-Modell-Bewertungsplattform schafft durch die genaue Identifizierung der Kernprobleme in dialogfähigen KI-Szenarien ein wichtiges "Entscheidungsunterstützungssystem". Laut Angaben der Firma werden durch die Simulation von realen Gesprächsinteraktionstests in zehn globalen Stadtknoten die Daten dynamisch überwacht und aktualisiert, um die Echtzeitleistung der gängigen ASR-, LLM- und TTS-Modelle direkt zu vergleichen.
Nehmen wir als Beispiel einen Entwickler, der auf der Grundlage von Agoras dialogfähigem KI-Engine eine "KI-Sozialbegleitung"-App entwickeln möchte. Er kann direkt auf Agoras Bewertungsplattform die Leistung verschiedener ASR-, LLM- und TTS-Modelle in Bezug auf die Reaktionslatenz für das "Sozialbegleitung"-Szenario vergleichen und schließlich die am besten geeignete Modellkombination für sein Geschäft auswählen.
Wenn die dialogfähige KI allmählich aus dem Konzept herauskommt und sich in Bezug auf technische Routen, Produktlösungen, Bewertungsstandards und Werkzeuge schnell verbessert, ist es auch vorprogrammiert, dass sie in mehr Bereichen schnell Fuß fassen wird.
Dialogfähige KI setzt sich sanft und unaufdringlich in die Realität
Derzeit hat die dialogfähige KI bereits in drei Szenarien - intelligente Hardware, emotionale Begleitung und Online-Bildung - erstmals eine massenhafte Umsetzung erreicht.
Das Jahr 2025 gilt als das Jahr des Ausbruchs der KI-Hardware. Von der AI-Begleithardware wie "Fu Zai", die die Branche in Aufruhr versetzt hat, bis hin zu den AI-Brillen wie Ray-ban meta, die einen "Kampf um die Brille" ausgelöst haben. In der aufregenden Welt der KI-Hardware spielt die dialogfähige KI eine entscheidende Rolle - sie verleiht der kalten Hardware eine menschliche Seele und Intelligenz.