Wenn KI auf Sprache trifft: Die Interaktionserfahrung der Zukunft neu gestalten
Kürzlich kündigte Justin Uberti, Mitbegründer und CTO von Fixie.ai und einer der frühen Schöpfer von WebRTC, seinen Beitritt zu OpenAI an, um die Entwicklung von Echtzeit-AI-Projekten zu leiten. Er ist der Meinung, dass Sprachinteraktion die Zukunft der KI ist und wir zu einer dialogorientierten Gesellschaft zurückkehren.
Die Entscheidung von Justin Uberti, zu OpenAI zu wechseln, erscheint nun schlüssig. Bereits im Mai dieses Jahres veröffentlichte OpenAI das erste End-to-End-Sprachmodell GPT-4o, und die Szenarien aus dem Film "Her" von vor zehn Jahren beginnen, Realität zu werden. Eine KI mit niedriger Latenz und hoher Intelligenz, die in der Lage ist, Informationen sofort bereitzustellen, nicht den Kontakt zu verlieren, 24/7 emotionale Unterstützung zu bieten und jederzeit emotionale Werte beizutragen, hat die Rolle der KI über einfache Produktionswerkzeuge hinauswachsen lassen und beginnt, tief in alle Aspekte des Lebens einzudringen.
Tatsächlich hat sich die Fähigkeit von KI, von "sprechend" zu "kommunizierend" zu entwickeln, in den letzten zwei Jahren deutlich verbessert, und die Diskussionen über KI beschränken sich nicht mehr auf "KI-Assistenten". Themen wie "KI-Freund/Freundin" tauchen immer häufiger auf, und KI-Begleitung wird zu einem der Hauptentwicklungstrends sozialer Anwendungen. Laut dem neuesten Bericht von A16Z vom August sind 16% der Top-100-Apps KI-Begleitprodukte, und 6 der Top-20-Apps sind darunter.
Während der breite Markt das enorme Potenzial von KI-Begleit-Apps anerkennt, wird es immer wichtiger, Sprachinteraktion als den aktuell kritischsten Zugang zu betrachten.
Egal ob es sich um native KI-Anwendungen wie Hoshino, Character.AI, Dreamland, Poly.AI oder um beliebte allgemeine Unterhaltungs-Apps im Inland handelt, die KI-Avatare, KI-Haustiere und KI-Partner-Features einführen... unterschiedliche Anwendungen mögen verschiedene Spielformen und Designs haben, aber im Kern basieren sie alle auf der wesenlichen Interaktion durch Dialog, um den Nutzern emotionale Erlebnisse zu bieten.
Hinter diesen Phänomenen verbirgt sich eine rückläufige Änderung: Mit der kontinuierlichen Entwicklung des Marktes für KI-Begleit-Apps wird auch der starke Bedarf der Nutzer nach qualitativ hochwertigen Sprachinteraktionen geweckt. Und in einer Ära des Wandels angetrieben von KI-Technologien, wie kann man den sich ständig ändernden Bedürfnissen der Nutzer gerecht werden und die Produkterfahrung verbessern?
Kürzlich hat "Agora.io" mit der Veröffentlichung seines selbstentwickelten Audiomotors, dem Purio AI Audiomotor, dem Markt eine neue Lösung präsentiert. Diese Lösung bietet mit den drei Kerntechnologien AI-Rauschunterdrückung, AI-Echounterdrückung und Lautstärkeregelung den Nutzern ein reines, wahrheitsgemäßes und komfortables Hörerlebnis. Sie unterstützt soziale App-Nutzer nicht nur dabei, eine bessere Klangqualität zu erhalten, sondern kann auch mit den neuesten KI-Begleitlösungen kombiniert werden, um KI-Begleiter realistischer erscheinen zu lassen.
Der von "Agora.io" eingeführte selbstentwickelte Audiomotor – der Purio AI Audiomotor
Wenn Sprache zum Schlüsselfeld der Interaktion wird
Es besteht kein Zweifel, dass Sprache als natürliche und bequeme Kommunikationsmethode der Menschheit zu einem Schlüsselfeld für Mensch-Maschine-Interaktion im intelligenten Zeitalter geworden ist.
Einerseits ermöglicht die Anwendung der RTC-Technologie eine schnelle Reaktion mit niedriger Latenz, wodurch die Interaktion zwischen Mensch und KI realistischer wird. Andererseits ermöglicht die Spracherkennung Maschinen, die Emotionen und den Tonfall von Menschen zu erkennen, was letztendlich zu präziseren und intelligenteren Antworten führt.
Anhand der Produktentwicklungstrends der großen KI-Unternehmen ist auch zu erkennen, dass Sprache ein unverzichtbares Element ist. Seit der Veröffentlichung von GPT-4o haben End-to-End-Echtzeit-Multimodellanwendungen sowohl im In- als auch im Ausland neue Richtungen aufgezeigt. Dazu gehören internationale KI-Unternehmen wie Character.AI mit ihrer Einführfunktion, Microsoft AI, das bis Ende des Jahres über eine Echtzeitschnittstelle verfügen wird, und in China Doubao, das im August angekündigt hat, dass das große Modell Echtzeitanrufe unterstützt, sowie Kimi, das im Oktober die Sprachfunktion herausgebracht hat…
Man kann erwarten, dass Sprachinteraktion die ultimative Form der Interaktion in dialogorientierten Multimodellmodellen der Zukunft sein wird.
Allerdings ist Sprachinteraktion für Nutzer nicht unbekannt. In den Bereichen intelligenter Häuser, Mobiltelefone, Fahrzeuge, Wearables und Roboter ist die Sprachinteraktionstechnologie bereits schnell durchdrungen und implementiert worden. In den meisten Fällen können Maschinen eine Reihe von Aufgaben erledigen, nur durch mündliche Befehle.
Darüber hinaus hat Sprachinteraktion aufgrund ihrer signifikanten Wirkung bei der Förderung sozialer Beziehungen zwischen Fremden und der Verbesserung der Effizienz der Kommunikation mit Bekannten breite Anwendung in sozialen und beruflichen Szenarien gefunden und ist zu einer grundlegenden Fähigkeit für Anwendungen geworden. Innovativen Szenarien basierend auf Sprachanrufen entwickeln sich schnell weiter, wie zum Beispiel Gaming-Teams, Sprachchats, Online-Karaoke, Live-Streaming, Bildung und andere neue, vielfältige, personalisierte Echtzeit-Interaktionserlebnisse und greifen in den täglichen Alltag der Nutzer ein.
Die Bequemlichkeit ermöglicht es, dass Sprachinteraktion jederzeit und überall stattfindet, sei es beim Pendeln durch die Teilnahme an Online-Meetings, beim Essen durch Fernsprechplaudern mit einem Freund oder beim Outdoor-Streaming. Die bequeme Gewohnheit, jederzeit und überall zu interagieren, hat jedoch komplexere Gesprächsumgebungen mit sich gebracht, und Tonprobleme treten häufiger auf als je zuvor.
Beispiele dafür sind Mensch-Maschine-Interaktionen in noisigen Umgebungen, die die Erkennungsgenauigkeit deutlich verringern; in Mehrpersonenkonferenzen kann störendes Rauschen die Atmosphäre im Chatroom beeinträchtigen und das Interesse der Nutzer, sich zu äußern, herabsetzen; in Karaoke-Anwendungen kann die Klangqualität der Stimme unter komplexen Bedingungen "dumpf und trüb" werden, bis hin zu "Echoverlust" oder "Tonverschlucken", was zu einem schlechten Benutzererlebnis führt...
Wie können Nutzer in komplexen Umgebungen ein "flüssiges" Interaktionserlebnis genießen? Der Durchbruch bei den Schlüsselteilen der Sprachinteraktionstechnologie ist ein entscheidender Punkt, insbesondere wie man Rauschen so weit wie möglich entfernt, ohne dabei den Ton zu verzerren, um sicherzustellen, dass der Benutzer klar hören kann.
In diesem Kontext hat Agora.io den Purio AI Audiomotor veröffentlicht, der durch neue AI-Geräuschunterdrückungsalgorithmen, eine neue AI-Echounterdrückungsalgorithmen, ein dynamisches Lautstärkegleichgewicht und andere Kernalgorithmen ein reines, wahres und sehr komfortables Hörerlebnis bietet.
Mit Innovation den Nutzern qualitativ hochwertige Erlebnisse bieten
Purio AI ist die neueste Technologie von "Agora.io", die sich auf die Verbesserung der Audioqualität konzentriert.
Es wird berichtet, dass "Agora.io" seit 2015 auf einem eigenständigen Innovationsweg für Audio-Engines ist, unter anderem mit der Entwicklung einer 3A-Audiomotor, der 2015 eingeführt wurde, 2018 über 70% der führenden Internetunternehmen bedient hat und kontinuierlich Lösungen für eine einfache Integration der Sprachinteraktion angeboten hat. Im Jahr 2021 wurden vollständige Karaoke-Lösungen mit frischem Zugang zu Musikverlagsrechten eingeführt, Szenen-adaptive AI-Geräuschunterdrückungstechnologien sowie professionelle Karaoke-Echounterdrückungsalgorithmen und erste Unterstützung für die Verbindung von tausend Benutzern im selben Raum, und vieles mehr.
Im Jahr 2022 führte "Agora.io" die AI-Geräuschunterdrückungsfunktion offiziell ein, die zu dieser Zeit bereits auf dem Auslandmarkt verbreitet war, während der Inlandsmarkt konservativer war, da das spezifische Bedürfnis eines leisen Interaktionsumfeldes im Inland noch nicht benötigt wurde. Doch mit der Zeit und mit mehr Begegnungen der Nutzer mit Lärmbelästigung, von lauten Leuten und Fahrzeugen in der Öffentlichkeit und belebten Bereichen im Freien, zu TV- und Musikgeräuschen in Innenräumen, bis hin zu Tastaturklappern, Kopfhörer-ein/aus, Husten und Schlucken.
Demnach richtet sich ein gutes Sprachinteraktionserlebnis nach dem dringendsten Bedürfnis der Nutzer. Mit anderen Worten, wie man die Audioqualität verbessern kann, d.h. vor allem die Optimierung der 3A-Fähigkeiten: Rauschunterdrückung, Echounterdrückung, automatische Verstärkungsregelung, sind die Hauptfähigkeiten zur Lösung von Kundenproblemen.
Beginnen wir mit dem Beispiel der Rauschunterdrückung: Traditionelle Rauschunterdrückungen können keine transienten Geräusche effektiv unterdrücken; traditionelle Echounterdrückungen beschädigen häufig die menschliche Stimme, was bedeutet, dass diese Probleme nicht gut in Umgebungen adaptierbar sind. Mit der Entwicklung von KI-Technologien kann unter Berücksichtigung ihrer starken Generalisierungsfähigkeit die Anwendbarkeit traditioneller Methoden in komplexen Umgebungen verbessert werden.
Darüber hinaus ermöglicht die Fähigkeit von KI ihnen, die anpassungsfähige Geräuschunterdrückung und Echounterdrückung zu verbessern. Sie kann die Umgebung erkennen und Störungen in Echtzeit unterdrücken, während die menschliche Stimme wiederhergestellt wird. Zudem können Szenarien intelligent erkannt werden: AI kann den Unterschied zwischen "Störungen" und "menschlichen Stimmen" klar verstehen und eine präzise Trennung vornehmen; es kann auch intelligente Szenenwechsel durchführen, z.B. wird Hintergrundmusik in einer Veranstaltung nicht als Lärm betrachtet, sondern Applaus in einer Konferenz ebenfalls nicht als Rauschen.
In der Praxis hat zum Beispiel eines der ersten Unternehmen, das AI in mobile soziale Produkte einführte, FunPlus Technology, die Stimme über "Agora.io" sichergestellt, was über 200 Millionen Nutzern eine nahtlose und qualitativ hochwertige Verbindungserfahrung ermöglicht. Sie schaffen weiterhin neue Sprachsozial-Funktionen für die Nutzer.
FunPlus Technology führte im Jahr 2022 die Funktion der "Online-Karaoke" ein, die bedeutende Durchbrüche im K-Szenarien-Erlebnis durch zusammenarbeitende Technologien der Purio AI Audiomotor-Fähigkeiten erzielte: Die Fähigkeit zum dynamischen Lautstärkegleichgewicht führte zu einer präzisen Ausrichtung von Stimme und Begleitung, wodurch Konflikte im Karaoke-Prozess zwischen Stimme und Begleitung gelöst wurden; das Karaoke-Bewertungssystem bietet präzise und zeitnahe Rückmeldungen über die Gesangsleistung, das verschiedene Dimensionen wie Tonhöhe, Rhythmus, Artikulation, Atem usw. bietet, um eine umfassendere, objektivere Bewertung der Gesangsfähigkeiten des Benutzers zu bieten...
Zusammenarbeitsbeispiel von TT Voice × Agora.io
Es ist bemerkenswert, dass die Einführung von KI neue Herausforderungen für die Sprachinteraktion mit sich bringt, insbesondere komplexe Modelle sowie erhebliche Leistungsanforderungen erfordern eine erhebliche Herausforderung bei der Bereitstellung von Echtzeitszenarien. Mit Blick auf Latenz und Energieverbrauch, selbst für niedrigere und mittlere Gerätetypen, haben das höhere Energieverbrauch und die Wärmeentwicklung oft verhindert, dass KI-Fähigkeiten effektiv genutzt werden.
Um solche Rückhalteprobleme, die durch die Einführung von KI verursacht wurden, zu lösen, beschäftigt "Agora.io" verschiedene technische Mittel wie Reparametrisierung, Parametersharing und Modellquantisierung, um niedrige Kosten, niedrige Latenz und hohe Wiedergabegenauigkeit zu erzielen. Der neue Purio AI Audiomotor hält nach wie vor niedrige Latenz und Leichtgewichtigkeit bei; es erreicht Algorithmuslatenzen von weniger als 10 ms und die CPU-Stromverbrauchszunahme auf niedrigen Geräten bleibt unter 4%, was eine hohe Benutzerverfügbarkeit garantiert.
Auf der bestehenden Grundlage verfügt Purio AI über eine All-Szenen 400+ Geräuscharten-Erkennung & Beseitigungstechnologie, die im Vergleich zur 2022-Version eine Verbesserung der Unterdrückungseffizienz um 52% erreicht. Unter Einsatz mehrerer hochpräziser KI-Technologien werden Geräusche entwoben und Stimmen präzise wiederhergestellt, wobei die Objektivitätsmaßstäbe der menschlichen Stimme branchenweit führend sind. Darüber hinaus hat es die Fähigkeit zur szenenbasierten AI-Geräuschunterdrückung, die es ermöglicht, AI-Strategien zur Rauschreduzierung intelligent zu regulieren; es kann auch KI-Algorithmen verwenden, um bis zu 99,9% Audio-Echos intelligent zu erkennen und zu entfernen, indem das lokal signalisierte und das Echo-Signal voneinander getrennt werden, was die Wiederherstellung der Klangqualität sicherstellt...
Heute sind die Audioqualitätstechnologien von "Agora.io" in weiten Bereichen wie Live-Streaming, Musik hören, sozialer Kontakt, Radiosendungen und allgemeiner Unterhaltung, sowie in Branchenanwendungen wie Finanzen, Online-Bildung, Videokonferenzen, intelligenten Geräten und vielem mehr weit verbreitet.