OpenAI stößt in den Kampf um Sprachmodelle ein und präsentiert das stärkste GPT-RealTime, mehr Leistung zu günstigeren Preisen
Nachrichten von Zhidx vom 29. August. In der Nacht von gestern hat OpenAI das für Entwickler entwickelte Sprach-zu-Sprache-Modell GPT-RealTime veröffentlicht und gleichzeitig die API-Funktionen aktualisiert, darunter die Unterstützung für entfernte MCP-Server, die Bild-Eingabe und die Unterstützung für SIP-Telefonanrufe (über das Session Initiation Protocol).
OpenAI bezeichnet dies als sein bisher fortschrittlichstes Sprachsynthese-Modell. GPT-RealTime hat Verbesserungen bei der Befolgung komplexer Anweisungen, der genauen Nutzung von Tools sowie der Erzeugung von natürlicherer und expressiverer Sprache erzielt. Das Modell kann wiederholte Buchstaben und Zahlen natürlich vorlesen, nahtlos zwischen Sprachen wechseln und sogar nicht-sprachliche Signale wie Lachen erfassen.
Heute hat OpenAI auch zwei neue Stimmen Cedar und Marin veröffentlicht, die ausschließlich in der Realtime-API zur Verfügung stehen.
Was die Preise angeht, ist die allgemeine Version der Realtime-API und das neue GPT-RealTime-Modell ab heute für alle Entwickler zugänglich. Der Preis für eine Million Token an Audioeingabe bei GPT-RealTime beträgt 32 US-Dollar (etwa 228 Yuan), der Preis für eine Million Token an zwischengespeicherter Eingabe beträgt 0,4 US-Dollar (etwa 2,85 Yuan), und der Preis für eine Million Token an Audioausgabe beträgt 64 US-Dollar (etwa 456 Yuan). Im Vergleich zum gpt-4o-realtime-preview ist der Preis von GPT-RealTime um 20 % gesenkt.
OpenAI hat die feingranulare Kontrolle über den Gesprächs-Kontext verbessert und es Entwicklern ermöglicht, intelligente Token-Beschränkungen festzulegen und mehrere Runden auf einmal zu kürzen, was die Kosten für lange Gespräche erheblich senkt.
Im Oktober letzten Jahres hat OpenAI die öffentliche Testversion der Realtime-API veröffentlicht. Seitdem haben Tausende von Entwicklern diese API genutzt und Vorschläge gemacht.
Aber aus den Kommentaren von OpenAI im sozialen Netzwerk X geht hervor, dass einige Benutzer vielversprechend auf das neue Modell blicken und sagen, dass Sprachanwendungen noch interessanter werden werden. Andere Entwickler berichten jedoch, dass die Stimme des Modells immer noch sehr roboterhaft klinge und die alten Sprachrollen nur etwas expressiver wirken.
Was die Sprachmodelle angeht, beschleunigen sich die Fortschritte sowohl im In- als auch im Ausland. Anfang dieses Monats hat MiniMax, einer der sechs großen chinesischen Sprachmodelle, das Sprachgenerierungsmodell Speech 2.5 veröffentlicht, das über 40 Sprachen abdeckt. Anfang dieses Jahres hat die Doubao-App auch die Funktion für Echtzeit-Sprachanrufe aktualisiert und diese kostenlos für Benutzer zugänglich gemacht. Sie kann verschiedene Stimmen imitieren und Emotionen wahrnehmen. Am gleichen Tag wie OpenAI hat Microsoft das erste hochgradig expressive und natürliche Sprachgenerierungsmodell MAI-Voice-1 veröffentlicht. Mit demselben Prompt können verschiedene Audiodateien generiert werden.
01. Kauf von Immobilien, Tickets und Arzttermine können wie mit Freunden besprochen werden
OpenAI hat auf seinem Blog Beispiele für die Zusammenarbeit mit fünf Unternehmen bei der Erstellung von Sprachassistenten veröffentlicht.
Zunächst ist es das amerikanische Immobilieninformationsportal Zillow. OpenAI's neues Modell kann mit Benutzern natürlich kommunizieren und ihnen helfen, Immobilienangebote nach Lebensstilbedürfnissen zu filtern oder den Kaufpreis zu analysieren.
Zweitens ist es der Mobilfunkkundendienst von T-Mobile. Der KI-Assistent kann schnell zwischen Gesprächen wechseln, ohne dass es Probleme gibt, wenn der Benutzer mitten im Satz unterbricht und ein neues Thema aufwirft.
Drittens ist es die Ticket-Verkaufsplattform StubHub. OpenAI's neues Modell kann Benutzern beim Bezahlen helfen und Probleme während des Zahlungsprozesses lösen.
Viertens kann das neue Modell in der Plattform von Oscar Health Benutzern beim Anrufen für einen Arzttermin helfen, indem es die freien Termine, die Hinweise für den Termin und die Adresse bestätigt.
Schließlich ist es das Versicherungsunternehmen Lemonade. Wenn Benutzer beim Kauf eines Autos Versicherungsprobleme haben, kann der KI-Assistent ihnen beim Kauf helfen, indem er die Ansprüche der Benutzer im Gespräch erfragt und dann anhand der gespeicherten persönlichen und Bankkarteninformationen des Benutzers den Kaufvorgang durchführt.
02. Lachen erfassen, nahtlos zwischen Sprachen wechseln und Tonfall anpassen
OpenAI hat das GPT-RealTime-Modell in Bezug auf die Audioqualität, das Verständnis von Benutzeranweisungen und die Befolgung von Anweisungen verbessert.
Damit ein Sprach-Agent den Benutzer zum weiteren Gespräch animieren kann, muss das Modell wie ein Mensch Tonfall, Emotionen und Rhythmus haben, um ein angenehmes Gesprächexperience zu schaffen. Im Blog wird erwähnt, dass GPT-RealTime natürlichere und hochwertige Sprache produzieren kann und feingranulare Anweisungen wie "Spreche schnell und professionell" oder "Spreche mit französischem Akzent mit Mitgefühl" befolgen kann.
Beim Verständnis von Benutzeranweisungen kann GPT-RealTime nicht-sprachliche Hinweise wie Lachen erfassen, in einem Satz zwischen Sprachen wechseln und den Tonfall anpassen. Laut interner Bewertungen von OpenAI ist das Modell auch bei der Erkennung von alphanumerischen Sequenzen wie Telefonnummern in Sprachen wie Spanisch, Chinesisch, Japanisch und Französisch genauer.
Bei der Big Bench Audio-Bewertung erreichte GPT-RealTime eine Genauigkeit von 82,8 %, was die alten Modelle, die OpenAI im Dezember 2024 veröffentlichte, übertrifft. Der Big Bench Audio-Benchmark ist ein Bewertungsdatensatz zur Bewertung der Inferenzfähigkeit von Sprachmodellen, die Audioeingaben unterstützen.
Beim Aufbau von Sprach-zu-Sprache-Anwendungen geben Entwickler dem Modell eine Reihe von Verhaltensanweisungen, darunter wie man sprechen soll, was man in bestimmten Situationen sagen oder tun soll. OpenAI hat sich darauf konzentriert, die Befolgung dieser Anweisungen durch das Modell zu verbessern, sodass auch kleine Anweisungen dem Modell mehr Informationen vermitteln können.
Bei der MultiChallenge-Audio-Benchmark, die die Genauigkeit der Anweisungsbefolgung misst, erreichte GPT-RealTime einen Score von 30,5 %, was im Vergleich zu 20,6 % des alten Modells eine deutliche Verbesserung darstellt. Die MultiChallenge-Bewertung misst die Leistung von großen Modellen bei der Bearbeitung von mehrfachen Gesprächen mit Menschen. OpenAI hat aus den Testfragen eine Teilmenge ausgewählt, die für die Audio-Darstellung geeignet ist, und diese mit der Text-zu-Sprache-Technologie (TTS) in Sprache umgewandelt, um die Audio-Version dieser Bewertung zu erstellen.
Um einen starken Sprach-Agenten mit einem Sprach-zu-Sprache-Modell aufzubauen, muss das Modell in der Lage sein, zum richtigen Zeitpunkt das richtige Tool aufzurufen. OpenAI hat die Funktionsaufrufe in drei Dimensionen verbessert: die Aufrufung relevanter Funktionen, die Aufrufung von Funktionen zum richtigen Zeitpunkt und die Aufrufung von Funktionen mit geeigneten Parametern. Bei der ComplexFuncBench-Audio-Bewertung, die die Leistung der Funktionsaufrufe misst, erreichte GPT-RealTime einen Score von 66,5 %, was die Punktzahl des alten Modells übertrifft. Das Modell, das wir im Dezember 2024 veröffentlicht haben, erreichte einen Score von 49,7 %.
Darüber hinaus hat OpenAI die asynchronen Funktionsaufrufe verbessert. Lange laufende Funktionsaufrufe unterbrechen den Gesprächsfluss nicht mehr, und das Modell kann während des Wartens auf das Ergebnis weiterhin reibungslos kommunizieren. Diese Funktion wird in GPT-RealTime nativ unterstützt, und Entwickler müssen ihren Code nicht aktualisieren.
03. Sprachnuancen bewahren, vier neue Realtime-API-Funktionen hinzufügen
Im Gegensatz zum traditionellen mehrstufigen Prozess von Sprach-zu-Text und Text-zu-Sprache verarbeitet und generiert die Realtime-API Audio direkt über ein einzelnes Modell und eine API. Dies reduziert die Latenz, bewahrt die Sprachnuancen und macht die Antworten natürlicher und expressiver.
Die neuen Funktionen der Realtime-API umfassen:
Entwickler können die MCP-Unterstützung in einer Sitzung aktivieren, indem sie die URL eines entfernten MCP-Servers in der Sitzungskonfiguration übergeben. Nach der Verbindung wird die API automatisch die Tool-Aufrufe verarbeiten, ohne dass Entwickler manuell die Integration einrichten müssen.
Diese Einstellung ermöglicht es Entwicklern, die Sitzung einfach auf einen anderen MCP-Server zu verweisen, um sofort zu nutzen.
Beim Thema Bild-Eingabe können Entwickler Bilder, Fotos und Screenshots in eine Realtime-API-Sitzung hinzufügen und diese zusammen mit Audio oder Text verwenden. Jetzt kann das Modell auf der Grundlage des tatsächlichen Inhalts, den der Benutzer sieht, ein Gespräch aufbauen, sodass Benutzer Fragen wie "Was siehst du?" oder "Lies den Text in diesem Screenshot" stellen können.
Anstatt die Bilder als Echtzeit-Videostream zu behandeln, fügt das System eher Bilder in das Gespräch ein. Die Anwendungen der Entwickler können entscheiden, welche Bilder mit dem Modell geteilt werden und wann, um so zu steuern, was das Modell sieht und wann es antwortet.
OpenAI hat auch Funktionen hinzugefügt, um die Realtime-API leichter zu integrieren, darunter Unterstützung für das Session Initiation Protocol (SIP), wiederverwendbare Prompts.
Die SIP-Unterstützung ermöglicht es, die Anwendungen der Entwickler direkt über die Realtime-API mit dem öffentlichen Telefonnetz, PBX-Systemen, Bürotelefonen und anderen SIP-Endgeräten zu verbinden.
Wiederverwendbare Prompts ermöglichen es Entwicklern, Prompts zu speichern und wiederzuverwenden, die Nachrichten der Entwickler, Tools, Variablen sowie Beispiel-Benutzer-/Assistenten-Nachrichten enthalten und über Realtime-API-Sitzungen hinweg verwendet werden können, ähnlich wie bei der Responses-API.
04. Fazit: Mehrstufige Schutzrichtlinien einrichten, um Missbrauch des Modells zu verhindern
Um die Missbrauch von Echtzeit-Sprachgesprächen zu verhindern, enthält die Realtime-API mehrstufige Sicherheitsmaßnahmen und Abhilfemaßnahmen. OpenAI verwendet einen aktiven Klassifikator für Realtime-API-Sitzungen, was bedeutet, dass wenn gewisse Gespräche gegen die Richtlinien für schädlichen Inhalt verstoßen, diese Gespräche abgebrochen werden können. Entwickler können auch das Agents SDK verwenden, um zusätzliche Sicherheitsmaßnahmen hinzuzufügen.
Zurzeit haben Echtzeit-Sprachgespräche eine breite Anwendungsfläche gezeigt. Die Echtzeit-Sprachfunktion von Doubao und die neu eingeführten digitalen Mitarbeiter von Baidu verwenden Sprache als Hauptinteraktionsform mit Benutzern. Zusammen mit dem neuen Sprach-zu-Sprache-Modell von OpenAI, das eine stärkere Inferenzfähigkeit und natürlichere Sprachausdruckskraft zeigt, kann es komplexe mehrstufige Anforderungen bearbeiten und KI-Agenten in verschiedenen Bereichen aufbauen.
Dieser Artikel stammt aus dem WeChat-Account "Zhidx" (ID: zhidxcom), geschrieben von Cheng Qian und redigiert von Li Shuiqing. 36Kr hat die Veröffentlichung mit Genehmigung erhalten.