StartseiteArtikel

OpenAI lässt das Modell „sprechen“. Achtung: Beleidigen von KI ist sehr teuer.

36氪的朋友们2026-05-08 15:51
Es ist nicht billig, zu sprechen.

Am 8. Mai hat OpenAI drei neue Sprachmodelle in die API integriert: GPT‑Realtime‑2, das auf Sprachinferenz und Dialog spezialisiert ist, Realtime‑Translate, das sich auf Echtzeit-Übersetzung in mehreren Sprachen konzentriert, und Realtime‑Whisper, das auf Spracherkennung und Texttranskription abzielt .

GPT‑Realtime‑2 ist das erste Sprachmodell von OpenAI mit Inferenzfähigkeiten auf GPT‑5‑Niveau. Es hat in Benchmark-Tests deutliche Fortschritte gezeigt: Die Genauigkeit in der Big Bench Audio-Sprachintelligenzbeurteilung erreichte 96,6 %, und die durchschnittliche Passrate in der Audio MultiChallenge-Befehlsfolgungsbeurteilung betrug 48,5 %. Dies entspricht einer Steigerung um 15,2 bzw. 13,8 Prozentpunkte gegenüber der Vorgängergeneration GPT‑Realtime‑1.5.

Basierend auf GPT‑Realtime‑2 entwickelt sich die Sprach-KI von einfachen abwechselnden Fragen und Antworten hin zu einer Form, die in der Lage ist, während eines Dialogs kontinuierlich zuzuhören, zu inferieren, Tools aufzurufen und Aufgaben zu erledigen.

01 Der "denkende" Sprachassistent

Das Ziel bei der Entwicklung von GPT‑Realtime‑2 war es, dass das Sprachmodell bei Beibehaltung der Dialogflüssigkeit die Fähigkeiten zur Inferenz und Handlung bei der Bearbeitung komplexer Angelegenheiten besitzt.

In Bezug auf die Natürlichkeit des Dialogs hat das Modell einen Präambel-Mechanismus eingeführt.

Entwickler können kurze Hinweise wie "Lassen Sie mich mal nachschauen" oder "Einen Moment, ich schaue gerade" aktivieren, um dem Benutzer bereits vor der eigentlichen Antwort zu signalisieren, dass die Anfrage empfangen und verarbeitet wird.

Dazu gehört die Fähigkeit zur parallelen Tool-Aufrufung und Transparenz der Tools. Das Modell kann mehrere externe Tools gleichzeitig aufrufen und dem Benutzer über die aktuelle Verarbeitungsstatus per Sprache informieren, indem es beispielsweise sagt "Ich prüfe Ihren Kalender" oder "Ich suche gerade", damit der Agent während der Aufgabenbearbeitung reaktionsfähig bleibt und nicht in Schweigen versinkt.

Wenn es Schwierigkeiten bei der Verarbeitung gibt, gibt das Modell Hinweise wie "Ich habe gerade Schwierigkeiten" und versucht, die Situation zu retten, anstatt stillschweigend fehlzuschlagen oder die Sitzung direkt abzubrechen.

Darüber hinaus wurde das Kontextfenster des Modells von 32K auf 128K erweitert, was bedeutet, dass es in längeren und komplexeren mehrstufigen Dialogen kohärent bleiben kann und einen vollständigeren Agenten-Arbeitsablauf unterstützen kann.

In Bezug auf die Eignung für professionelle Szenarien hat das Modell die Fähigkeit zur Verständnis von Fachbegriffen verbessert und kann Fachwörter, Eigennamen und medizinische Begriffe genauer beibehalten. Dies ist von besonderem Wert für die Implementierung in produktiven Umgebungen. Auf Ausdrucksebene hat das Modell eine besser kontrollierbare Tonlage und Expressivität und kann den Stil je nach Situation anpassen.

Eine weitere wichtige Verbesserung ist die einstellbare Inferenzstärke. Entwickler können aus fünf Stufen wählen: minimal, low, medium, high und xhigh (Standard ist low), um ein Gleichgewicht zwischen Latenz und Inferenztiefe zu finden.

02 Kein Smalltalk

GPT‑Realtime‑2 hat in Benchmark-Tests die Vorgängermodelle klar geschlagen

 

In der Big Bench Audio-Beurteilung, die die herausfordernden Inferenzfähigkeiten von Sprachmodellen misst, erreichte GPT‑Realtime‑2 (high-Inferenzstufe) eine Genauigkeit von 96,6 %, während GPT‑Realtime‑1.5 81,4 % erreichte. Dies entspricht einer Steigerung um 15,2 Prozentpunkte.

In der Audio MultiChallenge-Bewertung, die die Intelligenz von sprachlichen Dialogsystemen bei mehrstufigen Interaktionen misst – diese Bewertung umfasst Aspekte wie Befehlsfolgung, Kontextintegration, Selbstkonsistenz und die Verarbeitung von natürlichen Sprachkorrekturen – stieg die durchschnittliche Passrate von GPT‑Realtime‑2 (xhigh-Inferenzstufe) von 34,7 % bei GPT‑Realtime‑1.5 auf 48,5 %, was einer relativen Steigerung um 13,8 Prozentpunkte entspricht.

Tatsächlich ist das überzeugendste Szenario, um zu beurteilen, ob ein Sprachmodell wirklich "klug" ist, nicht das Smalltalk, sondern die Bearbeitung eines komplexen Problems, das Schritt für Schritt abgeleitet werden muss.

Hinweis: OpenAI hat in der Präsentationsdokumentation einen konkreten Test gezeigt: Ein Benutzer beschrieb seinem Modell seine Unternehmensgründung. Die Sprachinferenz und der dazugehörige Texttranskript der beiden Real-time-Modelle

 

Das obige Beispiel ist eine komplexe Aufgabe, die hohe Anforderungen an die Inferenzfähigkeit stellt: Das Modell muss die Wechselbeziehungen zwischen mehreren Variablen verstehen, wie die ungleichmäßige zeitliche Verteilung des Kundenstroms, die hohen festen Mietkosten und die Geschäftskonzeption eines Cafés mit langsamem Kaffeezubereitungsprozess und niedriger Umsatzrate, und unter diesen Einschränkungen logische Schlussfolgerungen ziehen.

GPT‑Realtime‑2 gab in 1 Minute und 4 Sekunden eine strukturierte und geordnete Antwort. Es analysierte nicht nur den Widerspruch zwischen der Fluktuation des Kundenstroms und der Mietstruktur und wies darauf hin, dass die zu konzentrierten Spitzenzeiten möglicherweise dazu führen, dass die Gesamtflächenleistung nicht ausreicht, um die Mieten zu decken, sondern auch einen konkreten Weg für leichte Tests vorgeschlagen.

Bei der gleichen Frage antwortete das Vorgängermodell GPT‑Realtime‑1.5 in 51 Sekunden, aber die Tiefe der Antwort war deutlich geringer. Dieser Vergleich zeigt direkt die Generationenlücke zwischen den beiden Modellen in Bezug auf die strategische Inferenzfähigkeit.

03 Echtzeitübersetzung und Transkription

Neben GPT‑Realtime‑2 haben OpenAI zwei spezielle Modelle gleichzeitig veröffentlicht, die jeweils auf bestimmte Szenarien zugeschnitten sind.

GPT‑Realtime‑Translate konzentriert sich auf die Echtzeit-Übersetzung in mehreren Sprachen und unterstützt über 70 Eingabesprachen. Es kann in Echtzeit in 13 Zielsprachen übersetzen und gleichzeitig eine Transkription des Textes liefern. Seine Zielanwendungsbereiche umfassen Kundensupport, grenzüberschreitenden Vertrieb, Bildung, Veranstaltungen und Plattformen für globale Künstler.

Alberto Parravicini, der Leiter der KI bei der Videoplattform Vimeo, hat ihre Anwendungsumgebung geteilt: Sie haben GPT‑Realtime‑Translate in die Videowiedergabe integriert, sodass Künstler sofort nach dem Hochladen ihrer Videos mit einem globalen Publikum in verschiedenen Sprachen kommunizieren können.

Vimeo demonstriert die Echtzeitübersetzungsfähigkeit von GPT‑Realtime‑Translate

GPT‑Realtime‑Whisper ist ein Streaming-Sprach-zu-Text-Modell, das speziell für Szenarien mit geringer Latenz bei der Transkription entwickelt wurde.

Es kann sofort nach dem Beginn des Sprechens eine Textschrift erzeugen und eignet sich für Echtzeit-Untertitel bei Meetings, Unterlagen für Vorlesungen, Radio-Untertitel und Sprachinteraktionsszenarien, bei denen ein sofortiger Arbeitsablauf erforderlich ist. Sein Kernwert liegt darin, dass es die Sprachinhalte während des Dialogs in eine strukturierte Textdatei umwandeln kann, die direkt von nachgelagerten Geschäftssystemen verwendet werden kann.

04 Sicherheit und Preise

In Bezug auf die Sicherheit hat die Realtime API mehrere Sicherheitsmechanismen implementiert. Der integrierte aktive Klassifikator kann die Gespräche in Echtzeit überwachen und die Sitzung beenden, sobald eine Interaktion erkannt wird, die gegen die Richtlinien für schädlichen Inhalt verstößt. Entwickler können außerdem mithilfe des Agents SDK einfach benutzerdefinierte Sicherheitsmechanismen hinzufügen.

OpenAIs Nutzungsrichtlinien verbieten ausdrücklich die Verwendung der Ausgaben für Spam, Betrug oder andere schädliche Zwecke.

Nach den offiziellen Anweisungen müssen Entwickler, sofern nicht der Dialogkontext bereits klar macht, dass es sich um eine KI handelt, den Endbenutzern klar mitteilen, dass sie mit einer Künstlichen Intelligenz interagieren (Hinweis: "Sie sprechen jetzt mit einer KI"). Darüber hinaus unterstützt die API vollständig die EU-Datenresidenz für EU-Kunden und ist durch das Unternehmens-Privatsphäreversprechen geschützt.

Die drei Modelle sind jetzt über die Realtime API für Entwickler verfügbar.

In Bezug auf die Preise wird GPT‑Realtime‑2 nach Sprach-Token berechnet. Der Preis für 1 Million Eingabe-Token beträgt 32 US-Dollar (für zwischengespeicherte Eingaben 0,40 US-Dollar pro 1 Million Token), und der Preis für 1 Million Ausgabe-Token beträgt 64 US-Dollar. GPT‑Realtime‑Translate wird nach der Nutzungsdauer berechnet, mit einem Preis von 0,034 US-Dollar pro Minute. GPT‑Realtime‑Whisper wird ebenfalls nach der Nutzungsdauer berechnet, mit einem Preis von 0,017 US-Dollar pro Minute.

Um das neue "Sprachpaket" zu unterstützen, hat OpenAI-Chef Sam Altman auf X geschrieben: Menschen beginnen tatsächlich, mit KI per Sprache zu interagieren, insbesondere wenn sie eine große Menge an Hintergrundinformationen auf einmal eingeben müssen.

Er hat auch erwähnt, dass jüngere Menschen scheinbar lieber per Sprache mit KI kommunizieren, während ältere Benutzer eher schreiben. Er hat die offene Frage gestellt, ob sich diese Gewohnheiten in Zukunft ändern werden.

Die Frage ist: Jetzt hat OpenAI die Sprachinferenzfähigkeit verbessert. Wer wird als Nächstes an die Reihe kommen?

Dieser Artikel stammt aus dem WeChat-Account "Tencent Technology", Autor: "Worth Paying Attention To". 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.