Das erste "interaktive" Large Language Model: Native und Echtzeitverarbeitung von Mensch-Maschine-Kollaboration nach Gründung eines Unternehmens durch ehemaligen CTO von OpenAI

Die echte Echtzeit-Interaktion zwischen Menschen und KI ist hier.

Von Siri bis ChatGPT: Warum klingt unser Dialog mit Maschinen immer noch wie eine Frage-Antwort-Situation und lässt sich nicht so natürlich gestalten wie ein menschlicher Gesprächsablauf?

Derzeit vertrauen die meisten großen Modelle immer noch hauptsächlich auf die wechselseitige Interaktion in Runden, was es schwierig macht, einen wirklich reibungslosen Echtzeitdialog zu führen. Die Nutzer müssen zunächst ihre Eingabe abschließen, bevor das Modell eine Antwort generiert. Während der Eingabe des Nutzers kann das Modell in der Regel nicht kontinuierlich an der Beurteilung teilnehmen. Auch wenn das Modell Inhalte generiert, ist es schwierig, gleichzeitig neue Sprach-, Bild- und Nutzeraktionen zu empfangen. Daher ist der Echtzeitdialog in den meisten Fällen im Wesentlichen eine Zusammenfügung von Modulen wie Spracherkennung, großem Modell und Textsynthese, um die synchrone Kommunikation über ein externes Engineering-Framework zu ermöglichen.

Heute hat das Start-up Thinking Machines Lab der ehemaligen OpenAI-CTO Mira Murati zur Neudefinition des Mensch-Maschine-Dialogs eine Forschungsvorschau des ersten Interaktionsmodells Interaction Models veröffentlicht und die Forschungsmethoden, ersten Ergebnisse und Demonstrationsbeispiele ausführlich vorgestellt. Das Forschungsteam hat festgestellt, dass das Modell eine neue Interaktionsfähigkeit aufweist und in Bezug auf Intelligenz und Reaktionsgeschwindigkeit den derzeitigen Stand der Technik erreicht hat.

Blog-Link: https://thinkingmachines.ai/blog/interaction-models/

Das Forschungsteam hat festgestellt, dass das Interaktionsmodell Interaction Models kontinuierlich Audio-, Video- und Textdaten empfangen und gleichzeitig Antworten geben, Tools aufrufen und Hintergrundinferenzarbeiten durchführen kann.

Zweimodelsystem für Echtzeitkooperation

Das Interaction Models hat zwei Kernentwürfe: ein zeitliches Interaktionsmodell, das die Echtzeitinteraktion mit dem Nutzer aufrechterhält, und ein asynchrones Hintergrundmodell, das die kontinuierliche Inferenz, die Toolnutzung und Aufgaben mit längerer Zeitspanne behandelt. Die multimodale Architektur und der Stream-Inferenzdienst unterstützen die low-latency-Eingabe und -Ausgabe.

Abbildung | Der Nutzer interagiert kontinuierlich mit dem Interaktionsmodell, während das Hintergrundmodell asynchrone Aufgaben ausführt. Beide Systeme teilen den Kontext.

1. Interaktionsmodell: Echtzeitdialogverwaltung im Millisekundenbereich

Das Interaction Models führt zeitlich ausgerichtete Mikrorunden ein, die die kontinuierliche Eingabe und Ausgabe in 200-ms-Segmente aufteilen, damit das Modell kontinuierlich Audio-, Video- und Textdaten empfängt und gleichzeitig Text- oder Sprachausgaben generiert.

Abbildung | Das rundenbasierte Modell sieht eine abwechselnde Token-Sequenz. Das zeitliche Interaktionsmodell sieht einen kontinuierlichen Mikrorundenstrom, sodass Stille, überlappende Reden und Unterbrechungen im Modellkontext bleiben.

Bei dieser Gestaltung werden die Pausen, überlappenden Reden, Unterbrechungen und visuellen Veränderungen des Nutzers zur Grundlage für die Entscheidung des Modells über die nächste Aktion. Das Modell muss nicht warten, bis der Nutzer einen vollständigen Befehl gibt, um zu entscheiden, ob es jetzt antworten muss.

In der offiziellen Demonstrationsvideo beim Erzählen einer Geschichte von Lilian Weng kann das Modell entscheiden, ob sie nachdenkt, sich selbst korrigiert oder auf eine Antwort wartet. Das Modell kann die Interaktionsentscheidung unabhängig treffen ohne zusätzlichen Dialogverwaltungsmodul.

2. Hintergrundmodell: Asynchrone Aufgaben in den Echtzeitdialog integrieren

Wenn es um Aufgaben geht, die kontinuierliche Inferenz, Toolnutzung, Webbrowsing oder eine längere Zeitspanne erfordern, übergibt das Interaktionsmodell den vollständigen Kontext an das asynchron laufende Hintergrundmodell.

Das Hintergrundmodell empfängt den vollständigen Dialogzustand. Wenn das Ergebnis generiert ist, gibt das Hintergrundmodell es in Streamform zurück, und das Interaktionsmodell integriert es in den Dialog. Der Nutzer kann weiter sprechen, ohne auf das Ende der Hintergrundaufgabe zu warten.

In der offiziellen Demonstrationsvideo scheint es, als ob der Mensch mit einem allwissenden Modell spricht. Während das Modell arbeitet, hört es auf die Befehle des Nutzers, antwortet und sucht im Hintergrund gleichzeitig.

3. Basisdienst: Frühe Fusion und Stream-Sitzungen zur Reduzierung der Latenz

Um die Echtzeit-Eingabe und -Ausgabe in 200-ms-Mikrorunden anzupassen, hat das Forschungsteam den Ansatz der frühen Fusion gewählt: Das Audio wird in dMel-Darstellung in das Modell eingegeben, das Bild wird in 40×40-Patches aufgeteilt und codiert, und die Audioausgabe wird über den Flow-Head decodiert und generiert.

Abbildung | Schematische Darstellung der Architektur des Interaktionsmodells in einer einzelnen 200-ms-Mikrorunde. Das Modell kann Text-, Audio- oder Videoeingaben einzeln oder in Kombination empfangen und Text- und Audioausgaben vorhersagen.

Bei der Inferenz verwendet das Forschungsteam Stream-Sitzungen, um die Server das kontinuierliche Segment an die dauerhafte Sequenz im GPU-Speicher anzuhängen, um die Neuzuweisung von Speicher und die Metadatenberechnung zu reduzieren. Das Forschungsteam hat auch die relevanten Fähigkeiten in die SGLang-Oberstufe integriert und durch Kernel-Optimierung und Trainer-Sampler-Alignment die low-latency-zweiseitige Dienstleistung unterstützt.

Weniger Latenz, stärkere Echtzeitinteraktion

Das Forschungsteam hat das TML-Interaction-Small anhand bestehender Interaktionsbenchmarks, Audiointelligenzbenchmarks und eigens erstellter Echtzeitinteraktionsaufgaben bewertet.

Beim regulären Interaktionsbenchmark zeigt das TML-Interaction-Small seine Stärken vor allem in der Reaktionsgeschwindigkeit und der Interaktionsqualität. Im FD-bench V1 beträgt die Latenz bei einfachen Dialogrunden 0,40 Sekunden, was niedriger ist als die 1,18 Sekunden des GPT-realtime-2.0 minimal, die 0,59 Sekunden des GPT-realtime-1.5 und die 0,57 Sekunden des Gemini-3.1-flash-live-preview minimal.

Abbildung | Das Modell zeigt eine hohe Interaktionsqualität und eine hohe Intelligenz unter den Nicht-denkenden Modellen. Die beste Reaktionsgeschwindigkeit wird anhand der Latenz zwischen der Interaktion des Nutzers und des Modells gemessen.

Das FD-bench V1.5 misst weiter die Interaktionsqualität des Modells in Szenarien wie Nutzerunterbrechungen, Nutzerzustimmungen und Hintergrundgeräuschen. Die durchschnittliche Qualität des TML-Interaction-Small beträgt 77,8, was höher ist als bei einigen Echtzeitmodellen im Vergleich. Darüber hinaus hat das Forschungsteam auch die Grundfähigkeiten des Modells mit Audio MultiChallenge und IFEval überprüft: der APR des ersteren beträgt 43,4 %, und die Textgenauigkeit des letzteren beträgt 89,7 %, was im Wesentlichen mit den 89,6 % des GPT-realtime-2.0 minimal übereinstimmt.

Abbildung | Bei Benchmarks, die Inferenz oder Toolnutzung erfordern, zeigt das Ergebnis die Leistung nach der Aktivierung des Hintergrund-Agenten.

Die Bewertung von Echtzeitmodellen darf nicht nur die Reaktionsgeschwindigkeit berücksichtigen. Nur wenn niedrigere Latenz mit Befehlsfolgung, Audioverstehen, Toolnutzung und Sicherheitsgrenzen zusammenhängt, ergibt sich eine effektive Interaktionsfähigkeit. Daher hat das Forschungsteam weitere Tests durchgeführt, einschließlich des FD-bench V3 mit Toolnutzung, des Video-Audio-Fragen-Antwortens QIVD, des BigBench Audio, des VoiceBench IFEval und der Ablehnungsrate des Harmbench. Neben den regulären Benchmarks hat das Forschungsteam auch mehrere interne Aufgaben entworfen, um die Echtzeitreaktionsfähigkeit des Modells bei kontinuierlicher Audio- und Videoeingabe zu bewerten.

Darunter sind TimeSpeak und CueSpeak für die Bewertung der Audiointeraktionsfähigkeit zuständig. Der erste testet, ob das Modell zeitliche Wahrnehmungsfähigkeit hat und richtige Inhalte zu der vom Nutzer angegebenen Zeit ausgibt. Der zweite testet, ob das Modell die Triggerhinweise in der Nutzerstimme erkennen und zu dem richtigen Zeitpunkt eine semantisch korrekte Antwort geben kann. Die Ergebnisse zeigen, dass das TML-Interaction-Small in diesen beiden Aufgaben 64,7 und 81,7 Punkte erzielt hat, während das GPT-realtime-2.0 minimal nur 4,3 und 2,9 Punkte erreicht hat.

RepCount-A, ProactiveVideoQA und Charades sind für die Bewertung der visuellen aktiven Reaktionsfähigkeit zuständig. Die Ergebnisse zeigen, dass das TML-Interaction-Small in RepCount-A 35,4 Punkte erzielt hat, während das GPT-realtime-2.0 minimal nur 1,3 Punkte erreicht hat. Bei Charades beträgt der mIoU 32,4, während der Vergleichswert 0 ist. In ProactiveVideoQA hat es 33,5 Punkte erzielt, was höher ist als die 25,0 Punkte der Nicht-Antwort-Baseline.

Abbildung | Die Nicht-Antwort-Baseline in ProactiveVideoQA beträgt 25,0.

Mängel und zukünftige Richtungen

Derzeit befindet sich das Interaction Models noch im Forschungsvorschauphase und ist noch ein Stück entfernt von einem stabil einsetzbaren Echtzeitkooperationssystem. Die Hauptprobleme liegen in folgenden 5 Aspekten:

Längere Echtzeitkooperation erfordert immer noch ein feineres Kontextverwaltungsmechanismus. Kontinuierliches Audio und Video belegen schnell den Kontext. Stream-Sitzungen können kurze und mittellange Interaktionen unterstützen, aber reale Arbeitsprozesse erstrecken sich oft über mehrere Aufgabenphasen und enden selten innerhalb weniger Minuten. Dies verstärkt den Druck auf den langen Kontext.

Die low-latency-Bereitstellung wird auch durch reale Bedingungen eingeschränkt. Echtzeit-Audio- und Videoströme sind auf eine stabile Verbindung angewiesen. Wenn die Netzwerkqualität sinkt, verschlechtert sich die Benutzererfahrung deutlich. Das Forschungsteam hat festgestellt, dass das nachfolgende System die Zuverlässigkeit verbessern und das Modell besser an verzögerte Frames anpassen muss.

Die Echtzeitbereitstellung größerer Modelle ist immer noch eingeschränkt. Das aktuelle TML-Interaction-Small ist bereits ein 276-Milliarden-Parameter-MoE-Modell mit 12-Milliarden aktiven Parametern. Das Forschungsteam ist der Meinung, dass die Interaktionsfähigkeit mit der Modellgröße zunimmt, aber derzeit ist die Geschwindigkeit größerer vortrainierter Modelle immer noch nicht ausreichend, um sie direkt in Echtzeitszenarien einzusetzen. Das Team plant, in diesem Jahr ein größeres Modell zu veröffentlichen.

Sicherheitsprobleme müssen beachtet werden. Lange Gespräche, multimodale Eingaben und Echtzeit-Toolnutzung machen die Sicherheitskalibrierung schwieriger. Wenn das Modell eine Frage ablehnt, muss es nicht nur natürlich klingen, sondern auch die Ablehnungskriterien klar formulieren. Auch das aktive Eingreifen des Modells muss vorsichtig geplant werden. Wann das Modell spricht und wann es schweigt, beeinflusst das Vertrauen und das Kontrollgefühl der Nutzer gegenüber dem System.

Der Hintergrund-Agent-Mechanismus befindet sich noch in der Anfangsphase. Das Forschungsteam hat erwähnt, dass die Echtzeitinteraktion nur ein Teil davon ist, und die Agentenintelligenz bleibt eine Schlüsselkompetenz. Wie das Hintergrundmodell und das Interaktionsmodell zusammenarbeiten, wie die Toolnutz

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das erste "interaktive" Large Language Model nach dem Gründen eines Unternehmens durch den ehemaligen CTO von OpenAI: Native und Echtzeitverarbeitung von Mensch-Maschine-Kollaboration

Zweimodelsystem für Echtzeitkooperation

Weniger Latenz, stärkere Echtzeitinteraktion

Mängel und zukünftige Richtungen