Der ehemalige CTO von OpenAI hat ein Prototyp eines immer "anwesenden" KI-Systems vorgestellt.
Am 11. Mai hat Thinking Machines ein neues Modell namens Interaction Model (Interaktionsmodell) veröffentlicht. Dieses KI - Labor, das von der ehemaligen CTO von OpenAI, Murati, gegründet wurde, hat zuvor das OPD - Distillationsparadigma veröffentlicht, das DeepSeek V4 stark beeinflusst hat. Diesmal behaupten sie, dass das neu veröffentlichte Modell das nächste Generation - Muster der Mensch - Maschine - Interaktion darstellt.
Ihr Argumentationsansatz basiert auf der Kommunikationswissenschaft.
1991 haben Herbert Clark und Susan Brennan in der klassischen Abhandlung "Grounding in Communication" drei Grundbedingungen für effektive menschliche Kommunikation aufgestellt. Thinking Machines nimmt diese drei Bedingungen als Diagnoseframework und prüft schrittweise den Zustand aktueller KI - Interaktionssysteme.
Copresence (Gemeinsame Präsenz), d. h. beide Parteien teilen dasselbe Wahrnehmungsfeld. Die Umgebung, die du siehst, hörst und erlebst, kann auch die andere Person wahrnehmen.
Contemporality (Gleichzeitigkeit), d. h. die Rezeption erfolgt fast synchron mit der Übertragung. Während du sprichst, verarbeitet die andere Person sofort, was du sagst, ohne dass es eine Lücke gibt, in der "gewartet wird, bis du fertig bist, bevor das Verständnis beginnt".
Simultaneity (Gleichzeitigkeit), d. h. beide Parteien können gleichzeitig Informationen senden und empfangen. Während du sprichst, kann die andere Person sofort Mikroausdrücke, Nicken, Zwischenrufe usw. geben.
Diese drei Bedingungen werden in einer face - to - face - Konversation natürlich erfüllt. Wenn du mit einem Freund in einer Kaffeebar plaust, teilt ihr denselben physischen Raum (Copresence), sobald du anfängst zu sprechen, hört und versteht der andere (Contemporality), und der andere kann während du sprichst die Stirn runzeln oder nicken, um zu zeigen, dass er "mitkommt" oder "nicht ganz einverstanden ist" (Simultaneity).
Thinking Machines' Diagnose ist, dass die ersten beiden Bedingungen von aktuellen KI - Systemen überhaupt nicht erfüllt werden. Bei der dritten Bedingung gibt es in den letzten Full - Duplex - Sprachmodellen einige Fortschritte, aber diese sind noch unvollständig.
KI ist nie wirklich "anwesend"
Thinking Machines ist der Ansicht, dass das aktuelle KI - Dialogsystem am wenigsten der Definition der Präsenz entspricht, da es vollständig auf dem Konzept der "turn" (Runde) basiert.
Der Benutzer spricht einen Text aus, das Modell verarbeitet ihn und gibt eine Antwort aus. Eine Runde endet, und die nächste beginnt. Diese Struktur trennt grundlegend die gemeinsame Präsenz.
Erstens fehlt die gemeinsame Präsenz. Die KI nimmt dich nur wahr, wenn du aktiv etwas eingibst. Wenn du schweigst, existiert deine Welt für sie nicht. Wenn du die Stirn runzelst, zum Fenster gehst oder eine schlechte Nachricht auf dem Bildschirm erscheint, weiß sie davon nichts. Ihr Wahrnehmungsfeld ist auf die schmale Leitung beschränkt, die du über Tastatur oder Mikrofon "aktiv an sie sendest".
Zweitens fehlt die Gleichzeitigkeit. Das Modell muss warten, bis du "fertig" bist, bevor es beginnt zu verarbeiten. Die Voice Activity Detection (VAD, Sprachaktivitätserkennung) muss eine lange genug Pause detektieren, um zu bestimmen, dass deine Runde beendet ist. In dieser Lücke, in der "gewartet wird, bis du fertig bist", hat das Modell keine Echtzeitverarbeitung der Inhalte, die du gerade sagst.
Thinking Machines verwendet in einem Blogbeitrag eine Analogie. Stell dir vor, du diskutierst mit einem Kollegen über einen wichtigen Unterschied, aber ihr kommuniziert nur per E - Mail. Du schreibst eine E - Mail, sendest sie ab und wartest auf die Antwort. Der andere schreibt eine E - Mail, sendet sie ab und wartet auf deine nächste. Niemand würde diese Methode als geeignet für die Lösung komplexer Kooperationsprobleme ansehen.
Aber dies ist das Interaktionsmuster aller aktuellen KI - Systeme.
Die dritte notwendige Bedingung, die Gleichzeitigkeit, hat in den letzten zwei Jahren die schnellsten Fortschritte gemacht. Echtzeit - Sprach - KI versucht, das System gleichzeitig zu senden und zu empfangen. OpenAI hat am 7. Mai GPT - Realtime - 2 veröffentlicht, und ByteDance hat Seeduplex in voller Breite in Doubao integriert. Aber wenn man sich die Architektur genauer ansieht, wird deutlich, dass die Implementierung der Gleichzeitigkeit von Firma zu Firma unterschiedlich tiefgreifend ist.
Außerdem lösen sie nur die Gleichzeitigkeit, während die ersten beiden Bedingungen unverändert bleiben.
Full - Duplex auf Kommunikationsschicht, aber das Modell wartet immer noch, bis du fertig bist
GPT - Realtime - 2 ist ein Sprachmodell, das OpenAI vier Tage vor der Veröffentlichung von Thinking Machines herausgebracht hat und derzeit die stärkste Echtzeit - Interaktionslösung von OpenAI ist. Schauen wir uns zunächst an, was es leistet.
Es verfügt über die Inferenzfähigkeit auf GPT - 5 - Niveau, ein 128K - Kontextfenster und vor allem eine verbesserte Fähigkeit zur parallelen Werkzeugaufrufung, sodass du das System per Sprache steuern und Werkzeuge aufrufen kannst. Daher ist es auf Big Bench Audio um 15,2 % besser als seine Vorgängerversion und als Sprachmodell an sich sehr stark.
Aber hier interessiert uns nur eine Frage: Wie weit ist es bei den drei Bedingungen gekommen?
Schauen wir uns zunächst die Architektur an. Die Grundlage der OpenAI Realtime API ist WebSocket, ein Full - Duplex - Kommunikationsprotokoll. Dein Audiostream wird kontinuierlich an den Server gesendet, und der Audiostream der KI wird kontinuierlich an dich zurückgesendet. Beide Richtungen sind gleichzeitig geöffnet. Somit ist die Gleichzeitigkeit auf der Kommunikationsschicht gelöst. Du kannst während der KI spricht anfangen zu sprechen, und die KI kann auch während du sprichst weiter ausgeben. Der Kanal ist bidirektional, ohne die Einschränkung, dass "die eine Partei warten muss, bis die andere fertig ist, bevor sie anfangen kann zu sprechen".
Das Problem liegt im Modell hinter dem Kanal.
Obwohl WebSocket deinen Audiostream kontinuierlich empfängt, "hört" das Modell nicht "ständig". Zwischen dir und dem Modell gibt es auf der Serverseite ein VAD - Modul (Sprachaktivitätserkennung), das als Wächter fungiert. Die Aufgabe des VAD ist es, zu entscheiden, "ob der Benutzer fertig ist". Erst wenn es eine lange genug Pause detektiert und bestimmt, dass deine Runde beendet ist, wird das Modell aktiviert und beginnt, die Inhalte zu verarbeiten, die du gerade gesagt hast.
Nehmen wir ein Beispiel. Der Kanal ist wie eine zweispurige Straße, auf der Autos gleichzeitig in beide Richtungen fahren können. Aber das Modell ist wie eine Mautstelle am Ende der Straße. Es öffnet nicht, sobald ein Auto kommt, sondern wartet, bis alle Autos angekommen sind (du fertig bist), und lässt sie dann alle auf einmal passieren.
Was passiert, wenn du unterbrechst? Wenn du während der KI spricht anfangst zu sprechen, detektiert das VAD eine neue Sprachaktivität, das System bricht die aktuelle Ausgabe der KI ab und wartet, bis du fertig bist, bevor es eine neue Generierung startet.
Beachten Sie diesen Prozess: Die Unterbrechung wird durch das VAD ausgelöst, nicht durch das Modell selbst, das bemerkt, dass du anfängst zu sprechen. Das Modell wird extern aufgefordert, "anzuhalten", und wartet dann, bis genug neue Eingaben gesammelt sind, bevor es erneut startet.
Obwohl es eine Grundlage für die Gleichzeitigkeit auf der unteren Ebene gibt, wird das alte Problem des turn - basierten Systems nicht gelöst, und die Gleichzeitigkeit kann überhaupt nicht erreicht werden.
Full - Duplex auf Modellschicht, aber immer noch keine Ahnung, wie du aussiehst
ByteDance hat im April 2025 Seeduplex entwickelt, das einen Schritt weiter geht als OpenAI. Es ist ein großes Sprachmodell, das Full - Duplex - Fähigkeiten auf Modellschicht hat.
Die Gleichzeitigkeit von GPT - Realtime - 2 basiert auf der Kommunikationsschicht. WebSocket erlaubt die bidirektionale gleichzeitige Übertragung, aber das Modell selbst ist immer noch "wartet, bis du fertig bist, bevor es denkt". Seeduplex hat die Gleichzeitigkeit in das Modell selbst integriert.
Seine Drei - Ströme - Architektur (Hörstrom, Sprechstrom, Steuerstrom) zusammen mit R - PEC (Relative Positional Encoding) ermöglicht es dem Modell, Eingabe und Ausgabe tatsächlich gleichzeitig zu verarbeiten. Der Hörstrom analysiert kontinuierlich, was du sagst, der Sprechstrom generiert gleichzeitig die Antwort, und der Steuerstrom arbitriert in Echtzeit zwischen beiden.
Das Ergebnis ist, dass die Fehlunterbrechungsrate im Vergleich zu Halb - Duplex - Modellen um 50 % und die Rate der Überlagerungen um 40 % gesenkt wird.
Dies ist ein echter Fortschritt in Bezug auf die Gleichzeitigkeit. Die Unterbrechungsmechanik von GPT - Realtime - 2 ist "abbruch und Neustart". Die KI wird angehalten, wartet, bis du fertig bist, und generiert dann eine neue Antwort. Die Unterbrechung in Seeduplex ist kontinuierlich. Die KI hört während sie spricht zu dir, und wenn sie feststellt, dass du unterbrechen willst, gibt sie sanft den Platz frei, ohne den "Abbruch - Warten - Neustart" - Prozess.
Die Drei - Ströme - Architektur (Hörstrom/Sprechstrom/Steuerstrom) zusammen mit dem R - PEC - Mechanismus (Relative Positional Encoding) ermöglichen es dem Modell, tatsächlich gleichzeitig Informationen zu senden und zu empfangen. Es ist nicht die scheinbare Gleichzeitigkeit auf Kommunikationsschicht, sondern die tatsächliche gleichzeitige Verarbeitung von Eingabe - und Ausgabeströmen im Modell. Das Ergebnis ist, dass die Fehlunterbrechungsrate im Vergleich zu Halb - Duplex - Modellen um 50 % und die Rate der Überlagerungen um 40 % gesenkt wird. Mit den drei Bedingungen ausgedrückt, wird die fehlende Gleichzeitigkeit kompensiert.
Aber was ist mit der gemeinsamen Präsenz und der Gleichzeitigkeit? Wie bei GPT Realtime bleiben diese unverändert.
Beide sind reine Sprachmodelle ohne visuelle Eingabe. Wenn du schweigst, existierst du für sie immer noch nicht. R - PEC ist eine relative Zeitreihenkodierung. Es weiß, dass ein Token im Hörstrom "vor" oder "nach" einem Token im Sprechstrom kommt, aber es hat keine absolute Uhr, um jede Position auf einen bestimmten Zeitpunkt in der realen Welt zu beziehen.
Es weiß die Reihenfolge, aber es hat keine kontinuierliche Präsenz. Wenn es keine Sprachaktivität gibt, hat das Modell nichts zu verarbeiten und befindet sich im Leerlauf.
Um ein Beispiel zu geben: OpenAI Realtime - 2 ist ein sprechfunkähnliches Gerät, das unterbrochen werden kann. Wenn du auf die Taste drückst, hört es auf und hört dir zu. Seeduplex ist ein richtiges Telefon, bei dem zwei Personen gleichzeitig sprechen können, ohne ineinander zu geraten.
Aber Thinking Machines will eine face - to - face - Kommunikation erreichen.
Face - to - face bedeutet, dass auch wenn niemand spricht, zwei Personen denselben Raum, dieselbe Zeit und dieselbe Stille teilen.
Interaktivität in das Modell einbauen
Sprechfunk und Telefon lösen jeweils nur eine der drei Bedingungen. Thinking Machines will alle drei Bedingungen erfüllen. Wie geht man dazu vor?
Beginnen wir mit der ersten Bedingung, der gemeinsamen Präsenz.
Gemeinsame Präsenz: KI soll alle Modalitäten wahrnehmen, die du wahrnimmst
Die KI muss über die gleiche Wahrnehmungsbandbreite wie du verfügen. Was du siehst, muss sie auch sehen können; was du hörst, muss sie auch hören können.
Deshalb haben sie ein multimodales Modell trainiert. Um die Gleichzeitigkeit zu gewährleisten, haben sie nicht den gängigen Weg gewählt, einem Sprachmodell einen Encoder - Scaffolding hinzuzufügen, um multimodale Funktionen zu implementieren, sondern ein einheitliches Modell von Grund auf neu trainiert.
Die Gleichzeitigkeit erfordert, dass die Verarbeitung unterschiedlicher Modalitäten in einheitlicher Zeit erfolgt. Wenn das System die Modalitätsströme in Bezug auf die Zeitgenauigkeit ausrichten muss, müssen Videoframes, Audioclips und Texttokens gleichzeitig in demselben Repräsentationsraum verankert werden. Jede Verzögerung oder Schwankung externer Komponenten würde diese Ausrichtung zerstören.
Beispielsweise geht das visuelle Signal durch einen unabhängigen Encoder (z. B. ViT), das Audiosignal durch einen anderen (z. B. Whisper) und der Text durch einen dritten. Jeder der drei Encoder hat eine unterschiedliche Verarbeitungsverzögerung. Die visuelle Verarbeitung kann 80 ms dauern, die Audioverarbeitung 40 ms, und die Textverarbeitung ist fast sofort.
Diese Verzögerungsunterschiede scheinen klein zu sein, aber sie können in späteren Schritten fatale Auswirkungen haben.
Darum betont Thinking Machine in seiner technischen Dokumentation, dass "Interaktivität Teil des Modells selbst sein muss" und nicht durch externe Scaffolding zusammengebaut werden kann.
Alle Funktionen, die Zeitgenauigkeit erfordern, werden in das Modell integriert und von Grund auf gemeinsam trainiert. Dies ist keineästhetische Präferenz, sondern eine technische Notwendigkeit.
Konkret wird der Audioeingang mit einer leichten dMel (Mel - Spektrum) - Einbettungsschicht minimal vorverarbeitet, der Videoeingang wird in 40×40 - Patches zerlegt und mit hMLP (Hierarchisches MLP) codiert, und der Text wird standardmäßig eingebettet. Alle