Premiere der Large Language Models eines Startups mit Ex-CTO von OpenAI: Erstschlag trifft Chat-Fenster von ChatGPT

In diesem Blogbeitrag mit dem Titel "Interaktionsmodell: Ein skalierbares Konzept für die Mensch-Maschine-Kollaboration" wird in allen Teilen wiederholt ein Wort betont: "Präsenz" – die kontinuierliche Anwesenheit.

Im Science-Fiction-Film „Her“ aus dem Jahr 2013 hat das Betriebssystem Samantha den Zuschauern erstmals eine konkrete Vorstellung von der idealen Existenzform künstlicher Intelligenz (KI) vermittelt: Es kann antworten, bevor man seine Äußerung beendet hat, erkennt Zögern in der Stimme und ist stets „anwesend“, anstatt nur passiv auf das Aufwecken zu warten.

Dreizehn Jahre später hat das von Mira Murati, der ehemaligen Chief Technology Officer (CTO) von OpenAI, gegründete Thinking Machines Lab eine Forschungsvorschau veröffentlicht. Das von ihnen aufgebaute Interaktionsmodell stimmt in seinen grundlegenden Zielen stark mit der Logik von Samantha überein.

In diesem Blogbeitrag mit dem Titel „Interaktionsmodelle: Skalierbare Lösungen für die Mensch-KI-Kollaboration“ wird der ganze Artikel wiederholt auf ein zentrales Wort reduziert: „Präsenz“ – kontinuierliche Anwesenheit.

Link zum Blog: https://thinkingmachines.ai/blog/interaction-models/

Interessanterweise hat Mira Murati 2024 während ihrer Zeit bei OpenAI die erweiterte Sprachfunktion von GPT - 4o eingeführt, wodurch die Mensch - KI - Interaktion der natürlichen menschlichen Kommunikation näher kam.

Zwei Jahre später gründete sie mit ihrem Team eine neue Firma und machte im Grunde das Gleiche noch einmal.

Die Kommentare im Kommentarbereich werden immer schärfer.

Der Mensch ist aus der KI - Kollaborations - Gruppenchat rausgeworfen worden

Zu Beginn des Artikels wird darauf hingewiesen, dass laut einem Forschungsbericht von METR aus dem Jahr 2025 die meisten führenden KI - Firmen die Fähigkeit, lange Aufgaben autonom zu erledigen, als das wichtigste Kriterium für ihre Modelle betrachten. Dies führt dazu, dass in den aktuellen Interaktionsschnittstellen kaum Raum für die kontinuierliche Beteiligung des Menschen bleibt.

In der Praxis sind Anforderungen jedoch selten von Anfang an perfekt definiert. Hohe Qualität erfordert oft die kontinuierliche Beteiligung und wiederholte Anpassungen des Menschen. Die bestehenden „Runden - basierten“ Mechanismen bieten jedoch keine Möglichkeit für eine solche Beteiligung.

Eine Studie von den Sprachwissenschaftlern Clark und Brennan aus dem Jahr 1991 zeigt, dass effiziente Kommunikation auf Präsenz, Gleichzeitigkeit und Parallelität beruht. Beide Parteien müssen sich in der gleichen Situation befinden und Informationen gleichzeitig empfangen und ausdrücken können. Wie Walter Ong in seiner Studie aus dem Jahr 1982 über die „Flüchtigkeit von gesprochener Sprache“ feststellte, besteht das Wesen von Gesprächen in der hohen Häufigkeit der Beteiligung. Gemäß der Theorie von Friedrich August von Hayek aus dem Jahr 1945 liegt das eigentliche wertvolle Wissen in der Übertragung solcher sofortigen Details.

Beim aktuellen Arbeitsablauf von Modellen gibt der Benutzer Eingaben vor, und die KI wartet darauf. Wenn die KI Ausgabe liefert, weiß sie nichts über die sofortigen Reaktionen des Benutzers. Thinking Machines vergleicht dies mit der Situation, dass man bei dringenden Differenzen nicht persönlich spricht, sondern per E-Mail hin und her diskutiert.

Aktuell gibt es zwei beschränkte Ansätze auf dem Markt für Echtzeit - Sprachanwendungen: Die meisten führenden kommerziellen Systeme erreichen eine sogenannte „Pseudo - Echtzeit“ durch das Hinzufügen von Komponenten wie Voice Activity Detection (VAD) außerhalb des Modells.

Diese Art der Verwaltung von externen Komponenten hat deutliche Einschränkungen: Das Modell kann die Konversation nicht aktiv unterbrechen, reagiert nicht sofort auf visuelle Änderungen wie Bildschirmfehler und ist für Aufgaben wie das gleichzeitige Übersetzen während des Sprechens kaum geeignet. Andererseits gibt es auch auf dem Markt Systeme wie Moshi und PersonaPlex, die ohne VAD auskommen und echtzeitfähig sind. Allerdings sind dies meist kleinere Modelle, die auf Kosten ihrer allgemeinen Intelligenz für geringe Latenzzeiten optieren.

Thinking Machines teilt die Ansicht des Forschers Richard Sutton in der Bereich der Verstärkungslernen: Systeme, die auf künstlich gestaltete Komponenten angewiesen sind, werden letztendlich von allgemeinen Lernverfahren überholt. Die Interaktionsfähigkeit muss ein integraler Teil des Modells sein.

Dafür haben sie sich an den Forschungen in den Bereichen Voll - Duplex - Spracheingabe und asynchronen Agenten orientiert (z. B. Seeduplex, Qwen - omni, MoshiRAG) und ein System von Grund auf neu trainiert, das Echtzeitinteraktionen von Haus aus unterstützt. Dieses System besteht aus einem zeitlichen „Interaktionsmodell“ (Vordergrund) und einem asynchron laufenden „Hintergrundmodell“ (für tiefgreifende Schlussfolgerungen).

Basierend auf der zeitlichen Ausrichtung und der Mikrorundenanalyse: Das Modell verarbeitet Eingaben und Ausgaben in 200 - Milliseconds - Einheiten abwechselnd. Schweigen und Überlappungen des Benutzers werden als echte Informationen behandelt.

Nach dem Aufbrechen der künstlichen Rundengrenzen kann das Modell implizit erkennen, ob der Benutzer denkt, zurückweicht, sich selbst korrigiert oder eine Antwort erwartet, ohne einen separaten Dialogverwaltungsmodul zu benötigen. Es kann nicht nur gleichzeitig sprechen und unterbrechen, sondern auch während des Hörens und Sehens parallel Werkzeuge nutzen, das Internet durchsuchen oder Benutzeroberflächen generieren.

Beim Umgang mit verschiedenen Modalitäten haben sie auf einen separaten großen Encoder verzichtet. Audio - und Video - Daten werden leicht vorverarbeitet und direkt mit dem Transformer - Modell gemeinsam trainiert. Um die hohen Anforderungen an die Echtzeitverarbeitung zu erfüllen, haben das Team einen „Stream - Session“ - Mechanismus implementiert und die unterliegende Rechenleistung und Kommunikation optimiert, um wiederholte Speicherzuweisungen zu vermeiden und eine stabile, niedrig - latenzige Arbeitsweise zu gewährleisten.

Bei komplexen Aufgaben übergibt der Vordergrund den gesamten Kontext an den Hintergrund, der die Ergebnisse dann als Stream zurücksendet. Der Vordergrund integriert diese dann nahtlos in die Konversation, um so eine Echtzeitreaktion und tiefe Analysen zu gewährleisten. Um neuen Sicherheitsherausforderungen entgegenzutreten, hat das Modell auch an einer realitätsnahen Trainings zur Ablehnung von Konversationen und an Robustheitstests gegen Hackerangriffe teilgenommen.

Eine Leistung, die die führenden Modelle aufmerksam macht

Im Test hat das Modell namens TML - Interaction - Small (12 Milliarden aktive Parameter) hervorragende Ergebnisse erzielt.

Im FD - bench v1.5 - Test, der die Fähigkeit zum Unterbrechen und die Störung durch Hintergrundgeräusche misst, hat TML 77,8 Punkte erzielt, weit vor GPT Realtime - 2.0 (46,8 Punkte) und Gemini (54,3 Punkte). Die Latenzzeit beim Wechsel der Sprechrollen beträgt nur 0,40 Sekunden. Im FD - bench v3, der tiefgreifende Schlussfolgerungen erfordert, übertrifft es auch die konkurrierenden Modelle mit hoher Latenz in der Qualität seiner Antworten (Pass@1: 82,8/68,0).

In anderen umfassenden Tests hat TML ebenfalls ein hohes Maß an Gleichgewicht gezeigt: QIVD Audio - Video - Fragen (54,0 Punkte), BigBench Audio (75,7/96,5 Punkte) und IFEval Befehlseinhaltung (82,1/89,7 Punkte). Im Harmbench hat es eine Sicherheitsablehnungsrate von 99,0 % erreicht. Obwohl es in einigen reinen Intelligenztests etwas hinter Qwen 3.5 Omni oder der extrem hoch - latenten Version von GPT - 2.0 zurückbleibt, ist es das einzige Modell, das sowohl in der Reaktionsgeschwindigkeit als auch in der Intelligenz hervorragende Ergebnisse erzielt.

Um die inhärente Interaktionsfähigkeit genauer zu messen, hat Thinking Machines mehrere eigene Tests entwickelt.

Im Vergleich zu existierenden Textausgabe - Prototypen wie StreamBridge und AURA in der akademischen Welt hat TML eine echte parallele Sprachausgabe erreicht. In Einzeltests wie TimeSpeak (64,7 Punkte), das die Fähigkeit zum aktiven Sprechen misst, CueSpeak (81,7 Punkte), das die Synchronkorrektur misst, RepCount - A (35,4 Punkte), das die kontinuierliche visuelle Verfolgung misst, und ProactiveVideoQA, das das Vorwegrücken bei Video - Fragen misst, hat TML in allen Fällen gültige Ergebnisse erzielt. Die führenden Modelle hingegen haben in diesen Szenarien fast alle Nullpunkte erzielt oder schlichtweg nicht geantwortet.

Natürlich hat diese Architektur auch ihre Grenzen: Die Verwaltung von Kontextinformationen in langen Gesprächen ist schwierig, und die Streaming - Audio - und Video - Ausgabe hängt stark von der Netzwerkstabilität ab. Darüber hinaus ist die Architektur noch nicht auf Modelle mit mehr Parametern erweitert worden, was später in diesem Jahr geplant ist.

Mit KI sprechen wird immer mehr wie mit Menschen sprechen

Der an diesem Projekt beteiligte Forscher Neal Wu hat den Grundgedanken zusammengefasst: „Was wäre, wenn die Zusammenarbeit mit KI nicht mehr darin bestünde, in ein Chatfenster zu tippen, sondern eher wie ein Gespräch mit einem anderen Menschen wäre?“ Das Model, das von Haus aus Interaktionen unterstützt, ist ihr erster Versuch, diese Frage zu beantworten.

Der CTO von Thinking Machines, Soumith Chintala, hat die Gesamtstrategie in drei Schritte unterteilt: Erstens, die Informationsbandbreite zwischen Mensch und KI erhöhen; zweitens, die Intelligenzgrenze von Mensch und KI anheben; drittens, dem Menschen helfen, in zukünftigen Systemen weiterhin eine zentrale Rolle zu spielen.

In einer Zeit, in der viele KI - Forschungsprojekte darauf abzielen, Modelle autonomer zu machen

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Premiere des Large Language Models eines Startups von Ex-CTO von OpenAI: Der erste Schlag trifft das Chat-Fenster von ChatGPT.

Der Mensch ist aus der KI - Kollaborations - Gruppenchat rausgeworfen worden

Eine Leistung, die die führenden Modelle aufmerksam macht

Mit KI sprechen wird immer mehr wie mit Menschen sprechen