JD.com und ehemalige OpenAI-CTO Mira Murati setzen auf denselben KI-Bereich

Warum muss eine gute KI lernen, eigeninitiativ zu reagieren?

Stellen Sie sich folgendes Szenario vor:

Ein allein lebender Senior rutscht im Wohnzimmer versehentlich und fällt. Die Schmerzen lassen ihn nicht in der Lage sein, um Hilfe zu schreien. In diesem Moment "sieht" das intelligente Gerät an seinem Körper oder die Kamera in seiner Wohnung die Anomalie. Die KI gibt ohne zu warten auf irgendeine Sprachanweisung sofort eine Warnung aus und kontaktiert schnell die Familie oder das Rettungszentrum.

Oder Sie schauen gerade ein spannendes Fußballspiel. Im Moment des entscheidenden Tores haben Sie keine Zeit, das Spiel zurückzuspulen und Fragen zu stellen. Die KI-Brille bietet Ihnen automatisch eine Slow-Motion-Analyse und eine taktische Interpretation.

Diese Szenarien sind keine Zukunftsfantasien mehr, sondern reale Probleme, die das weltweit erste ganzheitlich quelloffene visuelle Sprachinteraktionsmodell - JoyAI-VL-Interaction von JD.com versucht zu lösen.

In den letzten zwei Jahren wurden die Fähigkeitsgrenzen der großen Modelle ständig erweitert. Aber die vorherrschende Interaktionsweise bleibt immer noch in der "Rundenlogik" von "Benutzer stellt Frage, Modell gibt Antwort". Sie ist effizient, aber in vielen Szenarien nicht sinnvoll. Viele wichtige Ereignisse passieren zu schnell, damit der Benutzer Fragen stellen kann. In vielen Szenarien gibt es überhaupt keine Sprachanweisungen.

In diesem Jahr wird eine Einschätzung zur Branchenkonsens: Die KI geht vom "Vorhersagen des nächsten Tokens" zum "Vorhersagen des nächsten physikalischen Zustands". Das bedeutet auch, dass die KI vom passiven Informationsverarbeiter zum aktiven Teilnehmer werden muss.

Genau an diesem Punkt hat JD.com JoyAI-VL-Interaction quelloffen gemacht. Es ist das weltweit erste ganzheitlich quelloffene Echtzeit-visuelle Sprachinteraktionsmodell, das in einem kontinuierlichen Videostream selbstständig entscheiden kann, wann es antworten soll, wann es schweigen soll und wann es komplexe Aufgaben an das Hintergrundmodell weitergeben soll.

Was JoyAI-VL-Interaction beweisen will, ist: Eine KI, die wirklich in die physische Welt eintritt, sollte nicht ständig darauf warten, gefragt zu werden. Sie sollte lernen, zu sehen, selbstständig zu urteilen und zur richtigen Zeit Hilfe zu leisten.

Dies ist auch ein größeres Signal von JD.com's KI: Vom Modellvermögen bis hin zu Branchenszenarien geht der KI-Wettbewerb von den Fragen und Antworten auf dem Bildschirm in die reale Welt.

Warum visuelle Sprachinteraktion?

In der realen physischen Welt treten viele wichtige Informationen in Momenten auf, in denen der Benutzer keine Zeit hat, Fragen zu stellen. Das Gefühl, "zu spät zu sein", ist manchmal ein Problem der Benutzererfahrung, aber oft auch ein Problem der Fähigkeitsgrenzen, die durch das Modellparadigma verursacht werden.

Die Branche ist sich dieser Einschränkung durchaus bewusst.

In der ersten Hälfte von 2026 wurde die Echtzeitinteraktion zum heißesten Stichwort in der multimodalen KI. Die Branche entwickelt sich grob auf zwei Wegen: Der eine ist, die Rundenkonversation schneller zu gestalten, der andere ist, die Sprachgespräche natürlicher zu machen.

Der erste Ansatz betont die geringe Latenz oder die beliebige Eingabe und Ausgabe, aber der Kern bleibt immer noch "Du fragst, es antwortet". Der zweite Ansatz ermöglicht es dem Modell, während des Hörens zu sprechen und jederzeit unterbrochen zu werden. Die Erfahrung kommt näher an ein menschliches Gespräch heran, aber der Schwerpunkt liegt immer noch im Sprachszenario.

Das Problem ist, dass viele Veränderungen in der realen Welt nicht zuerst in einem Satz münden. Feuer, Stürze, sich nähernde Fahrzeuge, Änderungen des Bildschirminhalts, Anomalien in der Produktion - alles erscheint zuerst als Bild und erst dann als Sprache. Wenn die KI nur auf Menschen wartet, die sprechen, ist es schwierig, wirklich "anwesend" zu sein.

Wirklich dieselbe Einschätzung wie JD.com traf das von Mira Murati gegründete Thinking Machines Lab. Am 11. Mai stellte diese Firma das Konzept der "Interaction Models" (Interaktionsmodelle) vor und veröffentlichte einige Forschungs-Demos. Sie wies darauf hin, dass das autonome Antwortparadigma der Interaktionsmodelle im Vergleich zum traditionellen Frage-Antwort-Paradigma einen größeren Raum für die Zusammenarbeit zwischen Mensch und KI bietet.

Dass zwei Teams fast gleichzeitig auf dieselbe Idee kamen, ist an sich ein Signal: Die Skalierung der Interaktivität als Fähigkeit des Modells selbst ist ein Weg, den die Branche in den nächsten Jahren nicht umgehen kann.

Der Unterschied besteht darin, dass JD.com die visuelle Sprache in eine zentralere Position stellt und die Sprache als austauschbare Eingabe/Ausgabe abkoppelt, so dass die visuelle Sprache zur "primären Antriebsmodalität" für die autonome Entscheidung des Modells wird.

Das bedeutet, dass ab dem Moment, in dem die Kamera eingeschaltet wird, JoyAI-VL-Interaction kontinuierlich die Bildveränderungen in der physischen Welt "beobachtet" und selbstständig entscheidet, ob es sprechen soll, was es sagen soll und ob es die Aufgabe weitergeben soll.

Hier liegt auch der Vorstellungsraum der visuellen Interaktion: Sie kann in Szenarien wie der Betreuung von Senioren und Kindern, der Unterstützung von Blinden, KI-Brillen, Sportkommentaren, Ladenprüfungen, Lagerlogistik und Roboterkollaboration eingesetzt werden. Der Benutzer muss keine Frage in einem Satz formulieren, die KI kann die Bedürfnisse aus den Umweltveränderungen erkennen.

Deshalb ist die visuelle Wahrnehmung nicht nur eine andere Eingabemethode, sondern ein unverzichtbarer Wahrnehmungskanal für die KI, um zum "Vorhersagen des nächsten physikalischen Zustands" zu gelangen.

In dem technischen Bericht von JD.com's JoyAI-VL-Interaction wird dies auch betont. Der Bericht zeigt, dass JoyAI-VL-Interaction in sechs realen Streamingszenarien eine Siegquote von 77,6 % gegen die führenden chinesischen Modelle und 87,9 % gegen ausländische Modelle erzielt. In dem Überwachungswarnungsszenario, das die Fähigkeit zur Ereigniserkennung am meisten herausfordert, erreicht es eine Siegquote von 100 %. Der Bericht meint, dass der Unterschied nicht nur in der Antwortqualität liegt, sondern auch darin, ob es zur richtigen Zeit handelt.

Allerdings ist die visuelle aktive Interaktion tatsächlich schwieriger zu realisieren.

Die Datenerfassung für die Sprachinteraktion ist relativ direkt. Viele Sprachanweisungsdatensätze ermöglichen es dem Modell, zu lernen, wann Menschen sprechen, wie sie unterbrechen und wie sie antworten. Die für die visuelle Interaktion benötigten Daten sind dagegen völlig anders. Das Modell muss lernen, in kontinuierlich sich ändernden Bildern, welche Signale eine Antwort verdienen und welche Signale ignoriert werden sollten.

Eine größere Hürde ist die Fähigkeit zur Szenariodefinition. Bei der Sprachinteraktion gibt es eine natürliche Auslöseschwelle. Wenn der Benutzer spricht, beginnt die Interaktion. Bei der visuellen Interaktion gibt es keine eindeutige Start- und Endzeit. Das Modell muss selbst in der unbegrenzten Informationsströmung die Grenzen bestimmen.

Hier liegt auch das Besondere an JD.com: Diese Firma sucht nicht in abstrakten Laboren nach Szenarien, sondern operiert von Natur aus in realen Geschäftsnetzwerken wie dem Einzelhandel, der Logistik, der Gesundheit und der Industrie.

Das bedeutet, dass JD.com's KI nicht nur mit einem einzigen Chat-Eingang konfrontiert ist, sondern mit einer Vielzahl realer Aufgaben: Wie werden Waren transportiert, wie kooperieren Geräte, wie arbeiten Roboter mit Menschen zusammen und wie werden Anomalien frühzeitig erkannt. Das Modell kann aus realen Bedürfnissen lernen und anhand realer Rückmeldungen iterieren.

Obwohl es bei der technischen Route Kompromisse gibt, wird die Interaktionsform der zukünftigen allgemeinen KI auf jeden Fall die aktive Intelligenz sein. Der Intelligenzagent muss in der Lage sein, die Umwelt zu erfassen, selbstständig zu entscheiden und in Echtzeit zu reagieren. Deshalb möchten viele Unternehmen zwar ein großes visuelles Interaktionsmodell entwickeln, aber es fehlt ihnen derzeit noch der Boden, auf dem die visuelle Interaktion wachsen kann. Deshalb fließen Kapital und Rechenleistung zuerst in den Sprachinteraktionssektor.

Deshalb wählt JD.com den visuellen Ansatz nicht nur aus technischen Gründen, sondern auch aus strategischen Überlegungen. Im Vergleich zu vielen großen Modellspielern ist JD.com näher am Betriebsgeschehen in der physischen Welt und hat auch einen größeren Bedarf an einer KI, die die Umwelt aktiv erfassen und in Echtzeit reagieren kann.

Um diesen Tag früher zu erreichen, muss jemand früher loslegen.

Leichtgewichtig, quelloffen, deployierbar

Was bedeutet es, das weltweit erste ganzheitlich quelloffene Modell zu sein?

Die Neudefinition des Interaktionsparadigmas klingt grandios, aber in der realen Anwendung ist die erste Hürde ganz einfach: Die KI darf nicht ständig den Menschen stören, aber auch nicht schweigen, wenn sie warnen sollte.

Normalerweise erwarten die Menschen, dass die KI je besser sprechen kann, desto besser. Aber im Szenario der Echtzeit-visuellen Interaktion ist ein Modell, das ständig unterbricht, nicht intelligent. Die wirklich wertvolle Fähigkeit besteht darin, zur richtigen Zeit aktiv aufzutauchen und in unwichtigen Momenten schweigen zu können.

Deshalb hat JoyAI-VL-Interaction auch die "Schweigsamkeit" als eine Fähigkeit trainiert. Das Modell muss drei Ebenen von Urteilen treffen: In welchen Szenarien sollte es aktiv antworten, in welchen Szenarien sollte es schweigen und in welchen Szenarien sollte es die Aufgabe an andere Modelle weitergeben.

Wenn diese Fähigkeiten nur in wissenschaftlichen Arbeiten bleiben, hat sie nur begrenzten Wert. Der Schlüsselpunkt für JD.com's Betonung der "ganzheitlichen Quelloffenheit" liegt darin, das Modell, das Inferenzsystem und den Weg zur Applikationsentwicklung gemeinsam zu öffnen, damit die Entwickler es wirklich nutzen, modifizieren und einsetzen können.

JD.com wählt einen leichter zu verbreitenden technischen Ansatz: Ein 8-Billionen-Parameter-Modell, das mit einer einzigen 3090-Grafikkarte deployiert werden kann. Bei diesen Parametern können Privatentwickler es ausführen, Verbraucherhardware es tragen und Endgeräte es implementieren.

Für die Echtzeit-visuelle Interaktion bedeutet diese Leichtigkeit nicht, dass die Fähigkeiten eingeschränkt sind, sondern dass die Arbeitsteilung klarer ist.

JoyAI-VL-Interaction ist eher eine vorangestellte Interaktionsschicht, die für die Wahrnehmung der Umwelt, die Entscheidung über den richtigen Zeitpunkt und die Durchführung kurzer Kommunikationen verantwortlich ist. Bei komplexen Aufgaben, die tiefergehende Inferenzen erfordern, werden sie automatisch an die vom Benutzer ausgewählten Agenten wie OpenClaw, Codex, Claude Code im Hintergrund weitergeleitet. Deshalb reicht das 8-Billionen-Modell aus.

Beispielsweise kann das Modell dem Benutzer zuerst sagen: "Ich denke mal nach", und dann die schwierige Aufgabe an den Hintergrund weitergeben, während es selbst weiterhin anwesend bleibt. Nachdem der Hintergrund das Ergebnis zurückgibt, wird die Antwort an den Benutzer weitergeleitet. In diesem Prozess kann es auch weiterhin andere Echtzeitinteraktionen für den Benutzer abwickeln.

JD.com hat auch bei dem unteren System eine leichte Design implementiert: Durch die Video-Kodierung, das Langzeitgedächtnis und die Kontextkompression kann das Modell kontinuierlich lange Videostreams mit niedrigen Kosten beobachten und die End-to-End-Latenz auf subsekundärer Ebene halten. Für die normalen Leser ist der Schwerpunkt nicht auf diesen technischen Begriffen, sondern auf dem Ergebnis: Die KI kann länger und mit niedrigerem Schwellenwert in der realen Welt bleiben.

Die kostengünstige und umsetzbare Wahl führt direkt zu JD.com's Quelloffenheit-Strategie. Nur wenn das Modell ausreichend leicht, das System ausreichend vollständig und die Deploymentschwelle ausreichend niedrig ist, kann die Echtzeit-visuelle Interaktion von einem Experiment einiger Teams zu einer Anwendungsökosystem werden, das von mehr Entwicklern und Unternehmen gemeinsam erforscht wird.

JD.com hat bereits dieses Inferenzsystem quelloffen gemacht. Das Ziel ist klar: Jeder, der eine 3090-Grafikkarte oder höher und eine Kamera hat, kann schnell eine eigene Echtzeit-visuelle Interaktionsanwendung aufbauen.

JoyAI-VL-Interaction hat die Tag-0-Unterstützung von vLLM-Omni erhalten und ist bereits in die Hauptlinie von vLLM-Omni integriert.

Bringen Sie die KI zurück in die physische Welt

Das Ziel der Quelloffenheit ist, den Anwendungsvorstellungsraum zu erweitern und die KI wieder in die physische Welt zurückzuführen. JoyAI-VL-Interaction ist nicht nur ein Modell, sondern ein neues Paradigma

Dieser Artikel wurde ursprünglich von「碧根果」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

JD.com und Mira Murati, der ehemaligen CTO von OpenAI, setzen auf denselben KI-Bereich.

Warum visuelle Sprachinteraktion?

Leichtgewichtig, quelloffen, deployierbar

Bringen Sie die KI zurück in die physische Welt