70-minütiges tiefgehendes Gespräch mit Huang Tiejun: KI zeigt bereits bewusstseinsähnliches Verhalten, in Zukunft werden Menschen und KI rational koexistieren
Am 13. Juni hielt Huang Tiejun, Vorsitzender des ZhiYuan Institutes, auf der Veranstaltung der ZhiYuan-Konferenz 2026 eine rund 70-minütige Diskussion mit Medien wie ZhiDongXi. In dieser Zeit beantwortete er 24 Fragen zu Themen wie Embodied Intelligence, Weltmodell, Datenerfassung und künstlichem Selbstbewusstsein.
Nach seiner Meinung ist es für Unternehmen derzeit vernünftig, Technologien wie VLA (Vision-Language-Action, Visuelles-Sprache-Aktion-Modell) zur Lösung spezifischer Szenarien zu nutzen. Das Ziel des ZhiYuan Institutes ist jedoch die allgemeine Embodied Intelligence – Roboter sollen in der Lage sein, autonom in jedem Szenario zu agieren, ähnlich wie Menschen.
Das VLA ist eine Verschmelzung von drei Modellen: Visuelles, Sprach- und Aktionsmodell. Im Gegensatz dazu wird im Weltmodell die Wahrnehmung, Kognition und Aktionsvorhersage in einem einzigen Modell realisiert. Dies ist der wesentliche Unterschied zwischen den beiden Ansätzen.
Was die Zeitpläne angeht, hat er eine relativ klare Voraussage getroffen: In den nächsten zwei bis drei Jahren wird es möglich sein, dass Roboter in der täglichen Arbeit ein menschliches Niveau erreichen. Dazu müssen jedoch die Schwierigkeiten bei der physikalischen Sachverstandeskomprehension und der Energieverbrauchskontrolle überwunden werden.
In Bezug auf die Datentransformation hat Huang Tiejun vorgeschlagen, dass die zukünftige Datenerfassung von der Offline- zur Echtzeit-Online-Erfassung übergehen wird. Wearable Sensoren und Hirn-Computer-Schnittstellen werden die wichtigsten Datenquellen für das Training von Weltmodellen und Embodied Intelligence sein.
Im Bereich der medizinischen KI hat das von ZhiYuan und dem Anzhen-Krankenhaus entwickelte Herz-KI-System bereits eine zelluläre Genauigkeit erreicht. Es wird bereits in Operationen eingesetzt und wird in den nächsten ein bis drei Jahren schrittweise produktiviert und in allen Abteilungen eingesetzt werden.
Bezüglich des KI-Bewusstseins und der Sicherheit ist Huang Tiejun der Ansicht, dass das enge menschliche Bewusstsein noch nicht aufgetreten ist. Aus Verhaltenssicht zeigt die KI jedoch bereits ähnliche bewusstseinsähnliche Reaktionen. Bezüglich des Risikos der Selbstentwicklung hat er eingeräumt, dass “es machbar, aber nicht kontrollierbar ist”, er befürwortet jedoch nicht, die Gefahren übertrieben zu schildern. KI benötigt Strom, Menschen benötigen Nahrung. In Zukunft könnte eine rationale Koexistenz möglich sein.
ZhiDongXi hat das Interviewinhalt ohne Änderung der ursprünglichen Bedeutung korrigiert. Im Folgenden finden Sie die Details:
01. VLA ist eine Verschmelzung von drei Modellen, das Weltmodell ist integriert
Frage 1: Viele Unternehmen im Bereich der Embodied Intelligence nutzen derzeit VLA- oder VLM-Modelle, um schnell in die Praxis umzusetzen. ZhiYuan hat mehrmals darauf hingewiesen, dass das Weltmodell der zentrale Ansatz sei. Worauf basiert diese Einschätzung?
Huang Tiejun: Diese beiden Dinge widersprechen sich nicht. Unternehmen nutzen natürlich bewährte Technologien, um klare Probleme zu lösen. Deshalb ist die Verwendung von VLA, einer derzeit relativ reifen Technologie in der Welt der großen Modelle, zumindest in einigen spezifischen Szenarien, wie zum Beispiel in der Fertigung oder beim Greifen und Transportieren von Gegenständen, durchaus machbar.
Aber aus Sicht eines Forschungsinstituts möchten wir, dass die Embodied Intelligence universell ist, also in der Lage ist, in jedem Szenario Probleme zu lösen, ähnlich wie Menschen. Große Sprachmodelle haben bereits eine gewisse Universalität erreicht, aber die Embodied Intelligence muss in der physischen Welt sehen, hören, berühren und agieren können. Ein Roboter muss ein eigenes Modell der Welt haben. Wir können es Weltmodell nennen oder auch subjektives internes Modell.
Unser Gehirn ist wie ein kleines Universum. Wir alle haben ein Modell der Welt. Das Weltmodell eines Roboters soll eine ähnliche, systematische Erfassung aller Dinge schaffen. Dies ist jedoch noch in einem frühen Stadium.
Frage 2: Welche Rolle spielt die Optik im Weltmodell?
Huang Tiejun: Die Optik macht mehr als 80 % aus. So steht es in den Lehrbüchern. Leute aus dem Bereich der Computervision sagen normalerweise 70 %, Forscher aus dem Bereich der biologischen Optik und der Neurowissenschaften sagen 80 %. Sie haben wissenschaftlichere Schätzmethoden. Also ist das visuelle Modell definitiv der Hauptanteil.
Frage 3: Aus kommerzieller Sicht, in welchem Szenario kann das Weltmodell am besten umgesetzt werden?
Huang Tiejun: Prinzipiell dient das Weltmodell der Embodied Intelligence. Wenn es sich um reine digitale Modellanwendungen handelt, die keine absolute Physik erfordern, nennen wir es normalerweise nicht Weltmodell. Die typische Verwendung von digitalen Modellen basiert auf Hinweisen und Sprache. Aber das Weltmodell kann nicht nur aus einem Satz generiert werden. Das entspricht nicht den Anforderungen der Embodied Intelligence.
Ein echtes Weltmodell für die Embodied Intelligence sollte Sensoren für Sehen, Hören und Tasten haben. Bei möglichst vielen physischen Eingaben soll es eine Vorhersage für die nächste Zeit treffen, und diese Vorhersage muss präzise sein.
Deshalb gibt es einen grundlegenden Unterschied zwischen den beiden. Digitale Modelle bieten viele Entwicklungsmöglichkeiten, da es keine physischen Einschränkungen gibt. Die Embodied Intelligence ist jedoch von den physischen Bedingungen abhängig und daher langsamer.
Frage 4: Ausländische Medien halten das Weltmodell für einen Schlachtopfermarkt in der KI. Welche Übereinstimmungen und Unterschiede gibt es zwischen chinesischen Institutionen und internationalen Partnern?
Huang Tiejun: Obwohl alle Akteure in der Branche an der Entwicklung von Weltmodellen arbeiten, haben sie unterschiedliche Vorstellungen von der Welt. Die Übereinstimmung besteht darin, die Welt zu modellieren. Die Haupttechnologiestrategien sind ähnlich, aber es gibt auch unterschiedliche Schwerpunkte.
Unternehmen legen mehr Wert auf die praktische Wirkung und die Gesamtfähigkeiten des Modells, während Forschungsinstitute die Originalität der Technologiemethoden anstreben. Solche Innovationen müssen nicht unbedingt sofort in der Leistung sichtbar werden, aber es ist die Richtung, die wir verfolgen.
Derzeit arbeiten wir an der Weiterentwicklung des Weltmodells gemäß unserer eigenen Forschungsroute. Die Details können ich derzeit noch nicht preisgeben. Wir hoffen, ein Weltmodell zu entwickeln, das sich durch unterschiedliche Vorteile und innovative Merkmale auszeichnet.
Frage 5: Also wird die eigene Technologieroute beibehalten?
Huang Tiejun: Wir werden nicht auf die bewährten Teile verzichten, aber wir werden sie auch kritisch nutzen. Das ZhiYuan Institut wird auf jeden Fall Dinge haben, die andere nicht haben.
Frage 6: Haben VLA und das Weltmodell die gleiche Grundstruktur? Einige sagen, es reicht, die Daten richtig zu machen, das Modell ist nicht wichtig. Was halten Sie davon?
Huang Tiejun: Tatsächlich haben beide Technologierouten ihre eigenen Gründe. Aber wir müssen uns fragen: Was ist das Ziel jeder Route?
Egal, ob VLA, Weltmodell oder eine zukünftige neue Technologie verwendet wird, die Datenerfassung und -modellierung sind unvermeidlich. Rohdaten können nicht direkt den Roboter antreiben. Es gibt viele Details, die bearbeitet werden müssen.
Das VLA ist eine Architektur, die aus drei Modulen besteht: Visuelles, Sprach- und Aktionsmodell. Einfach ausgedrückt, ist das VLA eine Verschmelzung von drei unabhängigen Modellen, die zusammenarbeiten.
Der Ansatz des Weltmodells ist völlig anders. Es ist ein integriertes Modell, in dem alle Schritte, wie visuelle Wahrnehmung, Hörwahrnehmung und Handlungsentscheidung, in einem einzigen Modell trainiert werden. Das bedeutet, dass der Roboter in seinem “Gehirn” eine vollständige Umweltwahrnehmung aufbaut und dann auf der Grundlage dieser Wahrnehmung handelt. Dies ist der wichtigste Unterschied zwischen den beiden.
02. In den nächsten 2 - 3 Jahren wird es möglich sein, dass Roboter das Niveau der menschlichen täglichen Arbeit erreichen
Frage 7: Viele Unternehmen verfolgen die Technologieroute der Eigenentwicklung von Embodied Brains. Was halten Sie davon?
Huang Tiejun: Das hängt davon ab, wie man das “Gehirn” definiert. Wenn das “Gehirn” nur für die Lösung von Logistik- und Qualitätskontrollproblemen dient, kann man es natürlich auch als “Gehirn” bezeichnen. Aber es ist schwierig, es auf andere Szenarien zu übertragen. Es kann spezifische Aufgaben in spezifischen Szenarien erfüllen.
Wir streben danach, dass es in Zukunft ein allgemeines Gehirn geben wird, das wie ein Basismodell fungiert. Dann können wir vertikale Modelle entwickeln, um Probleme in verschiedenen Bereichen zu lösen. Das allgemeine Weltmodell spielt genau diese Rolle, aber wir sind noch nicht an diesem Punkt.
Frage 8: Wie weit sind wir noch von einem allgemeinen, verallgemeinernden Gehirn entfernt? Welche Schwierigkeiten müssen wir überwinden?
Huang Tiejun: Tatsächlich gibt es kein Ende, denn die Anforderungen an das Gehirn sind unendlich. Zum Beispiel können wir physikalische Gesetze lernen, indem wir Videos anschauen oder Daten abfragen. Wenn ein Objekt fällt, kann es zerbrechen.
Aber was ist die Welt? Es geht nicht nur um einfache Veränderungen und Bewegungen. Die Welt ist sehr komplex. Wenn wir auf die grundlegenden Ebenen zurückgehen, gibt es Wechselwirkungen zwischen Atomen, Molekülen, Proteinen und Menschen. Es gibt verschiedene Situationen. In diesem Sinne denke ich, dass es noch lange dauern wird, ein Weltmodell zu entwickeln, denn die Menschen erforschen die Welt ständig.
In naher Zukunft denke ich, dass der direkteste Vergleichspunkt die Fähigkeiten eines Menschen sind. Ich meine nicht Wissenschaftler, sondern die alltäglichen, physikalischen Fähigkeiten eines Menschen. Dies ist auch sehr schwierig, aber in den nächsten zwei bis drei Jahren wird es möglich sein, etwas zu entwickeln, das dem Niveau der menschlichen täglichen Arbeit entspricht.
Außerdem möchten wir, dass die Empfindlichkeit und Genauigkeit mit denen eines Menschen vergleichbar sind. Der Mensch ist ein Organismus mit einem relativ geringen Energieverbrauch. Mit drei Mahlzeiten am Tag kann er viel Arbeit verrichten. Wir sehen nicht alle Dinge, die wir sehen, im Gehirn verarbeiten. Wir wählen also aus. Die KI verwendet derzeit das Aufmerksamkeitskonzept, um auf die wichtigen und relevanten Dinge zu achten.
Natürlich spreche ich von extremen Situationen. Wenn es in der Nacht dunkel ist und plötzlich ein Photon aufleuchtet, kann das menschliche Auge es wahrnehmen, weil es möglicherweise eine Gefahr signalisiert. In diesem Moment sollte das Gehirn nicht wie eine Kamera arbeiten, die ein Bild mit einer Million Pixeln aufnimmt und alle Daten verarbeitet. Es sollte nur einen Neuronen auslösen und dann eine Reihe von Reaktionen im Gehirn auslösen.
Roboter in den nächsten zwei bis drei Jahren sollten auch diese Fähigkeit haben. Sie sollten nicht so ineffizient arbeiten, indem sie jede Sekunde 30 Bilder mit einer Million Pixeln verarbeiten. Einerseits ist der Rechenaufwand zu hoch, andererseits ist die Empfindlichkeit zu gering. Aus Sicht des Weltmodells gibt es viel Optimierungspotenzial.
Frage 9: Warum hat die Optimierung noch nicht den gewünschten Effekt erzielt?
Huang Tiejun: Obwohl die KI in voller Fahrt voranschreitet, wurde viel Optimierungsarbeit noch nicht begonnen. Menschen nutzen einfach die vorhandenen Daten, um Modelle zu trainieren. Sie haben noch nicht darüber nachgedacht, wie die visuellen Signale am besten repräsentiert und effizient verarbeitet werden können. Diese Arbeit hat erst begonnen.
Frage 10: Welchen Anteil hat das eigenständige Denken des Roboters an der Entscheidungsfindung? Wie wird das Weltmodell in der Embodied Intelligence mit unvorhersehbaren Situationen umgehen?
Huang Tiejun: Die Menschen sind besorgt über die Risiken, die von Robotern und Agenten in der physischen Welt ausgehen. Dies ist durchaus berechtigt. Unser Kernkonzept ist klar: Wir werden nicht zulassen, dass Maschinen autonom handeln. Ihr Verhalten muss innerhalb eines Regelrahmens bleiben.
Die Wahrnehmung, Bewegung und Zustandsänderung der Maschine können überwacht und kontrolliert werden. Ihre Vorhersage und Verhaltensänderung werden über Chip und Software realisiert. Der Verhaltenspfad ist klar und kontrollierbar. Es wird keine autonomen Angriffe oder tiefgreifenden Gedanken geben. Jede Berechnung und Zustandsänderung der Maschine kann überwacht und korrigiert werden, ähnlich wie wenn ein Mensch noch nicht gehandelt hat und dann gestoppt wird.
Natürlich hat die Maschine kein menschliches Rationalität und Rechtsbewusstsein. Deshalb ist eine Sicherheitsvorkehrung unbedingt erforderlich. Wir können die gesamte Prozesskette überwachen. Die Wahrnehmungsinformationen und Handlungsabsichten der Maschine sind vollständig transparent.
03. Wearable Geräte und Hirn-Computer-Schnittstellen sind zukünftige Datenquellen. Man kann nicht nur auf statische Datensätze setzen
Frage 11: Welche Datenquellen werden für das Weltmodell in Zukunft wichtig sein?
Huang Tiejun: Lebewesen entwickeln sich durch die Interaktion mit der Umwelt. Die traditionelle KI basiert auf der Modellierung von Offline-Daten. Aber die Daten können nur einen Teil der Umwelt beschreiben. Das statische Offline-Erfassungsmuster kann nicht mehr der heutigen Technologieentwicklung gerecht werden.
Bei der Entwicklung der Embodied Intelligence und des Weltmodells wird sich das Kernkonzept grundlegend ändern: Man kann nicht nur auf statische Datensätze setzen, sondern braucht vielmehr Echtzeit- und Online-Interaktionsdaten. Dies ist ähnlich wie beim menschlichen Lernen. Bücher sind statisches Wissen. Um sich zu entwickeln, muss man die Welt in Echtzeit wahrnehmen, interagieren und sein kognitives Modell auf der Grundlage der Rückmeldung aktualisieren. Deshalb werden Echtzeit- und Interaktionsdaten für die zukünftigen Embodied Modelle von entscheidender Bedeutung sein.
Zugleich muss das Datenerfassungsmuster innoviert werden. Das Kernziel ist, Kosten und Nützlichkeit in Einklang zu bringen. Derzeit ist das Fernsteuerungsmodell für die Datenerfassung von Robotern zu teuer und nicht realistisch. Die beste Lösung ist, die Daten während des normalen Arbeits- und Lebensablaufs zu erfassen.
Die einfachste Methode ist, auf Wearable Geräte wie intelligente Kopfhörer und Brillen zu setzen, um die audiovisuellen Daten aus der ersten Person des Benutzers aufzuzeichnen. In diesem Modell geben die Benutzer freiwillig ihre Daten preis, um eine bessere Leistung der Agenten zu erhalten. Dies ist kostengünstig und effizient. Das Prinzip ist ähnlich wie bei der Datenerfassung bei der autonomen Fahrweise.
Außerdem ist die Hirn-Computer-Schnittstelle ein wichtiger Weg. Derzeit sind die Daten, die von behinderten Menschen mit Hilfe von Hirn-Computer-Geräten erzeugt werden, von sehr hoher Qualität.
Frage 12: Gibt es eine Reihenfolge bei der Entwicklung der Datenerfassung und -verarbeitungstechn