Beliebtheit von Physik-AI: Einige neue Gedanken von mir

Der Ausbruch von Physik-AI führt zur industriellen Umsetzung, und der Wettbewerb hat erst begonnen.

Physikalisches KI ist das ultimative Modell für die Entwicklung von KI. Es muss nicht nur die Befehle von Menschen verstehen, sondern auch alle Gesetze der physischen Welt verstehen.

Neuerdings ist ein Begriff in der Branche sehr beliebt: "Physikalisches KI".

Dieser Begriff wurde bereits Anfang des vergangenen Jahres auf der CES-Messe in Las Vegas von Jensen Huang in seinem Vortrag mehr als zehn Mal erwähnt. Erst in diesem Jahr hat das "Physical AI" jedoch eine echte Explosion erlebt.

Was genau ist also "Physikalisches KI"?

Vor ein paar Tagen habe ich ein Video eines Roboters gesehen, der Blumen gießt. Der Roboter ging zunächst zum Wasserhahn, drehte das Ventil auf, füllte den Eimer und kehrte dann zu den Blumenbechern zurück. Er justierte den Winkel und goss das Wasser gleichmäßig hinein, ohne dass die Eimeröffnung an den Rand des Bechers stieß oder Wasser verschüttet wurde.

Damit eine Maschine versteht, wie man ein Glas Wasser hält, muss sie wissen, dass das Glas zylindrisch ist, wie viel Kraft erforderlich ist, um es festzuhalten, damit es nicht rutscht oder bricht, dass Wasser eine Flüssigkeit ist und verschüttet wird, wenn es geschüttelt wird, und wie man den Armwinkel während des Gehens anpasst, um die Körperbewegungen auszugleichen.

Dinge, die ein dreijähriges Kind intuitiv beherrscht, sind für KI ein riesiger Sprung. In den letzten zehn Jahren hat KI gelernt, zu sehen, zu hören, zu sprechen und zu zeichnen, aber es war immer auf den Bildschirm beschränkt. Das Ziel des Physikalischen KI ist es, diesen intelligenten Geist in einen Körper zu stecken, der in der realen Welt laufen, springen, greifen und ablegen kann.

Einfach ausgedrückt, bedeutet Physikalisches KI, dass KI die physische Welt versteht und darauf einwirkt. Es behandelt nicht nur Texte und Bilder, sondern muss auch in einer Umgebung, in der Schwerkraft, Reibung und Trägheit wirken, die richtigen Bewegungen ausführen.

Eine Tatsache, die in China selten diskutiert wird, ist, dass der Begriff "Physical AI" nicht von der PR-Abteilung eines Chipriesen stammt. Dieser Begriff wurde erstmals 2020 in einem Artikel in der Zeitschrift "Nature Machine Intelligence" erwähnt. In diesem Artikel wurde das Physical AI erstmals systematisch definiert:

Eine Art von System, das in der Lage ist, Aufgaben auszuführen, die normalerweise mit intelligenten Lebewesen verbunden sind. Der Kern besteht darin, die physikalischen Gesetze tiefgehend in das KI-System zu integrieren, damit Maschinen nicht mehr "physikalisch blind" sind und einen geschlossenen Kreis von Wahrnehmung bis Handlung bilden können.

Von der ersten Erwähnung in der akademischen Welt im Jahr 2020 bis zur Übernahme durch die Industrie im Jahr 2026 vergingen sechs Jahre. In diesen sechs Jahren sank die Kosten der Sensoren um mehrere Größenordnungen, die Rechenleistung der Edge-KI wechselte von der Theorie zur praktischen Umsetzung, und die Zuverlässigkeit und die Massenproduktionsfähigkeit der Roboter nahmen ebenfalls an der Schwelle an - dies sind die versteckten Triebkräfte, die das Physical AI von der Theorie zur Praxis bringen.

Von der Demonstration zum Arbeiten

Wenn man sagt, dass die Large Language Models im Jahr 2023 der KI das Chatten beigebracht haben, dann lautet das Stichwort für das Physikalische KI im Jahr 2026: Arbeiten.

Die Veränderungen sind augenscheinlich.

Im vergangenen Jahr präsentierten Roboterfirmen ihre Fähigkeiten noch durch Demo-Videos, in denen sie die Szenen vorbereiteten und wiederholt probten, um einen einseitigen Durchlauf zu erreichen. Es sah zwar gut aus, aber man wusste nicht, wie oft es aufgenommen wurde.

In diesem Jahr hat sich die Situation völlig verändert. Das Roboterunternehmen ZHYuan hat in einer 3C-Fertigungslinie in Nanchang eine Aktion durchgeführt: Sie haben den Roboter in eine echte Fabrik geschickt und mehrere Stunden lang gearbeitet lassen, während die ganze Zeit live gestreamt wurde. Es gab kein vorgegebenes Drehbuch und keine festgelegten Szenen, sondern einfach die Fertigungslinie, mit der die Arbeiter tagtäglich konfrontiert sind. Zehntausende von Menschen haben live zugeschaut.

Einen Monat später hat ZHYuan in Hongkong angekündigt, dass es tausende von Humanoiden Robotern im Massenproduktionsmaßstab herstellen kann. Von einem Prototypen im Labor bis zu zehntausenden auf der Fertigungslinie - wenn man diese Schwelle überwindet, ändert sich die Natur der Sache.

Der Ansatz von ZHYuan ist sehr interessant. Die meisten Roboter-Start-ups konzentrieren sich auf einen bestimmten Bereich: Diejenigen, die sich mit der Herstellung des Roboters befassen, kümmern sich nur um den Roboter, diejenigen, die sich mit Large Language Models befassen, kümmern sich nur um die Modelle, und diejenigen, die sich mit den Greifhänden befassen, kümmern sich nur um die Hände. ZHYuan hat einen anderen Weg gewählt: Es setzt auf alle Ebenen und plant gleichzeitig die Herstellung des Roboters, die KI-Modelle, die dexteren Manipulationen und die Datenerfassung. Darüber hinaus hat es auch über 60 Unternehmen in der gesamten Lieferkette investiert.

Die Kosten für diesen Ansatz sind ebenfalls offensichtlich. Das Mutterunternehmen hat mehr als tausend Mitarbeiter, und bis Ende des Jahres wird die Zahl voraussichtlich weiter steigen. Nur die Gehälter belaufen sich pro Jahr auf mehrere hundert Millionen Yuan. Dieser Weg verbraucht viel Geld, aber wenn er erfolgreich ist, ist die Marktbariere auch am höchsten.

Deng Taihua, der Gründer von ZHYuan, hat ein Analyserahmen namens "XYZ-Kurve" vorgeschlagen. Er sagt, dass die Entwicklung der Embodied Intelligence in drei Phasen unterteilt ist: Die Phase X ist die Experimentierphase, in der die Leute noch mit Demo-Versionen herumspielen; die Phase Y ist die Implementierungsphase, in der die Roboter tatsächlich in die Fertigungslinien integriert werden; die Phase Z ist die Endphase, in der die Intelligenz aufblüht.

Er definiert das Jahr 2026 als "Jahr der Implementierung", in dem die Roboter von der "Beweglichkeit" zur "Arbeitsfähigkeit" übergehen. Der Unterschied zwischen "Beweglichkeit" und "Arbeitsfähigkeit" ist zwar nur ein Buchstabe, aber es ist die Einweihung in die gesamte Branche.

Auch im Ausland gibt es einen Wettlauf. Die USA setzen ebenfalls stark auf die Entwicklung von Humanoiden Robotern.

Das amerikanische Roboterunternehmen Figure AI ist ein Name, den man in diesem Bereich nicht umgehen kann. Im vergangenen September haben sie eine Finanzierung von über einer Milliarde US-Dollar abgeschlossen, und der Unternehmenswert hat sich auf 39 Milliarden US-Dollar erhöht. Damals war es das am höchsten bewertete Unternehmen für Humanoiden Roboter weltweit.

Einen Monat später haben sie das neue Produkt Figure 03 vorgestellt. Der Roboter ist 1,68 Meter groß und wiegt etwa 60 Kilogramm. Er hat gezeigt, wie er Blumen gießt, Speisen serviert und Kleidung zusammenlegt. Der Gründer Brett Adcock hat auf sozialen Medien hinzugefügt, dass alle Bewegungen des Roboters autonom ausgeführt wurden und kein Mensch ihn ferngesteuert hat.

Technisch gesehen hat Figure eine wichtige Strategieänderung vorgenommen. Sie haben die Zusammenarbeit mit OpenAI beendet und sich auf das eigene neuronale Netzwerk Helix konzentriert.

Dieses System hat eine dreistufige Struktur, die der menschlichen Wahrnehmung nachempfunden ist. Die unterste Stufe ist für das Gleichgewicht und die Instinktreaktionen verantwortlich, die mittlere Stufe übersetzt die Befehle des Gehirns in die Steuerung der Motoren, und die oberste Stufe ist der logische Teil des Gehirns, der die Szenen versteht und Entscheidungen trifft. Dieser dreistufige Aufbau von "Instinkt - Reflex - Denken" ist sehr klug und entspricht einer Nervensystem, das nicht abstürzt.

Es ist auch erwähnenswert, dass NVIDIA auf der GTC-Konferenz in diesem Jahr angekündigt hat, dass es eine tiefe Zusammenarbeit mit den vier weltweit größten Industrieroboterherstellern ABB, KUKA, Yaskawa und Fanuc eingegangen ist. Über zwei Millionen Industrieroboter, die weltweit in Fertigungslinien installiert sind, können in Zukunft über NVIDIA's Simulationsplattform virtuelle Tests und KI-Training durchführen.

Diese vier Unternehmen zusammen haben mehr als die Hälfte des weltweiten Marktes für Industrieroboter. In den nächsten zehn Jahren werden diese Roboter eine Aufrüstung von "traditioneller Programmierung" zu "KI-gesteuert" erfahren. Welches Softwareplattform in diesen Prozess integriert werden kann, wird die "Betriebssystemebene" der nächsten Generation der industriellen Automatisierung sein. NVIDIA will sicherlich nicht diesen Zug verpassen.

Die Überholmanöver der Lieferkette

Es gibt ein interessantes Phänomen: Automobilzulieferer fließen in großen Mengen in den Bereich des Physikalischen KI ein.

Auf der Auto - Messe in Peking in diesem Jahr haben die etablierten Automobilzulieferer wie Aptiv, Valeo, Horizon Robotics und QXWZ Robot - Lösungen präsentiert. Viele Branchenexperten haben erkannt, dass die Wahrnehmung der Embodied Intelligence und die der autonomen Fahrzeuge gleich sind, und die Lösungen aus der Automobilindustrie können direkt auf Humanoiden Roboter angewendet werden.

Wenn man darüber nachdenkt, stimmt das. Das System der autonomen Fahrzeuge ist im Wesentlichen ein geschlossener Kreis von Wahrnehmung - Entscheidung - Ausführung eines "mobilen Roboters". Die drei Module der visuellen Wahrnehmung, der Pfadplanung und der Echtzeitsteuerung sind technisch gesehen sehr ähnlich zu denen der traditionellen Industrieroboter und Humanoiden Roboter.

Die Kameras, Radare, elektronischen Fahrwerke und Echtzeitbetriebssysteme, die die Automobilzulieferer besitzen, können mit geringfügigen Anpassungen in den Bereich der Roboter übertragen werden. In diesem Sinne fließen die Milliarden an Forschungs - und Entwicklungsausgaben, die die Automobilindustrie in den letzten zehn Jahren in die Digitalisierung investiert hat, in Form von "Technologiestreuung" in den Bereich des Physikalischen KI.

Dies könnte erklären, warum chinesische Roboterunternehmen so schnell in die Massenproduktion einsteigen können. Die Fertigungskapazität und die Supply - Chain - Verwaltung sind nicht aus dem Nichts entstanden, sondern vieles ist bereits vorhanden. Die Zulieferer, die sich seit Jahrzehnten in der Automobilindustrie etabliert haben, haben nun ein neues Schlachtfeld.

Es gibt bereits Beispiele aus dem Ausland. Nehmen wir Tesla als Beispiel. Sein erster Humanoider Roboter Optimus tritt ebenfalls beschleunigt auf den Markt. Tesla hat in der Quartalsbilanzkonferenz im ersten Quartal 2026 klar gemacht, dass das Unternehmen sich in eine "Zukunft mit KI, autonomen Taxis und Humanoiden Robotern" wandeln wird. Die erste Produktionslinie des Roboters wird eine Kapazität von einer Million Einheiten haben und die bestehenden Produktionslinien von Model S und Model X ersetzen.

Die Zahl von einer Million Einheiten mag in der heutigen Realität übertrieben erscheinen, aber Teslas Logik ist klar: Es will die Fähigkeit der Massenproduktion und die Erfahrung in der Supply - Chain - Verwaltung aus der Automobilindustrie direkt auf die Herstellung von Humanoiden Robotern übertragen.

Was Elon Musk will, ist kein "beweglicher Roboter", sondern ein "Massenproduktionswerkzeug", das in der Fabrik mit Menschen zusammenarbeiten kann. Wenn dieser Weg erfolgreich ist, wird die Auswirkung auf die Automatisierung der Fertigungsindustrie nicht weniger stark sein als die von Model 3 auf den Verbrennungsmotorenmarkt.

Warum kann das Weltmodell plötzlich in diesem Jahr eingesetzt werden?

Nachdem wir uns die Aktionen der großen Unternehmen in der Branche angesehen haben, schauen wir uns nun die technische Grundlage des Wettlaufs um das Physikalische KI an.

Kurz gesagt: Der technische Durchbruch beim Weltmodell. Ich denke, dies ist auch der Schlüsselpunkt, um diese Welle zu verstehen.

Das Konzept des "Weltmodells" ist nicht neu. Es wurde bereits 2018 vorgeschlagen. Die Kernidee ist einfach: KI soll eine interne Vorstellung von den Gesetzen der physischen Welt entwickeln, so dass es vorhersagen kann, was passiert, wenn ich ein Glas stöße. Aber bisher war es hauptsächlich in wissenschaftlichen Artikeln enthalten - es erfordert zu viel Rechenleistung, die Qualität der Erzeugung ist instabil, und es kann keine Echtzeitinteraktionen ermöglichen.

Der Wendepunkt ist in den letzten Monaten erreicht worden. NVIDIA hat eine Serie von Modellen namens Cosmos vorgestellt. Seine Kernfähigkeit besteht darin, aus Texten oder Bildern Handlungsdaten zu erzeugen, die den physikalischen Gesetzen entsprechen.

Nehmen wir ein Beispiel: Wenn Sie einen Roboter trainieren möchten, wie er Kisten unter verschiedenen Wetterbedingungen transportiert, müssen Sie nicht tatsächlich in Regen, Schnee oder in der Nacht in der Fabrik Videos aufnehmen. In einer Simulationsumgebung können Sie die Parameter einstellen, und Cosmos kann direkt eine große Menge an hochrealistischen Trainingsdaten erzeugen, die alle extremen Szenarien abdecken.

Anfang dieses Jahres hat das Team von Ant Lingbo ein Framework namens LingBot - World open - source gemacht, das speziell für interaktive Weltmodelle entwickelt wurde. Es kann nahezu zehn Minuten lang kontinuierlich und stabil Videos erzeugen, und die Interaktionsverzögerung von Ende zu Ende wird auf Sekundenebene gesteuert. Benutzer können wie beim Spielen eines Computerspiels mit Tastatur und Maus virtuelle Charaktere in Echtzeit steuern, und das Modell gibt sofort die Szenenänderungen zurück. Dies bedeutet, dass das Weltmodell von "offline - Rendering" zu "online - Interaktion" geworden ist, und die Trainingsleistung hat um eine Größenordnung zugenommen.

Das Start - up GigaVision hat die Plattform GigaWorld - 1 veröffentlicht, die als "digitale Sandkiste" der physischen Welt konzipiert ist. Einen Monat später hat Alibaba's ABot - PhysWorld in einem Testbench namens WorldArena diese Plattform übertroffen und die erste Stelle in der Gesamtranking erreicht. Der Wettlauf schreitet monatlich voran.

Die Wichtigkeit dieser Open - Source - Projekte liegt nicht darin, wie hoch die Parameter sind, sondern darin, dass sie ein Spiel, das bisher nur von Großkonzernen gespielt werden konnte, in ein Werkzeug verwandelt haben, das auch kleine Teams nutzen können. Je mehr Leute die Räder bauen, desto mehr Fahrzeuge werden tatsächlich fahren.

Das Weltmodell ist im Zeitalter des Physikalischen KI ein Kernbestandteil, weil es die Frage beantwortet, die bisher ungelöst war: Wie kann ein Roboter auf kostengünstige und effiziente Weise die komplexen Gesetze der physischen Welt lernen?

Die Kosten für die Erfassung von Trainingsdaten in der realen Welt sind extrem hoch, und die Daten haben natürliche Verteilungsabweichungen. Es ist schwierig, alle Randfälle wie Fabriken in Schneestürmen in der Nacht, Stromausfälle in Logistiklagern oder plötzliche Eingriffe von Fabrikarbeitern in der Realität zusammenzustellen. Aber synthetische Daten können dies. Durch die Steuerung der Szenenparameter mit Prompten in einer Simulationsumgebung können Forscher in wenigen Stunden große Mengen an Trainingsvideos erzeugen, die extreme Bedingungen abdecken. Dies würde in der herkömmlichen Methode der Datenaufnahme Monate oder sogar Jahre dauern.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Physik-AI ist beliebt geworden. Einige neue Gedanken von mir

Von der Demonstration zum Arbeiten

Die Überholmanöver der Lieferkette

Warum kann das Weltmodell plötzlich in diesem Jahr eingesetzt werden?