StartseiteArtikel

Jensen Huang's Vision für Physik und KI: Die Transformation des 5G-Netzwerks in einen verteilten KI-Computer

物联网智库2026-03-20 21:33
Wird das Kommunikationsnetz von KI verschlungen? Von der "Übertragung von Bits" zur "Bereitstellung von Intelligenz", von der "passiven Leitung" zur "aktiven Rechenplattform" – ein neues Paradigma entsteht.

In den letzten Tagen war die Diskussion über die NVIDIA GTC-Konferenz fast vollständig von Huang Renxuns „Token-Ökonomie“ überschwemmt.

„Zukünftige Rechenzentren sind keine Lagerhäuser, sondern Fabriken zur Produktion intelligenter Token; und die Leistung pro Watt ist der einzige harte Indikator in diesem Wettlauf.“ Mit diesen Worten hat Huang Renxun für Unternehmen ein neues Paradigma für zukünftigen Wettbewerb skizziert.

Von den Rechenleistungskosten bis zur Inferenzeffizienz, vom Token-Preis bis zum Geschäftsmodell der KI: Der Marktkonzentriert sich auf ein bekanntes Problem: Wie kann man „Intelligenz“ effizienter produzieren und verbrauchen? Wenn man jedoch den Blick etwas von der Cloud herabnimmt, wird man feststellen, dass eine andere Nachricht von NVIDIA leichter zu übersehen ist – Am 16. März kündigte NVIDIA an, in Zusammenarbeit mit T-Mobile und Nokia die physische KI in einem verteilten Edge-KI-Netzwerk zu implementieren, um das drahtlose Kommunikationsnetzwerk in eine leistungsstarke Edge-KI-Berechnungsplattform zu verwandeln.

Im Vergleich zur Neuoptimierung von Effizienz und Kosten durch die „Token-Ökonomie“ weist diese Nachricht auf ein tieferliegendes Problem hin: Wenn die KI nicht nur Inhalte generiert, sondern in die reale Welt eintritt und an jeder Echtzeitentscheidung teilnimmt, muss die Netzwerk- und Rechenarchitektur, auf der wir die KI betreiben, neu geschrieben werden?

Huang Renxun gibt eine direkte Antwort auf diese Frage: „Das Netzwerk entwickelt sich zu einer KI-Infrastruktur, die es Milliarden von Geräten – von visuellen KI-Agenten bis hin zu Robotern und selbstfahrenden Autos – ermöglicht, in Echtzeit zu sehen, zu hören und zu handeln. Durch die Zusammenarbeit mit T-Mobile und Nokia wandeln wir das 5G-Netzwerk in einen verteilten KI-Computer um und schaffen damit ein skalierbares Blueprint für die globale Edge-KI-Infrastruktur.“

Für einen Fachmann, der sich seit langem mit dem Internet der Dinge und Edge-Computing beschäftigt, ist dies vielleicht das bemerkenswerteste Signal dieser GTC-Konferenz.

Die entscheidende Engstelle bei der Skalierung der physischen KI beseitigen

Huang Renxun hat in mehreren Vorträgen seine Prognose für die Entwicklungsphasen der KI vorgestellt. Danach hat die KI die Phasen der Wahrnehmungs-KI und der generativen KI durchlaufen, befindet sich jetzt in der Phase der Agenten-KI und wird in Zukunft in die Ära der physischen KI eintreten. Wenn die generative KI das Problem des „Verstehens und Generierens von Informationen“ löst, dann steht der physischen KI eine komplexere Aufgabe gegenüber: Die Welt verstehen und in ihr handeln.

Laut der Definition von NVIDIA ist „physische KI ein Modell, das die reale Welt mit Bewegungsfähigkeiten versteht und mit ihr interagiert. Sie wird normalerweise von autonomen Maschinen wie Robotern und selbstfahrenden Autos getragen.“ Wir wissen, dass große Sprachmodelle wie GPT und Llama beeindruckende Fähigkeiten bei der Generierung von menschlicher Sprache und abstrakten Konzepten haben, aber ihre Kenntnisse über die physische Welt sind begrenzt und von ihren Regeln gebunden. Die physische KI hingegen kann die räumlichen Beziehungen und physikalischen Verhaltensweisen in unserer dreidimensionalen Welt verstehen und erweitert somit die aktuelle generative KI.

Mithilfe der physischen KI können autonome Maschinen die reale (physische) Welt wahrnehmen, verstehen und komplexe Operationen ausführen. Beispielsweise können selbstfahrende Autos Sensoren nutzen, um ihre Umgebung zu verstehen und in verschiedenen Umgebungen (von offenen Autobahnen bis hin zu städtischen Landschaften) vernünftige Entscheidungen zu treffen, wie z. B. die genauere Erkennung von Fußgängern, die Reaktion auf Verkehrs- oder Wetterbedingungen und die automatische Fahrspurwechsel. In industriellen und logistischen Szenarien können autonome Fahrerlose Transportfahrzeuge (AMR) in Lagerhäusern mithilfe direkter Rückmeldungen von Bord-Sensoren in komplexen Umgebungen navigieren und Hindernisse, einschließlich Menschen, vermeiden. Greifarme können ihre Greifkraft und Position anpassen, um präzise Manipulationen an Gegenständen auf einem Förderband auszuführen. In städtischen Räumen versucht ein System aus zahlreichen Kameras und Sensoren, Umweltveränderungen in Echtzeit zu verstehen und darauf zu reagieren.

Genau in diesem Übergang werden die Anforderungen der KI an die unterliegende Infrastruktur grundlegend verändert – denn sobald die KI in die physische Welt eintritt, können Latenz, Zuverlässigkeit und Echtzeitfähigkeit von „Erfahrungsproblemen“ zu „Lebens- und Todesfragen“ werden.

Viele Systeme können keine hohe Latenz tolerieren und können nicht auf den klassischen Weg des „Hochladens in die Cloud und anschließenden Verarbeitens“ zurückgreifen. Wie die aktuelle Branchenpraxis zeigt, erfordern Szenarien wie autonomes Fahren, Robotik und intelligente Städte eine Reaktionszeit im Millisekundenbereich und eine hochzuverlässige Verbindung. Das Problem wird somit klar: Eine entscheidende Engstelle bei der Skalierung der physischen KI ist das „Fehlen einer verbindungsfähigen Infrastruktur mit geringer Latenz, Sicherheit und Allgegenwart.“

Im Rahmen der traditionellen Architektur gibt es zwei Lösungen für dieses Problem, aber keine von ihnen ist ideal –

„Alles in die Cloud“: Das heißt, dass Endgeräte Daten sammeln, sie in die Cloud hochladen, dort verarbeiten lassen und dann die Ergebnisse zurückbekommen. Das Problem bei diesem Modell ist die lange Übertragungsstrecke, die unkontrollierbare Latenz und Instabilität, was es in kritischen Szenarien praktisch unbrauchbar macht.

„Alles auf dem Endgerät erledigen“: Man versucht, so viel Rechenleistung wie möglich auf das Gerät selbst zu packen. Aber auch dies stößt an Grenzen, da die Endgeräte in Bezug auf Stromverbrauch, Kosten und Größe beschränkt sind und nicht in der Lage sind, komplexe Modelle kontinuierlich auszuführen. Gleichzeitig ist die Rechenleistung der Geräte isoliert und kann daher nicht die kontinuierliche Weiterentwicklung und die einheitliche Planung der Modelle unterstützen.

Genau zwischen diesen beiden Wegen taucht eine neue Architektur auf, bei der die Rechenleistung von der Cloud „nach unten“ verlagert wird, aber nicht vollständig auf das Endgerät gedrückt wird, sondern in das „Netzwerk“ platziert wird. Dies ist der Kerngedanke der von NVIDIA, T-Mobile und Nokia vorgeschlagenen AI-RAN-Architektur: Die KI-Inferenzfähigkeiten werden in Netzwerk-Edge-Knoten in der Nähe der Endgeräte implementiert, sodass physische KI-Systeme zahlreiche Rechenaufgaben von den Geräten auf die nächsten Basisstationen oder Edge-Rechenzentren verlagern können.

Das direkte Ergebnis dieser Veränderung ist – Entwickler müssen nicht mehr auf jedem Kameragerät, Roboter oder Endgerät teure Rechenleistung installieren, sondern können sich stattdessen auf die verteilten Rechenressourcen auf der Netzwerksseite verlassen, um komplexere KI-Fähigkeiten kostengünstiger bereitzustellen. In dieser Architektur wird das Kommunikationsnetzwerk nicht nur zu einer „Datenübertragungsstrecke“, sondern zu einer Rechenplattform, die Intelligenz trägt und somit die Implementierung von KI-Anwendungen auf Milliarden von Geräten unterstützt.

Spitzenentwickler implementieren Inferenz und visuelle KI am Edge

Um das Netzwerk in eine verteilte KI-Berechnungsplattform zu verwandeln, muss man am Netzwerk-Edge Milliarden von Endgeräten mit ultrageringer Latenz und raumzeitlicher Konsistenz versorgen. Dies ist genau die Kernfähigkeit von T-Mobile, dem Partner von NVIDIA in diesem Projekt. Im Gegensatz zu Wi-Fi, das in Bezug auf Reichweite und Sicherheit eingeschränkt ist, bietet das eigenständige 5G-Netz von T-Mobile eine weiträumige Abdeckung und eine Garantie für die Dienstqualität, sodass komplexe KI-Agenten an überfüllten städtischen Kreuzungen, in industriellen Anlagen und in abgelegenen Gebieten funktionieren können.

Nach der offiziellen Pressemitteilung arbeitet T-Mobile mit von NVIDIA zertifizierten Entwicklern von physischer KI (einschließlich Fogsphere, LinkerVision, Levatas, Vaidio und Siemens Energy) zusammen, um zu demonstrieren, „wie Basisstationen und Mobile Switching Centers verteilte Edge-KI-Arbeitslasten unterstützen können“ und nutzt dabei die öffentliche 5G-Netzwerkverbindung. Sie werden das Metropolis Blueprint von NVIDIA für die Video-Suche und -Zusammenfassung (VSS) auf dieser Plattform integrieren.

Die neueste Version des VSS (3) Blueprint von NVIDIA bringt Funktionen für multimodales visuelles Verständnis und intelligente Suche mit sich und wird in Form einer modularen Architektur bereitgestellt, die je nach Umgebung („von Einzelhandelsgeschäften bis hin zu Lagerhäusern“) neu strukturiert werden kann. NVIDIA sagt, dass es weltweit 1,5 Milliarden Kameras gibt, aber weniger als 1 % des Videomaterials werden manuell überprüft. Das VSS (3) Blueprint kann „komplexe natürliche Sprachabfragen zerlegen und in fünf Sekunden nach Videosequenzen suchen, um bestimmte Ereignisse zu finden“ und kann „Lange Videos 100 Mal schneller zusammenfassen als eine manuelle Überprüfung“.

Derzeit arbeiten viele Spitzenentwickler mit NVIDIA und T-Mobile zusammen, um auf der Grundlage des NVIDIA Metropolis Blueprint für die Video-Suche und -Zusammenfassung (VSS) physische KI-Agenten, die Echtzeitaktionen auslösen können, in das verteilte Edge-Netzwerk von T-Mobile zu integrieren. Die Pilotanwendungsszenarien umfassen:

Betrieb von intelligenten Städten: LinkerVision, Inchor und Voxelmaps testen derzeit ein integriertes „Stadtbetriebs-Agentensystem“ und ein Digitales Zwilling auf der Grundlage von Computer Vision. Dieses System kann Verkehrsampelzeiten wahrnehmen, simulieren und optimieren, mit dem Ziel, die Reaktionszeit auf Unfälle in San José um das Fünffache zu beschleunigen.

Automatisierte Inspektion von öffentlichen (elektrischen) Anlagen: Levatas nutzt die Rechenleistung von NVIDIA, um Hunderttausende von Meilen an Stromleitungen über ein 5G-Netzwerk automatisiert zu inspizieren, um Probleme wie geneigte Masten, Korrosion und ungewöhnliche Wärmeentwicklung zu erkennen und schnell zu beheben. Die Geschwindigkeit kann dabei um das Fünffache erhöht werden. Beide Parteien bewerten derzeit die AI-RAN-Infrastruktur, um die Kosten weiter zu senken, die Ausfallzeit zu verkürzen und den Übergang von der reaktiven Wartung zur vorausschauenden Wartung zu beschleunigen.

Visuelles Anlagenmanagement: Entwickler wie Vaidio bauen auf dem VSS Blueprint auf, um Anlagenmanagement-Agenten zu entwickeln, die Bedrohungen erkennen und Störungen vorhersagen können und automatische Arbeitsabläufe auslösen, um so die Effizienz des Anlagenmanagements zu verbessern.

Echtzeit-Industriesicherheit: Fogsphere bietet SAIPEM Sicherheits-KI-Agenten, die in hochrisikoreichen Land-, See- und Bohrbauumgebungen gefährliche Ereignisse in Echtzeit erkennen und darauf reagieren können, wie z. B. wenn Arbeiter unter hängenden Gegenständen stehen oder Kohlenwasserstoff-Lecks auftreten.

Wie verändert die KI die Rolle des Kommunikationsnetzwerks?

Aus einer breiteren Perspektive betrachtet bedeutet die oben beschriebene Veränderung auch, dass die Rolle der Telekommunikationsbranche selbst grundlegend verändert wird.

Seit langem wird das Kommunikationsnetzwerk als „Verbindungsinfrastruktur“ angesehen – seine Kernaufgabe ist es, Daten effizient zwischen Geräten zu übertragen. Tatsächlich ist die Größe dieser Infrastruktur so immens, dass sie mit der gesamten IT-Branche vergleichbar ist: Die globale Telekommunikationsbranche hat ein Volumen von fast 2 Billionen US-Dollar, und Basisstationen sind in Städten und Dörfern verteilt, was es zu einem der am weitesten verbreiteten technologischen Systeme der menschlichen Gesellschaft macht. In der Vergangenheit trugen sie Informationsströme; in der AI-RAN-Architektur werden diese Knoten, die ursprünglich hauptsächlich für die „Übertragung“ zuständig waren, neu als verteilte Rechenknoten definiert und werden zur Infrastrukturplattform für die KI, wenn sie am Edge läuft.

Die Veränderung der Rolle des gesamten Kommunikationsnetzwerks durch die KI hat sich bereits stillschweigend vollzogen. In einem früheren Artikel, „Ist LoRa dabei, die ‚Stimmgewalt‘ im neuen Entwicklungskreislauf des Internets der Dinge zu erobern?“, habe ich erwähnt, dass es kein Zufall ist, dass die LPWAN-Camp, repräsentiert durch die LoRa-Allianz, jetzt Konzepte wie „physische KI“ und „geschlossene Handlungsringe“ betont. In der Vergangenheit, im Wettbewerb der LPWAN-Technologien, ob es NB-IoT, LTE-M oder Satelliten-IoT war, drehte sich die technologische Erzählung lange Zeit um Reichweite, Stromverbrauch und Kostenvorteile. LoRaWAN war auch für seine Eigenschaften wie „niedriger Stromverbrauch, geringe Kosten, flexible Privatnetze und hohe Anpassungsfähigkeit bei der Installation“ bekannt. In der KI-Ära versucht es jedoch, seine eigene Rolle neu zu definieren: nicht nur als Datenverbindungs-Protokoll, sondern als Daten-Eingang, Handlungs-Ausgang und Kommunikationsnervensystem für die physische KI.

Dieser Trend wird in der zukünftigen Netzwerkarchitektur noch deutlicher. Das Designkonzept von 6G zielt darauf ab, „für die KI gemacht“ zu sein, und nicht nur auf die Erhöhung der Übertragungsgeschwindigkeit. Im Februar 2026 endete die 3GPP SA2 #173-Konferenz in Goa, Indien. Der R20-Architektur-Überblick berichtete ein wichtiges Signal: Der Branchenkonsens hat den einfachen „Verbindungsweg“ verlassen und ist zu einer „eingeboren intelligenten Plattform“ übergegangen. In dieser Architektur ändert das Kernnetzwerk-Element AIMF (KI-Verwaltungsfunktion) die Interaktion zwischen Endgeräten und Netzwerk: In der Vergangenheit war das Kernnetzwerk nur für die Bitübertragung zuständig, während die R20-Architektur jetzt MaaS (Modell als Service) anbietet. Durch den Gradienten-Splitting-Mechanismus muss das Endgerät nur die unteren Gradienten berechnen, um die Privatsphäre zu schützen, während das Kernnetzwerk die oberen Gradientenberechnungen übernimmt. Dies bedeutet, dass die Netzwerk-Rechenleistung direkt an der Schulung und Optimierung von großen Modellen auf der Benutzerseite teilnehmen wird, anstatt nur als passiver Informationsübertragungsweg zu fungieren.

Wenn man das Ganze im Überblick betrachtet, ist es offensichtlich: Die KI verschlingt das Kommunikationsnetzwerk, und das Kommunikationsnetzwerk formt sich selbst neu. Ob Edge-Computing, physische KI oder die zukünftige 6G-eingeboren intelligente Netzwerke, alles deutet auf die Entstehung eines neuen Paradigmas hin: Vom „Übertragen von Bits“ zum „Bieten von Intelligenz“, vom „passiven Weg“ zum „aktiven Rechenplattform“. In diesem neuen Paradigma wird die KI nicht nur Software, sondern auch eine inhärente Eigenschaft des Telekommunikationsnetzwerks; das Netzwerk wird nicht nur Infrastruktur, sondern ein Echtzeit-Ökosystem, das Intelligenz trägt.

Heute stehen wir vielleicht wirklich am Anfang einer intelligenten Welt, in der Intelligenz überall greifbar ist.

Dieser Artikel stammt aus dem WeChat-Account