StartseiteArtikel

Losgelöst von der GPU-Abhängigkeit: Nature veröffentlicht einen Überblick über "physikalische neuronale Netzwerke" zur Realisierung von massiv skalierbaren und effizienten AI-Trainings- und Inferenzprozessen

学术头条2025-09-08 09:04
Schneller, energieeffizienter und praktischer.

In den letzten Jahren hat KI unser Leben durch Tools wie Chatbots tiefgreifend verändert und in Bereichen wie Medizin, Meteorologie und Materialdesign Anwendung gefunden. Dieser Fortschritt beruht vor allem auf der Rechenleistung von GPUs und dem Wachstum des Datenvolumens. Doch mit der ständigen Vergrößerung der Modellgröße werden die Grenzen traditioneller digitaler GPUs immer deutlicher. Um diese Engstelle zu überwinden, muss die KI die Latenz und den Energieverbrauch bei der Training und Inferenz senken, während sie Genauigkeit und Durchsatz gewährleistet.

Ein viel beachteter Forschungsrichtung sind „Physikalische Neuronale Netze“ (Physical Neural Networks, PNNs), die physikalische Systeme wie Licht, Elektrizität und Schwingungen zur Berechnung nutzen. Sie versprechen, die Abhängigkeit von traditionellen digitalen Chips zu überwinden und effizientere und größer angelegte KI-Training und -Inferenz zu ermöglichen.

Kürzlich hat ein Forschungsteam aus dem Eidgenössischen Institut für Technologie Lausanne (EPFL) und seine Kooperationspartner eine neue Übersichtsarbeit in der renommierten wissenschaftlichen Zeitschrift Nature veröffentlicht, die die Entwicklung physikalischer neuronaler Netze aus Sicht des Trainings umfassend zurückblickt und universelle Methoden aus einer „Nullstart“-Perspektive erforscht.

Link zur Studie: https://www.nature.com/articles/s41586-025-09384-2

Das Forschungsteam hat erklärt, dass „mit ausreichendem Forschungsaufwand“ zukünftige physikalische neuronale Netze möglicherweise die Art der KI-Berechnung verändern könnten.

Schneller, energieeffizienter und praktikabler

Physikalische neuronale Netze sind eine Art von neuronalen Netzen, die analoge physikalische Systeme zur Berechnung nutzen. Sie können die analogen physikalischen Berechnungen direkter, flexibler und zufälliger nutzen als traditionelle Rechenhardware und könnten die Machbarkeit und Praktikabilität von KI-Systemen verändern. Derzeit gibt es zwei Typen:

  • Isomorphe physikalische neuronale Netze (Isomorphic PNNs): Sie führen mathematische Transformationen durch, indem sie die Hardware so gestalten, dass sie eine strenge operationsweise Isomorphie mit vordefinierten mathematischen Transformationen aufweist. Ein typisches Beispiel ist ein elektronisches Kreuzgitter, das direkt Matrix-Vektor-Multiplikationen ausführen soll. Der Leitwert jedes Kreuzungsknotens im Gitter entspricht einem Element der zu multiplizierenden Matrix.
  • Isomorphiebrechende physikalische neuronale Netze (broken-isomorphism PNNs): Sie trainieren direkt die physikalischen Transformationen der Hardware. Diese physikalischen Transformationen sollten den mathematischen Operationen in traditionellen neuronalen Netzen grob ähneln, müssen aber nicht in einer exakten eins-zu-eins-Beziehung stehen.

Abbildung | Physikalische neuronale Netze

Obwohl physikalische neuronale Netze sich noch im Laborstadium befinden, zeigen sie bereits großes Potenzial. Sie können physikalische Gesetze direkter nutzen und sind theoretisch energieeffizienter und schneller als traditionelle Hardware. Sie können schließlich in Rechenzentren und Edge-Computing-Szenarien eingesetzt werden, um sowohl große generative Modelle anzutreiben als auch lokale Inferenz oder intelligente Sensoren zu unterstützen.

Unabhängig vom Anwendungsfall muss das neuronale Netz trainiert werden, aber die spezifischen Randbedingungen können je nach Anwendungsbereich variieren. Die wichtigsten Trainingsverfahren sind:

1. Computersimulationstraining (In silico training)

Die direkteste Methode, um PNNs zu trainieren, ist es, sie in einer Computersimulationsumgebung zu trainieren. Diese Methode verwendet ein digitales Zwillingmodell der PNNs, um die Gewichtsgradientenberechnung und die Rückwärtsverbreitung auszuführen. Das digitale Zwillingmodell wird normalerweise auf zwei Arten erstellt: entweder durch direkte Beschreibung der PNNs oder durch eine datengesteuerte Methode – d. h. durch das Erfassen von Eingabe-Ausgabe-Beispieldaten der PNNs und das Anpassen des digitalen Zwillingmodells an diese Daten. Beim Training werden die Gradienten im digitalen Raum berechnet, die Parameter aktualisiert und dann das Ergebnis auf die physikalische Hardware übertragen.

2. Physik-bewusste Rückwärtsverbreitung (PAT)

Die physik-bewusste Trainingsmethode (PAT) stärkt ein Kerngedanke: Solange man ein approximatives Vorhersagemodell für das physikalische System aufstellt, kann man zuverlässig die Gradienten extrahieren. Der Kernmechanismus besteht darin, dass das physikalische System die Vorwärtsverbreitung ausführt, während die Rückwärtsverbreitung durch ein differentielles digitales Modell durchgeführt wird. Der Schlüssel liegt in der Nichtübereinstimmung zwischen Vorwärts- und Rückwärtsverbreitung. Wie bei den meisten Trainingsalgorithmen muss nur die geschätzte Gradienten aus dem digitalen Modell annähernd mit den realen Gradienten übereinstimmen. Im Vergleich zu den strengen Bedingungen eines perfekten digitalen Modells ermöglicht diese lockere Norm, dass PAT in den meisten Szenarien direkt das Computersimulationstraining ersetzen kann, während es viele Vorteile des in-situ-Trainingsalgorithmus beibehält.

Diese Methode wurde bereits in optischen, mechanischen und elektronischen Systemen validiert. Sie kann sowohl die Auswirkungen von physikalischem Rauschen reduzieren als auch die Genauigkeit der Rückwärtsverbreitung aufrechterhalten. Der Nachteil besteht darin, dass das Training langsamer wird, wenn sich die physikalischen Parameter langsam aktualisieren.

3. Rückkopplungsausrichtung (FA/DFA)

In physikalischen neuronalen Netzen werden die Gewichte direkt in den Hardwarekomponenten und nicht in traditionellen Speichern realisiert. Im Gegensatz zu digitalen Systemen, in denen die Matrixtransposition eine einfache Rechenoperation ist, existiert diese Transpositionsoperation in physikalischen neuronalen Netzen nicht von Natur aus. Das Extrahieren oder Berechnen der Transposition erfordert normalerweise mehr Hardwaremodule oder die Neukonfiguration der physikalischen Struktur, um die Gewichtstransposition zu realisieren.

Die beiden Methoden Rückkopplungsausrichtung (FA) und direkte Rückkopplungsausrichtung (DFA) ermöglichen es, physikalische neuronale Netze zu trainieren, ohne die Vorwärtsverbreitungsgewichte auf die Rückwärtsverbreitung zu übertragen, wodurch die Effizienz erhöht wird, aber normalerweise auf Kosten der Leistung. Sie müssen weiterhin von der Ableitung der Aktivierungsfunktion und dem Aktivierungszustand jeder Schicht abhängen, was zu einem Genauigkeitsverlust führt. Der Kernvorteil von FA besteht darin, dass feste zufällige Rückkopplungsgewichte verwendet werden, um das Netz durch die schichtweise Übertragung des Fehlersignals zu trainieren. DFA realisiert dagegen eine effiziente Training von tiefen Netzen, indem es ein festes zufälliges Rückkopplungsgewichtsmatrix verwendet, um das Fehlersignal gleichzeitig an alle Schichten zu senden.

4. Physikalisches lokales Lernen (PhyLL)

PhyLL lernt durch die Kosinusähnlichkeit zwischen zwei Übertragungen von positiven und negativen Beispieldaten, wodurch die herausfordernde Schichtnormalisierung in der physikalischen Realisierung entfällt. Diese Methode wurde in den drei physikalischen neuronalen Netzbereichen Akustik, Mikrowellen und Optik experimentell validiert. Sie ermöglicht sowohl überwachtes als auch unüberwachtes Training und erfordert keine genauen Kenntnisse der nichtlinearen physikalischen Schichtparameter.

5. Nullgradienten- und gradientenfreies Training

Diese Algorithmen können in zwei Hauptkategorien unterteilt werden: Die erste Kategorie ist die Störungsmethode, die die Gradienten durch die Stichprobenahme der Zielfunktion (d. h. der Verlustfunktion) an verschiedenen Koordinatenpunkten (Gewichtswerten) abschätzt und dann die traditionelle Gradientenabstiegsmethode verwendet, um die Gewichte zu optimieren. Die zweite gradientenfreie Methode verwendet eine populationsbasierte Stichprobenahme-Strategie. Anstatt direkt eine Gradientenannäherung zu suchen, werden iterativ bessere Kandidatenlösungen erzeugt. Genetische Algorithmen, Evolutionsstrategien und Populationsalgorithmen folgen heuristischen Kriterien, während das Reinforcement Learning eine iterativ optimierende Kandidatenerzeugungsstrategie verwendet.

6. Gradientenabstiegstraining durch physikalische Dynamik

Der Gradientenabstiegsoptimierungsalgorithmus ist die Kerntechnologie der derzeitigen fortschrittlichen Maschinelerntsysteme. Die Forscher haben vier physikalische Trainingsmethoden vorgeschlagen, die es ermöglichen, den Gradientenabstieg ohne digitales Zwillingmodell zu realisieren.

  • Matrix-Vektor-Multiplikation durch ein lineares reziprokes physikalisches System: Ziel ist es, traditionelle neuronale Netze und die Rückwärtsverbreitung auf analoge Hardware abzubilden. Der Kerngedanke besteht darin, dass die Matrix-Vektor-Multiplikationen, die für die Vorwärtsverbreitung (Inferenz) und die Rückwärtsverbreitung (Training) erforderlich sind, durch ein lineares reziprokes physikalisches System realisiert werden können.
  • Nichtlineare Berechnung basierend auf linearer Wellenstreuung: Diese Methode kodiert die Eingabedaten in untastbare physikalische Parameter, während andere Parameter während des Trainings optimiert werden. Am Ende wird die Streuungsantwort durch ein neuromorphes System ausgegeben. Die Gradientenaktualisierung wird direkt aus dem Übertragungssignal zwischen der Ausgangsresonator und dem Aktualisierungspunkt berechnet.
  • Balanced Propagation (EP): Diese Methode eignet sich für energiebasierten Systemen. Die Eingabe wird als Randbedingung bereitgestellt, während die physikalischen Gesetze das System dazu bringen, ein Energieminimum (d. h. einen Gleichgewichtszustand) zu erreichen, um eine Antwort (Ausgabe) zu erzeugen. In der ursprünglichen Formel von EP werden die Gewichte durch eine lokale Vergleichsregel aktualisiert, die auf dem Vergleich von zwei Gleichgewichtszuständen mit unterschiedlichen Randbedingungen basiert. Im Vergleich zu anderen Vergleichslearningalgorithmen besteht der Hauptvorteil von EP darin, dass es die Gewichtungsgrade für beliebige Kostenfunktionen berechnen kann.
  • Hamiltonian Backpropagation (HEB): Auf der Grundlage der Extraktion der Gewichtsgradienten wird direkt die physikalische Dynamik verwendet, um die richtige Gewichtsaktualisierung zu generieren, ohne dass ein Rückkopplungsmechanismus erforderlich ist. Während des Trainings durchlaufen im Vorwärtsverbreitungsphase das Signalwellen und die trainierbaren Parameterwellen gemeinsam ein nichtlineares Medium und wechselwirken miteinander. Das Fehlersignal wird auf das Signalwellen aufaddiert, und durch eine Zeitumkehroperation werden die beiden Wellen erneut durch das Medium geleitet. Nach der Rückwärtsverbreitungsphase wird die trainierbare Parameterwellen automatisch in Richtung des Kostenfunktionsgradienten aktualisiert.

Abbildung | Trainingsmethoden für physikalische neuronale Netze. Die Teilabbildungen zeigen die Rechenanforderungen und Lernmerkmale der verschiedenen Methoden. Durch den Vergleich von drei Kernindikatoren: (1) die Fähigkeit, den Gradientenabstieg in der Kostenfunktion durchzuführen; (2) die erforderliche digitale Rechenleistung; (3) die Leistung bei großen Datensätzen. Das trainierte physikalische System wird in hellgrau dargestellt, das feste physikalische System in dunkelgrau. Die Vorwärts- und Rückwärtsübertragung werden durch grüne bzw. rote Pfeile dargestellt.

Wie ist die kommerzielle Machbarkeit?

Große KI-Modelle sind tatsächlich sehr groß in der physikalischen Größe, aber das bedeutet nicht, dass physikalische neuronale Netze keine Anwendungsmöglichkeiten haben.

Tatsächlich benötigt jede Hardwarevorrichtung für diese Größenordnung von Berechnungen zwangsläufig einen größeren physischen Raum. Dies könnte die wichtigste Skalierbarkeitsüberlegung für zukünftige großangelegte physikalische neuronale Netz-KI-Systeme aufzeigen: Wenn die Hardware der physikalischen neuronalen Netze richtig gestaltet ist, könnten ihre zugrunde liegenden physikalischen Eigenschaften ihnen eine andere Energieausdehnungseigenschaft als digitale elektronische Geräte verleihen.

Dies bedeutet, dass bei ausreichend großer Modellgröße das Implementierungskonzept der physikalischen neuronalen Netze im Vergleich zu digitalen Systemen die analoge Hardware möglicherweise eine höhere Effizienzvorteil haben könnte, obwohl es viele Kosten gibt.

Abbildung | Simulation eines großen Modells

Es muss betont werden, dass die Erweiterung der Rechenleistung nicht nur von der Hardware-Upgrade abhängt. Der Transformers-Architektur ist der derzeitige Mainstream geworden, nicht nur wegen seiner algorithmischen Durchbrüche, sondern auch wegen der Synergieeffekte mit skalierbarer Hardware. Bei der Entwicklung von ultragrößeren physikalischen neuronalen Netzen könnte man möglicherweise an der Bindung an bestehende algorithmische Rahmenwerke scheitern. In Zukunft muss ein neues Kombinationskonzept aus Hardware und Software entwickelt werden.

Angesichts der Pfadabhängigkeit der Infrastruktur und des schnellen Fortschritts von effizienten digitalen Großmodellen muss die Energieeffizienz der physikalischen neuronalen Netze um Tausende oder sogar Millionen von Malen höher sein als die von digitalen elektronischen Geräten, um kommerziell machbar zu sein. Um dieses Ziel zu erreichen, muss man physikalische Computer entwerfen, die die Skalierbarkeitsherausforderungen insgesamt bewältigen können, und die Hardware-Software-Synergieoptimierung als Kernpunkt nehmen, um die effiziente Nutzung der physikalischen Rechenleistung als erstes Ziel zu setzen.

Zukünftige Herausforderungen