AI in Glas: Forschergebnisse der Huazhong-Universität für Wissenschaft und Technologie und der Shanghai Jiao Tong-Universität erscheinen in einer Nature-Fachzeitschrift
Das Licht tritt in das KI-Rechenleistungssystem ein, aber diesmal wird es nicht nur zur Datenübertragung genutzt, sondern direkt an der Berechnung beteiligt.
Ein Team aus der Huazhong-Universität für Wissenschaft und Technologie und der Shanghai Jiao Tong-Universität hat kürzlich in Nature Communications ein Ergebnis veröffentlicht. Es hat ein programmierbares photonisches neuronales Netz in das Innere eines Glases geschrieben und so einen dreidimensionalen optischen Rechenkern aufgebaut.
Dieser Chip ermöglicht die direkte optische Verarbeitung von zweidimensionalen Bildern auf dem Chip –
Die Genauigkeit der MNIST-Handschriftlich-Ziffern-Klassifizierung erreicht 93%, die Fidelität der optischen Mustererzeugung auf dem Chip beträgt 94%, und die theoretische Rechenleistung erreicht 6554 TOPS.
Der Schlüsselarchitekturpfad lautet:
Zweidimensionale Raum-Eingabe → Dreidimensionale Lichtfeldmischung → Programmierbare Phasenregulierung → Neuronales Netz-Inferenz auf dem Chip.
Dies ist nicht nur eine Vergrößerung der optischen Matrix, sondern auch die Antwort auf eine zentrale Frage: Wie kann der optische Rechenkern vergrößert, programmierbar gemacht und mit echten Daten belastet werden?
Ein photonisches neuronales Netz in den dreidimensionalen Raum eines Glases schreiben
In den letzten Jahren, als die KI-Clustergröße stetig zunahm, sprach die Branche bei der Rede von Licht eher von optischen Interkonnektionen: Licht wird verwendet, um Chips, Platinen, Schränke und Rechenzentren zu verbinden, damit Daten mit höherer Bandbreite und niedrigerem Energieverbrauch übertragen werden können.
Dieser Bereich ist bereits ein sehr klarer technologischer Trend in der KI-Hardware.
Aber der Wert von Licht liegt nicht nur in der "Datenübertragung".
Beim Ausbreiten kann Licht wiederverwendet, gekoppelt, interferiert und gemischt werden. Bei vielen linearen Berechnungen können diese physikalischen Prozesse selbst zu Berechnungsprozessen werden.
Bei den in der KI-Inferenz häufig vorkommenden Matrixberechnungen kann Licht nicht nur das Medium zur Verbindung der Rechenmodule sein, sondern auch Teil des Rechenkerns werden.
Das eigentliche Problem ist: Welcher optische Rechenkern kann diesen Vorteil maximieren?
Ein optisches Rechensystem benötigt Laser, Modulatoren, Detektoren, elektronische Steuerungen und Verkapselungen. Wenn die Größe zu klein ist, ist es schwierig, diese peripheren Kosten zu verteilen. Wenn die Struktur immer noch auf die zweidimensionale Ebene beschränkt ist, werden die Eingabe, die Interkonnektion, die Wellenleiterkreuzungen und die Kanalerweiterung die Chipgröße einschränken.
Das heißt, damit das optische Rechnen wirklich in die KI-Inferenz-Hardware eingeht, muss nicht nur bewiesen werden, dass "Licht rechnen kann", sondern auch die Fragen beantwortet werden: "Wie kann der optische Rechenkern vergrößert, programmierbar gemacht und mit echten Daten belastet werden?"
Im Jahr 2023 veröffentlichte Peter McMahon in der Zeitschrift Nature eine Übersichtsarbeit.
In der Arbeit werden die verschiedenen physikalischen Eigenschaften von Licht, die für die Berechnung genutzt werden können, systematisch zusammengefasst. Es wird auch darauf hingewiesen, dass der Vorteil des optischen Rechnens nicht einfach aus der "hohen Lichtgeschwindigkeit" resultiert, sondern von der Architekturgestaltung abhängt, die mehrere optische Freiheitsgrade gleichzeitig nutzt.
Diese Übersichtsarbeit führt zu einer konkreteren Frage: Welche Vorteile von Licht nutzen die bestehenden optischen Rechenchips tatsächlich? Welche Freiheitsgrade sind noch nicht wirklich erschlossen?
Das ist der Ausgangspunkt dieser Arbeit.
Basierend auf diesem Gedanken haben das Team von Zhang Xinliang und Dong Jianji aus der Huazhong-Universität für Wissenschaft und Technologie in Zusammenarbeit mit dem Team von Tang Hao und Xu Xiaoyun aus der Shanghai Jiao Tong-Universität ein programmierbares photonisches neuronales Netz in das Innere eines Glases geschrieben und einen dreidimensionalen optischen Rechenkern aufgebaut.
Die entsprechende Arbeit wurde unter dem Titel "Programmable Three-dimensional Photonic Neural Network Chip" in Nature Communications veröffentlicht.
Dieser Chip ermöglicht die direkte optische Verarbeitung von zweidimensionalen Bildern auf dem Chip: Die Genauigkeit der MNIST-Handschriftlich-Ziffern-Klassifizierung erreicht 93%, die Fidelität der optischen Mustererzeugung auf dem Chip beträgt 94%, und die theoretische Rechenleistung erreicht 6554 TOPS.
Der Kern dieser Arbeit besteht nicht darin, eine optische Matrix etwas größer zu machen, sondern darin, eine neue Architekturkette zu validieren:
Zweidimensionale Raum-Eingabe → Dreidimensionale Lichtfeldmischung → Programmierbare Phasenregulierung → Neuronales Netz-Inferenz auf dem Chip.
Wo liegen die Probleme bei den bestehenden Lösungen?
Das photonische neuronale Netz wird seit über dreißig Jahren erforscht.
In den letzten Jahren sind auf ebenen Plattformen wie Siliziumphotonik, Dünnschicht-Niobat und Siliziumnitrid zahlreiche hervorragende Arbeiten entstanden. Die Wissenschaftsgemeinschaft und die Branche sind sich bereits lange einig, dass "Licht Matrixoperationen durchführen kann".
Aber wenn das optische Rechnen wirklich in die Massen-KI-Inferenz eingehen soll, kann es nicht nur auf einer kleinen optischen Einheit bleiben.
Es muss eine systematischere Frage beantworten: Wie gelangen Daten in den Chip? Wie werden die Kanäle erweitert? Wie wird die Interkonnektion organisiert? Wie können die mehrdimensionalen Freiheitsgrade von Licht in eine trainierbare, herstellbare und erweiterbare Rechenarchitektur umgewandelt werden?
Die zweidimensionale 2D-Struktur stößt bei der Größenerweiterung auf drei sehr direkte Probleme.
Problem 1: Die Beschränkung der Eingabedimension
Daten aus der realen Welt – Bilder, Videoframes, Sensorarrays – haben von Natur aus eine zweidimensionale oder sogar höherdimensionale Raumstruktur. Aber die Eingangschnittstellen vieler planarer photonischer Chips sind im Wesentlichen immer noch eine begrenzte Anzahl von Chip-Kanälen.
Um ein zweidimensionales Bild in den Chip zu bringen, müssen die Daten oft zuerst aufgefaltet, wiederverwendet oder seriellisiert werden, bevor sie in den Rechenkern gelangen.
Das ist ähnlich wie das Rollen eines Bildes zu einer Linie und das Einführen in ein Rohr. Das Problem ist nicht nur die langsamere Eingabegeschwindigkeit, sondern vor allem, dass die räumliche Nachbarschaftsbeziehung und die parallele Struktur der Daten bereits vor dem Eintritt in den Chip neu angeordnet werden.
Licht könnte eigentlich die Raumkanäle direkt nutzen, um Informationen parallel zu verarbeiten, aber die planare Eingabemethode komprimiert diesen Vorteil zuerst.
Problem 2: Die Beschränkung der Interkonnektion auf dem Chip
Nachdem die Daten in den Chip gelangt sind, müssen die Lichtsignale zwischen den verschiedenen Rechenmodulen weitergeleitet, gekoppelt und gemischt werden.
Für kleine Bauelemente ist dies nicht schwierig. Aber wenn die Anzahl der Kanäle zunimmt, wird die Anordnung der Wellenleiter in der zweidimensionalen Ebene schnell überfüllt.
In planaren Chips müssen viele Verbindungen in derselben Schicht umgeleitet oder gekreuzt werden. Die Umleitung erhöht die Pfadlänge und den Verlust, und die Kreuzung bringt Störungen und zusätzliche Einfügedämpfungen mit sich. Je größer die Matrixgröße und je komplexer die Interkonnektionsbeziehungen sind, desto schwieriger ist es, diese Probleme zu vermeiden.
Mit anderen Worten, die planare Struktur kann optische Berechnungen durchführen, aber wenn die Verbindungsbeziehungen dicht werden, wird der zweidimensionale Raum selbst zu einer Einschränkung.
Problem 3: Die Beschränkung der Größenerweiterung
Der eigentliche Vorteil des optischen Rechnens liegt in der Massenparallelen linearen Berechnung.
Aber um die Größe weiter zu vergrößern, muss nicht nur die Anzahl der Rechenmodule erhöht werden, sondern auch die Anzahl der Eingangs- und Ausgangskanäle, der Regulierungseinheiten, der Ausleseports und der Verkapselungsschnittstellen.
In der zweidimensionalen Ebene konkurrieren all diese Ressourcen um die gleiche Chipfläche.
Die Eingänge und Ausgänge benötigen den Rand, die Modulatoren und Elektroden benötigen die Oberfläche, die Wellenleiter benötigen den Routingraum, und die Detektion und das Auslesen benötigen auch Schnittstellen. Mit zunehmender Größe kommt die Einschränkung nicht mehr von einem einzelnen Bauelement, sondern von der Überfüllung des gesamten planaren Systems.
Das Problem der planaren Struktur liegt also nicht darin, dass ein einzelner Schritt "nicht gut genug" ist, sondern darin, dass die Eingabe, die Interkonnektion, die Regulierung und die Verkapselung alle in demselben zweidimensionalen Raum zusammengepresst werden. Je größer die Größe, desto deutlicher wird diese geometrische Einschränkung.
Hinter diesen drei Problemen verbirgt sich tatsächlich dieselbe Tatsache:
Viele photonische Chips organisieren das Licht immer noch auf zweidimensionaler Ebene, während Licht eigentlich im dreidimensionalen Raum ausbreiten, koppeln und rekonstruieren kann.
Hier ist auch eine tiefere Frage involviert: Warum ist die Dreidimensionalität für Licht möglicherweise natürlicher als für Elektronen?
Das elektronische Rechnen geht auch in die Dreidimensionale Richtung, beispielsweise mit HBM, Chiplet, TSV und fortschrittlicher Verkapselung. Aber die dreidimensionale Erweiterung von Elektronen dient hauptsächlich dazu, das Abstandsproblem zwischen Berechnung, Speicherung und Interkonnektion zu lindern.
Selbst in der Dreidimension müssen die elektrischen Interkonnektionen immer noch mit Widerstand, Kapazität, Lade- und Entladevorgängen, Wärmemanagement und Synchronisierungskomplexität fertig werden. Die hochdichte Stapelung kann einige Pfade verkürzen, aber diese grundlegenden Kosten werden nicht beseitigt.
Licht steht vor einer anderen Art von Einschränkung. Es hat zwar auch technische Herausforderungen, aber in transparenten Medien kann das Lichtsignal die Informationen über die dreidimensionale Raumrouting, die Modenkopplung und die Mehrkanalparallelität organisieren, ohne wie die elektrische Interkonnektion auf die Massen-Leitungs-Lade- und Entladevorgänge angewiesen zu sein.
Das ist der Unterschied zwischen dem dreidimensionalen optischen Rechnen und dem zweidimensionalen planaren photonischen Chip sowie der traditionellen elektrischen Interkonnektionsarchitektur.
Aber das dreidimensionale optische System hat auch seit langem seine eigenen Probleme: Die freie Raumoptik ist voluminös, die Justierung ist schwierig und es ist empfindlich gegenüber der Umgebung, sodass es schwierig ist, ein echtes Chip-System zu werden.
Der Kern dieser Arbeit liegt genau hier:
Unter Beibehaltung der Chip-Level-Integration wird der dreidimensionale Raumfreiheitsgrad wirklich in das photonische Rechnen eingeführt.
Diese beiden Dinge galten bisher als schwer vereinbar.
Warum Glas und warum dreidimensional?
Im Gegensatz zur Branche, die Glas hauptsächlich für die elektrische Interkonnektion in fortschrittlichen Verkapselungen verwendet, wird in dieser Forschungsarbeit das Glas selbst zum Raum, in dem die Berechnung stattfindet –
Der Prozess der Ausbreitung, Kopplung und Neuverteilung von Licht im Inneren des Glases übernimmt direkt die lineare Berechnungsfunktion.
Dieser Gedanke ist in der Systemlogik mit den Richtungen wie CPO und optoelektronischer Integration konsistent: Die Grenzen der Systemfunktionen, die von der Verkapselung übernommen werden, werden erweitert, und diese Arbeit bietet eine frühe Prototypvalidierung, dass Glas von der Interkonnektionsplattform aus weiter Berechnungsfähigkeiten entwickeln kann.
Mit der Femtosekunden-Laser-Strichschreibtechnik kann ein ultrakurzer Laserpuls in das Innere eines transparenten Glases fokussiert werden, um die Brechzahl in der Nähe des Fokus lokal zu ändern und so Wellenleiter in das Material zu schreiben, als würde man direkt die dreidimensionale Bahn des Lichts im Inneren des Glases zeichnen.
Der traditionelle planare photonische Chip zeichnet die Lichtwege auf einem Blatt Papier; dieser Chip verwandelt dieses Blatt Papier in ein transparentes Volumen.
Das Licht kann nicht mehr nur entlang der Oberfläche umherlaufen, sondern kann zwischen verschiedenen Tiefen ausbreiten, koppeln und rekonstruieren. Daher liegt die Bedeutung dieser Arbeit nicht nur in der Änderung des Materials, sondern in der Änderung der geometrischen Organisationsweise des Rechenkerns.
Was hat das Forschungs-Team konkret gemacht?
Der Kernarchitektur des Chips besteht aus einer alternierenden Kaskade von dreidimensionalen photonischen Laternen-Wellenleiterarrays und programmierbaren Phasenschieberarrays. Insgesamt gibt es 8 Kaskadenschichten, die ein dreidimensionales optisches Netzwerk mit einer 8×8-zweidimensionalen Array-Eingabe und -Ausgabe ermöglichen.
Hier gibt es zwei Schlüsselmodule: das dreidimensionale photonische Laternen-Modul und das Phasenschieber-Array.
Die Funktion des dreidimensionalen photonischen Laternen-Moduls besteht darin, dass das Licht im Volumenraum des Glases über mehrere Kanäle ausbreitet, koppelt und neu verteilt wird.
Es ist kein einfacher Leistungsteiler, der ein Lichtstrahl mechanisch gleichmäßig in mehrere Strahlen teilt;
Genauer gesagt, durch die kontinuierliche Kopplung zwischen den dreidimensionalen Wellenleitern wird das eingehende Lichtfeld zwischen mehreren Raumkanälen gemischt, um eine lineare optische Transformation mit mehreren Ports zu bilden.
Aus der Perspektive des neuronalen Netzes entspricht dieser Prozess der linearen Mischung in der Matrixberechnung durch die Ausbreitung und Kopplung von Licht. Der Unterschied besteht darin, dass die Verbind