Optische Chips, einige Ansichten
In den letzten Jahren hat die rasanten Entwicklung der generativen Künstlichen Intelligenz weltweit die Deployment-Geschwindigkeit von riesigen KI-Clustern beispiellos beschleunigt. Mit der Verlangsamung des Moore-Gesetzes kann nur durch parallele Berechnung eine höhere Leistung erzielt werden. Daher führt die Verbesserung der Datenverarbeitungs- und/oder -übertragungsleistung zwangsläufig zu einem Anstieg des Energieverbrauchs. Das heißt, das schnelle Wachstum der KI-Infrastruktur hat eine ernste Energiekrise verursacht. Wie in Abbildung 1 gezeigt, wird mit dem exponentiellen Wachstum der Datenmenge auch der erforderliche Energiebedarf exponentiell steigen. In diesem Sinne ist der einzige wirksame Weg, dieses Energieproblem zu lösen, die Entwicklung einer Technologie, die das Energiewachstum vom Datenwachstum trennen kann.
Die Photonik hat ein enormes Potenzial, da die Ausbreitung und Interferenz von Lichtwellen keinen Energieverbrauch erfordern. Somit können skalierbare Funktionen durch Ingenieurkonzepte realisiert werden, ohne den Energieverbrauch zu erhöhen. Die Siliziumphotonik hat in den letzten zwanzig Jahren eine breite Entwicklung erfahren und ist heute in der Lage, eine fast ideale Plattform bereitzustellen, um ihr enormes Potenzial auszuschöpfen. Tatsächlich kann die Siliziumphotonik effiziente hochdichte Interkonnektivitäten bieten, um hohe Bandbreiten und lange Streckenverbindungen zu realisieren; es kann energiesparende Lichtwegumschaltungen ermöglichen, die unabhängig von der Signalebando sind; sowie photonische neuronale Netze für Lichtgeschwindigkeitsberechnungen, um die KI-Berechnung zu beschleunigen.
In diesem Artikel werden wir die Entwicklungstrends und Fortschritte dieser Photoniktechnologien besprechen. Wir werden argumentieren, dass Hardware und Software sowie Elektronik und Photonik komplementär entwickelt werden müssen, damit diese Photoniktechnologien ein wichtiger Bestandteil der nachhaltigen Infrastruktur in der KI-Zeit werden können.
Lichtempfänger/Sender und Schalter
A. Skalierung des Energieverbrauchs
Abbildung 2 zeigt die Energieeffizienz (in pJ/bit) von Lichtempfängern/Sendern und anwendungsspezifischen integrierten Schaltungen (ASIC) für elektrische Schalter, die in riesigen Rechenzentren häufig verwendet werden, im Laufe der Zeit. Durch den Vergleich mit dem Trend der Lichtempfänger/Sender wurde festgestellt, dass die Skalierbarkeit der Schalter-ASICs geringer ist als die der Lichtempfänger/Sender, was darauf hinweist, dass die Engstelle bei den Schaltern und nicht bei den Empfängern/Sendern liegt. Überraschenderweise hat die Energieeffizienz der Lichtempfänger/Sender den Schritt des Moore-Gesetzes eingehalten. Die Energieeffizienz von optischen Bauelementen in der Nähe der Montage/mit gemeinsamer Montage auf Basis der Siliziumphotonik hat bereits 5 pJ/bit überschritten, während die Verbesserung der Energieeffizienz der Schalter-ASICs deutlich langsamer ist.
Tatsächlich steigt der Stromverbrauch von ASIC-Schaltern mit zunehmender Durchsatzleistung. Bei einer Durchsatzleistung von 100 Tbps kann der Stromverbrauch pro Chip über 1000 W betragen; während der Stromverbrauch von optischen Schaltern extrem niedrig ist und bei zunehmender Durchsatzleistung stabil bleibt (Abbildung 3). Daher ist das System umso effizienter, je mehr optische Schalter anstelle von elektrischen Schaltern eingesetzt werden. Im Folgenden werden einige praktische Probleme diskutiert.
B. Systemanwendungsszenarien von optischen Schaltern
Ein wesentlicher Nachteil von optischen Schaltern ist, dass sie keine Paketverarbeitung durchführen können, was gerade die Kernfunktion von ASIC-Schaltern ist. Optische Schalter funktionieren nur als "optische Schaltkreisschalter (OCS: optical circuit switches)" und können daher nicht einfach die ASIC-Schalter ersetzen. Um die OCS zu steuern, wird eine Steuerungsebene benötigt. Der Orchestrator oder das Betriebssystem muss den Zustand der OCS kennen und entsprechende Befehle über die Steuerungsebene senden, um die optischen Schalter gemäß den Systemanforderungen zu steuern. Dieses System unterscheidet sich grundlegend von traditionellen Paketsystemen, die auf anwendungsspezifischen integrierten Schaltungen (ASIC) basieren. Daher muss bei der Verwendung von optischen Kommunikationssystemen (OCS) das gesamte System von Grund auf neu aufgebaut und die Architektur vollständig optimiert werden. Offensichtlich kann derzeit keine andere Firma außer Google dies tun. Nachdem Google angekündigt hat, OCS in seinen Rechenzentren und KI-Infrastrukturen in großem Maßstab eingesetzt zu haben, hat die Entwicklung von optischen Schaltern stark zugenommen.
Lange bevor Google das OCS-System vorgestellt hat, hat das Japanische Nationale Institut für Industrietechnologie (AIST) bereits mit der Entwicklung von großen Siliziumphotonik-Schaltern begonnen. Abbildung 4 zeigt die von AIST entwickelte Siliziumphotonik-Schalterkarte. Der Schalter bietet 32 x 32 streng blockfreie Verbindungen und verfügt über eine digitale Schnittstelle. Durch die Konfiguration eines 9-Stufen-Clos-Netzes kann es auf 131.072 x 131.072 Verbindungen erweitert werden. Experimente haben gezeigt, dass diese Schalter in einer komposierbaren, entkoppelten Infrastruktur den Netzwerkstromverbrauch um 75 % reduzieren können.
Die Fertigungsausrüstung zur Herstellung dieser großen Siliziumphotonik-Schalter ist die interne Pilotproduktionslinie des Japanischen Nationalen Instituts für Industrietechnologie (AIST) auf Basis der Standard-CMOS-Technologie. Diese Technologie verwendet 45-Nanometer-Prozessregeln und erreicht eine ausreichend hohe Homogenität und Ausbeute, um große photonische integrierte Schaltungen mit Tausenden von Bauelementen (z. B. Mach-Zehnder-Interferometern (MZI)) in großem Maßstab herzustellen.
Photonische neuronale Netze
Siliziumphotonische Bauelemente auf Basis der Standard-CMOS-Herstellungstechnologie weisen eine hohe Homogenität und eine hohe Ausbeute auf, was für die Realisierung von photonischen neuronalen Netzen (PNN: photonic neural networks) von entscheidender Bedeutung ist. In einem PNN sind eine große Anzahl von Mach-Zehnder-Interferometern (MZI) integriert, die eine Netzwerktopologie bilden und Matrix-Vektor-Multiplikationen (MVM: matrix-vector multiplications) im optischen Bereich ausführen. Der MVM-Prozess auf dem PNN ist selbst extrem schnell und verbraucht keine Energie, was die Rechenleistung der Künstlichen Intelligenz (KI) erheblich verbessern kann. Daher wird erwartet, dass PNN die Rechenaufgaben von energieintensiven digitalen Prozessoren wie GPUs übernehmen können. Allerdings fehlt den PNN eine gute nichtlineare Aktivierungsfunktion, die eine weitere wichtige Funktion in der KI-Berechnung ist.
Um dieses Problem zu lösen, schlagen wir vor, den elektro-optischen (EO: electro-optic) Nichtlinearitätseffekt zu nutzen, um den KI-Berechnungsprozess nur durch die Ausbreitung zu vollenden, ohne dass eine digitale Verarbeitung in der Zwischenstufe erforderlich ist. Dies kann leicht mit einem Mach-Zehnder-Interferometer (MZI) erreicht werden, das ein elektrisches Signal als Eingang und ein moduliertes optisches Signal als Ausgang hat. Die elektro-optische Nichtlinearität hat eine sinusförmige Übertragungsfunktion, die sich von traditionellen Aktivierungsfunktionen (z. B. ReLU, Sigmoid und Hyperboliktangensfunktion) grundlegend unterscheidet. Daher muss ein neues KI-Modell für die probabilistischen neuronalen Netze (PNN) gefunden werden.
A. Probabilistische neuronale Netze auf Basis der elektro-optischen Nichtlinearität
Derzeit haben wir mehrere KI-Modelle auf Basis der elektro-optischen Nichtlinearität vorgeschlagen und demonstriert, wie folgt: Das erste Modell enthält eine nichtlineare Projektionsabbildung vom Eingangsparameterraum in einen höherdimensionalen Raum. Die elektro-optische Übertragungsfunktion wird durch die Einstellung des Arbeitspunktes des Mach-Zehnder-Interferometers (MZI) trainiert. Die nichtlinear abgebildeten Daten im transformierten optischen komplexen Raum können durch die Suche nach einer Hyperebene getrennt werden, ähnlich wie bei Support-Vektor-Maschinen.
Abbildung 5(a) und 5(b) zeigen jeweils den von uns entwickelten Siliziumphotonik-Chip und die experimentelle Einrichtung. Wir haben auf dem Chip mit den Algorithmen BFO (bacteria foraging optimization) und Vorwärtsdifferenz trainiert und in Abbildung 5(c) ihre Effektivität bei der Klassifizierung mehrerer Boolescher Logiken gezeigt sowie in Abbildung 5(d) ihre hochpräzise Klassifizierung des Iris-Datensatzes. Dieses PNN kann die Berechnung nur durch die physikalische Ausbreitung des Signals in einem passiven photonischen Schaltkreis vollenden, was eine energiearme und verzögerungsarme Berechnung gewährleistet.
Das zweite von uns diskutierte Modell ist eine kaskadierte Version des obigen Modells, nämlich das "vertikal geschichtete elektro-optische probabilistische neuronale Netz" (wie in Abbildung 6 gezeigt). In diesem Modell erhöht sich die Länge aller Lichtwege nicht mit zunehmender Anzahl der Schichten, wodurch tiefere Lernmodelle realisiert werden können.
Abbildung 7 zeigt die Testgenauigkeit der MNIST-, Fashion- und KMNIST-Datensätze. Das dreischichtige Modell hat eine höhere Genauigkeit als das zweischichtige Modell. Das letzte (aber ebenso wichtige) Modell, das wir hier vorstellen, ist das elektro-optische Hopfield-Netz.
Abbildung 8(a) zeigt die von uns vorgeschlagene Architektur, in der ein Mach-Zehnder-Interferometer (MZI) als nichtlineares Neuron fungiert und die Eingangsdaten und das Rückkopplungssignal auf eine monofrequente kontinuierliche Welle (CW) Licht (bezeichnet als λ) kodiert. Abbildung 8(b) zeigt, dass nach dem Training auch für halbzerstörte Eingangsmuster die gespeicherten Muster abgerufen werden können, was den assoziativen Gedächtniseffekt, der für das Hopfield-Netz charakteristisch ist, zeigt.
B. Allgemeines Konzept für fließende PNN
Da der Betrieb eines PNN einen nicht zu vernachlässigenden Aufwand erfordert, muss das gesamte System gründlich bewertet und insgesamt optimiert werden. Andererseits sind die inhärenten Vorteile von PNN geringe Verzögerung, hohe Geschwindigkeit, geringer Energieverbrauch usw. Um diese Vorteile voll auszuschöpfen, funktioniert ein PNN am besten als fließender Prozessor mit sowohl elektrischen als auch optischen Ein- und Ausgängen. Das Konzept eines fließenden PNN ist in Abbildung 9 gezeigt. Mit diesem Konzept kann ein PNN Daten sowohl im elektrischen als auch im optischen Bereich fließend verarbeiten und somit nahtlos in die digitale Infrastruktur integriert werden.
Schlussfolgerung
Die Siliziumphotoniktechnologie hat erhebliche Fortschritte gemacht und zeigt heute in vielen Aspekten ein enormes Potenzial, um die Nachhaltigkeit der KI-Infrastruktur von verschiedenen Seiten wie hochdichten Ein- und Ausgängen, bandbreitenunabhängigen Schaltkreisschaltern und KI-Beschleunigern mit Lichtgeschwindigkeit zu verbessern. Allerdings ist es nicht einfach, photonische Funktionseinheiten (z. B. OCS und PNN) in die traditionelle digitale Infrastruktur zu integrieren. Daher sind in Zukunft tiefere Forschungen zur gesamten Systemgestaltung und -realisierung erforderlich.