ASIC - Der Retter: Die Lösung für Ihre Bedürfnisse

Mit der ständigen Annäherung von KI an die physische Welt besteht die Hoffnung, dass auf Physik basierende ASICs in Zukunft der KI eine physische Verkörperung bieten können.

Der steigende Bedarf an künstlicher Intelligenz (KI) hat eine ernste "Rechenkrise" aufgedeckt, die durch nicht nachhaltigen Energieverbrauch, hohe Trainingskosten und die Annäherung an die Grenzen der herkömmlichen Technologie zur Verkleinerung von komplementären Metalloxid-Halbleitern (CMOS) gekennzeichnet ist. "Physikbasierte anwendungsspezifische integrierte Schaltungen (ASIC)" bieten ein revolutionäres Paradigma, das die inhärenten physikalischen Dynamiken direkt für die Berechnung nutzt, anstatt Ressourcen aufzuwenden, um idealisierte digitale Abstraktionen zu erzwingen.

Indem man die von herkömmlichen ASICs erforderlichen Beschränkungen, wie z. B. zwangsweise zustandslose Operation, Einseitigkeit, Determinismus und Synchronität, lockert, sollen diese Geräte als genaue Umsetzung physikalischer Prozesse funktionieren, wodurch sich eine deutliche Verbesserung der Energieeffizienz und der Rechenleistung ergibt. Dieser Ansatz ermöglicht neuartige kooperative Entwurfstrategien, die die Algorithmenanforderungen mit den inhärenten Rechenprimitiven des physikalischen Systems in Einklang bringen.

Physikbasierte ASICs können wichtige KI-Anwendungen beschleunigen, wie z. B. Diffusionsmodelle, Sampling, Optimierung und neuronale Netzwerkinferenz, sowie traditionelle Rechenlasten wie Simulationen in den Material- und Molekularwissenschaften. Letztendlich weist diese Vision auf eine Zukunft hin, in der heterogene, hoch spezialisierte Rechenplattformen die derzeitigen Skalierungsengpässe überwinden und neue Frontiers der Rechenleistung und -effizienz eröffnen.

Einführung: Die Rechenkrise

In den letzten zehn Jahren hat die rasante Expansion von KI-Anwendungen den Bedarf an Recheninfrastruktur erheblich erhöht und die zentralen Grenzen des zugrunde liegenden Hardwareparadigmas aufgedeckt. Die Infrastruktur, die die KI-Modelle unterstützt, war nie für heutige Skalen, Komplexität oder Energiebedarf ausgelegt. Daher führt der aktuelle Rechenstapel zu einer starken Ineffizienz bei der Nutzung der physikalischen Rechenleistung in heutigen Hardware-Systemen.

Die traditionelle Skalierung stößt auf vielfältige Grenzen:

1. Der Energiebedarf von KI wächst nicht nachhaltig, wie in Abbildung 1(a) gezeigt. Rechenzentren, die Kernstück der KI-Betriebe sind, verbrauchten 2023 etwa 200 Terawattstunden (TWh) an Strom. Prognosen deuten darauf hin, dass dieser Wert bis 2026 auf 260 Terawattstunden steigen könnte, was etwa 6 % des gesamten Strombedarfs in den Vereinigten Staaten ausmachen würde.

Abbildung 1. Geschätzte Rechenenergieverbräuche und Angebot und Nachfrage an Rechenleistung. Obwohl die "Rechenkrise" vielfältige Aspekte hat, sind zwei Schlüsselaspekte: (a) der stetig steigende Rechenenergieverbrauch; (b) die zunehmende Lücke zwischen Angebot und Nachfrage an Rechenleistung (hier am Beispiel des Trainings von KI-Modellen gezeigt). In den letzten Jahren wurden diese beiden Probleme weitgehend durch die KI-Revolution angetrieben. Die Abbildungen (a) und (b) sind jeweils aus den Referenzen [3] und [4] übernommen.

2. Die Rechenkosten steigen stark an, was den Zugang konzentriert. Die Entwicklung von führenden KI-Modellen hat die Trainingskosten erheblich erhöht. Es wird geschätzt, dass die Kosten für die größten Trainingsläufe bis 2027 über eine Milliarde US-Dollar betragen werden. Dies steht in natürlicher Beziehung zur in Abbildung 1(b) gezeigten Lücke zwischen Angebot und Nachfrage.

3. Mit der Verkleinerung der Transistoren auf die Nanometerskala nähern sich die langjährigen Skalierungsgesetze - das Mooresche Gesetz und das Dennard-Gesetz - ihren Grenzen. Mikroskopische Effekte wie Zufälligkeit, Leckströme und Variabilität machen es schwierig, zuverlässige Operationen auf dieser Skala zu realisieren. Wir können die Schwellenspannung nicht mehr wie in der Vergangenheit verringern, was zu einer höheren Leistungsdichte führt, die wiederum zu einer Erwärmung führt und die Taktfrequenz und die Laufzeit einschränkt.

Diese Grenzen behindern nicht nur die Leistungssteigerung, sondern offenbaren auch tiefere Ineffizienzen: Die heutigen universellen Architekturen nutzen das physikalische Potenzial der Hardware nicht aus. Die Abstraktionsschichten, die für die Verwaltung der Komplexität entwickelt wurden, sind heute zu Engpässen geworden, insbesondere in Bezug auf Energieeffizienz und Rechenleistung. Ohne eine Veränderung des Rechenparadigmas besteht die Gefahr eines Innovationsstagnations, steigender Energiekosten und einer Konzentration der KI-Fähigkeiten in den Händen einiger großer Unternehmen und staatlicher Institutionen.

Physikbasierte anwendungsspezifische integrierte Schaltungen (ASIC) bieten eine revolutionäre Methode, indem sie physikalische Phänomene für die Berechnung nutzen, anstatt sie zu unterdrücken. Indem man die Hardwareentwicklung mit den inneren Eigenschaften physikalischer Systeme in Einklang bringt, können diese ASICs die Effizienz verbessern, den Energieverbrauch verringern und den Zugang zu KI- und Rechenressourcen verbreiten.

Was sind physikbasierte ASICs?

A. Motivation

Wenn wir die Rechenleistung verbessern möchten (z. B. den Energieverbrauch reduzieren oder die Zeit verkürzen), können wir effizientere Algorithmen für idealisierte universelle Hardware entwickeln, schnellere oder effizientere Hardware schaffen (egal ob universell oder anwendungsspezifisch) oder Algorithmen und Hardware gemeinsam entwickeln, um die erzielte effektive Rechenleistung zu maximieren. Obwohl es in den Forschungsgebieten der modernen Informatik und Ingenieurwissenschaften viele Ausnahmen gibt, haben sich die Bemühungen zur Verbesserung der Rechenleistung in den letzten fünfzig Jahren hauptsächlich auf die ersten beiden Wege konzentriert, nämlich universelle Rechenhardware und hoch abstrakte Softwareentwicklungstrategien, die die stetig wachsenden Softwareanwendungen und die moderne digitale Wirtschaft ermöglicht haben.

Dennoch sind spezialisierte Hardwarekomponenten wie Grafikprozessoren (GPU) immer noch der Schlüsselmotor für die jüngsten Fortschritte in der Rechentechnik. Die impliziten algorithmischen Vorlieben der Hardware haben seit langem die Erfolgsaussichten von Algorithmen beeinflusst.

War es ein Zufall, dass die beliebtesten Algorithmen in der Maschinellen Lerntechnik hauptsächlich Matrixmultiplikationen betreffen und GPUs in dieser Operation besonders effizient sind? Sicher nicht: Diese Algorithmen erzielen eine hervorragende Übereinstimmung zwischen Software und Hardware, was es ihnen ermöglicht, gut zu skalieren und bessere Ergebnisse zu erzielen als Algorithmen, die die GPU nicht effektiv nutzen. Dieser allgemeine Trend, dass die gemeinsame Optimierung von Algorithmen unbewusst von den Eigenschaften der vorhandenen Hardware geleitet wird, wird als "Hardwarelotterie [5]" bezeichnet. Die Bedeutung der Hardwarelotterie zeigt, dass die gemeinsame Entwicklung von Software und Hardware unvermeidlich ist, sei es bewusst oder unbewusst.

Die Idee hinter physikbasierten ASICs besteht im Wesentlichen darin, diesen hauptsächlich unbewussten Trend in eine vollkommen bewusste und prinzipielle Vorgehensweise umzuwandeln: Es geht darum, Algorithmen und Hardware bewusst von der niedrigsten physikalischen Ebene der verfügbaren, skalierbaren Hardwareinfrastruktur aus gemeinsam zu entwickeln. Ähnlich wie die dichten Matrixmultiplikationen in Transformern sich geschickt an die Vorlieben von GPUs anpassen, können wir auch Algorithmen und elektronische Chips entwickeln, die die tieferen Vorlieben der Physik von Silizium-Elektronikschaltungen nutzen (und somit eine größere Skalierbarkeit ermöglichen)?

Natürlich ist dies kein "kostenloses Mittagessen": Es wird die Entwicklung neuer Algorithmen und Hardware erfordern, die sich von denen unterscheiden, die die meisten modernen Informatiker entwerfen, und die Details voneinander berücksichtigen müssen. Andererseits könnte uns dieser Weg ermöglichen, die moderne Rechenhardware effizienter zu nutzen als heute. Wie viel Effizienz kann verbessert werden? Das ist schwer zu sagen, aber wir können einige Hinweise erhalten, indem wir uns die Frage stellen, wie Abstraktion die Kosten von digitalen Analogschaltungen beeinflusst. Beispielsweise führt ein physikalisches Gerät, das eine einfache CMOS-Inverter-Schaltung ausführt, wenn es als binäre Logikschaltung abstrahiert wird, pro Taktzyklus eine binäre Operation aus. Wenn wir stattdessen die transiente (und analoge) Dynamik der Schaltung, aus der es besteht, simulieren, erfordern typische numerische Methoden (z. B. die in SPICE verwendeten) möglicherweise Millionen von Gleitkommaoperationen. Wenn wir jeden Transistor detailliert modellieren (wie dies häufig in der Entwurfsphase geschieht), müssen wir zwangsläufig ein System von partiellen Differentialgleichungen in 3 + 1 Dimensionen lösen, was Milliarden oder gar Billionen von Gleitkommaoperationen erfordert (nur für einen Taktzyklus). Offensichtlich kann die physikalische Ebene, auf der wir ein physikalisches System abstrahieren, die Anzahl der äquivalenten digitalen Logikschaltungen beeinflussen. Dies ist jedoch nur ein Teil der Herausforderung: Nur weil die Simulation eines physikalischen Systems auf einer bestimmten Abstraktionsebene teuer ist, bedeutet dies nicht zwangsläufig, dass wir dasselbe physikalische System und dieselbe Abstraktion nutzen können, um andere interessante Berechnungen durchzuführen. Dies ist die Kernherausforderung von physikbasierten ASICs: Die Entwicklung von Abstraktionen, Algorithmen und Hardwarearchitekturen, die es uns ermöglichen, die physikalische Rechenleistung der heute hoch skalierbaren elektronischen Schaltungen effizienter und vollständiger zu nutzen, indem wir die physikalischen Gesetze der zugrunde liegenden Hardware besser respektieren.

B. Definition

Allgemein gesprochen sind physikbasierte ASICs ASICs, die auf den natürlichen physikalischen Dynamiken eines Systems beruhen, um nicht triviale Operationen auf Daten auszuführen. Diese Definition ist etwas vage; da alle Schaltungen physikalischen Gesetzen folgen, erfolgt jede Berechnung in gewisser Weise durch die natürliche Entwicklung eines Rechensystems.

Dennoch versucht die traditionelle ASIC-Entwicklung, bestimmte physikalische Effekte zu unterdrücken oder zu abstrahieren, um ein idealisiertes, symbolisches Rechenmodell zu erreichen. Dadurch stützt sie sich auf eine Reihe von Annäherungen, die es ermöglichen, komplexe Systeme aus einfachen, idealisierten Komponenten zu konstruieren.

Einer der wichtigsten Annäherungen ist:

1. Zustandslosigkeit: In herkömmlichen ASICs besteht in der Regel eine klare Trennung zwischen Speicher und Berechnung, die von unabhängigen Komponenten an verschiedenen Stellen bearbeitet werden. Komponenten, die nicht für die Speicherung von Informationen zuständig sind, werden davon ausgegangen, dass ihre Ausgabe nur von der aktuellen Eingabe abhängt, nicht von der vorherigen Historie. Beispielsweise sollte ein NOT-Gatter den aktuellen Wert seiner Eingabe umkehren, unabhängig von den früheren Werten.

2. Einseitigkeit: Die Grundkomponenten herkömmlicher ASICs sind so konzipiert, dass sie Informationen in einer einzigen Richtung weiterleiten; sie haben festgelegte Eingangs- und Ausgangsports. Beispielsweise sollte ein NOT-Gatter auf Änderungen an der Eingangsseite reagieren, aber seine Ausgabe sollte die Eingabe nicht beeinflussen. Aus diesem Grund erfordert das Erstellen von Rückkopplungsschleifen in herkömmlichen ASICs, dass die Ausgabe eines Moduls explizit mit seiner Eingabe verbunden wird.

3. Determinismus: Bei gleichen Eingaben und Anfangsbedingungen wird erwartet, dass die Schaltung jedes Mal dieselbe Ausgabe produziert.

4. Synchronität: In der Regel werden die Signale verschiedener Teile eines herkömmlichen ASICs anhand eines zentralen Taktes miteinander synchronisiert.

Diese Eigenschaften können im strengen Sinne nicht physikalisch realisiert werden: Reale Komponenten zeigen Gedächtniseffekte, Rückkopplungen, Rauschen und thermische Schwankungen. Das Erzwingen dieser idealen Verhaltensweisen bringt Kosten in Bezug auf Energie, Verzögerung oder Komplexität mit sich, und diese Kosten steigen mit der Genauigkeit der Annäherung.

Physikbasierte ASICs sind dagegen so konzipiert, dass sie ohne diese Eigenschaften (oder zumindest ohne einige von ihnen) funktionieren. Im Gegensatz zu herkömmlichen ASICs sind diese Geräte so konzipiert, dass sie Zustandsabhängigkeit, Zweiseitigkeit, Nichtdeterminismus und Asynchronität nutzen (oder zumindest tolerieren), wie in Abbildung 2 gezeigt. Daher ist die Berechnung auf physikbasierten ASICs keine Annäherung an einen nicht-physikalischen Prozess, sondern die Umsetzung eines physikalischen Prozesses.

Abbildung 2. Herkömmliche ASICs im Vergleich zu physikbasierten ASICs. Wie gezeigt, trennen herkömmliche ASICs Speicherung und Berechnung und gehen davon aus, dass die Berechnungskomponenten zustandslos sind. Ein einzelnes Logikgatter leitet Informationen einseitig weiter, mit speziellen Eingangs- und Ausgangsenden. Um eine Rückkopplungsschleife zu erstellen, muss die Ausgabe explizit auf die Eingabe zurückgeführt werden. Physikbasierte ASICs können dagegen zustandsabhängige Berechnungskomponenten enthalten und weisen eine zweiseitige Informationsfluss zwischen den Kopplungen auf.

Aufgrund des Fehlens der vereinfachenden Annahmen, die in herkömmlichen ASICs vorhanden sind, ist das Verhalten von physikbasierten ASICs in der Regel komplexer und schwerer zu analysieren. Dennoch haben die Schaltungskomponenten in physikbasierten ASICs auch eine breitere Palette von Möglichkeiten, wenn sie Operationen ausführen. Daher können physikbasierte ASICs in der Regel mit weniger Komponenten erheblich mehr Berechnungen durchführen. Beispielsweise kann eine Skalarmultiplikation in einem herkömmlichen ASIC mehrere Dutzend bis mehrere hundert Transistoren erfordern, während in einem physikbasierten ASIC nur wenige Komponenten benötigt werden.

C. Plattformen

Viele existierende unkonventionelle Rechenparadigmen können als Beispiele für physikbasierte ASICs angesehen werden. Obwohl es zwischen diesen verschiedenen Ansätzen eine große Vielfalt gibt, unterscheiden sich physikbasierte ASICs von anderen physikbasierten Plattformen (z. B. der Berechnung mit Seifenblasen [6]) durch ihre Skalierbarkeit. Skalierbarkeit und Herstellbarkeit sind die Schlüsselmerkmale dieses aufregenden neuen Bereichs. Hier sind einige Beispiele für diese skalierbaren Plattformen, von denen einige in Abbildung 3 gezeigt sind.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

ASIC, der Retter

Einführung: Die Rechenkrise

Was sind physikbasierte ASICs?

A. Motivation

B. Definition

C. Plattformen