Beobachtungen eines erfahrenen CPU-Architekten
Mit dem Fortschritt der Prozesstechnik wird das Potenzial zur Verbesserung der Leistung und der Transistordichte zunehmend durch die Leistungsaufnahme und die Wärmeableitung eingeschränkt. Obwohl Innovationen in Materialien, Interkonnektivität und Bauelementestrukturen weiterhin von entscheidender Bedeutung sind, müssen sie nun eng mit Architekturstrategien kombiniert werden, um die systemweite Effizienz voll auszuschöpfen. Gleichzeitig hat das sprunghafte Wachstum des Rechenbedarfs in der Künstlichen Intelligenz die traditionellen Skalierungskurven überschritten, was den Druck auf Architektur und Prozesstechnik erhöht, um in engen Leistungs- und Wärmeableitungsgrenzen eine beispiellose Leistung zu erzielen.
Dieser Artikel beschreibt, wie die kooperative Gestaltung von Mikroarchitektur und Prozesstechnik auf die zunehmenden Herausforderungen in Bezug auf Wärmedichte, Leistungsaufnahme und Leistungsanforderungen reagieren kann, und fordert die Prozessforscher auf, die Auswirkungen der Architektur in ihre Skalierungspläne aufzunehmen.
Einführung
Das Moore'sche Gesetz ist nicht hinfällig, aber es durchläuft tiefgreifende Veränderungen. Neue Forschungen in vielen Bereichen wie atomarer Materialtechnik, leitfähigen Metallschichten, dreidimensionalen Transistorschichten, Rückseitenversorgung und neuer Hochdichte-3D-Packung treiben die Verkleinerung der Transistoren voran, aber die traditionellen Vorteile der Verkleinerung werden zunehmend durch die Leistungsdichte und die Wärmeableitungsbeschränkungen herausgefordert. Mit der Verkleinerung der Transistoren und der Verbreitung von dreidimensionalen Strukturen steigt die Integrationsdichte stetig, und die Leistungsschranken verschieben sich: Heute sind die Systeme nicht mehr durch die Schaltgeschwindigkeit oder die Anzahl der Transistoren begrenzt, sondern zunehmend von der Fähigkeit abhängig, Energie und Wärme effizient zu verwalten.
Gleichzeitig hat das sprunghafte Wachstum der KI-Workloads – gekennzeichnet durch riesige Modelle, rechenintensive Trainingsverfahren und geringe Latenzzeiten bei der Inferenz – den Rechenbedarf um Größenordnungen erhöht und den Druck auf die Leistungsaufnahme und die Wärmeableitung in Rechenzentren und Edge-Geräten weiter verstärkt.
In dieser neuen Ära kann die Innovation in der Mikroarchitektur nicht mehr als sekundäre Optimierung angesehen werden, sondern muss parallel zur Prozesstechnik entwickelt werden. Die Stromversorgung, die Wärmeverwaltung und die Rechenleistung müssen auf Geräte- und Systemebene in ihrer Gesamtheit berücksichtigt werden. Dieser Artikel vertritt eine kooperative Sichtweise: Wie können die sich ständig ändernden Anforderungen der Mikroarchitektur die Entwicklung der Prozesstechnik leiten, und wie können Prozessinnovationen auf Architekturebene vollständig berücksichtigt werden, um in eine tatsächliche Leistungssteigerung umgesetzt zu werden?
Wärmedichte
A. Höhere Integrationsdichte erhöht die Wärmedichte.
Die Wärmedichte wird als Leistung pro Flächeneinheit definiert, und die schnelle Verkleinerung der Fläche erhöht die Wärmedichte. Kleinere Strukturgrößen und eine höhere Integrationsdichte können zwar die Leistung verbessern, aber auch die lokale Wärmeentwicklung erhöhen. Fred Pollack sagte in seiner Keynote-Vorlesung auf der MICRO32 in 1999 (Abbildung 1), dass die Leistungsdichte die der Heizplatten bereits überschritten habe und erwarte, dass sie die Stufe von Kernreaktoren erreichen würde.
Debbie Marr zeigte in ihrer Keynote-Vorlesung auf der MICRO56 in 2024 (Abbildung 2), dass die Leistung der Intel-Core-Prozessoren heute diesen Wert bereits überschreitet. Obwohl die Aussagen über die Leistungsdichte von Kernreaktoren oft umstritten sind, besteht kein Zweifel daran, dass heutige Siliziumchips in kürzester Zeit die kritische Temperatur erreichen können.
Die Siliziumchips erwärmen sich so schnell von der sicheren Temperatur auf die kritische Temperatur, dass von Anfang an Wärmesensoren und Wärmeableitungsmaßnahmen berücksichtigt werden müssen. Die Wärmeableitungsprobleme, die früher nur in Hochleistungs-Systemen auftraten, betreffen heute auch Mainstream-Geräte und Mobilgeräte.
B. Grenzen der traditionellen Wärmeverwaltung
Traditionelle Wärmeableitungsstrategien wie Kühlkörper und Lüfter sind nicht mehr ausreichend. Flüssigkeitskühlung, Heatpipes und neue Phasenwechselmaterialien helfen zwar, aber diese Wärmeableitungslösungen weisen Einschränkungen in Bezug auf Kosten, Zuverlässigkeit und Größe auf. Daher sind Mikroarchitektur und Chiplayout zu den wichtigsten Werkzeugen für die Wärmeverwaltung geworden.
C. Architekturstrategien zur Unterstützung der Wärmeverwaltung
Mikroarchitekten verwenden heute verschiedene Techniken, um Wärmespitzen zu verteilen und zu vermeiden. Diese Techniken umfassen:
- Wärmeempfindliche Layoutplanung: Platzierung von Logik mit geringer Aktivität in der Nähe von Modulen mit hoher Aktivität, um die Wärmeverteilung zu verbessern.
- Entlastung von Wärmespitzen durch Replikation: Replikation von wärmeerzeugender Schlüssellogik und Rotation der Aktivität, um eine lokale Kühlung zu erreichen.
- Sensor-gesteuerte Steuerung: Einbau von Temperatursensoren, um die Arbeitslast und die Spannungs-/Frequenzeinstellungen dynamisch und schnell anzupassen.
- Nutzung der Fläche zur Wärmeableitung: Anstatt nur die Fläche zu minimieren, wird die Fläche genutzt, um die Leistung räumlich zu verteilen und die Spitzentemperatur zu senken.
Energieeffiziente Leistung
A. Leistung und Leistungsaufnahme: Spannungsregelungsdiagramm
Abbildung 2 zeigt die Leistung-Leistungsaufnahme-Kurve einer CPU-Entwicklung.
Hierbei werden Leistung und Leistungsaufnahme durch die folgende Beziehung gesteuert:
Hierbei bezeichnet IPC die durchschnittliche Anzahl von Befehlen pro Zyklus oder die Rate, mit der der CPU-Kern Befehle ausführt. C ist die durchschnittliche dynamische Kapazität, die die Transistoren in der Entwurf während der Programmausführung benötigen, um zu schalten, und V ist die an die Transistoren angelegte Spannung. Der Spannungsskalierungsbereich der Kurve ist der Bereich, in dem die meisten CPU-Kerne Befehle ausführen. Die Spannungsskalierung zeigt, wie sich die Leistung mit zunehmender Spannung (aufgrund einer höheren Frequenz) verbessert, aber die Leistungsaufnahme exponentiell steigt, was die Notwendigkeit von Prozesstechniken zur Reduzierung von Leckströmen und Kapazität unterstreicht. Abbildung 4 zeigt ein Wärmebild des Chips, in dem heiße und kalte Stellen zu sehen sind.
B. Fortschritte in der Prozesstechnik
Wie in Abbildung 5 gezeigt wird, ermöglichen die Fortschritte in der Prozesstechnik eine höhere Leistung bei gleichbleibender Leistungsaufnahme (z. B. durch schnellere Transistoren, reduzierte Kapazität) sowie eine niedrigere Leistungsaufnahme bei gleichbleibender Leistung (z. B. durch Materialien mit geringem Leckstrom und gestapelte Bauelemente).
Allerdings kann eine aggressive Verkleinerung die Wärmedichte erhöhen, weshalb architektonische Gegenmaßnahmen erforderlich sind. Die Prozessforscher müssen erkennen, dass Material- und Layoutinnovationen, die die Wärmeleitfähigkeit verbessern und nicht-uniforme Spannungsbereiche unterstützen, die Schlüsseltreiber für die nächste Generation von Architekturen sind.
C. Leistungseigenschaften der Mikroarchitektur
Wie in Abbildung 6 gezeigt wird, kann die Hinzufügung von Leistungseigenschaften zur Mikroarchitektur eine höhere Leistung ermöglichen, z. B. durch größere Strukturen oder mehr geschichtete Strukturen. Normalerweise erhöht auch die Erhöhung der Kapazität die Leistung.
Wie in Abbildung 7 gezeigt wird, kann durch die Vereinfachung der Mikroarchitektur (kleinere Strukturgrößen, weniger Spekulation) die Fläche verkleinert werden, was die Ziel-Frequenz senkt und somit die Kapazität und den Leckstrom verringert (wenn Kapazität und Leckstrom in der gesamten Systemgestaltung von entscheidender Bedeutung sind).
Die Kombination von Hochleistungs- und Niedrigleistungs-CPU-Kernen ist eine effektive Methode, um die erforderliche Leistung und die Gesamtleistungsaufnahme des Systems zu optimieren.
Systemweite Skalierung
A. Amdahlsches Gesetz und Skalierbarkeit von Mehrprozessorsystemen
Abbildung 8 zeigt die Beschränkungen des Amdahlschen Gesetzes auf die Skalierbarkeit der Leistung von Mehrprozessorsystemen. Parallele Programme enthalten normalerweise serielle und parallele Ausführungsbereiche. Das Amdahlsche Gesetz besagt, dass die Leistung eines parallelen Programms asymptotisch einem Grenzwert zustrebt, der durch den seriellen Teil des Programms bestimmt wird.
Abbildung 9 zeigt die Skalierbarkeitsbeschränkungen von Mehrprozessorsystemen, die durch geteilte Hardware- und Software-Ressourcen (z. B. Sperren, Caches, Speicher, Netzwerklatenz und -bandbreite) verursacht werden. Obwohl die Prozessknoten es ermöglichen, mehr Kerne auf einem Chip unterzubringen, beschränken das Amdahlsche Gesetz und die Skalierbarkeit von Mehrprozessorsystemen die Leistung, die bei realen Workloads erreicht werden kann. Tatsächlich überschreitet die Skalierbarkeit von Mehrprozessorsystemen für Ganzzahl-Workloads selten 0,97 und für Gleitkomma-Workloads selten 0,90, wie in Abbildung 9 gezeigt wird.
Ein weiterer wichtiger Aspekt ist die Auslastung der aktiven Kerne unter typischen Workloadbedingungen. Tatsächlich verteilt sich die Workload auf die Kerne normalerweise wie in Abbildung 10 gezeigt, wenn verschiedene Workloads gemessen werden. Am häufigsten ist nur ein Kern aktiv. Als nächstes folgen der Fall, dass alle Kerne aktiv sind, und dann die Fälle, dass 2, 3 usw. Kerne aktiv sind.
B. Auswirkungen auf die Prozessorentwicklung
Die Leistungsaufnahme und die Bandbreite werden von der Anzahl der aktiven Kerne geteilt, die sich dynamisch ändern kann. Dies hat Auswirkungen auf die Anzahl, den Typ und die Mikroarchitekturoptimierungen der verschiedenen Kernarten. Die in Abschnitt II beschriebenen Wärme- und Leistungsbeschränkungen sowie die Lösungen können auch auf das gesamte System angewendet werden, um es für verschiedene Workload-Szenarien zu optimieren.
Die Schlüsselforschungsrichtungen in der Prozesstechnik stimmen mit den Anforderungen der Architektur überein
Um die Ziele der Architektur zu unterstützen, sind die folgenden Forschungsbereiche in der Prozesstechnik von entscheidender Bedeutung:
- Materialien mit geringem Leckstrom und geringer Kapazität: Unterstützen die Frequenzskalierung, ohne dass die Leistungsaufnahme unkontrolliert steigt.
- Wärmeempfindliche 3D-Integration: Verwalten des vertikalen Wärmeflusses in gestapel