StartseiteArtikel

AI-Weltraumwettlauf? Kurz nachdem der NVIDIA H100 in den Weltraum geschickt wurde, will Google mit Project Suncatcher auch seine TPU in den Weltraum bringen.

机器之心2025-11-05 10:17
Die von der Sonne ausgegebene Energie ist 100 Billionen Mal höher als die gesamte menschliche Stromproduktion.

Am 2. November hat NVIDIA erstmals einen H100-GPU in den Weltraum geschickt. Siehe den Bericht "NVIDIA startet den ersten Weltraum-AI-Server, der H100 ist bereits unterwegs". Gerade hat Google angekündigt, dass es auch seine TPU in den Weltraum schicken will.

Dieses Projekt wurde als Project Suncatcher (Projekt Sonnenfänger) benannt. Es ist ein "Design eines skalierbaren Weltraum-basierten AI-Infrastruktursystems". Google-CEO Sundar Pichai sagte, dass dieses Projekt die Energie der Sonne besser nutzen könne, um KI anzutreiben. Schließlich ist die von der Sonne abgegebene Energie 100 Billionen Mal höher als die gesamte menschliche Stromproduktion.

Er sagte: "Wie jedes Mondlandungsprojekt wird es uns viele komplexe Ingenieurhausforderungen lösen müssen. Frühe Studien zeigen, dass unsere Trillium-TPU (unser Tensorverarbeitungselement, speziell für KI entwickelt) den Teilchenbeschleunigertest (der die Strahlung auf niedriger Erdumlaufbahn simuliert) überstehen kann. Dennoch bleiben große Herausforderungen bestehen, wie z.B. die Wärmeverwaltung und die Zuverlässigkeit des Systems im Orbit."

Er kündigte auch den Zeitpunkt des ersten Starts an: Anfang 2027. Damals wird Google zusammen mit der Firma Planet zwei Prototypensatelliten starten.

Dieser Schritt hat natürlich breite Aufmerksamkeit und Diskussionen ausgelöst:

Einige haben auch Google's Veo dazu gebracht, etwas überzogene Vorstellungen zu entwickeln:

Project Suncatcher

Design eines skalierbaren Weltraum-basierten AI-Infrastruktursystems

Project Suncatcher ist eine großartige Erkundung, die darauf abzielt, Solar-Satellitenkonstellationen (eine Gruppe von künstlichen Satelliten, die zusammenarbeiten) mit TPU und Freiraum-Lichtkommunikationsverbindungen auszustatten, um in Zukunft die Rechenleistung für maschinelles Lernen im Weltraum zu erweitern.

Google sagt, dass dadurch möglicherweise das "volle Potenzial freigesetzt" werden kann.

Schließlich ist die Sonne die ultimative Energiequelle im Sonnensystem, und die von ihr abgestrahlte Energie übersteigt die gesamte menschliche Stromerzeugung um das 100-Billionenfache. Auf einer geeigneten Umlaufbahn kann die Effizienz von Solarmodulen bis zu acht Mal höher sein als auf der Erde, und es kann fast kontinuierlich Strom erzeugt werden, wodurch der Bedarf an Batterien verringert wird. Daher könnte der Weltraum der beste Ort für die zukünftige Erweiterung der KI-Rechenleistung sein.

Basierend auf dieser Vorstellung hat Google Project Suncatcher initiiert. Sie haben sich eine kompakte Konstellation aus Solarsatelliten vorgestellt, die mit Google-TPU ausgestattet sind und über Freiraum-Lichtkommunikationsverbindungen miteinander verbunden sind.

Google sagt: "Diese Methode hat nicht nur großes Skalierungspotenzial, sondern minimiert auch die Auswirkungen auf die Ressourcen der Erde."

Google hat auch eine Preprint-Publikation namens "Towards a future space-based, highly scalable AI infrastructure system design" veröffentlicht, in der einige frühe Forschungsergebnisse geteilt werden. Darin werden einige grundlegende Fortschritte beschrieben, die Google bei der Verwirklichung dieses großartigen Ziels erzielt hat, einschließlich der Hochbandbreitenkommunikation zwischen Satelliten, der Bahndynamik und der Auswirkungen von Strahlung auf die Berechnung.

Titel der Publikation: Towards a future space-based, highly scalable AI infrastructure system design

Link zur Publikation: https://goo.gle/project-suncatcher-paper

Zusammenfassung der Publikation: Wenn man KI als eine grundlegende, universelle Technologie ansieht, sollte man erwarten, dass der Bedarf an KI-Rechenleistung und Energie kontinuierlich steigen wird. Die Sonne ist bisher die größte Energiequelle im Sonnensystem, daher lohnt es sich, zu untersuchen, wie zukünftige KI-Infrastrukturen diese Energie am effektivsten nutzen können. In diesem Artikel wird ein skalierbares Weltraum-System für maschinelles Lernen erforscht, das eine Gruppe von Satelliten mit Solarmodulen, intersatellitäre Verbindungen basierend auf Freiraum-Lichtkommunikation und Google's Tensorverarbeitungseinheiten (TPU) als Beschleunigerschips nutzt. Um eine Hochbandbreiten-, Niedrig-Latenz-Kommunikation zwischen den Satelliten zu ermöglichen, werden diese in enger Formation fliegen. Wir zeigen ein Grundkonzept für die Formation eines 81-Satelliten-Clusters mit einem Radius von 1 Kilometer und beschreiben eine Methode zur Steuerung einer großen Satellitenkonstellation mithilfe von hochpräzisen maschinellen Lernmodellen. Die Trillium-TPU wurde auf Strahlung getestet und kann die Gesamtdosis an ionisierender Strahlung, die einem 5-jährigen Missionseinsatz entspricht, ohne dauerhafte Schäden überstehen, und die Bitflip-Fehler wurden charakterisiert. Die Startkosten sind ein wesentlicher Bestandteil der Gesamtkosten des Systems; eine Analyse der Lernkurve zeigt, dass die Kosten für den Start eines Satelliten in die niedrige Erdumlaufbahn (LEO) bis Mitte der 2030er Jahre auf etwa 200 US-Dollar pro Kilogramm oder weniger sinken könnten.

Darin heißt es: "Indem wir uns auf ein modulares Design aus kleineren, miteinander verbundenen Satelliten konzentrieren, legen wir die Grundlage für eine zukünftige, hochskalierbare Weltraum-KI-Infrastruktur."

Google sagt auch: "Project Suncatcher ist eine Fortsetzung von Google's Tradition, schwierige wissenschaftliche und technische Probleme anzugehen, wie bei den 'Mondlandungsprojekten'. Wie alle 'Mondlandungsprojekte' werden auch hier Unbekanntheiten bestehen. Aber aus diesem Geist heraus haben wir vor zehn Jahren begonnen, einen großen Quantencomputer zu bauen (als es noch kein realistisches technisches Ziel war), und vor 15 Jahren haben wir uns selbstfahrende Autos vorgestellt, was schließlich zur Gründung von Waymo führte. Heute bietet Waymo weltweit Millionen von Fahrten an."

Systemdesign und zentrale Herausforderungen

Das System besteht aus einem Netzwerk von Satelliten, die wahrscheinlich in einer "Dämmerungs-Sonnen-synchronen niedrigen Erdumlaufbahn" (dawn–dusk sun-synchronous low earth orbit) betrieben werden, wo sie fast ständig Sonneneinstrahlung erhalten können. Diese Wahl der Umlaufbahn maximiert die Effizienz der Sonnenenergiegewinnung und verringert den Bedarf an sperrigen Bordbatterien. Um das System machbar zu machen, müssen mehrere technische Hindernisse überwunden werden:

1. Erreichung von Rechenzentrumsskaligen intersatellitären Verbindungen

Große ML-Arbeitslasten erfordern die Verteilung von Aufgaben auf viele Beschleuniger über Hochbandbreiten-, Niedrig-Latenz-Verbindungen. Um eine Leistung zu erzielen, die der von Rechenzentren auf der Erde entspricht, müssen die Verbindungen zwischen den Satelliten Datenraten von mehreren zehn Terabit pro Sekunde unterstützen.

Google's Analysen zeigen, dass dies möglich sein sollte, indem Multikanal-Dichte-Wellenmultiplexing (DWDM)-Transceiver und Raummultiplexing-Techniken verwendet werden.

Dennoch ist die erforderliche Empfangsleistung für diese Bandbreite um Tausende Mal höher als bei herkömmlichen Fernverbindungen. Da die Empfangsleistung quadratisch mit der Entfernung abnimmt, kann dieses Problem dadurch überwunden werden, dass die Satelliten in sehr enger Formation (im Kilometerbereich oder weniger) fliegen, um das Verbindungsbudget (die Bilanz der Signalleistungsverluste in einem Kommunikationssystem) auszugleichen.

Das Google-Team hat begonnen, diese Methode mit einem Prüfstand zu validieren, der mit einem Paar von Transceivern eine einseitige Übertragungsrate von 800 Gbps (insgesamt 1,6 Tbps) erreicht hat.

2. Steuerung einer großen, engen Satellitenformation

Hochbandbreiten intersatellitäre Verbindungen erfordern, dass die Satelliten in einer viel kompakteren Formation fliegen als bei jedem derzeitigen System.

Google hat numerische und analytische physikalische Modelle entwickelt, um die Bahndynamik dieser Konstellation zu analysieren. Sie haben eine Näherungsmethode verwendet, die auf den Hill-Clohessy-Wiltshire-Gleichungen (die die Bahnbewegung eines Satelliten relativ zu einer kreisförmigen Referenzbahn in einer Kepler-Näherung beschreiben) basiert, sowie ein differenzierbares Modell auf Basis von JAX, um die numerischen Ergebnisse zu verfeinern und weitere Störungen zu berücksichtigen.

Bei der geplanten Höhe der Konstellation sind die nicht-sphärischen Eigenschaften des Erdgravitationsfelds und der potenzielle atmosphärische Widerstand die Hauptursachen für nicht-Kepler-Effekte auf die Satellitenbahn.

Das folgende Bild zeigt ein Beispiel für die Bahn einer 81-Satelliten-Konstellation in der Bahnebene mit einer durchschnittlichen Höhe von 650 Kilometern (über einen vollständigen Umlauf) an. Der Radius der Formation beträgt 1 Kilometer, und unter dem Einfluss der Erdgravitation schwankt der Abstand zwischen den zweitnächsten Nachbarn zwischen etwa 100 und 200 Metern.

Entwicklung einer "Freifall" (ohne Schub) Konstellation unter dem Einfluss der Erdgravitation, modelliert mit einer Genauigkeit, die für eine Sonnen-synchrone Bahn ausreicht. Das Koordinatensystem ist ein nicht-rotierendes System relativ zum zentralen Referenzsatelliten S0. Der Pfeil zeigt zum Erdmittelpunkt. Magenta: Die nächsten Nachbarn des Satelliten S0. Orange: Ein Beispiel für einen "äußeren" Satelliten S1. Orange gestrichelte Linie: Die Position von S1 relativ zum Formationszentrum (im nicht-rotierenden Koordinatensystem).

Das Modell zeigt, dass wenn die Satelliten nur einige hundert Meter voneinander entfernt positioniert sind, möglicherweise nur geringfügige "Stationshaltung"-Manöver erforderlich sind, um die Stabilität der Konstellation in der gewünschten Sonnen-synchronen Bahn aufrechtzuerhalten.

3. Strahlungstoleranz der TPU

Um dass ML-Beschleuniger im Weltraum effektiv funktionieren können, müssen sie die Umweltbedingungen in der niedrigen Erdumlaufbahn überstehen können.

Google hat seine v6e Cloud TPU - Trillium in einem 67 MeV (Megaelektronenvolt) Protonenstrahl getestet, um die Auswirkungen der Gesamtdosis an ionisierender Strahlung (TID) und der Einzelteilcheneffekte (SEEs) zu untersuchen.

Die Ergebnisse sind sehr ermutigend. Obwohl das Hochbandbreiten-Speichersystem (HBM) das empfindlichste Bauteil ist, treten erst nach einer akkumulierten Dosis von 2 krad (Si) Anomalien auf - dies ist fast das Dreifache der erwarteten (mit Abschirmung) fünfjährigen Missionsdosis von 750 rad (Si). Bei der höchsten getesteten Dosis von 15 krad (Si) auf einem einzelnen Chip traten keine schwerwiegenden Fehler auf, die auf die TID zurückzuführen wären, was zeigt, dass die Trillium TPU eine erstaunliche Strahlungstoleranz für Weltraumanwendungen hat.

4. Wirtschaftliche Machbarkeit und Startkosten

Historisch gesehen waren die hohen Startkosten ein wesentliches Hindernis für die Entwicklung von großen Weltraum-basierten Systemen. Allerdings zeigt Google's Analyse der historischen und prognostizierten Startpreise, dass sich die Kosten bis Mitte der 2030er Jahre auf weniger als 200 US-Dollar pro Kilogramm senken könnten, wenn die Forschung fortschreitet.

Bei diesem Preisniveau könnten die Start- und Betriebskosten eines Weltraum-basierten Rechenzentrums, gemessen in Kilowatt pro Jahr, in etwa vergleichbar sein mit den Energiekosten, die für vergleichbare Rechenzentren auf der Erde berichtet werden.

Die effektive Nutzlastmasse von SpaceX-Startraketen, statistisch dargestellt als "niedrigster realisierter Preis" nach Inflationsanpassung seit dem erfolgreichen Start der Falcon 1, gezeigt für verschiedene Raketenklassen. Beachten Sie, dass es bei der Falcon 9 und der Falcon Heavy zu einem deutlichen Preisrückgang kam.

Zukünftige Richtungen

Google's erste Analysen zeigen, dass das Kernkonzept der Weltraum-basierten ML-Berechnung nicht durch grundlegende physikalische Gesetze oder unüberwindliche wirtschaftliche Barrieren behindert wird.

Dennoch bleiben große technische Herausforderungen bestehen, wie z.B. die Wärmeverwaltung