Einfach-Karte-Training mit 100 Millionen Gauß-Punkten, Rekonstruktion einer 25 km² großen Stadt: Die 3DGS-Speicherbarriere wurde durch die CPU-"Externeinheit" gebrochen.
Möchten Sie eine Stadt mit 3D Gaussian Splatting (3DGS) rekonstruieren?
In der Vergangenheit hieß dies oft, ein teures GPU-Cluster einzusetzen. Heute bieten die Forscher eine andere Lösung: Eine einzelne RTX 4090-Grafikkarte und ausreichend CPU-Speicher reichen auch für die 3D-Rekonstruktion einer ganzen Stadt aus.
Ein Forscherteam aus der New York University hat auf der ASPLOS 2026 ein System namens CLM (CPU-offloaded Large-scale 3DGS training) vorgestellt. Durch die Überführung derjenigen Parameter, die bei der 3DGS-Trainingsphase am meisten GPU-Speicher belegen, in den CPU-Speicher, ermöglicht diese Arbeit es, mit einer einzelnen Consumer-Grafikkarte ein Gauss-Punktmodell mit Hunderten von Millionen von Punkten zu trainieren. Dadurch wird die Hardware-Hürde für die neuronale Rendering von großen Szenen erheblich gesenkt.
Engpässe bei der massenhaften Anwendung von 3DGS
3D Gaussian Splatting (3DGS) hat sich aufgrund seiner hochwertigen Rendering-Ergebnisse und der extrem hohen Rendering-Geschwindigkeit zu einer wichtigen Technologie in der neuronalen Rendering-Branche entwickelt. Wenn Forscher es jedoch in komplexen Szenen wie Stadtvierteln oder großen Innenräumen anwenden möchten, treten schnell Probleme auf - der GPU-Speicher wird zum unmittelbarsten und schwierigsten Engpass.
Ein hochpräzises 3DGS-Modell enthält normalerweise Tausende von Millionen oder sogar Hunderte von Millionen von Gauss-Punkten. Jeder Gauss-Punkt hat Dutzende von lernbaren Parametern wie Position, Form, Farbe und Undurchsichtigkeit. Während des Trainings müssen auch die Gradienten und der Zustand des Optimierers gespeichert werden. Die Forscher haben festgestellt, dass selbst eine Grafikkarte wie die RTX 4090 mit 24 GB Speicher nur die vollständigen Trainingszustände von etwa 10 bis 20 Millionen Gauss-Punkten aufnehmen kann, was für die Rekonstruktion einer ganzen Stadt weit nicht ausreicht.
Bis jetzt waren die Methoden zur Skalenerweiterung nicht zufriedenstellend: Entweder man nutzt mehrere GPUs parallel, was sehr teuer ist, oder man reduziert die Anzahl der Gauss-Punkte durch Komprimierung, Beschneidung oder Partitionierung des Trainings, was aber oft mit einem Verlust an Rekonstruktionsqualität einhergeht.
Die meisten Gauss-Punkte im GPU-Speicher bleiben ungenutzt
Der Ausgangspunkt von CLM liegt in einer systemweiten Beobachtung des Trainingsvorgangs.
Die Forscher haben festgestellt, dass bei jeder Perspektiven-Rendering-Phase des 3DGS-Trainings nur ein winziger Teil der gesamten Gauss-Punkte tatsächlich an der Berechnung beteiligt ist. In großen Szenen werden in einem einzelnen Bild normalerweise weniger als 1 % der Gauss-Punkte angesprochen, während die meisten anderen Parameter in diesem Trainingsschritt nicht genutzt werden.
Auf Grundlage dieses Phänomens haben sie das Designkonzept von CLM entwickelt, nämlich nicht alle Gauss-Parameter ständig im GPU-Speicher zu halten, sondern sie je nach Perspektive dynamisch zu laden.
Der GPU-Speicher-Engpass wird durch Systemkooperation gelöst
CLM ist nicht einfach nur ein Verfahren, um Daten vom GPU in den CPU-Speicher zu verschieben, sondern ein umfassendes Systemkonzept, das auf der Zusammenarbeit zwischen CPU und GPU basiert. Die Forscher haben es in drei Schlüsselmechanismen zusammengefasst.
1. Attributaufteilung: Nur die "Schlüsselattribute" im GPU belassen
In CLM werden die 59 lernbaren Parameter jedes Gauss-Punkts in zwei Kategorien aufgeteilt.
Die "Schlüsselattribute", die für die Sichtkegel-Entfernung und die Sichtbarkeitsbeurteilung verwendet werden - einschließlich Position, Rotation und Skalierung (insgesamt 10 Fließkommazahlen) - werden dauerhaft im GPU-Speicher gespeichert. Dieser Datenanteil macht weniger als 20 % des Speicherbedarfs eines einzelnen Gauss-Punkts aus und reicht aus, um zu entscheiden, ob dieser Gauss-Punkt in der aktuellen Perspektive genutzt wird.
Die restlichen etwa 80 % der "Nicht-Schlüsselattribute", wie Kugelflächenkoeffizienten, Undurchsichtigkeit und der Zustand des Optimierers, werden in den größeren CPU-Speicher verschoben und erst bei Bedarf in den GPU geladen.
2. Vorherige Sichtkegel-Entfernung und selektives Laden
Im Gegensatz zum herkömmlichen 3DGS, bei dem die Sichtkegel-Entfernungslogik in den Rendering-Kern integriert ist, berechnet CLM vor dem Rendering explizit die Indizes der sichtbaren Gauss-Punkte in der aktuellen Perspektive.
Das System nutzt zunächst die permanent im GPU gespeicherten Schlüsselattribute, um eine schnelle Sichtkegel-Beschneidung durchzuführen. Dann lädt es nur die vollständigen Parameter dieser sichtbaren Gauss-Punkte aus dem CPU-Speicher und übergibt sie an den GPU für das Rendering und die Rückwärtsverbreitung. Diese Vorgehensweise reduziert erheblich die ineffizienten Berechnungen und den Speicherbedarf des GPUs für unsichtbare Gauss-Punkte.
Durch diese Veränderung wird das Problem von "Einen größeren GPU-Speicher kaufen" zu "Den vorhandenen CPU-Speicher voll ausnutzen" umgewandelt.
Es ist bemerkenswert, dass die "Vorherige Sichtkegel-Entfernungs"-Technologie in CLM auch eine eigenständige Optimierung darstellt. Beim herkömmlichen 3DGS führt die Integration der Sichtkegel-Entfernung in den Rendering-Kern dazu, dass die GPU-Threads viele Gauss-Punkte außerhalb des Sichtkegels ineffizient berechnen. CLM berechnet stattdessen vor dem Rendering explizit die Indizes der Gauss-Punkte innerhalb des Sichtkegels und gibt nur diese Punkte an den Rendering-Kern weiter, wodurch die GPU-Berechnungen und der Speicherbedarf reduziert werden. Diese Technologie kann auch bei GPU-nur-Trainings ohne Offloading eingesetzt werden und führt zu einer Leistungssteigerung.
3. Wie kann man die CPU nutzen, ohne die Leistung zu beeinträchtigen?
Das häufigste Problem bei der Beteiligung der CPU am Training ist, dass die häufigen Datentransfers die Gesamtgeschwindigkeit verlangsamen.
CLM reduziert dieses Risiko durch eine mehrschichtige Systemgestaltung:
1. Mikrobatch-Pipeline: Ein Trainingsbatch wird in mehrere Mikrobatches aufgeteilt (normalerweise entspricht ein Mikrobatch einem Bild). Durch Doppelpufferung und asynchrone Ausführung werden das Laden der Parameter für Mikrobatch i+1 und die GPU-Rückwärtsverbreitung für Mikrobatch i überlappt, sowie das Speichern der Gradienten für Mikrobatch i und die GPU-Vorwärtsverbreitung für Mikrobatch i+1. Diese Gestaltung macht den Speicherbedarf unabhängig von der Batchgröße und versteckt effektiv die Kommunikationsverzögerung.
2. Caching-Mechanismus: Durch die Ausnutzung der räumlichen Lokalität zwischen aufeinanderfolgenden Perspektiven werden wiederverwendete Gauss-Punkte zwischengespeichert, um wiederholtes Laden der gleichen Daten aus dem CPU zu vermeiden.
3. Intelligente Planung: Das Forscherteam hat sogar die Renderreihenfolge als "Reisende-Verkäufer-Problem" (TSP) modelliert und versucht, durch Algorithmen die Perspektivenanordnung zu finden, bei der die Wiederverwendungsrate der Gauss-Punkte am höchsten ist, um so die Cache-Trefferquote zu maximieren und die Datentransfers zu minimieren.
Durch diese Reihe von Gestaltungen wird die CPU nicht mehr nur als ein "langsamer Lagerraum" eingesetzt, sondern wird zu einer Rechenressource, die effizient mit dem GPU kooperieren kann.
Ergebnisse der praktischen Tests: Mit einer einzelnen RTX 4090 steigt die Skala um das 6,7-fache und die Qualität verbessert sich gleichzeitig
Wie gut ist die Leistung? Die experimentellen Daten in der Publikation liefern klare Beweise:
Skalaerweiterung: Die CLM-Technologie kann in fast allen Szenen die Modellgröße erheblich erhöhen.
Bei dem städtischen Luftbilddatensatz "MatrixCity BigCity" mit einer Fläche von 25,3 Quadratkilometern kann die herkömmliche GPU-nur-Methode auf einer RTX 4090 maximal 15,3 Millionen Gauss-Punkte trainieren (ansonsten kommt es zu einem Speicherüberlauf). Mit CLM und der Nutzung des CPU-Speichers konnten jedoch 102,2 Millionen Gauss-Punkte trainiert werden. Die Modellgröße hat sich um das 6,7-fache erhöht, was 2,2-mal größer ist als bei der Verwendung von Offloading auf einer RTX 4090-Grafikkarte.
Qualitätsverbesserung: Mehr Parameter führen zu einer präziseren Rekonstruktion. Das Modell mit 102,2 Millionen Gauss-Punkten hat einen PSNR (Peak-Signal-Noise-Ratio) von 25,15 dB, was deutlich besser ist als der Wert von 23,93 dB des Modells mit 15,3 Millionen Punkten.
Steuerbare Geschwindigkeit: Trotz der Kommunikationskosten kann CLM auf einer RTX 4090 eine Trainingsdurchsatzrate von 55 % bis 90 % der erweiterten Basisdurchsatzrate erreichen. Auf einer langsameren RTX 2080 Ti kann die Durchsatzrate sogar 86 % bis 97 % der Basisrate erreichen, da die GPU-Berechnungszeit die Kommunikationsverzögerung besser maskieren kann.
Hohe Allgemeingültigkeit: Dieses Verfahren ist unabhängig von der spezifischen Rendering-Engine (gsplat, inria-3dgs usw.) und kann auch auf andere Splatting-Algorithmen (2DGS, mesh-splatting) erweitert werden.
"Kosten senken und Effizienz steigern" bei der 3D-Massenrekonstruktion
Von der Forschungsperspektive betrachtet, ist CLM ein Systemengineering-Projekt, das direkt auf die praktischen Implementierungsengpässe abzielt. Sein zentraler Beitrag besteht darin, zum ersten Mal systematisch die CPU-Speicher- und Rechenressourcen in das Ressourcenverwaltungssystem für das 3DGS-Training einzubeziehen. Ohne die Abhängigkeit von einem Multi-GPU-Cluster bietet es der Wissenschaft und der Industrie eine kostengünstige und praktikable Möglichkeit für die Rekonstruktion von ultra-großen Szenen.
Von der industriellen Perspektive aus betrachtet besteht mit der wachsenden Nachfrage nach Anwendungen wie Digitaler Zwilling und Massenkartierung ein dringender Bedarf an effizienten und kostengünstigen 3D-Rekonstruktionswerkzeugen. Die Möglichkeit, die Skala unter realen Hardwarebedingungen zu erweitern, ist für die Durchführung solcher Projekte von großem Vorteil. CLM zeigt durch die Kooperation von Hardware und Software und die Neuorganisation der vorhandenen Rechenressourcen, wie die praktische Anwendung von 3DGS ohne zusätzliche Investitionen in spezielle Hardware vorangetrieben werden kann.
Der Code dieses Projekts ist derzeit auf GitHub öffentlich zugänglich und es gibt eine umfassende Anleitung, die von der Schnellstartanleitung bis hin zu extremen Belastungstests reicht. Autoreneinführung: He Xu Zhao, Doktorand am Courant Institute der New York University, arbeitet an der Forschung von maschinellen Lernsystemen und absolvierte 2023 sein Studium an der Yao Class der Tsinghua University; Xiwen Min, Masterstudent am Courant Institute der New York University, absolvierte 2023 sein Studium an der Shanghai Jiao Tong University (weitere Informationen zu den Autoren finden Sie in der Publikation).
Projektbetreuer: Prof. Jinyang Li und Prof. Aurojit Panda
Link zur Publikation: https://arxiv.org/abs/2511.04951
Projektwebseite: https://tarzanzhao.github.io/CLM-GS
Code-Repository: https://github.com/nyu-systems/CLM-GS
Dieser Artikel stammt aus dem WeChat-Account "QbitAI", Autor: Fei Yang. 36Kr hat die Veröffentlichung mit Genehmigung durchgeführt.