Kann man DeepSeek R2 feinabstimmen, wenn man die NVIDIA AI Personal Supercomputer "Nuklearbombe" DGX Spark erlebt?
In letzter Zeit hat APPSO endlich diesen persönlichen Supercomputer, den NVIDIA DGX Spark, erhalten, der von Jensen Huang mit Enthusiasmus empfohlen wurde. Das erste Gefühl beim Erhalt war, dass er "klein und schön" ist.
Dieser Computer ist so klein! Er ist nicht so sperrig wie der Mac Studio und etwa so groß wie ein Mac Mini. Das glänzende Silber und das metallene Gitter zur Wärmeableitung verleihen ihm ein gewisses Extras, eine eigenständige, harte Schönheit.
In unserer vorherigen Zusammenfassung der Online-Bewertungen des DGX Spark haben wir einige Parameter dieses Computers erwähnt, wie ein Gewicht von 1,2 kg und Abmessungen von 5,05*15*15 cm.
Gewicht: Mac Studio M4 Max 2,74 kg; Mac Mini M4 0,67 kg
Abmessungen: Mac Studio: 9,5*19,7*19,7; Mac Mini: 5,0*12,7*12,7
Und was seine Rechenleistung angeht, verfügt er über 128 GB integrierten GPU+CPU-Speicher, einen GB10 Grace Blackwell Supercomputer-Chip, der mit der Leistung eines RTX 5070/5070 Ti vergleichbar ist, und ein LPDDR 5X-Speicherbandbreitenset von 273 GB/s.
Ehrlich gesagt, das lokale Ausführen von Programmen ist wahrscheinlich das Einzige, was ich mir vorstellen kann, was dieser Computer mit 128 GB Speicher und der Rechenleistung einer GB10-Grafikkarte tun kann.
Alles, was möglicherweise Privatsphäre betrifft, sei es ein PDF-Dokument, ein Bild, Texte, Bilder oder sogar Videos, kann ich diesem Computer ohne Bedenken übergeben. Ich kann das Wi-Fi ausschalten, das bereitgestellte Projekt öffnen und das heruntergeladene Open-Source-Modell laden, und alles kann lokal verarbeitet werden.
Aber macht die lokale Verarbeitung wirklich Sinn? ChatGPT war für eine Zeit fast wie mein Tagebuch, und ich habe ihm alles erzählt. Für normale Privatverbraucher scheint es nicht so besonders interessant zu sein, ob das Gerät an das Internet angeschlossen ist oder nicht.
Nachdem ich ihn tatsächlich in der Hand hatte, scheint der Preis von 30.000 Yuan gar nicht so schlecht zu sein. Das Linux-Ubuntu-Betriebssystem ist auch nicht allzu schwierig zu bedienen. Man spürt jedoch, dass die oft kritisierten Bandbreitengeschwindigkeiten die Antwortgenerierung beeinflussen, wenn man sieht, wie das Gerät die Antworten Buchstabe für Buchstabe ausgibt. Aber kann die starke Rechenleistung und der ausreichende Speicher diese Wartezeiten wirklich wettmachen?
Derzeit kann man diesen Computer auch auf E-Commerce-Plattformen wie JD.com finden. Wir können ihn für ungefähr 32.000 Yuan als persönlichen Supercomputer zu Hause haben.
Aber lohnt es sich, ihn zu Hause zu haben? Was kann man damit machen? Begleiten Sie uns auf dieser Nutzungserfahrung, um herauszufinden, wie ein Computer der Zukunft aussehen sollte.
Kurzfassung:
Dies ist ein Linux-Desktop-Computer, der etwa so groß wie ein Mac Mini ist, 128 GB integrierten Speicher hat und mit einem NVIDIA GB10-Chip ausgestattet ist.
Er kann Modelle mit bis zu 200 Milliarden Parametern lokal ausführen, große Modelle feinabstimmen und für Inferenztests verwenden, verschiedene KI-Tools aufbauen und auch offline Bilder generieren. Seine KI-Leistung ist sehr stark.
Obwohl es kein universeller Computer ist, bietet seine vollständige Full-Stack-KI-Entwicklungsumgebung eine bessere Lösung für KI-Forscher, Entwickler und Technikbegeisterte, um verschiedene neueste Forschungsarbeiten schnell zu reproduzieren und Ideen zu testen. KI-Projekte, die nicht mit Deep Learning zusammenhängen, wie das Schneiden von Videos oder das Spielen von Spielen, werden nicht empfohlen.
Freie Bilder- und Videogenerierung, alles kann bereitgestellt werden
Die Unterstützung von Modellen mit bis zu 200 Milliarden Parametern bedeutet, dass viele Modelle aus dem Open-Source-Markt jetzt direkt auf diesem Computer ausgeführt werden können.
Es gibt viele Plattformen, die das lokale Bereitstellen großer Modelle unterstützen. Die bekanntesten sind die Open-Source-Open WebUI und die kostenlose Closed-Source-LM Studio. Wir haben die Open WebUI gewählt, die Open-Source-Frameworks wie Ollama unterstützt, die speziell für die effiziente Ausführung großer Sprachmodelle auf lokalen Computern entwickelt wurden.
Auf der Ollama-Website können Sie eine Vielzahl von Open-Source-Modellen herunterladen | https://ollama.com/models
Wir haben zunächst das OpenAI-gpt-oss 20b-Modell bereitgestellt, um die Leistung zu testen. Die Geschwindigkeit war mäßig, aber es war nutzbar.
Das Gerät verarbeitet gleichzeitig eine Videogenerierungsaufgabe
Als wir dann das 65-GB-gpt-oss 120b-Modell herunterladen wollten, spürten wir deutlich, dass der DGX unter Druck stand. Die Denkzeit, die Zeit zur Generierung des ersten Tokens und die Verarbeitungsgeschwindigkeit der Token sanken langsam und waren viel langsamer als unsere Lesegeschwindigkeit.
Jensen Huang hat behauptet, dass der Computer Modelle mit 200 Milliarden Parametern unterstütze. Also haben wir versucht, das 142-GB-Qwen 3:235b-Modell mit 235 Milliarden Parametern zu verwenden. Aber nach wenigen Sekunden wurde der Prozess zwangsweise beendet.
Wir haben weiterhin die Bilder-, Video- und 3D-Modellgenerierung getestet. Comfy ist die beste Open-Source-Plattform für die Bilderzeugung. Man kann einfach die Vorlagenworkflows verwenden, indem man die Modelldateien herunterlädt und in den entsprechenden Ordnern platzieren muss, z. B. für LoRA, Textcodierung und -decodierung sowie Diffusion-Modelle.
Laden Sie die entsprechenden Diffusionsmodelle, Audiodateien und LoRA-Modelle herunter, und Sie können offline KI-Videos generieren
Da man derzeit auf der Closed-Source-Google Veo 3.1 für die Videogenerierung lotterieähnlich zugelassen werden muss, ist es bei Open-Source-Modellen noch wichtiger, gute Prompts zu verwenden. Abgesehen von der endgültigen Qualität ist die Videogenerierungsgeschwindigkeit immer noch ein großes Problem.
Selbst mit 128 GB Speicher wurde der Speicher dieses Computers vollständig ausgeschöpft, als er aufgefordert wurde, ein 10-sekündiges Video mit 240 Bildern zu generieren, indem das Tencent Hunyuan 1.5-Videogenerierungsmodell verwendet wurde. Die GPU-Auslastung erreichte 96%, und der Speicherverbrauch betrug fast 90 GB.
Jetzt verstehe ich, warum Sam Altman die Arbeit an Sora 2 vorübergehend eingestellt und sich stattdessen voll und ganz der Modellentwicklung gewidmet hat. Die Videogenerierung verbraucht einfach zu viel Rechenleistung.
Beim Generieren von Bildern gibt es mehr Auswahlmöglichkeiten, wie Qwen, FLUX und Z-Image. Ihre Leistung ist gut, und die Generierungsgeschwindigkeit ist auch nicht zu langsam.
Prompt: Anime-Stil, Meisterwerk, Stil des Studio Ghibli. Ein riesiger, rostiger Kampfroboter ist halb in üppigem grünem Gras eingegraben. Der Roboter ist mit bunten Wildblumen und dickem Moos bedeckt. Die Natur erobert die Technologie zurück. Filmischer Weitwinkelaufnahme, riesige Gewitterwolken am hellblauen Himmel, sanftes Sonnenlicht dringt durch sie, es gibt einen Lichteffekt, idyllische und friedliche Atmosphäre, hohe Details.
NVIDIA hat speziell für den Einstieg in den DGX Spark ein ausführliches Handbuch erstellt, das alle Arten von Bereitstellungsmethoden enthält, sei es die Verbindung zu einem anderen Mac oder die gemeinsame Verwendung von zwei DGX Spark-Computern für die Ausführung von Projekten.
In unseren früheren Bewertungen haben wir über das Wissensnetzwerk und die Videosummarisierung gesprochen. All diese Inhalte sind in diesem Handbuch enthalten. Wir haben auch unser eigenes Wissensnetzwerk bereitgestellt, in das wir kontinuierlich neue Wissensbeiträge hochladen können. Das verwendete Large Language Model aktualisiert automatisch das Wissensnetzwerk basierend auf den neuen Inhalten.
Das Wissensnetzwerk sieht ziemlich cool aus und kann auch in 3D angezeigt werden | Weitere Anwendungen finden Sie in der Anleitung:
Was ist das Feintuning? Kann man damit ein DeepSeek R2 trainieren?
Das lokale Bereitstellen bestehender großer Modelle mag noch nicht ausreichen. Habe ich mit einem Supercomputer in der Hand auch die Möglichkeit, ein DeepSeek R2 zu trainieren?
Leider nein. Abgesehen davon, dass das Training großer Modelle ein enormes Trainingsset und eine komplizierte Algorithmenplanung erfordert, sind die für das Vortraining benötigten Rechenressourcen viel zu hoch, als dass ein Desktop-Supercomputer damit fertig werden könnte.
Was ist mit dem Feintuning? Viele sagen, dass das Feintuning von vortrainierten Modellen die Leistung verbessern kann. Stimmt das?