StartseiteArtikel

Pack DeepSeek in einen Mac, und erhalte "Krebs-Freiheit" ohne Geld auszugeben.

字母AI2026-05-10 15:44
Danke an diesen italienischen Hacker.

Was war in der Agent - Ära am teuersten? Tokens.

Einige intensive Agent - Nutzer verbrauchen innerhalb eines Monats mehrere hundert Millionen Tokens, und es ist keine Seltenheit, dass ihre Rechnungen einige zehntausend Yuan betragen.

Ab jetzt hat ein Entwickler jedoch ein lokales Open - Source - Projekt vorgestellt, das auf einem Apple - Laptop deployed werden kann. Das bedeutet, dass Sie ab sofort "Krebskoch - Freiheit" erlangen. Selbst wenn Sie viele Aufgaben ausführen, müssen Sie keine Tokens mehr bezahlen. Das Wichtigste ist, dass er DeeSeek V4 Falsh nutzt.

Vor einigen Tagen hat antirez ein Projekt namens ds4 auf GitHub veröffentlicht.

Dies ist ein Inference - Engine, speziell für DeepSeek V4 Flash entwickelt. Es besteht aus einigen tausend Zeilen C - Code und ermöglicht es, dass das DeepSeek V4 Flash - Modell auf einem Apple - Computer mit 128 GB Arbeitsspeicher läuft.

Der Entwickler antirez, dessen richtiger Name Salvatore Sanfilippo ist, ist ein italienischer Programmierer und auch der ursprüngliche Autor der Open - Source - Datenbank Redis. Redis ist seitdem eine der am häufigsten verwendeten In - Memory - Datenbanken in der globalen Internetinfrastruktur.

Positiv betrachtet hat DeepSeek genug Einfluss, um die Top - Programmierer aus der Branche anzuziehen. Negativ gesehen ist DeepSeek dieses Mal wirklich kostenlos.

Jeder Entwickler kann ds4 nutzen, um DeepSeek V4 Flash auf seinem MacBook Pro zu installieren, Code lokal auszuführen, Kontext lokal zu lesen und Agent - Aufgaben lokal zu erledigen, und das alles, ohne DeepSeek einen Cent zu bezahlen.

Obwohl das DeepSeek V4 Flash - Modell selbst Open - Source ist, benötigt das Originalmodell mit FP16 - Genauigkeit 284 GB Arbeitsspeicher und 160 GB Grafikspeicher.

Um es auszuführen, benötigen Sie daher mindestens zwei NVIDIA A100 80 GB - Grafikkarten, einen 512 GB DDR5 ECC - Arbeitsspeicher und eine 4 TB NVMe SSD. Die Gesamtkosten betragen 500.000 Yuan.

Jetzt kann jedoch ein 30.000 - Yuan - MacBook Pro es ausführen.

Warum hat antirez speziell DeepSeek V4 Flash ausgewählt?

Der Grund ist, dass DeepSeek am besten "in einen lokalen Computer gepackt" werden kann.

Es hat insgesamt 284 Milliarden Parameter, was ausreichend viel ist. Bei jeder Inference werden jedoch nur 13 Milliarden Parameter aktiviert, und es ist nicht so schwer wie traditionelle Große Modelle.

Es unterstützt einen Kontext von einer Million Tokens und eignet sich daher für lange Aufgaben wie Programmierassistenten. Gleichzeitig ist der KV - Cache stark komprimiert, was Platz für den lokalen Arbeitsspeicher und die SSD lässt.

DeepSeek V4 Flash befindet sich an einem wunderbaren Gleichgewichtspunkt. Es ist groß genug, um es sich lohnt, sich damit zu beschäftigen, und klein genug, um in einen Apple - Laptop gepackt zu werden.

Der CEO von YC, Garry Tan, hat diese Nachricht auf X geteilt und nur eine Zeile geschrieben: "Download läuft... Ein Kontextfenster von einer Million Tokens und eine nutzbare Programmierassistenten - Funktion auf einem 128 GB - MacBook Pro. Das ist verrückt."

01

Was ist ds4 eigentlich?

Zunächst die Schlussfolgerung: ds4 ist kein Modell, sondern eine "spezielle Maschine". DeepSeek V4 Flash ist das Auto, der Apple - Computer ist die Straße, und ds4 sorgt dafür, dass dieses ursprünglich für die Cloud optimierte Auto auf einem lokalen Gerät laufen kann, API - Aufrufe verarbeiten kann und von einem Coding - Agent aufgerufen werden kann.

In der Vergangenheit haben die Leute, die Große Modelle auf ihrem eigenen Computer ausführen wollten, in der Regel das Tool llama.cpp verwendet. Sein Vorteil ist, dass es alle Modelle ausführen kann, einschließlich Llama, Qwen und DeepSeek.

Das Problem ist jedoch, dass, wenn es alles ausführen kann, es nichts am schnellsten ausführen kann. Um alle Modelle zu unterstützen, muss llama.cpp viele Kompromisse eingehen, und die Leistung kann nicht optimal sein.

antirez hat genau das Gegenteil vor. Er kümmert sich nicht um andere Modelle, sondern optimiert speziell DeepSeek V4 Flash bis an die Grenzen.

Er hat insgesamt drei Dinge getan.

Erstens: Asymmetrische 2 - Bit - Quantisierung.

Die Architektur von DeepSeek V4 Flash ist MoE (Mixture of Experts). Von den 284 Milliarden Parametern werden bei jeder Inference nur 13 Milliarden aktiviert. Diese 13 Milliarden stammen aus mehreren Expertensubnetzwerken, die von der Routing - Funktion ausgewählt werden.

Es ist wie ein Werkzeugkasten mit 284 Werkzeugen. Bei jeder Inference werden nur 13 Werkzeuge verwendet. In diesen 284 Milliarden Parametern gibt es eine Vielzahl von "alternativen Experten", die mehr als 90 % des Speichers einnehmen, aber nicht bei jeder Inference verwendet werden, sondern nur als Reserve.

antirez quantisiert nur diese routierten Experten radikal mit 2 Bit. Die up - und gate - Matrizen verwenden IQ2_XXS, die down - Matrix verwendet Q2_K, und alle Komponenten auf den kritischen Pfaden des Modells, einschließlich shared experts, projections und routing - Netzwerke, bleiben in ihrer ursprünglichen Genauigkeit.

D.h., antirez komprimiert diese "alternativen Experten" stark, so dass sie nur noch ein Viertel ihrer ursprünglichen Größe haben, während die Kernkomponenten, die bei jeder Inference verwendet werden, unverändert bleiben.

Dies ist eine asymmetrische Kompressionsstrategie, die die Hauptmenge des Speichers reduziert und die Qualität der Kernkomponenten erhält.

Zweitens: Verschieben des KV - Caches auf die SSD.

DeepSeek V4 Flash unterstützt einen Kontext von einer Million Tokens, was bedeutet, dass Sie ihm einen ganzen Roman geben können und er ihn alles merkt.

Aber ein so langer Kontext bedeutet, dass die KI während der Arbeit ständig auf die vorherigen Inhalte zurückgreifen muss. Um diesen "Zurückgreifen" - Vorgang nicht so langsam zu machen, dass das System einfriert, muss die KI diese Inhalte in einem "Cache" zwischenspeichern, damit sie jederzeit abgerufen werden können.

Früher wurde dieser Cache im Arbeitsspeicher gespeichert. Der Arbeitsspeicher ist schnell, und die KI muss bei jeder Generierung eines Zeichens diesen Cache häufig abfragen, daher muss er im Arbeitsspeicher gespeichert werden.

Das Problem ist jedoch, dass, wenn ein 128 GB - MacBook Pro DeepSeek - V4 Flash ausführt, der Cache den gesamten Arbeitsspeicher verbrauchen kann, und es bleibt kein Platz für das Modell selbst.

Deshalb verschiebt antirez den Cache einfach auf die Festplatte (SSD). ds4 macht einen Teil des KV - Zustands zu einem auf die Festplatte speicherbaren und wiederherstellbaren Cache, so dass bei langen Prompts und wiederholten Fortsetzungen durch den Agent nicht jedes Mal von vorne begonnen werden muss.

Dies klingt etwas abwegig, denn die Festplatte ist viel langsamer als der Arbeitsspeicher.

Allerdings ist die moderne Mac - SSD schnell genug, um für die Persistenz und Wiederherstellung des KV - Caches geeignet zu sein. Da DeepSeek V4 Flash den Cache bereits komprimiert hat und die Lese - und Schreibmengen nicht groß sind, kann die Festplatte das ganz gut bewältigen.

Das Ergebnis ist, dass Arbeitsspeicher gespart wird, und eine superlange Konversation von einer Million Tokens kann tatsächlich auf einem MacBook ausgeführt werden.

Das bedeutet jedoch nicht, dass ein 128 GB - MacBook problemlos eine Million Tokens verarbeiten kann.

Laut der Beschreibung von ds4 benötigt das 2 - Bit - Modell bereits etwa 80 GB Arbeitsspeicher. In der täglichen Verwendung ist ein Kontext von 100.000 bis 300.000 Tokens realistischer.

Drittens: Reiner Metal - Native - Pfad.

antirez setzt alle Optimierungen auf die GPU des Apple - Computers.

Deshalb hat er speziell für die Apple - Chips einen Code geschrieben, damit DeepSeek V4 Flash auf Apple - Computern super schnell läuft.

Der CPU - Modus ist nicht der Schwerpunkt dieses Projekts. In der README - Datei steht ganz klar, dass der CPU - Modus derzeit instabil ist und möglicherweise sogar einen Systemabsturz verursachen kann. antirez sagte weiter, dass, wenn jemand diesen Weg gehen möchte, die Community vermutlich helfen muss.

Auf einem 128 GB - MacBook Pro mit M3 Max kann die Geschwindigkeit etwa 26 Zeichen pro Sekunde betragen. Auf einem 512 GB - Mac Studio mit M3 Ultra kann es bis zu 36 Zeichen pro Sekunde erreichen.

Das ist nicht sehr schnell, aber für die täglichen Aufgaben wie Code schreiben und Debuggen ist es völlig ausreichend.

Noch interessanter ist, dass antirez dieses gesamte Projekt allein mit Hilfe von GPT - 5.5 abgeschlossen hat.

02

Vorteile für DeepSeek

Laut ausländischen Medien sucht DeepSeek derzeit nach einer Finanzierung von bis zu 7,35 Milliarden US - Dollar. Liang Wenfeng steht jetzt an diesem kritischen Wendepunkt und möchte die bisherige technische Erzählung von DeepSeek durch eine kommerzielle Erzählung ersetzen.

Was interessiert die Investoren? Nicht nur die Modell - Benchmarks, nicht nur die API - Aufrufe, sondern auch die Ökosystemposition und die Unersetzbarkeit.

Dass ein weltweit bekannter Entwicklungs - Guru bereit ist, eine spezielle Engine für Ihr Modell zu schreiben, zeigt an sich, dass DeepSeek im Ausland eine gewisse Ökosystemposition hat.

In den letzten Jahren war in der Erzählung über das Auslandseintreten chinesischer Open - Source - Modelle der Hauptmaßstab der Benchmark, wie MMLU, HumanEval, SWE - bench und eine Reihe von Zahlen.

Aber dass jemand sich um Ihr Modell herum sekundäre Projekte entwickelt, bedeutet, dass Ihr Modell anerkannt wird. Anthropic verwendet Qianwen für Experimente, und Cursor destilliert Kimi. Diese Anerkennung ist wertvoller als die Benchmark - Zahlen.

antirez ist kein Blogger in der AI - Branche, der jedes neue Modell ausprobieren muss.

Er wählt ein Modell aus und verbringt dann Wochen damit, eine spezielle Inference - Engine zu schreiben, spezielle Quantisierungen durchzuführen, eine HTTP - Dienstebene aufzubauen und Agent - Integrationstests durchzuführen. Offensichtlich hält er DeepSeek für wertvoll.

Dies ist gleichbedeutend damit, dass eine vertrauenswürdige dritte Partei mit ihrer Zeit und ihrem Ruf DeepSeek - V4 zusichert.

Was das Auslandseintreten chinesischer Modelle angeht, sehe ich derzeit zwei Wege.

Einer ist, dass die API aufgerufen wird. Sie bieten einen Dienst an, und andere zahlen für die Nutzung. Sie sind der Dienstleister, und die Kunden sind die Verbraucher.

Dieser Weg ist direkt und realistisch, aber die Kunden können jederzeit umsteigen, und Sie müssen ständig gegen Ihre Konkurrenten antreten, sowohl in Bezug auf die Leistung als auch auf die Preise.

Der andere Weg ist, dass das Modell modifiziert wird. Jemand nimmt Ihre Gewichte, quantisiert, destilliert, erstellt eine spezielle Runtime, führt eine lokale Installation durch und baut ein Agent - Toolset. In diesem Weg wird Ihr Modell zum Material.

Der Unterschied zwischen Material und Dienst besteht darin, dass das Material in die Toolketten anderer eingebettet wird und dann schwer zu ersetzen ist.

Nehmen wir als Beispiel einen Entwickler, der ds4 in seinen Coding - Agent integriert hat, eine Reihe von Konfigurationsdateien, Debug - Skripten und Automatisierungsabläufen geschrieben hat. Seine Teammitglieder sind auch an dieses Tool gewöhnt, und im Code - Repository der Firma gibt es überall Aufrufe basierend auf der lokalen Inference von DeepSeek.

In diesem Fall ist es nicht so einfach, wie "einen API - Schlüssel ändern", sondern es muss die Engine neu angepasst, die Skripte neu geschrieben und das Team neu trainiert werden. Die Kosten sind zu hoch, und es ist wahrscheinlich, dass man nicht wechselt.

Dies ist die "Eingebettetheit" - Haftung.

ds4 hat DeepSeek V4 Flash in die native lokale Inference - Szene von Metal eingebettet. Bis zum Zeitpunkt der Veröffentlichung hatte das deepseek - v4 - gguf - Repository von antirez auf Hugging Face bereits 25.000 Downloads.

Jeder Download bedeutet, dass jemand DeepSeek auf seinem Gerät ausführt, und so wird die Haftung Schritt für Schritt aufgebaut.

Noch bemerkenswerter ist die Ketteneffekt.

Es gibt einen hochgelobten Kommentar auf Hacker News, der sagt, was passieren würde, wenn man später superoptimierte Inference - Engines für genaue GPU - und Modellkombinationen baut. GPUs werden immer teurer, und je weniger Abstraktionsschichten es gibt, desto größer ist der Optimierungsraum.

Wenn diese Richtung bestätigt wird, bedeutet dies, dass bei jeder Veröffentlichung eines bedeutenden Open - Source - Modells jemand auftauchen wird, um ihm eine eigene Engine, eine eigene Quantisierung und einen eigenen Agent - Zugang zu entwickeln.

Das heißt, dass jedes Modell eine eigene "antirez" haben sollte, die ein eigenes "ds4" entwickelt.

DeepSeek V4 Flash steht gerade am Anfang dieses Weges.

Wenn diese Logik stimmt, wird jede kleine Version von V4 Flash automatisch in diesen Zyklus "ein Modell, eine spezielle Engine" eingebettet.

Liang Wenfeng ist der erste, der diesen Weg geht.

DeepSeek ist von einer Modellmarke zu einem Infrastrukturmaterial in den Händen ausländischer Entwickler geworden.

Für DeepSeek in der gegenwärtigen Phase ist diese "Dimensionserhöhung" sehr wichtig.

03

Was ist, wenn es doch gut wird?

Nachdem wir die Vorteile besprochen haben, müssen wir auch die andere Seite betrachten.