Echtzeit-Test des 50.000-Yuan-Apple AIPC: Noch besser als erwartet | Test des M5 Max MacBook Pro
Wenn Sie ein Budget von 50.000 Yuan haben und ein persönlicher Computer zusammenstellen möchten, wie würden Sie sich entscheiden?
In der Vergangenheit hätten Sie wahrscheinlich den Großteil Ihres Budgets in die Grafikkarte investiert – schließlich ist es auf jeden Fall kein Nachteil, über eine leistungsstarke GPU zu verfügen, ob Sie nun Spiele spielen oder nach der Arbeit entspannen möchten.
▲ Bild | Internet
Heute ist die Situation jedoch komplizierter geworden.
Das bisher geordnete Budgetaufteilung zwischen CPU, GPU, Mainboard, Arbeitsspeicher, Festplatte und Peripheriegeräten wird plötzlich von dem „Geldfressenden Ungeheuer“ Arbeitsspeicher durcheinander gebracht.
Jetzt stoßen Sie unabhängig von Ihrem geplanten Einsatz des Computers auf das Problem, dass Sie einmal etwas gewinnen und etwas verlieren müssen –
Großer Arbeitsspeicher, großer Grafikspeicher und große Festplatte sind alle unbedingt erforderlich, aber jeder dieser Komponenten belastet Ihren Geldbeutel.
Und genau hier kommt der Mac ins Spiel, der sich in der Turbulenz des Arbeitsspeichermarktes als die beste Lösung für das obige Problem erwiesen hat.
Der bisher leistungsstärkste AI-Mac
Bei der kürzlich stattgefundenen Frühlingsmesse hat Apple wie geplant die aktualisierte Version des M5 MacBook Pro sowie die dazugehörigen M5 Pro- und M5 Max-Prozessoren vorgestellt.
Als Ergebnis der vollständigen Aktualisierung der Apple Silicon-Prozessoren auf den 3nm-N3P-Prozess von TSMC haben die beiden neuen Prozessoren in Sachen Spezifikationen tatsächlich nicht enttäuscht.
Der M5 Pro ist in zwei Varianten erhältlich: mit 15+16 und 18+20 Kernen. Beide Varianten sind mit dem neuronalen Beschleuniger ausgestattet, der auch auf dem M5 des vergangenen Jahres verbaut war, also der sogenannte „Apple Tensor Core“.
▲ Bild | Apple
Der M5 Max ist in diesem Jahr in den Varianten 18+32 und 18+40 Kerne erhältlich und verfügt über einen 16-Kern-Neuronalen Beschleuniger. Rein von der Prozessorgröße her sind sowohl der M5 Pro als auch der M5 Max GPU-orientiert.
Diese Tendenz spiegelt sich auch in der Mikroarchitektur der neuen Prozessoren wider.
Derzeit sind alle Prozessoren der M5-Serie mit LPDDR5X 9600 Einheitsspeicher ausgestattet. Laut Apples Angaben beträgt die maximale Speicherbandbreite des M5 Pro 307 GB/s, während der M5 Max 614 GB/s erreicht:
▲ Bild | Apple
Da der M5 Pro und der M5 Max standardmäßig mit einem 18-Kern-CPU ausgestattet sind, liegt der Grund für die unterschiedliche Speicherbandbreite höchstwahrscheinlich in den GPU-Spezifikationen.
In Verbindung mit den Vorhersagen vor der Veröffentlichung deutet dieser Unterschied darauf hin, dass die Speichercontroller der M5-Serie höchstwahrscheinlich auf der GPU-Kerncluster angeordnet sind.
Diese Strategie ist verwandt mit der Panther Lake-Architektur, die wir bei einem Besuch der Intel-Fabrik im vergangenen Jahr gesehen haben:
Der Vorteil dieser Anordnung ist offensichtlich – die Nähe zwischen GPU und Speichercontroller kann die Latenz bei der Kommunikation zwischen den Kernen des Arbeitsspeichers erheblich verringern und somit die Effizienz der GPU steigern.
Was ist nun die Stärke einer schnelleren GPU mit größerem VRAM? Natürlich die lokale AI-Anwendung.
Dies ist auch einer der Gründe, warum Apple auf seiner Homepage so oft das Wort „AI“ erwähnt.
Nehmen wir mal das 14-Zoll-MacBook Pro-Prototyp von ifanr als Beispiel. Wir haben die leistungsstärkste Version mit 40-Kern-GPU M5 Max, 128 GB Einheitsspeicher und 8 TB Festplatte erhalten, ein Leistungskonzert, das über 55.000 Yuan kostet.
Normalerweise ist beim Ausführen von lokalen Modellen auf einem Windows-PC die größte Einschränkung nicht der teure „Mainboard-Arbeitsspeicher“, sondern der VRAM (Grafikspeicher) der Grafikkarte.
Der größte Vorteil des Apple-Einheitsspeichers besteht darin, dass er direkt von der GPU abgerufen werden kann.
Beispielsweise kann unser 128-GB-M5-Max-Testcomputer theoretisch sogar nahezu 100 GB Grafikspeicher für die GPU zur Verfügung stellen:
Da wir nun über so viel Arbeitsspeicher verfügen, sollten wir natürlich, wie Apple es propagiert, einige große lokale AI-Modelle ausführen, die bisher nicht laufen konnten.
In llmfit kann man sehen: Ein 128-GB-M5-Max kann alle Modelle bis zu 125b problemlos ausführen (perfect).
Erst ab Modellen wie MiniMax M2.5, Qwen3 und DeepSeek v2.5 mit über 220b wird es „knapp machbar“ (marginal):
▲ M5 Max 128GB
Im Vergleich dazu kann ein M1 Max mit 32 GB Arbeitsspeicher in llmfit höchstens Modelle von etwa 35b mit 2- oder 4-bit Quantisierung ausführen:
▲ M1 Max 32GB
Angesichts der Einfachheit der Bereitstellung und des Kontextverständnisses haben wir uns entschieden, qwen3.5-35b-a3b und qwen3-next-80b, das MLX unterstützt, über LM Studio zu testen. Beide sind 8-bit-quantifizierte MoE-Modelle:
Bei MoE-Modellen wie qwen3.5-35b-a3b, die sowohl in Bezug auf die Gesamtgröße als auch die Anzahl der Inferenzen nicht sehr groß sind, ist der M5 Max oft noch nicht einmal richtig warm geworden, bevor er das Modell abgeschlossen hat:
▲ qwen3.5-35b-a3b
Selbst bei einem Originaltext von fast 3.000 Wörtern und nach manueller Erhöhung der Token-Grenze des Modells beträgt die Reaktionszeit des M5 Max für das erste Token in jeder Runde von Neuformulierungen und Nachahmungen etwa 30 Sekunden, und es tritt auch nach der Generierung von fast 10.000 Wörtern kein Überlauf auf.
▲ qwen3.5-35b-a3b
Das 8-bit-quantifizierte und mit MLX optimierte qwen3-next-80b mit einer größeren Anzahl von Parametern profitiert noch stärker vom M5 Max.
Obwohl man die Speicherwarnung ignorieren und ein fast 80-GB-Modell manuell laden muss, ist das Ergebnis wirklich beeindruckend:
Während bei qwen3.5-35b-a3b die Reaktionszeit für dasselbe Eingabewort 30 Sekunden beträgt, liefert qwen3-next-80b die Antwort sofort.
▲ qwen3-next-80b
Einerseits ist die Anzahl der Parameter von 80b im Vergleich zu 3b bereits sehr groß, andererseits handelt es sich um eine Version, die auf dem offenen MLX-Framework von Apple optimiert wurde, wodurch die Stärken von Apple Silicon voll ausgeschöpft werden können.
Wie verhält es sich nun mit dem M5 Max bei dichten Modellen wie Llama 3.3?
▲ Bild | Tom's Guide
Obwohl das 8-bit-quantifizierte Llama 3.3 70b-Modell nur eine Größe von etwa 75 GB hat, führt der benötigte KV-Cache für 128k Kontext zu einem Überlauf, so dass LM Studio es nicht laden kann.
Nachdem wir es durch das kleinere Llama 3.3 70b Q4_K_M ersetzt haben, kann der M5 Max endlich das Modell normal laden. Nach der Ausführung der obigen Eingabewörter beträgt die Systemauslastung etwa 95 GB, und die Generierungsgeschwindigkeit liegt bei 9,95 Token/s:
Mit anderen Worten, bei dichten Modellen ähnlicher Größe ist ein M3 Ultra mit mehr Arbeitsspe