Zum dritten Generation-Modell hat das Apple-Management alles beantwortet
Von links nach rechts sind es die Apple-Manager Amar Subramanya, Mike Rockwell, Sebastien Marineau-Mes und Craig Federighi. Das Bild wurde mit KI bearbeitet.
Am 8. Juni (örtliche Zeit) veranstaltete Apple die WWDC 2026. Neben den beiden Hotspots der AI-Fähigkeitsintegration in iOS und des eigenständigen Siris war ein weiterer Schwerpunkt die zugrunde liegende Basis-Modelle dieser Fähigkeiten.
Apple zeigte diesmal die dritte Generation der Apple Foundation Models (AFM) vor, die 2 Endgerätemodelle und 3 Modelle umfasst, die auf einer privaten Cloud-Computing-Plattform laufen.
Apple erklärte, dass diese Generation von Modellen in Zusammenarbeit mit Google maßgeschneidert wurde. Mehrere dieser Modelle wurden während der Trainings- und Optimierungsphase mithilfe des Gemini-Modells "verfeinert". Es wird kein Gemini-Modell oder Gemini-Client-Code direkt in iOS implementiert, und es wird betont, dass die Modelle speziell für Apple-Chips optimiert sind.
Außerdem ist das Cloud-Modell AFM 3 Cloud Pro separat als "optimiert für NVIDIA-GPU" gekennzeichnet.
Die 5 Modelle im "Gesamtpaket"
Nach den offiziellen Angaben von Apple umfasst die neu veröffentlichte dritte Generation von Modellen die Endgerätemodelle AFM 3 Core und AFM 3 Core Advanced, sowie die Servermodelle AFM 3 Cloud, ADM 3 Cloud und AFM 3 Cloud Pro. Hierbei steht AFM für Apple Foundation Model.
Unter den fünf Modellen ist AFM 3 Core eine gewöhnliche Weiterentwicklung des Vorgängermodells. Als zukünftiges Haupt-Endgerätemodell hat es eine deutliche Leistungssteigerung erzielt.
Die technische Route von AFM 3 Core Advanced ist am meisten im Fokus.
Dies ist ein sparsames Modell mit 20 Milliarden Parametern, das speziell für die leistungsstärksten Apple-Chips optimiert ist und native Multimodalität unterstützt, einschließlich Sprachsynthese, Spracherkennung und visuellem Verständnis.
Um ein Modell mit 20 Milliarden Parametern auf einem Handy laufen zu lassen, würde die herkömmliche Methode erfordern, dass alle Parameter ständig im Arbeitsspeicher verbleiben, was technisch nicht machbar ist. Apple hat hier die Instruction-Following Pruning-Technologie als Lösung entwickelt.
Blau sind die statischen Experten im DRAM, orange die dynamischen Experten, und leere Kreise stellen inaktive Experten dar.
Zusammengefasst werden die Kerngewichte, wie die Attention-Schicht des Modells, im DRAM-Speicher platziert, während die FFN-Expertenparameter in einem relativ kostengünstigen NAND-Flash-Speicher gespeichert werden.
Beim Inferenzvorgang werden nur wenige ausgewählte FFN-Experten basierend auf den Eingabe-Eigenschaften in den DRAM geladen und an der Berechnung beteiligt. Dadurch wird die Effizienz der sparsamen Aktivierung des MoE-Modells beibehalten, und die Anforderungen an die DRAM-Kapazität für die Modellimplementierung werden verringert, was eine effiziente Inferenz ermöglicht.
Diese Architektur wurde bereits in einem Apple-Papier aus dem Jahr 2023 erwähnt. Damals hat Apple das Konzept von "LLM in a Flash" vorgeschlagen: Speichern von Parametern großer Modelle im NAND-Flash-Speicher (Flash) und bedarfsgesteuertes Laden in den DRAM, um LLMs, die größer als der Arbeitsspeicher sind, auf Endgeräten auszuführen und das Problem der "langsamen Bandbreite zwischen Flash und Arbeitsspeicher" zu lösen.
Amar Subramanya, der AI-Vizepräsident von Apple, hat auf der WWDC-Technologie-Konferenz erklärt, wie sich dieses Design von herkömmlichen Lösungen unterscheidet.
Subramanya sagte, dass typische Cloud-sparse Modelle die Gewichte Wort für Wort austauschen müssen, aber die Bandbreite zwischen Flash und Arbeitsspeicher ist zu langsam, um diese Betriebsfrequenz zu unterstützen. Daher trifft AFM 3 Core Advanced nur eine Routing-Entscheidung für die gesamte Eingabe und wählt eine Parameter-Untermenge auf einmal aus, was die Ladekosten erheblich verringert.
Die Größe der aktivierten Parameter bei jeder Antwort liegt zwischen 1 und 4 Milliarden, wobei die genaue Anzahl von der Schwierigkeit der Aufgabe abhängt. Zwischen verschiedenen Anfragen können die Gewichte inkrementell geladen werden. Das Modell verwaltet keine mehreren kleinen Modelle und ist keine einheitliche feste Konfiguration.
Apple nennt diese Eigenschaft "Inferenz-Zeit-Elastizität" (inference-time elasticity).
AFM 3 Core und AFM 3 Core Advanced decken die meisten Szenarien der lokalen Verarbeitung auf Apple-Geräten ab. Wenn die lokale Rechenleistung nicht ausreicht, werden die Anfragen an die private Cloud-Computing-Plattform von Apple weitergeleitet, auf der drei Cloud-Modelle bereitgestellt werden.
Das Hauptmodell AFM 3 Cloud ist auf Geschwindigkeit, Effizienz und Leistung optimiert. Es erbt die Architektur des parallelen Trajektorien-Mixture-of-Experts, die Apple im vergangenen Jahr eingeführt hat, und hat in diesem Jahr einige wichtige Upgrades vorgenommen, die den Trainingsvorgang stabilisiert und die Fähigkeit des Modells verbessert haben, in einem langen Kontextfenster zu inferieren und Informationen genau zu erinnern.
Mit den Worten von Apple ist dies ein großer Fortschritt bei der multimodalen Inferenz, die von der privaten Cloud-Computing-Plattform unterstützt wird.
Im Bereich der Bildverarbeitung hat Apple das ADM 3 Cloud-Modell vorgestellt, das zur Erzeugung und Bearbeitung von hochwertigen Bildern eingesetzt wird. Das Modell verfügt über eine starke Steuerbarkeit und Parameter-Effizienz, kann verschiedene Seitenverhältnisse und Auflösungen verarbeiten und unterstützt auf nativer Ebene die Erstellung, Bearbeitung von Bildern und die Erzeugung von Genmoji-Emojis.
Bei der Architektur-Entwurf nutzt ADM 3 Cloud breitere Modelle aus der Apple-Basis-Modell-Familie, um den Schaffens- und Bearbeitungsprozess zu leiten. Für spezifischere downstream-Bearbeitungs-Erlebnisse, wie die Raum-Neukonfigurationsfunktion in der Foto-App und die berührungsbasierte Bildbearbeitung und individuelle Erzeugung im Bild-Spielplatz, werden spezielle Adapter eingesetzt.
Der "Hauptakt" auf der Serverseite heißt AFM 3 Cloud Pro. Dies ist das leistungsstärkste Modell von Apple und speziell für die anspruchsvollsten Szenarien wie die Verwendung von Agent-Tools und komplexe Inferenzvorgänge entwickelt. Amar Subramanya hat AFM 3 Cloud Pro so positioniert, dass seine Leistung mit der des Google Gemini-Frontier-Modells vergleichbar ist.
Diese drei Modelle haben klare Aufgabenverteilungen: AFM 3 Cloud ist für die effiziente Reaktion auf tägliche Anfragen zuständig, ADM 3 Cloud bietet ein erstklassiges Erlebnis bei der Bildschaffung und -bearbeitung, und AFM 3 Cloud Pro behandelt Aufgaben, die tiefgehende Inferenz erfordern.
Wie viel hat die Leistung sich verbessert?
In verschiedenen Sprachregionen bevorzugen die Benutzer die Antworten von AFM 3 Core und AFM 3 Cloud gegenüber den Vorgängermodellen.
Nach der WWDC hat Apple auch auf seiner offiziellen Website die Benchmark-Daten dieser fünf Modelle der neuen Generation veröffentlicht.
Bei der allgemeinen Textleistung und dem visuellen Verständnis hat die dritte Generation der Apple-Basis-Modelle gegenüber der zweiten Generation des vergangenen Jahres in allen Bereichen Fortschritte erzielt.
Insbesondere hat AFM 3 Core eine deutliche Verbesserung bei der allgemeinen Textleistung (Behandlung von alltäglichen Textaufgaben) erreicht. In der menschlichen Evaluierung von Texten (Human Evaluation on Text), wenn die Antworten von AFM 3 Core und dem Vorgängermodell für die gleiche Menge von Eingaben nebeneinander gestellt und von menschlichen Prüfern ausgewählt werden mussten, haben die Prüfer in 45,6 % der Fälle (dies bezieht sich auf die globale durchschnittliche Präferenzrate, dasselbe gilt unten; die Basisrate des Modells aus 2025 war nur 23,3 %) die Antworten des neuen Modells als besser bewertet.
Bei der englischen Bildverständnis-Test bevorzugen die Benutzer die Antworten von AFM 3 Core und AFM 3 Cloud.
Bei der Bildverständnis hat die Präferenzrate der Benutzer sogar über 61 % erreicht, und das Modell kann visuellen Inhalt genauer erkennen, extrahieren und inferieren.
Die Präferenzrate von AFM 3 Cloud bei der allgemeinen Textleistung ist von 8,7 % im vergangenen Jahr auf 64,7 % gestiegen, was in allen unterstützten globalen Sprachregionen einen Sprung darstellt. Apples Evaluierung zeigt, dass die allgemeine Zufriedenheit mit den Antworten um ca. 36 % gestiegen ist, und die Leistung bei der Befolgung von Anweisungen um 21 %. Gleichzeitig ist die Präferenzrate bei der Bildverständnis von 9,6 % im vergangenen Jahr auf 37,8 % gestiegen.
Nach den offiziellen Angaben von Apple hat AFM 3 Cloud Pro auf der Grundlage der Cloud-Version einen weiteren Schritt nach vorne gemacht. Die allgemeine Zufriedenheit bei der Text- und Bildverständnis hat jeweils um 10 % und 14 % relativ zugenommen, insbesondere bei bestimmten Aufgaben wie Mathematik ist die Leistung um 14 % höher.
Neben der Verbesserung der großen Basis-Modelle hat Apple auch zwei Kernindikatoren gezeigt, um die Verbesserung des alltäglichen Interaktionserlebnisses, das von AFM 3 Core Advanced angetrieben wird, aufzuzeigen. Diese Funktion läuft mit einer effizienten Aktivierungsgröße von 1 Milliarde Parametern und hat Fortschritte bei der Sprachsynthese und Spracherkennung erzielt.
Bei den Text-zu-Sprache (TTS)-Tests hat das neue Modell auf der 5-Punkte-Skala der mittleren Meinungsbewertung (MOS) einen Gesamtwert von 4,15 Punkten erreicht, was 0,28 Punkte höher als das Vorgängermodell ist (auf der MOS-Skala bedeutet 0,1 Punkt eine sehr deutliche Verbesserung des Erlebnisses). In alltäglichen Gesprächsszenarien wie Gruppenchat-Benachrichtigungen und Fußgänger-Navigation hat es sogar 4,24 Punkte erreicht (das Vorgängermodell hatte 3,82 Punkte), und das Tempo und die Rhythmusdarstellung sind dem menschlichen Sprechen näher.
AFM 3 Core Advanced hat in den Text-zu-Sprache- und alltäglichen Gesprächs-Tests einen deutlichen Leistungsanstieg gezeigt.
Bei den Spracherkennungstests (Sprache-zu-Text) hat das neue Modell ebenfalls hervorragend abgeschnitten. Bei der direkten Präferenzbeurteilung der Gesamtqualität hat das neue Modell mit 44,7 % gegenüber 17,6 % des bestehenden Spracherkennungssystems eine absolute Überlegenheit gezeigt. Diese Überlegenheit erstreckt sich auch auf die anderen sechs Schlüsseldimensionen wie Interpunktion, Groß- und Kleinschreibung, Layout, Bedeutungserfassung, Sprachfehler und Unflüssigkeiten sowie Stil.
Bei den sieben Qualitätsdimensionen des Spracherkennungstasks bevorzugen die Benutzer die Transkriptionsergebnisse von AFM 3 Core Advanced.
Mit dem Fortschritt der Testphase hat Apple angekündigt, dass es die Modellleistung kontinuierlich optimieren wird, um sicherzustellen, dass es allen globalen Benutzern ein noch besseres Apple Intelligence-Integrationserlebnis bietet, wenn es offiziell ausgerollt wird.
NVIDIA-Chips und "Datenschutz-Schutzanzug"
Ein bemerkenswertes Detail ist, dass AFM 3 Cloud Pro auf NVIDIA-GPUs in der Google Cloud platziert ist. Dies ist das einzige Mitglied in der Apple-Modellfamilie, das speziell für NVIDIA-GPUs optimiert ist. Die anderen vier Modelle laufen auf Apple-eigenen Chips.
Sebastien Marineau-Mes, der Vizepräsident für Software bei Apple, hat auf der WWDC-Technologie-Konferenz klar gemacht, dass sie die neuesten Technologien von NVIDIA nutzen möchten, aber nur unter der Bedingung, dass die Datenschutzregeln der privaten Cloud-Computing-Plattform nicht verletzt werden.
Marineau-Mes hat bestätigt, dass Apple die auf diesen Nodes deploy