Ich habe mit Meta's "Chinesische Supergruppe" neuem Modell mit einem Bild eine Kopie der "Doubao App" erstellt

MSL legt die erste Bilanz vor.

Metas "Avocado"-Modell ist endlich reif!

Nach Berichten von Zhidongxi am 9. April: Heute, neun Monate nach seiner Gründung, hat das Meta Super Intelligence Laboratory (MSL) sein erstes Modell Muse Spark (interner Code Name: Avocado) vorgestellt. Dies ist ein eingeborenes multimodales Inferenzmodell, das Werkzeugnutzung, visuelle Denkketten und die Koordination mehrerer Agenten unterstützt.

Auf der Plattform zur Bewertung von Large Language Modellen Artificial Analysis ist der Intelligenzindex von Muse Spark direkt von 18 Punkten bei Llama 4 Maverick auf 52 Punkte gestiegen, was zwischen Claude Sonnet 4.6 und Claude Opus 4.6 liegt. Damit hat es sich in die Spitzengruppe eingeschlichen.

Wir haben das Modell sofort getestet, indem wir einen Screenshot der Doubao-App hochgeladen und Muse Spark aufgefordert haben, ihn zu reproduzieren. Man kann beobachten, dass die Antworten von Muse Spark eher umgangssprachlich sind und fast einen "Doubao-Geschmack" haben. Dies könnte daran liegen, dass das Modell hauptsächlich auf Endverbraucher zugeschnitten ist.

Muse Spark generiert sehr schnell und liefert gute Ergebnisse. Es hat die Seite von Doubao fast 1:1 reproduziert, sogar die Bilder wurden wiedergegeben.

Muse Spark hat auch den Kugelsprungtest bestanden. Einige Internetnutzer haben kommentiert, dass Meta nach über einem Jahr endlich ein Large Language Modell entwickelt hat, das den Sechseck-Kugelsprungtest besteht. Dieser historische Moment ist definitely notierenswert.

Muse Spark ist das erste Ergebnis, das Alexandr Wang, Gründer von ScaleAI und Meta's Chef-AI-Beamter, zehn Monate nach seinem Eintritt bei Meta vorlegt.

Dieser Erfolg war nicht einfach zu erreichen. Nachdem Llama 4 einen epischen Rückschlag erlitten hatte, hat Meta sein AI-Team umstrukturiert, und Yann LeCun, der die Large Language Modelle kritisiert hatte, hat schließlich das Unternehmen verlassen.

Wang hat erklärt, dass Meta in den letzten neun Monaten einen neuen AI-Technologiestack von Grund auf aufgebaut hat, wobei die Infrastruktur, die Architektur und die Datenpipeline komplett neu sind. Muse Spark ist das Ergebnis dieser Bemühungen.

Viele chinesische AI-Experten, die bei Meta angestellt sind, haben diese Errungenschaft geteilt, darunter Shengjia Zhao, Shuchao Bi, Jiahui Yu, Jason Wei und andere. Bemerkenswerterweise hat das MSL-Team eine hohe Anzahl an chinesischen Mitgliedern. Viele der Meta-Forscher, die das neue Modell geteilt haben, von den Leitern bis zu den Mitarbeitern, sind chinesisch.

Laut Berichten von Top Chinese Innovation and Entrepreneurship Society hat Meta einen neuen chinesischen Experten gewonnen. Yi Wu, der ehemalige Chefwissenschaftler des RL-Labors der Ant Group, hat das Meta MSL betreten und berichtet direkt an Meta-Vizepräsidenten und MSL-Mitdirektor Nat Friedman.

Yi Wu (Quelle: Top Chinese Innovation and Entrepreneurship Society)

Muse Spark ist das erste Modell der Muse-Serie des MSL. In Zukunft werden weitere Modelle dieser Serie veröffentlicht. Derzeit wird Muse Spark schrittweise an die Anwendungen von Meta und die Webseite von Meta.ai weitergeleitet. Dennoch gibt es immer noch Benutzer, die melden, dass sie immer noch das Modell Llama 3 verwenden.

Übrigens wird das Wort "Open Source" in den zugehörigen Blogs nicht einmal erwähnt.

Testlink: meta.ai

01. Starke Leistung in Multimodalität und Gesundheitswesen, aber Schwächen bei Agenten und Programmierworkflows

Nach den Ergebnissen der Benchmark-Tests gehört Muse Spark in den Spitzenbereich der Branche in den Bereichen multimodale Wahrnehmung, Inferenz, Gesundheitswesen und Agenten. Das MSL gibt jedoch zu, dass das Modell bei langfristigen Agentensystemen und Programmierworkflows noch Verbesserungsbedarf hat.

Hier sind die vollständigen Benchmark-Ergebnisse von Muse Spark. Es ist zu beachten, dass Meta hier eine Methode zur Datenpräsentation verwendet, die als "Diagrammtrick" betrachtet werden könnte. Auf den ersten Blick sind alle Ergebnisse von Muse Spark blau markiert, was den Eindruck erweckt, dass es in allen Bereichen führend ist. Tatsächlich hat das Modell jedoch nur vier SOTA-Ergebnisse in den 20 Benchmark-Tests erreicht.

In Bezug auf die multimodalen Fähigkeiten ist Muse Spark wettbewerbsfähig. Es gibt keine großen Unterschiede zu anderen Large Language Modellen in den USA. Es liegt im Wesentlichen auf der gleichen Ebene wie GPT-5.4. Die Leistung von Muse Spark entspricht seiner Position als eingeborenes multimodales Large Language Modell.

Als ein Modell, das in vielen sozialen Medien von Meta eingesetzt werden soll und auf breite Privatnutzer zugeschnitten ist, hat Muse Spark auch im Gesundheitswesen, einem Bereich, der von den Nutzern häufig interessiert, keine Nachholbedarf. Es hat in den Tests HealthBench Hard und MedXpertQA (Multimodalität) SOTA-Ergebnisse erzielt, was darauf hinweist, dass es in diesen Bereichen besonders optimiert wurde.

Muse Spark hat auch einen "Nachdenkmodus (Contemplating mode)" eingeführt, der die parallele Inferenz mehrerer Agenten koordiniert. Dadurch kann Muse Spark mit den fortschrittlichen Inferenzmodi von Modellen wie Gemini Deep Think und GPT Pro mithalten.

Nach dem Aktivieren des "Nachdenkmodus" hat Muse Spark in komplexen Aufgaben eine verbesserte Leistung gezeigt. Beispielsweise hat es in dem Benchmark-Test "HLE - Das letzte menschliche Examen" eine Richtigkeit von 58 % erreicht und in dem Benchmark-Test "Forschen an der wissenschaftlichen Frontiers" eine Richtigkeit von 38 %.

02. Benötigt um eine Größenordnung weniger Rechenleistung als Llama 4 und nutzt einen neuen Technologiestack für maschinelles Lernen

Abgesehen von den Benchmark-Ergebnissen ist auch die neue Positionierung des Modells und die dahinterliegende Technologie interessant.

Meta hat erklärt, dass Muse Spark der erste Schritt in Richtung persönlicher Superintelligenz ist. Es kann die Welt der Nutzer verstehen, und die multimodalen Fähigkeiten und das Gesundheitswesen sind derzeit zwei Schwerpunkte.

Von der untersten Architekturebene aus integriert Muse Spark visuelle Informationen aus verschiedenen Bereichen und Werkzeugen und hat gute Fähigkeiten bei der Erkennung und Lokalisierung. Diese Funktionen können zusammen verschiedene interaktive Erfahrungen ermöglichen.

Beispielsweise kann ein Nutzer einen Screenshot eines Spielbildschirms hochladen und Muse Spark auffordern, daraus ein interaktives Spiel zu machen.

Oder ein Nutzer kann Muse Spark mitteilen, dass er ein Cholesterinproblem hat und Muse Spark auffordern, basierend auf seinen multimodalen Fähigkeiten und medizinischen Wissen eine dynamische Seite mit Nahrungsmittelempfehlungen zu erstellen.

Die Demos, die Meta in seinem Blog geteilt hat, beziehen sich nur auf die Bereiche Multimodalität und Gesundheitswesen. Dies könnte darauf hinweisen, dass die Muse-Serie letztendlich dem Vision von Mark Zuckerberg für persönliche Superintelligenz dient, anstatt einfach die Intelligenzgrenze zu erhöhen.

Technisch gesehen hat das MSL die Effizienz der Rechenleistung erheblich verbessert. Im Vergleich zu dem vorherigen Modell Llama 4 Maverick kann Muse Spark die gleiche Leistung mit um eine Größenordnung weniger Rechenressourcen erreichen.

Zusätzlich hat das MSL in der Phase des maschinellen Lernens einen neuen Technologiestack eingesetzt, der eine stabile und vorhersagbare Leistungserhöhung in der Massen-Maschinelles Lernen ermöglicht.

03. Eigenes Testen: Genaues Erkennen von Kalorien in Lebensmitteln und Entwurf einer neuen Meta AI-Brille

Nach der Veröffentlichung von Muse Spark haben wir weitere Tests durchgeführt.

Die multimodalen Fähigkeiten von Muse Spark sind tatsächlich gut. Wir haben ein Foto einer Bierflasche hochgeladen und es aufgefordert, die Kalorien zu analysieren. Muse Spark hat sofort die Marke und die Größe des Biers erkannt und sogar die Alkoholmenge, die im Originalbild kaum zu erkennen war, genau bestimmt.

Die Analyse der Kalorien basiert auf einer Suche. Es hat die Kalorien in alltägliche Lebensmittel umgerechnet und die erforderliche Bewegungsmenge angegeben, um diese Kalorien zu verbrennen. Dies ist ziemlich praktisch.

Anschließend haben wir Muse Spark aufgefordert, eine Werbeseite für Meta's AI-Brille zu erstellen, ohne ihm irgendeine Referenz zu geben. Man kann beobachten, dass Muse Spark während des Denkprozesses automatisch ein AI-Bildgenerierungsmodell auf

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ich habe mit dem neuen Modell, das von Meta's "Chinesische Supergruppe" entwickelt wurde, mit einem einzigen Bild eine Kopie der "Doubao App" erstellt.

01. Starke Leistung in Multimodalität und Gesundheitswesen, aber Schwächen bei Agenten und Programmierworkflows

02. Benötigt um eine Größenordnung weniger Rechenleistung als Llama 4 und nutzt einen neuen Technologiestack für maschinelles Lernen

03. Eigenes Testen: Genaues Erkennen von Kalorien in Lebensmitteln und Entwurf einer neuen Meta AI-Brille