StartseiteArtikel

TOP-Rangliste der Hug Face-Modelle, ich überzeuge mich jetzt nur für yuxinlu1

量子位2026-06-28 09:27
sich einen Platz unter den großen Konzernen erkämpfen

Ein einzelner Entwickler hat es tatsächlich in die Spitzengruppe der Hugging Face Models Trending-Liste geschafft, obwohl er zwischen großen Unternehmen steht?!

Es war ein normaler Tag, und ich schaute wie gewohnt auf die Trending-Liste von Hugging Face.

An erster Stelle steht GLM-5.2, das neueste Open-Source-Modell von Zhipu. Ein altbekanntes Modell mit über 60.000 Downloads. Kein Wunder.

An zweiter Stelle ist Baidus Unlimited OCR, das kürzlich stillschweigend Open-Source gemacht wurde. Es kann auf einmal über 40 Seiten Dokumente analysieren, und die Downloads haben inzwischen die 70.000 erreicht.

Als ich weiter scrollte, tauchte plötzlich ein persönlicher Account auf: yuxinlu1.

Hm... Was?!

Und er belegt sogar zwei Plätze.

Als ich dann die Downloadzahlen sah - die neuesten Daten betragen 207.000 und 536.000. Wahnsinn! Was für ein phantastisches Modell ist das?

Sogar in der Woche zuvor dominierte der Modell des einzelnen Entwicklers die Hugging Face-Liste und schob GLM-5.2 zurück. Selbst der Leiter von Zhipu hat das Modell auf X öffentlich empfohlen:

Das heißt, zwischen Namen wie Zhipu, Baidu, Qwen, NVIDIA... hat sich ein persönlicher Entwickler-Account in die Spitzengruppe geschlichen, und die Downloadzahlen sind erstaunlich hoch.

Das lässt einen neugierig werden: Wer ist eigentlich luyuxin? Woher kommt seine so große Macht?

Das "unkannte Modell" stürmt die Hugging Face-Trending-Liste

Bei dieser Runde der Hugging Face-Trending-Liste werden die Spitzenplätze hauptsächlich von großen Unternehmen, berühmten Teams und anspruchsvolle Märkten eingenommen.

Zum Beispiel Zhipus GLM-5.2, ein chinesisches Star-Modell mit 753 Milliarden Parametern. Oder Baidus Unlimited-OCR, das dem aktuellen Trend in der OCR und Dokumentenverstehen entspricht.

Weiter unten auf der Liste befinden sich Qwens AgentWorld, Nvidias LocateAnything und Microsofts FastContext.

Auch bekannte chinesische Open-Source-Großmodelle sind vertreten: MiniMax M3, Kimi-K2.7-Code, DeepSeek-V4-Pro.

Im Bereich der Bildgenerierung ist auch Krea vertreten. Die neuen Modelle Krea-2-Turbo und Krea-2-Raw sind beide auf der Liste.

Und in der Mitte aller dieser Modelle befinden sich zwei 12B GGUF-Modelle von luyuxin.

Na ja... luyuxin, du bist einfach zu auffällig...

Bei genauerem Hinsehen hat man festgestellt, dass diese beiden neuen Modelle hauptsächlich die Programmierschlussfolgerungsfähigkeiten von Fable 5 in ein kleines Gemma4-12B-Modell integriert haben, das lokal laufen kann.

Es benötigt nur 4,5 GB Grafikspeicher und kann lokal, offline und ohne API-Kosten laufen. Ein normaler Benutzer kann es sogar auf einer Consumer-Grafikkarte oder einem Mac mit vereinigtem Speicher ausführen.

Die beiden Modelle haben auch unterschiedliche Aufgaben.

V1 ist die Coder-Version, die auf das Schreiben von Code, das Lösen von Problemen und das Generieren von ausführbarem Code spezialisiert ist.

Laut der Modellkarte basiert seine Trainingsdaten auf "verifizierbaren" Code-Schlussfolgerungen: Jeder Code, der einer Denk-Kette entspricht, muss tatsächlich getestet und bestanden werden, bevor er beibehalten wird.

Die Trainingsdaten stammen hauptsächlich aus Cursors Composer 2.5, sowie aus Fable 5 - Wenn Composer 2.5 ein Problem falsch löst, wird es an Fable 5 weitergeleitet, um eine neue Schlussfolgerungskette und den richtigen Code zu generieren.

Nach der Veröffentlichung von V1 dominierte es die Hugging Face-Trending-Liste für mehrere Tage.

V2 ist die agentische Version, die die Fähigkeit zur mehrstufigen Werkzeugausführung hat und als lokaler Agent verwendet werden kann. Es kann selbst lesen, schlussfolgern, handeln und verifizieren.

Der Autor hat auch Benchmarks durchgeführt - Im Telecom-Subset von tau2-bench hat das Basismodell gemma-4-12B einen Score von 15% erreicht, während die V2-Version einen Score von 55% erzielt hat, was ungefähr 3,5 Mal der Basisleistung entspricht.

Der Autor hat jedoch auch angegeben, dass dies ein lokaler Selbsttest in einem einzigen Bereich mit 20 Aufgaben ist und nicht direkt mit der offiziellen Liste verglichen werden kann. Er hat auch eingestanden, dass es noch einen deutlichen Abstand zu den Frontier-Modellen gibt.

Der Autor hat auch erwähnt, dass Fable 5 später offline genommen wurde, und nur seine eigene Datenbank die "ursprünglichen" Schlussfolgerungsprozesse von Fable 5 beinhaltet.

Für die fehlenden Teile der Schlussfolgerungen in den Community-Beiträgen hat er Claude Opus 4.8(xhigh) verwendet, um sie neu zu generieren und Stück für Stück wiederherzustellen.

Er hat auch eingestanden, dass die rekonstruierten Trajektorien "möglicherweise von der ursprünglichen Fable 5 abweichen", aber dies war die einzige praktikable Lösung.

Er hat auch in der Diskussion angegeben, dass diese Fine-Tuning-Daten tatsächlich nur etwa 10.000 Beispiele enthalten. Er hat betont, dass die Datenmenge nicht so wichtig ist wie die Qualität, die Filterung und die Verifizierung.

Ein sehr realistischer Grund, warum diese Modelle auf Hugging Face so beliebt sind, ist: Sie können lokal laufen.

Beide Modelle sind GGUF-Quantisierungsversionen.

GGUF ist ein übliches Format für lokale Modelle in der llama.cpp-Ekosystem. Benutzer können es direkt mit Tools wie llama.cpp, Ollama, LM Studio, Jan laden.

Dies ist besonders für Coding-Szenarien attraktiv. Schließlich beinhaltet das Schreiben von Code, das Betrachten von Repositories, das Ausführen von Befehlen und das Beheben von Fehlern oft private Projekte und lokale Umgebungen. Wenn man es auf seinem eigenen Computer ausführen kann, bedeutet das, dass man nicht den Code in die Cloud übertragen muss und keine API-Kosten zahlen muss.

Das Wichtigste ist, dass die Anforderungen nicht sehr hoch sind.

Die Modellkarte von V1 besagt, dass die kleinste Q2_K-Version etwa 4,5 GB groß ist. Mit nur etwa 4,5 GB Grafikspeicher oder vereinigtem Speicher kann man einen privaten, offline arbeitenden Programmierassistenten ausführen.

Der Autor empfiehlt die Q4_K_M-Version, die etwa 6,87 GB groß ist. Die höherwertige Q8_0-Version ist etwa 11,8 GB groß.

Bei V2 hat der Autor die Q2_K-Version nicht veröffentlicht, da die Drucktests nicht bestanden wurden und es nicht zuverlässig genug war.

Die kleinste zuverlässige Version von V2 beginnt also mit Q3_K_M und ist etwa 5,7 GB groß. Die empfohlene Q4_K_M-Version ist immer noch etwa 6,87 GB groß.

Der Autor hat auch seine zukünftigen Pläne preisgegeben - V3 ist bereits in Arbeit.

Er hat angegeben, dass V3 weiterhin in Richtung Coding + Agentic auf der 12B-Linie weiterentwickelt werden wird. Der Autor hat gesagt, dass er selbst nicht gedacht hat, dass die Verbesserung nach dem Training so groß sein würde, also wird er weiterhin voranschreiten.

Insbesondere im tau2-bench Telecom gibt es bei V2 noch einige Probleme wie "übermäßige Versuche und wiederholtes Retry". V3 wird diese Probleme durch weitere Training verbessern.

Andererseits arbeitet er auch an einer größeren Version: Qwen3.6-27B. Dies entspricht der gleichen Coding + Agentic-Rezeptur auf einer größeren Basis, für Benutzer mit mehr Grafikspeicher.

Ein Mann, 40 Stunden, und er schafft es zwischen die großen Unternehmen

Er hat es alleine geschafft, die Hugging Face-Trending-Liste zu stürmen, und die Gesamt-Downloadzahlen haben über 700.000 erreicht. Er hat sich einen Platz zwischen den großen Unternehmen erobert.

Wer ist dieser Autor eigentlich?

Nachdem QbitAI Kontakt mit dem Autor aufgenommen hat, haben wir auch seine Geschichte erfahren.

Er heißt Lu Yuxin und ist derzeit ein AI-Student an einer amerikanischen Universität. Er hat ein Bachelorstudium in Daten- und Businessanalyse absolviert und hat sich dann auch in der Full-Stack-Entwicklung weitergebildet, indem er Frontend, Backend, Softwareentwicklung und Datenverarbeitung gelernt hat.

Diese beiden erfolgreichen Modelle sind nicht sein Hauptgeschäft, sondern reine Privatprojekte auf eigene Kosten.

"Open-Source bedeutet eigentlich nur, dass man Geld ausgibt und keine Einnahmen hat." Er ist sich dessen bewusst, und daher war sein ursprünglicher Grund für die Entwicklung von V1 eher "Selbstverbesserung":

Die Schulwissen aktualisiert sich zu langsam. Während seines Studiums hat der Professor noch über Inhalte von vor zwei oder drei Jahren gesprochen, während die AI sich ständig weiterentwickelt. Also hat er dieses Projekt genutzt, um sich selbst zu zwingen, die neuesten Dinge zu lernen.

Für die Entwicklung dieser Modelle hat er ein ganzes Claude Max 20×-Paket verbraucht, und allein für V2 hat er über 40 Stunden investiert.

Das Synthetisieren von Daten, das manuelle Reinigen, das Training, die Bewertung und das erneute Training - fast alles hat er alleine bewältigt.

Bei der Hardware hat er eine RTX 5090 mit 32 GB VRAM verwendet. Außerdem hat er noch etwa 96 GB lokalen SSD-Speicher zur Verfügung. Die tatsächlich nutzbare Ressourcenmenge liegt bei etwa 128 GB.

Für einen einzelnen Entwickler ist das nicht schlecht, aber es ist kein Vergleich zu den Rechenkapazitäten von großen Unternehmen und AI-Labors.

Er hat QbitAI gesagt, dass der zeitaufwändigste Teil des gesamten Prozesses nicht das Training ist, sondern die Datenverarbeitung.

Insbesondere bei den agentischen Daten sind echte Gespräche oft sehr lang. Ein Task kann aus mehreren Schritten bestehen und Tausende oder sogar Tausende von Token enthalten. Aber aufgrund der begrenzten Grafikspeicher kann er beim Training maximal 2048 Token auf einmal verarbeiten.

Also hat er eine Art "Schiebefenster" implementiert: In jedem mehrstufigen Gespräch wird die neueste Benutzer-Nachricht als Ankerpunkt genommen, und der Kontext wird um eine Werkzeugausführung herum auf den Budgetbetrag reduziert.

Sowohl V1 als auch V2 basieren auf Gemma 4-12B. Die Wahl dieses Modells war nicht einfach, denn das Format und die Tool-Protocol von Gemma 4 sind relativ speziell, und die Anpassung ist sehr aufwändig. Viele Clients unterstützen es auch nicht vollständig.

Lu Yuxin hat angegeben, dass es einerseits eine Herausforderung für ihn war, und andererseits, dass die Größe von 12B sehr attraktiv ist.

Er hat berechnet, dass wenn man es auf etwa 3 Bit quantisiert, viele Mac-Benutzer mit