Das geheime Modell HappyHorse taucht plötzlich auf und dominiert die Charts: Ist ein "Welses" in der Videogenerierung aufgetaucht?

Das Happy Horse Modell hat die Spitze der AI-Video-Ranking-Liste erreicht, was Diskussionen über den Wettbewerb zwischen Open-Source- und Closed-Source-Modellen ausgelöst hat.

Ohne Produktpräsentation, ohne technische Blogs und ohne jegliche Unternehmensunterstützung – ein Text-zu-Video-Modell namens HappyHorse-1.0 hat sich still und leise an der Spitze der AI Video Arena-Rangliste der renommierten AI-Bewertungsplattform Artificial Analysis positioniert. Mit einem höheren Elo-Score hat es Seedance 2.0 übertroffen und andere führende Anbieter wie Keling und Tianguang hinter sich gelassen. Dadurch hat es plötzlich einen "Entschlüsselungskampf" in der technologischen Szene ausgelöst.

Die Rangliste von Artificial Analysis basiert nicht auf der Bewertung technischer Parameter, sondern auf den Ergebnissen von Blindtests mit echten Nutzern, die zu Elo-Punkten zusammengefasst werden. Sie spiegelt die echte Wahrnehmung von normalen Menschen wider. Dies macht diese Rangliste schwieriger zu bestreiten als die üblichen Benchmark-Ranglisten und lässt die Frage "Wer hat das eigentlich gemacht?" nicht mehr ignoriert werden.

"Happy Horse" erreicht still und leise die Spitze und löst einen Ratespiele-Kampf in der Technologiebranche aus

Die Spekulationen auf X kamen schnell. Zuerst fiel die Reihenfolge der Sprachen auf der offiziellen Website auf: Mandarin und Kantonesisch stehen vor Englisch. Für ein Produkt, das an globale Nutzer gerichtet ist, ist diese Reihenfolge ungewöhnlich – wenn ein amerikanisches Team das Projekt leitet, ist es fast unmöglich, dass Englisch nicht an erster Stelle steht. Man kann davon ausgehen, dass das Team hinter dem Projekt aus China stammt.

Der Name selbst ist auch ein Hinweis. 2026 ist das chinesische Jahr des Pferdes, und der Name "HappyHorse" enthält einen ziemlich offensichtlichen Pferdejahr-Witz. Früher in diesem Jahr hat "Pony Alpha" ähnliche Tricks gespielt. So verlängerte sich die Verdächtigenliste schnell: Die Gründer von Tencent und Alibaba heißen Ma und sind daher natürlich auf der Liste. Einige setzen auf Xiaomi und meinen, dass Lei Jun immer zurückhaltend ist und gerne überraschend auftritt. Andere finden, dass es eher wie DeepSeek aussieht, da DS zuvor heimlich ein visuelles Modell online gestellt hat und es dann wieder heimlich offline genommen hat. Die Spekulationen waren rege, aber niemand konnte Beweise vorlegen.

Das Ziel wurde tatsächlich durch einen detaillierten Vergleich auf technischer Ebene festgelegt. Der X-Nutzer Vigo Zhao hat die öffentlichen Benchmark-Daten von HappyHorse-1.0 mit bekannten Modellen verglichen und ein stark übereinstimmendes Objekt gefunden: daVinci-MagiHuman, das Open-Source-Modell "Da Vinci Magical Human", das im März auf Github online gestellt wurde.

Visuelle Qualität 4,80, Textausrichtung 4,18, physikalische Konsistenz 4,52, phonetischer Fehleranteil 14,60% – die beiden Datensätze stimmen in allen Punkten überein. Die Struktur der offiziellen Website ist auch fast identisch: Die Architekturbeschreibung, die Leistungstabelle und das Präsentationsstil der Demo-Videos scheinen aus der gleichen Vorlage zu stammen. Beide Modelle basieren auf einer Single-Stream-Transformer-Architektur, generieren Audio- und Videoinhalte gemeinsam und unterstützen die gleichen Sprachen. Eine solche Übereinstimmung lässt sich schwerlich als Zufall erklären.

Der momentan am meisten akzeptierte Schluss in der technologischen Szene ist, dass HappyHorse eine optimierte, iterative Version des Open-Source-Modells daVinci-MagiHuman von Sand.ai, einem der Koentwickler, ist. Das Kernziel ist es, die Leistungsgrenze des Modells unter realen Nutzerpräferenzen zu testen und den Grundstein für die spätere kommerzielle Implementierung zu legen.

DaVinci-MagiHuman wurde am 23. März 2026 offiziell als Open-Source-Projekt veröffentlicht und ist das Ergebnis der Zusammenarbeit zweier junger Teams. Ein Team kommt aus dem Forschungslabor für generative Künstliche Intelligenz (GAIR) der Shanghai Institute of Innovation (SII), dessen Leiter der Wissenschaftler Liu Pengfei ist. Das andere Team ist Sand.ai aus Peking, dessen Gründer Cao Yue ebenfalls einen akademischen Hintergrund hat und das Unternehmen sich auf autoregressive Weltmodelle konzentriert.

Das Modell verwendet einen reinen Self-Attention-Single-Stream-Transformer mit 15 Milliarden Parametern und kombiniert die Token von Text, Video und Audio in einer einzigen Sequenz für die gemeinsame Modellierung – in der Open-Source-Szene hat bisher noch niemand von Grund auf eine echte gemeinsame Vorhersage von Audio- und Videoinhalten durchgeführt. Die meisten haben es auf der Grundlage von Ein-Modalität-Modellen zusammengesetzt.

Wie konnte ein Open-Source-Video-Modell in zwei Wochen aufsteigen?

Nachdem die Identität geklärt wurde, ist die nächste Frage noch schwieriger zu beantworten: DaVinci-MagiHuman wurde erst Ende März als Open-Source-Projekt veröffentlicht. Worauf gründete HappyHorse-1.0 in nur zwei Wochen einen höheren Elo-Score als Seedance 2.0?

Aus den Informationen auf der offiziellen Website geht hervor, dass HappyHorse die zugrunde liegende Architektur nicht verändert hat. Eine vernünftige Vermutung ist, dass es die Standardgenerierungsstrategie speziell für die Bewertungsszenarien angepasst hat.

Das Elo-System basiert im Wesentlichen auf der Akkumulation von Nutzerpräferenzen. Wenn die Gesichtsausdrücke stabil sind, die Audio- und Videoinhalte übereinstimmen und das Bild ansprechend ist, wird das Modell in Blindtests eher ausgewählt. Die Leistungsgrenze des Modells bleibt unverändert, aber die "Bewertungsleistung" kann verbessert werden.

Tatsächlich machen in den Blindtestproben von Artificial Analysis über 60% die Generierung von Porträts und Sprecherinhalten aus. DaVinci-MagiHuman hat sich bereits in der Trainingsphase auf die Darstellung von Porträts konzentriert und hat daher in diesen Szenarien eine natürliche Überlegenheit. Dies ist auch der Hauptgrund für seine Überlegenheit in den Blindtests. Wenn die Blindtestproben hauptsächlich aus Porträts bestehen, haben Modelle, die gut in der Generierung von Porträts sind, ein systematisches Vorteil, was nicht direkt mit ihrer tatsächlichen Leistung in komplexen Szenarien wie Mehrpersonenszenen, komplexen Kamerabewegungen und langen Zeitreihen erzählungen zusammenhängt.

Das Ergebnis ist, dass es einen deutlichen Unterschied zwischen den Zahlen in der Rangliste und der tatsächlichen Testerfahrung gibt. Die Diskussionsteilnehmer auf X haben sich in zwei Lager aufgeteilt. Die Skeptiker glauben nach den Tests, dass es immer noch sichtbare Unterschiede zwischen HappyHorse-1.0 und Seedance 2.0 in den Details der Personen und der dynamischen Kohärenz gibt und bezweifeln daher die Repräsentativität der Elo-Bewertung.

Die Anhänger hingegen setzen viel Hoffnung auf das Potenzial von HappyHorse und hoffen, dass es das Problem der "Bildqualitätskonsistenz in Mehrfachaufnahmen" lösen kann, da dies ein Problem ist, das die derzeitigen führenden Video-Modelle noch nicht gut gelöst haben. Wenn daVinci-MagiHuman tatsächlich hier einen Durchbruch schafft, könnte dies viel wichtiger sein als eine Rangliste.

Die Einschränkungen des Modells selbst sollten nicht von den Zahlen verdeckt werden. Der Xiaohongshu-Blogger @JACK's AI Vision hat sofort nach der Veröffentlichung daVinci-MagiHuman eingesetzt und getestet. Er hat festgestellt, dass es ein H100 benötigt, um zu laufen. Normale Consumer-Grafikkarten sind hierfür nicht geeignet. Obwohl die Community an Quantisierungsplänen arbeitet, ist es für Privatnutzer kurzfristig noch schwierig, es lokal zu installieren.

In Bezug auf die Szenarien ist es derzeit hauptsächlich gut in der Generierung von Einzelpersonen. Sobald mehrere Personen auftauchen oder die Szene komplexer wird, verschlechtert sich die Qualität – dies ist kein Problem, das durch Parameteranpassung gelöst werden kann und hängt direkt mit seiner Ausrichtung auf Porträts zusammen. Die Generierungsdauer beträgt normalerweise nur etwa 10 Sekunden. Wenn es länger wird, wird es ungeordnet. Die Hochauflösung muss mit Super-Resolution-Plug-ins verbessert werden.

@JACK's AI Vision kommt zu dem Schluss, dass daVinci-MagiHuman in Bezug auf die allgemeine Benutzerfreundlichkeit hinter LTX 2.3 zurückbleibt und erst nach der Quantisierung durch die Community für den täglichen Gebrauch geeignet ist.

Hat die Video-Generierungsbranche endlich einen echten "Hecht" bekommen?

Naturgemäß sagt eine Spitzenplatzierung in der Rangliste nicht viel aus. HappyHorse muss in Zukunft noch in Bezug auf Stabilität, Geschwindigkeit bei hoher Konkurrenz, Konsistenz in verschiedenen Szenarien, Genauigkeit der Rollensteuerung und Generalisierungsfähigkeit außerhalb der Bewertungssets gründlicher getestet werden. Dies sind die Kernkriterien, die bestimmen, ob ein Modell tatsächlich in den Arbeitsablauf von Künstlern integriert werden kann.

Aber wenn man den Blick auf das größere Branchenbild wirft, ist das Signal, das diese Sache sendet, bereits klar genug.

Open-Source-Video-Modelle sind an sich nichts Neues. Aber zwischen Open-Source und Closed-Source-Modellen besteht immer noch ein sichtbarer Unterschied in der Effektivität – in Szenarien, in denen man Kunden Ergebnisse liefern muss, hat die Generierungsqualität von Open-Source-Modellen lange Zeit die Schwelle von "nutzbar" zu "lieferbar" nicht überschritten. Das Preisdiktat von Closed-Source-Produkten wie Keling und Seedance basiert in erheblichem Maße auf diesem Unterschied.

Die Bedeutung dieser Zeit liegt darin, dass ein Produkt auf der Grundlage eines Open-Source-Modells erstmals in einer Blindtest-Rangliste, die auf der echten Nutzerwahrnehmung basiert, mit den derzeitigen führenden Closed-Source-Konkurrenten auf Augenhöhe steht. Unabhängig davon, wie viel Optimierung für die Bewertungsszenarien darin steckt, ist dies für Closed-Source-Hersteller, die auf diesem Unterschied ihr Preisdiktat gründen, zumindest ein Signal, das ernst genommen werden muss.

Für Entwickler hat dieser Wendepunkt eine noch konkretere Bedeutung. In vertikalen Szenarien wie Porträts, Digitalen Personen und virtuellen Moderatoren wird sich die Kostenstruktur der eigenen Installation grundlegend ändern, sobald die Generierungsqualität des Open-Source-Grundmodells die Schwelle von "lieferbar" erreicht – nicht nur die API-Aufrufkosten werden reduziert, sondern vor allem werden die Daten, das Modell und die Inferenceschleife vollständig unter die eigene Kontrolle gebracht, was in Bezug auf die Tiefe der Anpassung und die Datenschutzkonformität eine Flexibilität bietet, die Closed-Source-Lösungen schwerlich bieten können.

HappyHorse-1.0 wird in der kurzen Frist die Marktposition von Seedance 2.0 oder Keling nicht erschüttern. Aber sobald die Erkenntnis festigt, dass die Effektivität von Open-Source-Modellen Closed-Source-Modellen gleichkommt, werden die nachfolgende Quantisierungsoptimierung, vertikale Feinabstimmung und Inference-Beschleunigung von der Community mit einer viel höheren Iterationsgeschwindigkeit als Closed-Source-Produkte vorangetrieben.

In diesem Pferdejahr ist vielleicht nicht wichtig, welches Pferd am schnellsten läuft, sondern dass die Rennstrecke selbst breiter wird.

Dieser Artikel stammt aus dem WeChat-Account "AI Value Officer", Autor: Xing Ye, Redakteur: Mei Qi. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das geheime Modell HappyHorse taucht plötzlich auf und dominiert die Charts. Ist ein "Welses" im Bereich der Videogenerierung aufgetaucht?

"Happy Horse" erreicht still und leise die Spitze und löst einen Ratespiele-Kampf in der Technologiebranche aus

Wie konnte ein Open-Source-Video-Modell in zwei Wochen aufsteigen?

Hat die Video-Generierungsbranche endlich einen echten "Hecht" bekommen?