Ali's HappyHorse 1.1 geht online: Bringe chinesische Nationalmannschaft zur Weltmeisterschaft!

Kompetenzsteigerung in fünf Dimensionen

Zhidongxi berichtete am 22. Juni. Heute hat Alibaba sein neuestes Video-Generierungsmodell HappyHorse 1.1 (Glückliches Pony 1.1) vorgestellt. Alibaba behauptet, dass dieses Modell im Vergleich zu HappyHorse 1.0 in den Dimensionen dynamische Ausdrucksstärke, Subjekt-Konsistenz, Befehlseinhaltung, visuelle Qualität und Audiokapazität eine gewisse Verbesserung aufweist.

Die technischen Spezifikationen von HappyHorse 1.1 bleiben identisch mit denen von HappyHorse 1.0. Die Dauer einer einzelnen Generierung beträgt 3 bis 15 Sekunden. Es unterstützt Auflösungen von 720p und 1080p sowie freie Seitenverhältnisse.

Das offizielle Alibaba-Team hat einige Generierungsergebnisse von HappyHorse 1.1 gezeigt. Bei Aufgaben wie Tanz, die die dynamische Ausdrucksstärke und Bewegungsfluß des Modells prüfen, generiert HappyHorse 1.1 flüssige und natürliche Bewegungen. Es treten nicht die Probleme wie Zeitlupe und Nachbilder auf, die bei vielen früheren Video-Generierungsmodellen auftraten. Die menschlichen Merkmale entsprechen den normalen Verhältnissen, und das Aussehen bleibt konsistent.

In Bezug auf stilisierten Inhalt behält HappyHorse 1.1 in den folgenden Beispielen gut den Stil traditioneller chinesischer Malerei bei, ohne Probleme wie Stilabweichungen aufzuweisen.

Nach der Veröffentlichung des Modells hat Zhidongxi sofort HappyHorse 1.1 getestet und seine Leistung mit HappyHorse 1.0 und dem kürzlich veröffentlichten Seedance 2.0 Mini verglichen.

Nach den Testergebnissen hat HappyHorse 1.1 tatsächlich eine gewisse Verbesserung gegenüber dem Vorgängermodell erzielt. Insbesondere das Problem der "fettigen" Bilder wurde gut gelöst. Allerdings gibt es bei einigen Randfällen und Aufgaben mit mehreren Referenzsubjekten noch Raum für Verbesserungen bei der Realität und der Einhaltung physikalischer Gesetze.

Derzeit ist HappyHorse 1.1 auf der Alibaba Cloud Bailian-Plattform und der HappyHorse-Website online. Am Beispiel der Text-zu-Video-Generierung beträgt der Preis für die Generierung von 720p-Bildern 0,9 Yuan pro Sekunde (nach Rabatt 0,54 Yuan), was mit HappyHorse 1.0 übereinstimmt. Der Preis für die Generierung von 1080p-Bildern beträgt 1,2 Yuan pro Sekunde (nach Rabatt 0,72 Yuan), was im Vergleich zu HappyHorse 1.0 um 25 % gesenkt wurde.

Testlink: www.happyhorse.cn

API-Zugang: bailian.console.aliyun.com

Unsere Tests basieren auf fünf Dimensionen. In Bezug auf die dynamische Ausdrucksstärke hat Alibaba behauptet, dass es im vorherigen HappyHorse 1.0 einige Probleme mit langsamen Bewegungen und mangelndem Rhythmus in den Bildern gab. Die Version 1.1 hat die Fähigkeiten der Bewegungsmodellierung und der zeitlichen Konsistenz optimiert und die Flüssigkeit und Stärke der Bewegungen verbessert.

Wir haben die Leistung von HappyHorse 1.1 anhand eines Falles des Motorradfahrens getestet. Man kann sehen, dass die Geschwindigkeit der generierten Bilder von HappyHorse 1.1 normal ist und den grundlegenden physikalischen Gesetzen entspricht. Nur das Licht der Motorradrücklichter entspricht nicht ganz der Realität. Wenn man auf Nahaufnahmen zoomen lässt, entspricht auch die Reflexion der Landschaft im Motorradwindschutzscheibe der Logik.

Bei der gleichen Aufgabe hat das von HappyHorse 1.0 generierte Video das Problem der Zeitlupe gezeigt. Darüber hinaus fährt das Motorrad im Video rückwärts, und die Reflexion im Helm stimmt nicht mit dem eigentlichen Bildinhalt überein.

In Bezug auf die Subjekt-Konsistenz unterstützt HappyHorse 1.1 die gleichzeitige Eingabe von 9 Referenzbildern für Charaktere. Es kann flexibel Details von Waren, Markenzeichen, Charakteren und Szenen kombinieren. Für die beliebten Spielarten wie Mehrfach-Szenen und N-Raster-Bildreferenzen hat HappyHorse 1.1 auch die Fähigkeit zur Verständnis von Referenzbildern verbessert.

Wir haben drei Referenzbilder hochgeladen, die einen bestimmten Menschen beim Austritt aus einem Unternehmen zeigen, und sowohl HappyHorse 1.1 als auch HappyHorse 1.0 gebeten, jeweils ein 10-sekündiges Video zu generieren. HappyHorse 1.1 hat im Video genau das Aussehen und die Kleidung des Menschen wiedergegeben. In zwei Szenen bleiben die Szene und die Details des Menschen stabil und konsistent, selbst die Details in den Ecken des Bildes.

Das von HappyHorse 1.0 generierte Bild hat zwar grundsätzlich die Subjekt-Konsistenz beibehalten, aber es gibt mehr physikalische Fehler im Bild. Im Vergleich dazu hat das Bild von HappyHorse 1.1 fast keine Mängel.

In Bezug auf die Befehlseinhaltung haben wir die Leistung von HappyHorse 1.1 und Seendance 2.0 Mini verglichen. Der Inhalt des Hinweistextes lautet wie folgt:

In einem modernen Café verschwindet plötzlich die Schwerkraft. Kunden, Stühle, Tische, Bücher und verschiedene Gegenstände schweben langsam in die Luft. Der Barista schwebt weiter und macht Kaffee. Die flüssige Kaffee aus der Tasse bildet nach dem Überlaufen unzählige schwebende Flüssigkeitskugeln. Eine orangefarbene Katze schwimmt langsam durch den Raum wie im Wasser. Die Kamera dreht kontinuierlich und bewegt sich frei, um die gesamte Schwerelosigkeit zu zeigen. Alle schwebenden Objekte müssen den realen Trägheits- und Impulsgesetzen folgen, und die Bewegung der Flüssigkeit muss den physikalischen Eigenschaften von Fluiden entsprechen. Das Ganze zeigt eine sehr hohe Realität und komplexe physikalische Simulationsfähigkeiten.

Sowohl HappyHorse 1.1 als auch Seendance 2.0 Mini können die Details in der Reihenfolge des Hinweistextes wiedergeben. Allerdings gibt es in dieser überrealistischen Szene offensichtliche Probleme in den endgültigen Bildern von beiden Modellen. HappyHorse 1.1 hat mehr Unstimmigkeiten: Die Gesichtsausdrücke der Menschen sind starr, und es taucht plötzlich ein Stuhl aus dem Boden auf.

Das Generierungsergebnis von Seendance 2.0 Mini beschreibt die Art und Weise, wie Flüssigkeiten im Vakuum schweben, nicht ganz physikalisch korrekt, aber die Gesichtsausdrücke der Menschen entsprechen eher dem Gesamtstil.

In Bezug auf die visuelle Qualität haben wir HappyHorse 1.1 gebeten, ein Bild zu generieren, in dem die chinesische Nationalmannschaft im Fußball-Weltmeisterschaftsfinale ein Tor schießt. In einem solchen Bild mit einer großen Anzahl von Menschen kann man spüren, dass HappyHorse 1.1 beim Zeichnen der Hauptpersonen im Bild weniger Probleme wie "Fettigkeit" und "Überverstärkung" hat. Aber im Hintergrund des Bildes sind die Gesichter der Menschen etwas unscharf, und die Realität und Dynamik fehlen etwas.

Schließlich in Bezug auf die Audiokapazität haben wir die Effekte von HappyHorse 1.1 und HappyHorse 1.0 verglichen. Der Testfall ist eine Szene des Instrumentenspiels. In diesem speziellen Szenario gibt es keine deutliche Verbesserung von HappyHorse 1.1 im Vergleich zu HappyHorse 1.0. Die Veränderungen im Spielbild stimmen nicht mit den Veränderungen im Audio überein.

Fazit: Der Verbesserungsgrad entspricht den Erwartungen einer kleinen Version

Nach den Ergebnissen dieser Tests entspricht der Verbesserungsgrad von HappyHorse 1.1 im Wesentlichen unseren Erwartungen an eine kleine Version. Es hat die tatsächlichen Probleme, die im vorherigen Produkt aufgetreten sind, gründlich optimiert und eine deutliche Verbesserung in der Bewegungserkennung, der Charakterwiedergabe und der gesamten visuellen Wahrnehmung erzielt.

Zugleich hat sich die Kosten dieses Modells weiter verringert, was zeigt, dass Alibaba bei der Verbesserung der Modellleistung auch immer auf die Kosteneffizienz achtet. In Zukunft, wenn sich die Video-Generierungsmodelle in Richtung längerer Dauer, stärkerer Kontrollierbarkeit, höherer Realität, niedrigerer Kosten und Echtzeitinteraktion weiter entwickeln, können wir erwarten, dass diese Technologie in mehr Szenarien in großem Maßstab eingesetzt wird.

Dieser Artikel stammt aus dem WeChat-Account "Zhidongxi" (ID: zhidxcom). Autor: Chen Junda, Redakteur: Xinyuan. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade ist Ali's HappyHorse 1.1 online gegangen, und ich habe damit die chinesische Nationalmannschaft zur Weltmeisterschaft gebracht.

Fazit: Der Verbesserungsgrad entspricht den Erwartungen einer kleinen Version