Konfrontiert Sora 2 direkt: Musk veröffentlicht Video-KI-Modell, kostenlos nutzbar, He Yihui, ehemaliger Mitarbeiter von NVIDIA, beteiligt
Elon Musk und Sam Altman sind wieder in Konflikt geraten!
Nach einer Meldung von Zhidx am 8. Oktober, in der Nacht von gestern, hat das Große-Modell-Unicorn xAI von Musk das neuestes Videogenerierungsmodell Imagine v0.9 vorgestellt, das für alle Benutzer kostenlos zugänglich ist.
Vor einer Woche hat OpenAI sein Flaggschiff-Video- und Audiogenerierungsmodell Sora 2 veröffentlicht. Diese Aktualisierung könnte eine direkte Reaktion von Musk auf Sora 2 sein.
xAI hat keinen vollständigen technischen Blog veröffentlicht, sondern nur erwähnt, dass Imagine v0.9 im Vergleich zur ersten Version in Bezug auf die visuelle Qualität, die Bewegungen und die Audiogenerierung verbessert ist, und hat einige Beispiele generierter Videos hochgeladen.
Musk schrieb in einem Beitrag auf X, dass Imagine v0.9 Videos in weniger als 20 Sekunden generieren kann und dass Benutzer über eine sprachbasierte Schnittstelle einfach nur sprechen müssen, um Videos, Bilder und Texte zu erstellen.
Zusammenfassend lässt sich sagen, dass Imagine v0.9 schneller generiert, nämlich in weniger als 20 Sekunden, während Sora 2 möglicherweise eine oder zwei Minuten für die Videogenerierung benötigt; Imagine v0.9 ist für alle Benutzer kostenlos zugänglich, während Sora 2 nur ausgewählten Benutzern über eine Einladung zur Nutzung zur Verfügung steht; die generierten Videos von Imagine v0.9 dauern etwa 6 Sekunden, während Sora 2 die Generierung von 15-Sekunden-Videos unterstützt.
Zhidx hat die Generierungsergebnisse von Imagine v0.9 und Sora 2 verglichen. Bei der Verwendung der offiziellen Beispiel-Prompts von OpenAI traten bei Imagine v0.9 Probleme wie Fehler beim Verständnis der Prompts, Inkonsistenzen zwischen Videobildern und Audio, fehlende Warnung vor Deepfake-Risiken und fehlende Unterstützung für Chinesisch auf.
Es ist erwähnenswert, dass dies auch das erste Projekt von Ethan He in xAI ist, nachdem Musk ihn im Juli dieses Jahres von NVIDIA abgeworben hat.
Ethan He absolvierte 2018 seinen Bachelor in Informatik an der Xi'an Jiaotong University. 2019 erwarb er einen Master in Computervision an der Carnegie Mellon University. Im Jahr 2023 trat er als leitender Deep-Learning-Algorithmus-Ingenieur bei NVIDIA ein und war an der Entwicklung des Weltgrundmodells Cosmos von NVIDIA beteiligt.
Obwohl Imagine v0.9 kostenlos nutzbar ist, stellte Zhidx fest, dass die Web-Version derzeit nicht ordnungsgemäß funktioniert. Die Mobile-Version kann getestet werden, aber es kann auch zu Verbindungsfehlern kommen.
Filmreife Videos in Sekundenschnelle
Natürliche Gespräche hinzufügen
Imagine v0.9 ist in Grok integriert. Es generiert zunächst Bilder aus Texten und erstellt dann Videos oder wandelt direkt von Benutzern hochgeladene Bilder in Videos um.
xAI schrieb in einem Blogbeitrag, dass Imagine v0.9 die Grenzen der nativen Audio- und Videogenerierung überschritten hat und direkt einsatzbereit ist, um Videos mit filmähnlichen Effekten zu erstellen, ohne dass Bearbeitungen erforderlich sind. So enthält das folgende Video auch das Echolot eines Drachen in Echtzeit.
Ein weiterer wichtiger Fortschritt von Imagine v0.9 ist die Bewegungskontrolle. In dem Ski-Video-Clip unten sind die Bewegungen der Personen von der Sprungaufnahme bis zum Landeenfluss sehr flüssig.
Drittens können Benutzer dynamische Kamerawirkungen hinzufügen, wie z. B. die intelligente Fokusverschiebung. Im folgenden Video werden je nach Kameraposition die Straßenansichten unscharf gerendert, um die Personen hervorzuheben.
Viertens unterstützt Imagine v0.9 die Hinzufügung natürlicher Gespräche oder die Generierung von ausdrucksstarken Gesängen usw.
Häufige Fehler beim Textverständnis im Vergleich zu Sora 2
Deepfake-Risiko besteht
Zhidx hat die Generierungsergebnisse von Imagine v0.9 und Sora 2 unter Verwendung der Prompts verglichen, die OpenAI bei der Demonstration von Sora 2 verwendet hat.
Prompt: Zwei Bergforscher in hellen technischen Jacken, vereiste Gesichter, mit Eile zusammengezogene Augen rufen im Schnee nacheinander (Zwei Bergforscher in leuchtend farbigen professionellen Jacken, mit gefrorenen Gesichtern und eilig zusammengezogenen Augen rufen nacheinander im Schnee)
Das von OpenAI veröffentlichte Video, das von Sora 2 generiert wurde:
Das von Imagine v0.9 generierte Video:
Man kann sehen, dass das Audio im von Imagine v0.9 generierten Video nicht das "Rufen" enthält, sondern nur die Personen im Bild öffnen die Münder.
Prompt: Ein Mann macht einen Rückwärts-Salto (Ein Mann macht einen Rückwärts-Salto)
Das von OpenAI veröffentlichte Video, das von Sora 2 generiert wurde:
Das von Imagine v0.9 generierte Video:
Zhidx hat das erste von Grok generierte Bild ausgewählt, um ein Video zu erstellen. Im Video beginnt der Protagonist, völlig unabhängig von der Schwerkraft, sich 360-Grad im Luft kreisen.
Schließlich hat Zhidx auch die benutzerdefinierte Sprachfähigkeit von Imagine v0.9 getestet. Zhidx hat ein Foto von Musk hochgeladen und ihn dazu gebracht, die folgenden Worte zu sagen: "Sam ist ein scharfer Kerl, und unsere Beziehung war immer gut. OpenAI hat im Bereich Künstliche Intelligenz einige beeindruckende Dinge geschaffen, und ich hoffe wirklich, eines Tages mit ihnen zusammenzuarbeiten, um die Entwicklung der KI voranzutreiben"
Imagine v0.9 hat kein Warnhinweis vor Deepfake-Risiken gegeben, aber die generierte Stimme unterscheidet sich etwas von Musk's eigentlicher Stimme.
Derzeit unterstützt das Modell kein Chinesisch. Als Zhidx Musk dazu brachte, zu sagen: "Ich und Sam Altman sind gute Freunde", war nur der Teil "sind gute Freunde" im generierten Video deutlich zu verstehen.
Fazit: Der Wettlauf um die Videogenerierung mit KI intensiviert sich
Benutzerdefinierte Sprachfunktion kann Deepfake-Risiken verursachen
Innerhalb einer Woche haben OpenAI und xAI nacheinander neue Fortschritte bei ihren Videogenerierungsmodellen bekannt gegeben. Sora 2 hat nicht nur in Bezug auf die Fähigkeit, Realität zu simulieren, die Kontrollierbarkeit und die Soundeffekte verbessert, sondern hat auch eine neue soziale App namens Sora vorgestellt. xAI hat auf der Grundlage von Funktionsverbesserungen eine große Menge an Traffic durch die kostenlose Zugänglichkeit gewonnen.
Ein wichtiger Fortschritt von Imagine v0.9 ist die Möglichkeit, dass Benutzer benutzerdefinierte Stimmen in Videos hinzufügen können. Wenn diese Technologie weiter ausgereift wird, können Benutzer Fotos von Persönlichkeiten und gesprochene Inhalte hochladen, um realistische Videos zu generieren, was Deepfake-Risiken mit sich bringen kann.
Deshalb wird es in Zukunft eine technische Herausforderung für alle Anbieter von Videogenerierungsmodellen sein, den richtigen Ausgleich zwischen technischer Entwicklung und Risikomanagement zu finden.
Dieser Artikel stammt aus dem WeChat-Account „Zhidx“ (ID: zhidxcom), Autor: Cheng Qian. Dieser Artikel wurde von 36Kr mit Genehmigung veröffentlicht.