Apple stellt das VSSFlow-Modell vor: Lässt stumme Videos „sprechen“ und ebnet den Weg für die chinesische Version von KI schneller?
Bei der WWDC 2024 hat Apple seine eigene Künstliche-Intelligenz-Plattform Apple Intelligence vorgestellt. Im Herbst 2024 hat Apple Intelligence in den Vereinigten Staaten mit der Testsphase begonnen und sich anschließend schrittweise auf weitere Regionen ausgeweitet.
Bis jetzt ist Apple Intelligence für den chinesischen Markt jedoch noch nicht verfügbar. Laut offizieller Erklärung von Apple hängt der Startzeitpunkt von der Genehmigung durch die Aufsichtsbehörden ab.
(Quelle: Apple)
Kürzlich hat die bekannte Apple-Rumor-Website 9to5Mac berichtet, dass Apple in Zusammenarbeit mit der Renmin-Universität Chinas ein neues KI-Modell namens VSSFlow entwickelt hat und einen Durchbruch bei der Audiogenerierungstechnologie erzielt hat. Dies ist nicht nur eine Demonstration von Apples KI-Technologiekräften, sondern scheint auch ein positives Signal in Bezug auf die Einführung von Apple Intelligence für den chinesischen Markt zu geben. Kommt Apple Intelligence endlich?
Was für Probleme kann VSSFlow bei der automatischen Audiobeschaffung für stumme Videos lösen?
Aus den gemeinsamen Veröffentlichungen von Apple und der Renmin-Universität Chinas sowie aus Berichten von 9to5Mac können wir erfahren, dass das Hauptmerkmal von VSSFlow darin besteht, die bisherige Beschränkung zu überwinden, dass „Umgebungsgeräusche“ und „Dialoge“ separat generiert werden müssen. Genauer gesagt, haben die meisten bisherigen Videogenerierungs-Modelle für Sprache Umgebungsgeräusche und menschliche Stimmen getrennt verarbeitet, während VSSFlow den Vorteil hat, beides gleichzeitig zu generieren.
(Quelle: arXiv)
Laut offizieller Erklärung generiert das VSSFlow-Modell Umgebungsgeräusche, indem es pro Sekunde 10 Videobilder als Hinweise liest und dann in zufälligem Rauschen schrittweise die Geräusche des Bildes „konstruiert“. Dies klingt einfach, ist aber in der Praxis nicht so leicht umzusetzen. Ein stummes Video kann die KI natürlich nicht „hören“. Im Wesentlichen „errät“ sie die am besten passenden und realsten Umgebungsgeräusche anhand des Videobildes, indem sie beispielsweise die konkrete reale Szene im Bild erkennt und die entsprechenden Umgebungsgeräusche zuordnet.
Das zugehörige Paper von VSSFlow erwähnt einen wichtigen technischen Punkt – Flow-Matching (Stromanpassung). In der Welt der KI muss das Modell aus ungeordneten Informationen die wahrscheinlichsten Geräusche ableiten. Im Videobild stecken die Hinweise zu den Geräuschen. Die KI muss eine Verbindung zwischen diesen ungeordneten „Rauschen“ und dem Zielgeräusch herstellen, also einen „Strom“. Der Schlüssel zur Herstellung dieses „Stroms“ ist das genaue Verständnis des Videobildes und des Textskripts.
(Quelle: arXiv)
Was die Fähigkeit zur Text-zu-Sprache-Generierung betrifft, gab es schon frühzeitig viele Lösungen. Beispielsweise haben frühere Smartphones und viele Lesen-Apps die TTS-Funktion (Text-zu-Sprache), die einfach den Text in die vordefinierten Audiodateien aus der Sprachbibliothek umwandelt. Diese Lösung ist jedoch relativ grob, und die Stimme klingt mechanisch, und die Satzzeichen in langen Sätzen sind oft seltsam. Im Zeitalter der KI hat die Text-zu-Sprache-Umwandlung mit der Unterstützung von großen Modellen eine erhebliche Verbesserung erfahren. Die Stimme klingt natürlicher, und es wird immer schwieriger, zwischen echtem und künstlichem Sprechen zu unterscheiden, sowohl bei Satzzeichen, Tonfall als auch bei Emotionen.
Die Technologie von VSSFlow zur Generierung von menschlichen Stimmen aus Videos zeichnet sich dadurch aus, dass sie anhand des Videoskripts und des Videobildes Audiodateien generiert. Sie kann die Stimme, Emotion, Rhythmus usw. der Stimme anhand des Mundesprechens, des Gesichtsausdrucks usw. der Personen im Bild anpassen und so realistischere künstliche menschliche Stimmen generieren.
Wie am Anfang erwähnt, kann VSSFlow gleichzeitig Umgebungsgeräusche und menschliche Stimmen für Videos generieren. Laut offizieller Beschreibung integrieren sie das Videosignal und die Texttranskription in den Prozess der Audiogenerierung. Um dieses Ergebnis zu erzielen, haben die Forscher eine gemischte Datentrainingsmethode angewandt. Dies zeigt sich darin, dass das VSSFlow-Modell während des Trainings Daten aus stummen Videos mit Umgebungsgeräuschen, stummen Sprechvideos mit Texten und reinen Text-zu-Sprache-Daten verwendet hat.
Zusammengefasst ist VSSFlow ein großes Modell zur Videogenerierung von Audio, das gleichzeitig Umgebungsgeräusche und menschliche Stimmen für stumme Videos generieren kann. Der Kernvorteil liegt darin, dass die Generierungseffizienz und die Audioqualität durch die Flow-Matching-Technologie verbessert werden.
KI-generierte Sprache: Einigermaßen nützlich, aber immer noch sehr begrenzt
Für welche Anwendungsfälle kann die Funktion von VSSFlow zur Generierung von Umgebungsgeräuschen und menschlichen Stimmen für Videos tatsächlich eingesetzt werden? Der Autor kann sich etwa die Audioreparatur alter Filme, die unterstützende Audioerzeugung für Menschen mit Stimmstörungen, die Synchronisation von Filmen und Fernsehsendungen usw. vorstellen. Da VSSFlow immer noch auf ein Textskript angewiesen ist, um menschliche Stimmen zu generieren und nicht nur anhand des Videobildes die Stimmen ermitteln kann, ist es eher ein besseres Synchronisationswerkzeug.
Das derzeit am nächsten an VSSFlow kommende große Modell auf dem Markt ist wahrscheinlich Deepmind V2A (Video-zu-Audio) von Google. V2A generiert ebenfalls die entsprechenden Umgebungsgeräusche und Dialoge anhand des Videobildes und des Textskripts. Seine Technologie besteht darin, eine Verbindung zwischen visuellen Informationen und auditiven Informationen herzustellen.
Genauer gesagt enthalten visuelle Informationen hauptsächlich Raum, Farbe, Form, Bewegung usw., während auditive Informationen in der Regel Klangfarbe, Frequenz, Rhythmus usw. sind. Diese beiden Arten von Informationen haben unterschiedliche Bedeutungen. Indem die visuellen und auditiven Merkmale auf mehreren Ebenen miteinander verbunden werden und das Modell kontinuierlich trainiert wird, kann die KI anhand der Informationen im Videobild „erraten“, welche auditiven Merkmale das entsprechende Audio haben sollte.
(Quelle: Google)
Dennoch ist die Anwendbarkeit der Video-zu-Sprache-Technologie nach Meinung des Autors immer noch begrenzt. Für die meisten Benutzer ist diese Funktion nicht besonders nützlich. Im Vergleich dazu ist die derzeit beliebte Video-Generierungstechnologie bei Schaffenden und normalen Benutzern beliebter. Benutzer können mit einem Satz Text und einigen Bildern schnell ein hochrealistisches Video erstellen, was sowohl praktisch als auch spaßig ist. Beispielsweise war das neu veröffentlichte Seedance 2.0 direkt nach dem Start sehr beliebt, und viele Benutzer haben es sofort getestet.
(Quelle: Lei Technology, erstellt mit Seedance 2.0)
Allerdings begegnet die meisten Menschen selten der Situation, ein stummes Video zu synchronisieren. Normalerweise erstellen oder erhalten wir keine stummen Videos ohne Grund. Diese Funktion eignet sich eher für bestimmte Nischenbereiche der Film- und Fernsehbranche, wie beispielsweise die Arbeit von traditionellen Sounddesignern.
Viele Umgebungsgeräusche und Geräusche von Aktionen, die wir in Filmen und Fernsehserien hören, werden tatsächlich von Sounddesignern in der Tonstudie aufgenommen. Beispielsweise simulieren sie das Klopfen von Kokosnussschalen als Pferdehufschläge oder das Reiben an einer Schlosskette als Pistolenladegeräusch. Gleichzeitig ähnelt die Funktion von VSSFlow zur Generierung von menschlichen Stimmen anhand von Skript und Bild sehr der Arbeit von Synchronsprechern für Anime. Es ist vorstellbar, dass die Audiogenerierungstechnologie in Zukunft einen erheblichen Einfluss auf die Film- und Fernsehbranche ausüben wird.
Zwar ist es unwahrscheinlich, dass Sprachgenerierungsmodelle wie VSSFlow als eigenständige Anwendungen für normale Benutzer angeboten werden, aber in Kombination mit anderen KI-Technologien können sie noch größere Wirkung entfalten. Beispielsweise kann es mit einem Video-Generierungsmodell kombiniert werden. Die meisten derzeit beliebten Video-Generierungsmodelle erzeugen Videos mit Synchronisation.
Allerdings ist die Qualität der Hintergrundgeräusche und menschlichen Stimmen in vielen KI-generierten Videos relativ mäßig. Mit der Unterstützung eines Sprachgenerierungsmodells wie VSSFlow würde das Gesamtergebnis besser sein. Tatsächlich wurde die V2A-Technologie von Google Deepmind nicht als eigenständiges Modell veröffentlicht, sondern einige Funktionen wurden in Googles eigenes Video-Generierungsmodell Veo integriert.
Apple arbeitet mit einer renommierten chinesischen Universität zusammen: Kommt die chinesische Version der KI?
Bei den Anwendungsfällen von VSSFlow für Apple-Produkte denkt der Autor zunächst an die Barrierefreiheitsfunktionen. Derzeit gibt es in den Hilfsoptionen von Apple-Geräten bereits die Echtzeit-Sprachfunktion, mit der Benutzer auf ihrem Smartphone schreiben und in Audio umwandeln können.
(Quelle: Apple)
Wenn VSSFlow in diese Anwendung integriert werden kann, können Menschen mit Sprachstörungen in Videogesprächen wie FaceTime Texte eingeben und die KI kann anhand des Videobildes natürlichere menschliche Stimmen generieren. Natürlich kann diese Technologie auch als Reserve in Apples KI-Strategie dienen und die zukünftigen Funktionen wie Video-Generierung unterstützen.
Apple's Zusammenarbeit mit einer renommierten chinesischen Universität und die gemeinsame Veröffentlichung von VSSFlow signalisieren eindeutig, dass Apple den chinesischen Markt ernst nimmt und die Einführung von KI in China vorantreiben möchte. Im Paper von VSSFlow sind sechs Wissenschaftler von der Renmin-Universität Chinas und drei Forscher von Apple als Autoren genannt. In diesem Projekt spielt Apple eher die Rolle eines Unterstützers und Teilnehmers als eines Leiters.
Bis jetzt wurde die chinesische Version von Apple Intelligence noch nicht eingeführt. Laut Apples Politik können chinesische iPhone-Geräte nicht die ausländische Version von Apple Intelligence nutzen, und in Zukunft können auch ausländische Hardwareprodukte nicht die chinesische Version von Apple Intelligence verwenden.
Es ist ziemlich sicher, dass Apple bei der Einführung der chinesischen Version von Apple Intelligence mit chinesischen KI-Riesen zusammenarbeiten wird. In früheren Gerüchten wurden Baidu, Alibaba, DeepSeek usw. als Unternehmen genannt, mit denen Apple Kontakt aufgenommen hat. Im Jahr 2025 hat der bekannte Journalist Mark Gurman von Bloomberg berichtet, dass die chinesische Version von Apple Intelligence von Alibaba mit einem lokalen Modell und von Baidus Wenxin Yiyan mit Cloud-KI-Unterstützung unterstützt wird. Allerdings konnte die chinesische Version von Apple Intelligence im Jahr 2025 nicht eingeführt werden, hauptsächlich aufgrund von technischen Problemen und der mäßigen Leistung der chinesischen KI.
Aber auch wenn man die fehlende chinesische Version der KI außer Acht lässt, ist Apples KI-Strategie im Vergleich zu anderen Herstellern hinterher. Derzeit gibt es keine besonders beeindruckenden Funktionen und Anwendungsfälle in der ausländischen Version von Apple Intelligence. Stattdessen wird es wegen seiner relativ schwachen KI-Fähigkeiten kritisiert. Beispielsweise wurde Apples Generative-Bild-App „Image Playground“ heftig kritisiert. Diese App hat sehr strenge Regeln für die Bildgenerierung, und viele Benutzeranforderungen werden abgelehnt. Sie wird als ein Produkt für Kinder kritisiert.
Apple Intelligence hat auch externe Kräfte hinzugezogen, hauptsächlich ChatGPT und später auch Gemini. ChatGPT wurde in Siri integriert, um Siri eher zu einem vollwertigen intelligenten Assistenten als zu einem traditionellen Sprachassistenten zu machen. Darüber hinaus gibt es auch andere KI-Funktionen wie Schreibassistent und Bildentfernung. Allerdings sind diese sogenannten KI-Funktionen von Apple nicht besonders beeindruckend und wirken eher wie Kleinigkeiten.
Außerdem hat Apple den Benutzern bisher noch nicht das versprochene KI-„Kuchen“ von iOS 26 gereicht. Laut neuesten Informationen wird die erste Testversion von iOS 26.4 Ende Februar ausgerollt und wird einige Veränderungen in der KI bringen. Bei dieser Systemaktualisierung wird hauptsächlich Siri verbessert, einschließlich der Fähigkeit zum Verständnis von Kontext, der Fähigkeit zur Cross-App-Betätigung und der Fähigkeit zur Bilderkennung. Ehrlich gesagt, werden diese Verbesserungen nicht besonders überraschend sein, aber sie werden iOS 26 zumindest etwas nützlicher machen.
Im Vergleich dazu hat Samsung bereits 2024 ein KI-Smartphone eingeführt und die Lokalisierung der KI für chinesische Smartphones schnell abgeschlossen. Genauer gesagt verwendet das chinesische Smartphone ein großes Modell