ByteDance reicht seine Arbeit zum Jahresende der "großen Prüfung" des Wen Sheng Imaging mit Ji Meng AI ein.
Ende 2024 tobt ein heißer Wettbewerb im Bereich der Text-zu-Bild-Technologie.
Anfang Dezember brachte OpenAI endlich Sora auf den Markt - mit einer maximalen Auflösung von 1080P, 20 Sekunden Laufzeit sowie Funktionen wie Storyboard und Remix, die zweifellos erneut die bereits hitzige Konkurrenz in der Text-zu-Bild-Szene anheizten. Doch schnell wurde der Wettbewerb durch die Veröffentlichung von Googles Text-zu-Video-Modell Veo 2 erneuert, das beeindruckende Leistungen in Bezug auf Befehlstreue, Kamerasteuerung und Bildqualität zeigte. Auch inländische Anbieter ließen nicht nach. Mit den starken Kurzvideo-Genen von ByteDance im Rücken hat das inländische Ji-Meng AI in den vier Monaten nach seiner Einführung mehrere Iterationen durchlaufen und schließlich das Einbettungsproblem von AI-generierten Bildern im Chinesischen gelöst.
In einer Zeit, in der visuelles Storytelling auf dem Vormarsch ist, sind Text-zu-Bild/Video zweifellos zu einem unverzichtbaren Bereich für AI-Anwendungen geworden, und dieser Wettbewerb ist noch lange nicht abgeschlossen. AI-generierte Videos, die physikalischen Prinzipien nicht entsprechen, sorgen zwar für Lacher, spiegeln jedoch die vielen Schwachpunkte im aktuellen Bereich der Text-zu-Bild-Technologie wider, darunter eine niedrige Generierungsqualität, langsame Reaktionszeiten, komplexe Bedienung und häufiges Auftreten von Artefakten.
Im Vergleich zu anderen wichtigen Spielern im internationalen und inländischen Bereich der Text-zu-Bild-Technologie betrat Ji-Meng AI den Markt relativ spät, hat jedoch bereits genug Aufmerksamkeit erregt, sodass die Branche es nicht ignorieren kann, während Benutzer hohe Erwartungen daran haben. Tatsächlich hat Ji-Meng AI selbst mit dem Slogan der "Imagination Camera" große Ambitionen.
Was ist also das spezielle Können von Ji-Meng AI, das seit Mai 2024 online ist, und wie schneidet es im Vergleich zu ähnlichen Anwendungen im In- und Ausland wie Sora ab? Durch Ji-Meng AI kann man möglicherweise ByteDances Ergebnisblatt im Bereich der Text-zu-Bild-Technologie im AI-Jahr einsehen.
Bildbearbeitung mit einem Satz: Einfach, präzise
Ji-Meng AI hat im November die Funktion "Intelligente Referenz" eingeführt, die es Benutzern ermöglicht, mit einem einzigen Satz Bilder ohne Barriere zu bearbeiten und die erwarteten Ergebnisse präzise zu erzielen.
Zum Beispiel der Versuch, eine Terrakotta-Krieger-Figur mit einer modernen Handlung zu kombinieren. Wählen Sie ein Foto eines Terrakotta-Kriegers, klicken Sie auf die Funktion "Intelligente Referenz" und geben Sie das einfache Prompt ein: Terrakotta-Krieger trinkt Bubble Tea. Innerhalb weniger Sekunden wird das Originalbild in ein Bild des Terrakotta-Kriegers mit Bubble Tea in der linken Hand umgewandelt, wobei die restlichen Teile des Bildes weitgehend im Originalzustand bleiben, ohne Verzerrungen und ohne zusätzliche Schritte wie Übermalen oder Nachzeichnung.
Prompt: Terrakotta-Krieger trinkt Bubble Tea
Versuchen Sie eine kompliziertere Bildbearbeitung. Entfernen Sie das Glas vor dem Mädchen im Originalbild; im Ergebnisbild zeigt sich, dass Ji-Meng AI den Prompt sehr genau versteht, das Glas vollständig entfernt wurde und die übrigen Details des Originalbildes weitgehend erhalten bleiben.
Prompt: Zerbrochenes Glas aus dem Bild entfernen
In mehreren Tests kann man sehen, dass das Bildgenerierungsmodell von Ji-Meng AI in der Lage ist, Ausdrücke, Emotionen, Stile und auch idiomatische Ausdrücke zu erkennen und präzise Aufgaben wie gewünscht auszuführen.
In Bezug auf die Wirkung kann die Bildbearbeitungsfunktion von Ji-Meng AI derzeit verschiedene Effekte wie Stiländerung, Bewegungsänderung, Ausdrucksänderung, 2D in 3D, Kostümwechsel/Personenwechsel, Hinzufügen oder Entfernen von Subjekten und Szenenänderung erzielen. Im Vergleich zu ähnlichen Modellen ist der Funktionsumfang relativ umfassend.
Einfachheit, Präzision und vielfältige Effekte sind für C-End-Benutzer attraktiv, da sie die meisten Bildbearbeitungsbedürfnisse im Bereich der sozialen Medien erfüllen können, zum Beispiel die aktuell beliebten, personifizierten klassischen Cartoon-Avatare oder der in den sozialen Netzwerken trendige KI-Schneeeffekt. Für Kreative bedeutet diese einfache und präzise Bildgenerierung zweifellos eine erhebliche Senkung der Nutzungskosten und eine Steigerung der kreativen Effizienz.
Anfang des Monats hat Ji-Meng AI die Funktion "Textplakate" eingeführt, mit der man durch Eingabe eines Satzes Plakate in Englisch oder Chinesisch generieren kann, und hat später die Möglichkeit hinzugefügt, Tippfehler durch Übermalen zu korrigieren.
In Tests zeigte Ji-Meng AI neben der Erfüllung grundlegender Anforderungen wie schneller und einfacher Platzierung und Design ein herausragendes Merkmal: die Fähigkeit, das Problem der schwer zu generierenden chinesischen Zeichen in KI-Bildgenerierung zu lösen. Ebenfalls beeindruckend ist die Fähigkeit, Tippfehler auf derselben Plattform schnell zu korrigieren, was viele in- und ausländische Text-zu-Bild-Modelle derzeit nicht leisten können. Darüber hinaus kann Ji-Mengs Modell auch automatisch Werbetexte vervollständigen und Bilddetails basierend auf Schlüsselworten ergänzen. In Bezug auf das Generieren von Text in Bildern ist Ji-Meng Branchenführer.
Mit dieser Funktion können B-to-B-Anforderungen in Szenarien wie E-Commerce-Aktionen, neuen Produktwerbungen und Jahresendveranstaltungen sowie Video-Covers weitgehend erfüllt werden. Besonders für Kleinunternehmer oder Einzelpersonen im Marketing oder halbprofessionelle Designer, die nicht selbst Plakate erstellen können, stellt Ji-Meng ein nützliches Hilfsmittel dar.
Videogenerierung: Komplex, vielfältig
Die Videogenerierung ist derzeit unbestreitbar der heiße Schauplatz im Bereich der AI-Anwendungen und auch ein entscheidender Prüfstein für die Fähigkeiten jeder Anwendung. Ji-Meng AI hat Mitte November das S&P-Doppelfunktion eingeführt. Laut Angaben nutzt es eine DiT-Architektur, wobei das S2.0 pro Modell in der Erstbild-Konsistenz und Bildqualität gute Leistungen zeigt, wohingegen das P2.0 pro Modell über eine hohe "Prompt-Treue" verfügt; d.h. es kann komplexe Anweisungen wie Kamerabewegungen, kontinuierliche Handlungen von Charakteren, emotionale Darstellungen, Kamerasteuerung verstehen und präzise Videos generieren.
Die maximale Umsetzung von Anweisungen, Kamerabewegungen und Kamerasteuerung haben die aktuellen Hauptmodelle in der Videogenerierung auf ein neues Niveau gehoben. Das verspätet lancierte OpenAI Sora verfügt über ein Storyboard-Feature, mit dem Benutzer frei Szeneneinstellungen hinzufügen können. Und das allgemein als Sora überlegene Google Veo 2 hat die ultimative Fähigkeit gezeigt, komplexe Anweisungen und Kamerasteuerung zu verstehen. Selbst Fachbegriffe der Fotografie wie Tiefenschärfe können direkt eingegeben und präzise interpretiert werden, um die gewünschten Ergebnisse zu erzielen.
Auch Ji-Mengs P2.0pro Modell hat in diesen Bereichen Anstrengungen unternommen. Bei Kamerabewegungen kann durch Eingabe eines Bildes und Prompts ein Video mit mehreren Kameraperspektiven erstellt werden, das Panorama-, Mittel- und Nahaufnahmen umfasst und den Gesamtstil, die Szene und die Figuren des Videos mit dem Originalbild hochgradig übereinstimmt. In den folgenden Tests sieht man, dass die Bildqualität des Videos insgesamt auf dem gleichen Niveau wie das Originalbild bleibt, und auch die generierten Gesichts- und Bewegungsdetails sehr präzise und lebendig sind.
Prompt: Video umwandeln in Animationsstil, Betonen der Gesichtsausdrücke des Mädchens, Freude nach dem Einkaufen zeigen
In Bezug auf die Bewegung der Figuren kann das P2.0pro Modell derzeit einzelne oder mehrere Subjekte, fortlaufende und komplexe Bewegungen generieren. In den folgenden Tests wurde eine Einzelperson im Standbild sowie das Prompt eingegeben: Ein Mann betritt das Bild, eine Frau wendet sich zu ihm, sie umarmen sich, während sich die Leute im Hintergrund bewegen. Bis auf das Problem mit der mangelnden Fokusierung der Augen, das viele Modelle derzeit haben, wirken die Bewegungen nahtlos und im Einklang mit den physikalischen Prinzipien, ohne Fehlstellungen oder Deformationen der Gliedmaßen.
In der Kamerasteuerung, neben den einfachen Bewegungen wie "Schieben, Ziehen, Schwenken, Bewegen", kann das Ji-Meng P2.0 pro Modell Zooms, Subjektumrundungen, Anheben, Drehen, Schütteln und Fisheye-Aufnahmen realisieren, wobei insbesondere die Zoomfunktion hervorsticht. Im folgenden Test mit einem Ausgangsbild und Prompt (die Kamera schwenkt um eine Frau mit Sonnenbrille, bewegt sich von ihrer Seite zur Vorderseite und endet mit einem Fokus auf ihrer Sonnenbrille) wurden die Prompt-Beschreibungen bis auf ein leichtes Kameraschütteln weitgehend umgesetzt.
Darüber hinaus kann das P2.0pro Modell von Ji-Meng nicht nur Kamerasprache und Bewegungsbefehle genau verstehen, sondern auch Emotionen präzise darstellen. Es kann nicht nur einfache Emotionen wie Weinen, Lachen, Traurigkeit und Wut, sondern auch komplexe Gemütslagen wie "lächelndes Weinen" nachvollziehen und erzeugen.
Es gibt viele Szenarien für die Videogenerierung, z.B. das Trendthema, antike Statuen zum Leben zu erwecken. Mit Ji-Mengs S/P2.0Pro Modell kann man dies schnell und einfach erledigen, indem einfach ein Prompt eingegeben wird. Nicht nur Statuen, sondern auch Figuren und Tiere aus alten Gemälden können animiert werden.
Ji-Meng AI bietet auch viel Potenzial im B-to-B-Bereich; Anzeigen für Produktausstellungen und redaktionelle Videoclips können mit der gegenwärtigen Modellkapazität grundsätzlich realisiert werden. Derzeit bietet Ji-Meng auch die Funktion "Lippenabgleich" an: mit einem Bild, einem Text oder einer Audioaufnahme kann ein Lippenabgleich-Video erstellt werden, ohne dass ein zusätzliches Prompt erforderlich ist. In Tests kann man sehen, dass neben dem Abgleich der Lippenbewegungen auch die Gesichtsausdrücke und der Gesichtsausdruck im Video weitgehend die emotionalen Nuancen des Audios wiedergeben können; zudem sind Kleidung, Accessoires und sogar Haarbewegungen in dynamischer Detailgenauigkeit realistisch.
Die Imagination Camera schaffen, die AI-Ambitionen von ByteDance
Insgesamt kann man sagen, dass Ji-Meng AI, trotz seines relativ späten Marktstarts, den Rhythmus ähnlicher Text-zu-Bild-Produkte eingehalten hat und beeindruckende Ergebnisse in Bezug auf Klarheit, Genauigkeit und Detailqualität erzielt. Es hat sich auch in der Videogenerierung in komplexen Aufgaben wie dem Verständnis von Emotionen und Kamerasteuerung kontinuierlich verbessert, sodass es mit starken Produkten aus dem In- und Ausland vergleichbar ist. Besonders beeindruckend ist, dass Ji-Meng es auch geschafft hat, das Problem der Einfügung von chinesischem Text zu lösen.
Im Vergleich zu anderen internationalen Produkten wie Sora sind die Abonnementhürden von Ji-Meng AI derzeit relativ niedrig, und Benutzer mit hoher Nutzungshäufigkeit können Punkte sammeln und gegen Nutzungsguthaben eintauschen, indem sie sich täglich anmelden. Für Endbenutzer bedeutet dies eine niedrigere Nutzungsschwelle aus einer anderen Perspektive.
Derzeit ist die Produktstruktur und Funktionalität in der Text-zu-Bild-Technologie noch in einem frühen Stadium, und der Wettbewerb ist noch längst nicht stabilisiert. Aufseiten der Benutzer verwenden viele mehrere AI-Tools gleichzeitig, um eine Aufgabe zu erledigen, da derzeit noch kein einzelnes Tool das beste Ergebnis liefern kann; zudem hat jedes Werkzeug derzeit seine eigenen Stärken, sodass Benutzer durch die Kombination der Ergebnisse unterschiedlicher Tools dem idealsten Ergebnis nahekommen. Daher wird Ji-Meng AI mit ByteDances zunehmender Investition in die generative AI zweifellos in Zukunft noch mehr Potenzial entfalten.
Im Vergleich zu einigen ähnlichen Produkten hat Ji-Meng AI, unterstützt von ByteDance, offensichtlich überlegene Ressourcen. Die Investitionen von ByteDance in Basismodelle können Ji-Meng AI eine Grundstruktur bieten, und zudem stellt ByteDance Rechenleistungsressourcen zur Verfügung, was ein Wettbewerbsvorteil unter den gegenwärtigen Bedingungen darstellt.
Auf der anderen Seite benötigt TikTok ständig neuen Content, und Ji-Meng kann den AI-Produktivitäts-Tool mit Cutscenes kombinieren, um Inhalte an TikTok zurückzufüttern. Dies bietet Ji-Meng im Vergleich zu anderen ähnlichen Modellen eine einzigartige Position innerhalb des Ökosystems.
In der Ji-Meng-Konferenz am 18. Dezember sagte Zhang Nan, der im Februar von seiner Position als CEO der TikTok-Gruppe zurücktritt und die Verantwortung für Schnittstellen übernimmt, dass visuelle Modelle unsere Art, Videos zu konsumieren, grundlegend verändern werden. Tatsächlich werden Nutzer nicht mehr nur passiv zuschauen, sondern jederzeit eingreifen, am Handlungsverlauf teilnehmen und die Richtung der Handlung beeinflussen oder verschiedene Handlungsstränge betrachten können. Nicht nur das, die Technologie kann auch Gehirnströme visualisieren, was bedeutet, dass wir den Weg zur Erkundung des Unterbewusstseins eröffnen können.
"Wissenschaftler haben geschätzt, dass ein Mensch in seinem Leben eine Milliarde Ideen fassen kann", sagte Zhang Nan. Wenn TikTok die "Kamera der realen Welt" ist, dann ist Ji-Meng eine "Kamera der Imagination". Unter den AI-Ambitionen von ByteDance wird diese "Kamera der Imagination" zweifellos schnell weiterentwickeln.
Verantwortlich für den Schnittstellenbetrieb Zhang Nan