StartseiteArtikel

Das einheitliche multimodale Schaffenswerkzeug Keling O1 ist online und entriegelt unendliche kreative Möglichkeiten.

时氪分享2025-12-02 18:49
Erzielen Sie einen einheitlichen geschlossenen Kreis von der Inspiration bis zum fertigen Produkt.

In letzter Zeit ist das weltweit erste einheitliche multimodale Video- und Bildschaffungswerkzeug "Keling O1" offiziell online gegangen. Keling O1 basiert auf einem neuen Video- und Bildmodell. Mit natürlicher Sprache als semantischem Gerüst und in Kombination mit multimodalen Beschreibungen wie Videos, Bildern und Subjekten integriert es alle Generierungs- und Bearbeitungsaufgaben in einem allumfassenden Engine, um für die Benutzer einen neuen multimodalen Schaffungsprozess aufzubauen und einen One-Stop-Closed-Loop von der Inspiration bis zum fertigen Produkt zu realisieren.

Einheitliches Modell löst alle Probleme bei der Videowiedergabe

Als erstes einheitliches multimodales Videomodell bricht Keling O1 auf der Grundlage des MVL-Konzepts (Multi-modal Visual Language, multimodale visuelle Sprache) die Modellgrenzen traditioneller Einzel-Video-Generierungsaufgaben. Es integriert verschiedene Aufgaben wie das Generieren von Videos anhand von Referenzen, das Generieren von Videos aus Texten, das Generieren von Videos aus Anfangs- und Endbildern, das Hinzufügen und Löschen von Videoinhalten, das Ändern und Transformieren von Videos, das Neuzeichnen von Stilen und die Verlängerung von Szenen in derselben allumfassenden Engine. Dadurch können Benutzer den gesamten Schaffungsprozess von der Generierung bis zur Bearbeitung in einem Schritt erledigen, ohne zwischen mehreren Modellen und Tools wechseln zu müssen.

Verankert in der tiefen semantischen Verständnisfähigkeit des Keling Video O1-Modells werden in Keling O1 die vom Benutzer hochgeladenen Bilder, Videos, Subjekte und Texte als Anweisungen behandelt. Das Modell bricht die Modalitätsbeschränkungen und kann ein Foto, ein Video oder ein Subjekt sowie verschiedene Perspektiven eines Charakters umfassend verstehen und verschiedene Details präzise generieren.

Der multimodale Befehlseingabebereich von Keling O1 macht die mühsame Nachbearbeitung des Schnittes zu einem einfachen Dialog. Benutzer müssen keine manuellen Masken oder Keyframes setzen. Sie müssen nur "Fußgänger entfernen", "Tag in Dämmerung ändern" oder "Kleidung des Hauptcharakters ersetzen" eingeben, und das Modell kann die Bildlogik verstehen und von der lokalen Substitutions des Subjekts bis zur Neuerstellung des gesamten Videostils automatisch die semantische Rekonstruktion auf Pixelebene durchführen. Darüber hinaus werden auch Funktionen wie die Bild/Subjekt-Referenz, die Befehlstransformation (Hinzufügen und Löschen von Videoinhalten, Wechseln der Szenengröße/Perspektive, Videoänderungsaufgaben usw.), die Video-Referenz, Anfangs- und Endbilder sowie die Generierung von Videos aus Texten unterstützt.

Im Hinblick auf das Problem, dass es schwierig ist, AI-Videos umzusetzen - die Konsistenz zwischen Charakter und Szene - hat Keling O1 die Verständnisfähigkeit für die eingegebenen Bilder und Videos auf der untersten Ebene verbessert. Es kann wie ein menschlicher Regisseur den Hauptcharakter, die Props und die Szene "merken". Unabhängig davon, wie sich die Kamera bewegt, bleiben die Merkmale des Subjekts immer stabil. Darüber hinaus zeigt das Modell eine starke Fähigkeit zur Integration mehrerer Subjekte. Benutzer können mehrere verschiedene Subjekte frei kombinieren oder Subjekte mit Referenzbildern mischen. Selbst in komplexen Gruppen- oder Interaktionsszenen kann das Modell unabhängig jedes Charakter- oder Propmerkmal festlegen und beibehalten, um sicherzustellen, dass der "Hauptcharakter" in verschiedenen Szenen eine industrielle Merkmalskonsistenz aufweist.

Es ist nicht länger auf einzelne Aufgaben beschränkt, sondern unterstützt die "Kombination von Fähigkeiten". Benutzer können Keling O1 bitten, "ein Subjekt zum Video hinzuzufügen und gleichzeitig den Hintergrund zu ändern" oder "bei der Generierung anhand von Bildreferenzen den Stil gleichzeitig zu ändern". Diese Fähigkeit, mehrere kreative Veränderungen in einem Schritt zu generieren, erweitert die Schaffensfreiheit erheblich und macht kreative chemische Reaktionen möglich.

Die frei definierbare Erzählzeit lässt jede Geschichte ihren eigenen Rhythmus haben. Keling O1 gibt den Schaffenden die Macht zurück, die Zeit zu definieren und unterstützt die freie Generierung von 3 bis 10 Sekunden. Ob es sich um einen kurzen visuellen Schlag oder eine langsame Erzählung handelt, liegt in der freien Hand der Benutzer. Es ist erwähnenswert, dass als Teil des einheitlichen Modells die Fähigkeit von Keling O1 für Anfangs- und Endbilder auch die Auswahl einer Generierungsdauer von 3 bis 10 Sekunden unterstützen wird (sofortige Veröffentlichung), was die Spannung der Erzählung weiter erhöhen wird.

Zusätzlich ist das Keling Image O1-Modell aufgetaucht, das eine nahtlose Verbindung von der Basisbildgenerierung bis zur hochgradigen Detailbearbeitung ermöglicht. Benutzer können entweder Bilder aus reinem Text generieren oder bis zu 10 Referenzbilder hochladen, um sie zu kombinieren und neu zu gestalten. Das Modell verfügt über vier Kernvorteile: Hohe Merkmalserhaltung, um die Subjektelemente stabil und unabweichend zu halten; präzise Reaktion auf Detailänderungen, um jede Anpassung wie erwartet zu gestalten; genaue Kontrolle des Stils und der Stimmung, um die Bildatmosphäre immer einheitlich zu halten; überaus reiche Vorstellungskraft, um die Kreativität mit mehr Spannung zu präsentieren und tatsächlich "was man denkt, bekommt" zu realisieren.

Ein Modell löst alle Videowiedergabe-Szenarien in Film- und Fernsehen, Social Media, Werbung und E-Commerce usw.

Das neue Keling O1 kombiniert Generierung und Bearbeitung und kann in verschiedenen Szenarien wie Film- und Fernsehen, Social Media, Werbung und E-Commerce weit verbreitet angewendet werden. Ob es sich um die Generierung einer Erzählung von Grund auf oder um die tiefe Umgestaltung bestehender Materialien handelt, kann Keling O1 seine Referenz- und Bearbeitungsfähigkeiten flexibel einsetzen und die Schaffung problemlos erledigen.

Im Bereich der Film- und Fernsehproduktion kann man dank der starken Konsistenz der Bild- (Subjekt-)Referenz von Keling O1 und der Subjektbibliothek die Charaktere und Kostüme, Ausrüstung und Requisiten jedes Einstellbilds präzise festlegen und mehrere aufeinanderfolgende Filmaufnahmen problemlos generieren. Für Video- und Social Media-Künstler kann Keling O1 durch einfache dialogartige Stichwörter wie "Fußgänger im Hintergrund entfernen", "Himmel blau machen" automatisch die intelligente Reparatur und Rekonstruktion auf Pixelebene durchführen.

Im Hinblick auf das Problem der hohen Kosten und langen Produktionszeit bei der traditionellen Live-Aufnahme von Werbung im Offline-Bereich können Benutzer jetzt einfach ein Produktbild, ein Modelbild und ein Szenenbild hochladen und mit einfachen Befehlsbeschreibungen mehrere coole Produktpräsentationswerbespots schnell generieren, wodurch die Kosten für die Live-Aufnahme erheblich gesenkt werden. Im Hinblick auf das Problem, dass es schwierig ist, Modelle zu buchen und dass es notwendig ist, bei der Änderung des Hintergrunds/Kleidung erneut aufzunehmen, kann man mit Keling O1 eine virtuelle Laufbahn schaffen, die niemals endet: Hochladen von Model- + Kleidungs-Livebildern, Eingabe von Befehlen, perfekte Wiedergabe der Textur und Details der Kleidung und die Massenproduktion von hochwertigen Lookbook-Videos.

Es ist bekannt, dass Keling O1 diese starken und umfassenden Funktionen aufgrund der tiefgreifenden Innovation in der technologischen Basis realisieren kann. Das neue Keling Video O1-Modell bricht die funktionale Trennung von Generierung, Bearbeitung und Verständnis bei Videomodellen und baut eine neue generative Basis auf. Durch die Integration des Multimodal Transformer mit multimodalem Verständnis und des multimodalen langen Kontexts wird die tiefe Integration und Einheit von mehreren Aufgaben erreicht.