Der AI-Experte Karpathy investiert Geld! Das weltweit erste Live-Generierungsmodell wird veröffentlicht, das in Echtzeit generiert und keine Zeitbeschränkung hat.
Übersetzung | Li Shuiqing
Redaktion | Mo Ying
Zhidx berichtete am 19. Juli. Am 18. Juli hat das israelische KI - Startup Decart das erste Live - Diffusions - KI - Videomodell namens MirageLSD vorgestellt. Anders als Videogenerierungsmodelle wie Veo auf dem Markt, die über begrenzte Laufzeiten und Verzögerungen verfügen, kann Mirage unendlich lange Videoströme in Echtzeit umwandeln, und die Reaktionszeit beträgt weniger als 40 Millisekunden.
Andrej Karpathy, der ehemalige Leiter der KI bei Tesla und Mitglied des Gründerteams von OpenAI, sagte auf der sozialen Plattform X: "Videodiffusionsmodelle wie Veo sind wunderbar, aber sie benötigen Sekunden oder sogar Minuten zum Generieren. MirageLSD ist magie in Echtzeit." Er meint, dass dies eine universelle und starke Technologie sein wird, die in der Lage sein könnte, verschiedene Bereiche wie Gaming, Live - Streams, Videotelefonie, Filmindustrie, Konferenzen, AR/VR zu verändern.
Decart wurde 2023 gegründet und von Andrej Karpathy mit finanziert. Mirage ist das zweite Modell von Decart nach "Oasis", der "KI - Version von Minecraft". Derzeit ist die von MirageLSD angetriebene Mirage - Plattform online. Die iOS - und Android - Versionen sollen nächste Woche erscheinen.
Testadresse:
https://mirage.decart.ai/
Andrej Karpathy empfiehlt es dringend:
Magie in Echtzeit, die die Gaming - Live - Industrie verändert
Auf der sozialen Plattform X sagte der KI - Guru Andrej Karpathy begeistert: "Videodiffusionsmodelle unterstützen jetzt die Echtzeitgenerierung!"
Andrej Karpathy sagte, dass bisher einfache Videofilter die Echtzeitgenerierung unterstützten, aber die meisten nur einfache Umfärbungen und Stileinstellungen vornehmen konnten. Die existierenden Videodiffusionsmodelle wie Veo auf dem Markt sind wunderbar, aber sie benötigen Sekunden oder sogar Minuten zum Generieren. MirageLSD ist die Magie in Echtzeit. Anders als einfache Videofilter verstehen Diffusionsmodelle tatsächlich den Inhalt, den sie betrachten. Daher können sie alle Teile der Videquelle intelligent gestalten, z. B. einen Hut auf den Kopf setzen oder einen Lichtschwert in die Hand nehmen.
Andrej Karpathy sagte auch, dass das Modell beliebig gesteuert werden kann, z. B. über Textaufforderungen. Anpassbare intelligente Videofilter werden im Laufe der Zeit viele coole Ideen freischalten:
- Die Kameraaufnahme in eine virtuelle Realität umwandeln;
▲ Echtzeitgenerierung von Videos aus Kameraaufnahmen (Quelle: Decart - Website)
- Eigenes Filmregie und - dreh mit Props und Echtzeitansicht;
▲ Echtzeitumwandlung von Videos mit realen Props in 3D - Cartoon - Animationen (Quelle: Decart - Website)
- Atmosphärische Code - Spiele um einfache Kugeln oder Würfel herum generieren und dann mit Echtzeitdiffusionsmodellen Texturen hinzufügen, um sie ansprechend zu gestalten;
▲ Generierung von Spielbildern (Quelle: Decart - Website)
- Beliebige Videoströme stylisieren und anpassen: Spiele, Videos... Beispielsweise möchte man das Spiel "The Elder Scrolls V: Skyrim" noch "epischer" gestalten? Möchte man "Doom 2" mit einem einzigen Stichwort auf die Qualität moderner Unreal - Engines bringen? Möchte man einen Horrorfilm in einen Stil mit "nur süßen Elementen, rosa Farben und Kaninchen" verwandeln? Wer weiß!
▲ Generierung von Spielbildern (Quelle: Decart - Website)
- Echtzeitvirtuelles Ändern des Zoom - Gesprächs - Hintergrunds.
- Brille: Beispielsweise, deine Sicht in Echtzeit kartonisieren?
- Jetzt können wir den Speigel der Sehnsucht aus Harry Potter schaffen, der dein "Originalbild" zeigt, aber deine innerste Sehnsucht (von der KI abgeleitet) verstärkt.
Andrej Karpathy sagte, dass es zu viele denkbare Anwendungsfälle gibt und er vielleicht den wichtigsten vergessen hat. Und er erklärte: "Ich bin ein kleiner Angel - Investor von Decart. Ich bin sehr aufgeregt, denn für mich wird diese Technologie sehr bald sehr gut sein. Sie scheint sehr universell und stark zu sein, aber auch technisch sehr anspruchsvoll. Herzlichen Glückwunsch an das Team zum erfolgreichen Release!"
Das "30 - Sekunden - Limit" der Videogenerierung wird gebrochen
Die Generierungsgeschwindigkeit wird um das 16 - fache erhöht
MirageLSD ist das erste System, das die unendliche Echtzeit - Videogenerierung ohne Verzögerung ermöglicht. Es basiert auf einem maßgeschneiderten Modell namens "Live - Stream - Diffusion (LSD)", das in der Lage ist, Videoframes nacheinander zu generieren und gleichzeitig die zeitliche Kohärenz aufrechtzuerhalten.
Anders als frühere Methoden unterstützt LSD die vollständige interaktive Videosynthese - es erlaubt es, während der Videogenerierung kontinuierlich Hinweise, Umwandlungen und Bearbeitungen vorzunehmen.
Aktuelle Videomodelle können keine Videos länger als 30 Sekunden generieren, da sonst die Fehlerakkumulation zu einem starken Qualitätsverlust führt. Sie benötigen normalerweise mehrere Minuten Verarbeitungszeit, um Minutenlange Videos auszugeben. Selbst die schnellsten Echtzeitsysteme heutzutage generieren normalerweise Videos in Blöcken, was unvermeidliche Verzögerungen bringt und die interaktive Nutzung beeinträchtigt.
Um Videos in Echtzeit zu generieren, muss LSD auf kausaler Basis funktionieren - es generiert jeden Frame nur auf Grundlage des vorherigen Frames. Diese autoregressive Struktur gewährleistet die Kontinuität, bringt aber auch einen schwerwiegenden Nachteil: die Fehlerakkumulation. Jeder Frame erbt die Fehler des vorherigen Frames. Kleine Fehler summieren sich auf und führen zu einem schnellen Qualitätsverlust, bis die Frames inkohärent werden.
Die Aktivierung von LSD erfordert die Lösung von zwei Herausforderungen, die bisher nie in einem einzigen System gleichzeitig gelöst wurden.
1. Unendliche Generierung auf der Grundlage der Diffusionszwingungstechnologie
Um die unendliche autoregressive Generierung zu ermöglichen, haben die Forscher von Mirage auf der Grundlage der Diffusionszwingungstechnologie eine Frame - für - Frame - Entrauschung durchgeführt und die Funktion der historischen Verstärkung eingeführt, damit das Modell bei beschädigten Eingangs - historischen Frames feinabgestimmt werden kann. Dies lehrt das Modell, Eingangsartefakte vorherzusagen und zu korrigieren, sodass es gegen die in der autoregressiven Generierung üblichen Drifts resistent ist.
Diese Maßnahmen machen MirageLSD zum ersten Modell, das unendlich lange Videos generieren kann, ohne dass es abstürzt - stabil, anweisbar und konsistent mit der Szene und der Benutzereingabe.
2. Die Geschwindigkeit wird um das 16 - fache erhöht, und Videos werden in Echtzeit generiert
Die Reaktionsfähigkeit wird als die maximale Reaktionsverzögerung definiert. Selbst frühere autoregressive Modelle sind mehr als 16 Mal langsamer als MirageLSD, sodass eine Echtzeitinteraktion nicht möglich ist.
Die Echtzeitgenerierung erfordert, dass die Generierungszeit pro Frame nicht länger als 40 Millisekunden beträgt, damit das menschliche Auge keine Verzögerung bemerkt. Die Forscher von Mirage haben dies auf folgende Weise erreicht:
Entwurf eines maßgeschneiderten CUDA - Riesenkerns, um die Overheadkosten zu minimieren und den Durchsatz zu maximieren; Reduzierung der pro Frame erforderlichen Rechenleistung auf der Grundlage von Schnell - Distillation und Modelltrimmen; Optimierung der Modellarchitektur, um mit der GPU - Hardware übereinzustimmen und so die Spitzenleistung zu erreichen.
Insgesamt machen diese Technologien die Reaktionsgeschwindigkeit um das 16 - fache schneller als bei früheren Modellen und ermöglichen die Echtzeitgenerierung von Videos mit 24 FPS.
Abweichende Strategie gegenüber Veo
Das erste Echtzeit - unendliche Videogenerierungsmodell
Aktuell haben die Modelle in der KI - Videogenerierung die visuelle Qualität und die Laufzeit verbessert, aber die meisten Systeme fehlen immer noch an Interaktivität, geringer Verzögerung und zeitlicher Stabilität.
Festlängemodelle wie MovieGen, WAN und Veo können hochqualitative Videoclips generieren, aber ihre nicht - kausale Gestaltung und die Ganz - Clip - Inferenz bringen Verzögerungen mit sich und verhindern eine Echtzeitinteraktion oder eine Erweiterung über die vordefinierte Länge hinaus.
Autoregressive Modelle wie CausVid, LTX und Seeweed - APT generieren längere Sequenzen, indem sie sich auf frühere Ausgaben beziehen. Obwohl dies die Skalierbarkeit verbessert, beschränkt die Blockinferenz immer noch die Reaktionsgeschwindigkeit und führt leicht zur Fehlerakkumulation, was die Generierungslänge beschränkt und schließlich eine echte Interaktion unmöglich macht.
Steuerbare Generierungsmethoden, einschließlich ControlNet und LoRA - basierter Adapter, können gezielte Bearbeitungen und Stilumwandlungen ermöglichen, erfordern jedoch eine Offline - Feinabstimmung und eignen sich nicht für Echtzeit - Frame - für - Frame - Hinweise.
Das frühere System Oasis von Mirage hat erstmals in einem eingeschränkten Bereich die Echtzeit - kausale Generierung ermöglicht. MirageLSD erweitert dies auf offene Bereiche und anweisbare Videos mit Nullverzögerung, Echtzeitgeschwindigkeit und unendlicher Stabilität - eine Kombination, die frühere Forschungen nicht erreichen konnten.
Fazit: Echtzeit - unendliche Videogenerierung
Die genaue Kontrolle ist immer noch begrenzt
Obwohl MirageLSD die Echtzeit - anweisbare und stabile Videogenerierung erreicht hat, gibt es immer noch einige Herausforderungen. Zunächst hängt das System derzeit von einem begrenzten Fenster an vergangenen Frames ab. Die Einführung eines Langzeitgedächtnismmechanismus kann die Kohärenz von erweiterten Sequenzen verbessern und so eine konsistentere Charakteridentität, Szenenlayout und Langzeitaktionen ermöglichen.
Außerdem, obwohl MirageLSD die textgesteuerte Umwandlung unterstützt, ist die genaue Kontrolle über bestimmte Objekte, räumliche Bereiche oder Bewegungen immer noch begrenzt. Die Integration strukturierter Steuersignale (z. B. Schlüsselpunkte oder Szenenannotationen) könnte möglicherweise eine feinere Benutzerkontrolle und Bearbeitung in Echtzeitszenarien ermöglichen.
Mirage hat festgestellt, dass das Team weitere Forschungen anstellen muss, um die semantische und geometrische Kohärenz zu verbessern, insbesondere bei extremen Stilumwandlungen. Die Lösung dieses Problems erfordert die Schaffung eines stärkeren Inhaltserhaltungsmechanismus unter der Anleitung von Hinweisen.